ES2790533T3 - Análisis paralelo múltiplex de regiones genómicas blanco para análisis prenatales no invasivos - Google Patents

Análisis paralelo múltiplex de regiones genómicas blanco para análisis prenatales no invasivos Download PDF

Info

Publication number
ES2790533T3
ES2790533T3 ES16738215T ES16738215T ES2790533T3 ES 2790533 T3 ES2790533 T3 ES 2790533T3 ES 16738215 T ES16738215 T ES 16738215T ES 16738215 T ES16738215 T ES 16738215T ES 2790533 T3 ES2790533 T3 ES 2790533T3
Authority
ES
Spain
Prior art keywords
tacs
loci
sequencing
interest
sequences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES16738215T
Other languages
English (en)
Inventor
George Koumbaris
Elena KYPRI
Kyriakos Tsangaras
Achilleas Achilleos
Petros MINA
Elisavet Papageorgiou
Philippos Patsalis
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nipd Genetics Public Co Ltd
Original Assignee
Nipd Genetics Public Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nipd Genetics Public Co Ltd filed Critical Nipd Genetics Public Co Ltd
Application granted granted Critical
Publication of ES2790533T3 publication Critical patent/ES2790533T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Gas Separation By Absorption (AREA)

Abstract

Un método para evaluar el riesgo de una anomalía cromosómica en ADN fetal en una mezcla combinada de ADN materno y fetal, donde el método comprende: (a) preparar la biblioteca de secuenciación a partir de la muestra combinada; (b) hibridar la biblioteca de secuenciación a una mezcla de secuencias de captura de blancos (TACS), donde la mezcla de TACS comprende secuencias que se unen a uno o más cromosomas de interés que comprenden una anomalía cromosómica y donde: (i) cada secuencia de la mezcla tiene entre 100 y 260 nucleótidos de longitud, donde cada secuencia tiene un extremo 5' y un extremo 3'; (ii) cada secuencia de la mezcla se une al/a los cromosoma(s) de interés a una distancia de al menos 150 pares de bases, tanto en el extremo 5' como en el extremo 3', de regiones que presentan variaciones en el número de copias (CNV), duplicaciones segmentales o elementos de ADN repetitivo; y (iii) el contenido de GC de las TACS se encuentra entre 19 % y 50 %; (c) aislar aquellos miembros de la biblioteca de secuenciación que se unen a las TACS para obtener una biblioteca enriquecida; (d) amplificar y secuenciar la biblioteca enriquecida; y (e) realizar análisis estadísticos sobre las secuencias de la biblioteca enriquecida para determinar así un riesgo asociado con la anomalía cromosómica en el ADN fetal.

Description

DESCRIPCION
Análisis paralelo múltiplex de regiones genómicas blanco para análisis prenatales no invasivos
Estado de la técnica
El descubrimiento de ADN fetal libre (ADNfl) en la circulación materna (Lo, Y.M. et al. (1997) Lancet 350:485-487) marcó un hito hacia el desarrollo de análisis prenatales no invasivos para la detección de aneuploidías y ha abierto nuevas posibilidades en el entorno clínico. El ADNfl se ha usado exitosamente para la determinación del sexto fetal y el factor Rh fetal a partir de plasma materno (véase, por ejemplo, Bianchi, D. et al. (2005) Obstet. Gynecol. 106:841-844; Lo, Y.M. et al. (1998) N. Engl. J. Med. 339: 1734-1738; patente estadounidense n.° 6,258,540; publicación del PCT WO 91/07660). Estos métodos se han convertido en análisis de rutina en múltiples laboratorios de diagnóstico en todo el mundo. Sin embargo, el análisis directo de la cantidad reducida de ADNfl en presencia de un exceso de ADN materno es un gran desafío para la evaluación de las aneuploidías fetales mediante análisis prenatales no invasivos (NIPT)
Originalmente, se estimó que el ADNfl en la circulación materna representaba entre 3 y 6 % del ADN total (Lo, Y.M. et al. (1998) Am. J. Hum. Genet. 62:768-775). Sin embargo, estudios recientes sugieren que el ADN fetal puede alcanzar un porcentaje de 10 a 20 % del ADN total en la circulación materna (Lun, F.M. et al. (2008) Clin. Chem. 54:1664-1672). En las aneuploidías, uno de los cromosomas está presente en más o menos copias de lo normal. Por ejemplo, en los casos de trisomía 21, el cromosoma 21 está presente en tres copias en lugar de dos. Por ende, la capacidad de distinguir los casos normales de los casos de trisomía 21 dependen de la capacidad de detectar la copia adicional del cromosoma 21. Sin embargo, los niveles elevados de ADN materno en la circulación materna en comparación con la cantidad reducida de ADN fetal complica aún más la cuantificación.
A lo largo de la última década, se han aplicado una serie de métodos diferentes para discriminar el ADNfl del ADN materno circulante o para enriquecer el ADNfl (Chan, K.C. et al. (2004) Clin. Chem.
50:88-92; Papageorgiou, E.A. et al. (2009) Am. J. Pathol. 174: 1609-1618). Estos incluyen enfoques basados en el ADN, como enfoques de secuenciación (Chiu, R. W. et al.(2008) Proc. Natl. Acad. Sci. USA 105:20458-20463; Fan, H.C. et al.(2008) Proc. Natl. Acad. Sci. USA 105:16266-16271) o enfoques epigenéticos que se centran en la investigación de la metilación del ADN fetal mediante un tratamiento del ADN con bisulfito de sodio (Chim, S.S. et al. (205) Proc. Natl. Acad. Sci. USA 102:14753-14758; publicación del PCT WO 2003/020974; publicación del PCT WO 2005/028674), enzimas de restricción sensibles a la metilación (Old, R.W. et al. (2007) Reprod. Biomed. Online 15:227-235; publicación del PCT WO 2005/035725) o anticuerpos específicos para los residuos de 5-metilcitosina de los dinucleótidos CpG a lo largo del genoma (Papageorgiou, E.A. et al. (2009) Am. J. Pathol. 174:1609-1618, Papageorgiou, E.A. et al. (2011) Nature Medicine 17:510-513; Tsaliki, E. et al. (2012) Prenat. Diagn. 32:996-1001; publicación del PCT WO 2011/092592). Otros enfoques se han dirigido al ARNm específico del feto (Ng, E.K. et al. (2003) Proc. Natl. Acad. Sci. USA 100:4748­ 4 753) o bien a la investigación de proteínas específicas del feto (Avent, N.D. et al. (2008) Semin. Fetal Neonatal Med. 13:91-98).
La implementación de tecnologías de secuenciación de última generación (NGS) en el desarrollo de NIPT para la detección de aneuploidías ha revolucionado el campo. En 2008, dos grupos independientes demostraron que podía realizarse un NIPT para detectar la trisomía 21 mediante el uso de secuenciación masiva paralela shotgun (MPSS) de última generación (Chiu, R. W. et al.(2008) Proc. Natl. Acad. Sci. USA 105:20458-20463; Fan, H.C. et al.(2008) Proc. Natl. Acad. Sci. USA 105:16266-162710). La nueva era de los NIPT para la detección de aneuploidías ha abierto nuevas posibilidades para la implementación de estas tecnologías en la práctica clínica. Las empresas de biotecnología dedicadas total o parcialmente al desarrollo de NIPT han iniciado ensayos clínicos a gran escala tendientes a su implementación (Palomaki, G.E. et al. (2011) Genet. Med. 13:913-920; Ehrich, M. et al. (2011) Am. J. Obstet. Gynecol. 204:205el-11; Chen, E.Z. et al. (2011) PLoS One 6:e21791; Sehnert, A.J. et al. (2011) Clin. Chem. 57:1042-1049; Palomaki, G.E. et al. (2012) Genet. Med. 14:296-305; Bianchi, D.W. et al. (2012) Obstet. Gynecol. 119:890-901; Zimmerman, B. et al. (2012) Prenat. Diag. 32:1233-1241; Nicolaides, K.H. et al. (2013) Prenat. Diagn. 33:575-579; Sparks, A.B. et al. (2012) Prenat. Diagn. 32:3-9). Actualmente, cuatro empresas en los Estados Unidos (SEQUENOM Inc., Verinata Health, Inc., Natera y Ariosa) ofrecen NIPT basados en enfoques de secuenciación de última generación.
Los primeros enfoques hacia los NIPT empleaban metodologías de secuenciación masiva paralela shotgun (MPSS) basada en tecnologías de NGS (véase, por ejemplo, la patente estadounidense n.°7,888,017; la patente estadounidense n.° 8,008,018; la patente estadounidense n.° 8,195,415; la patente estadounidense n.° 8,296,076; la patente estadounidense n.° 8,682,594; la publicación de patente estadounidense n.° 20110201507; y la patente estadounidense n.° 20120270739). Estos enfoques son de genoma completo, donde toda la muestra materna —muestra que contiene tanto ADN materno como ADN fetal libre— se somete a amplificación, secuenciación y análisis.
Más recientemente, se han desarrollado enfoques de NIPT basados en NGS dirigida, en los que se secuencian únicamente secuencias específicas de interés. Por ejemplo, se ha descrito un enfoque de NGS basado en polimorfismos de nucleótidos individuales (SNP) que involucra la amplificación y el análisis dirigidos de SNP en los cromosomas 13, 18, 21 X e Y en una única reacción (Zimmerman, B. et al. (2012) Prenat. Diag. 32:1233-1241; Nicolaides, K.H. et al. (2013) Prenat. Diagn. 33:575-579; publicación del PCT WO 2011/041485; patente estadounidense n.° 8,825,412). También se ha desarrollado un enfoque basado en NGS en el que se secuencian únicamente regiones específicas de interés, en el que se hibridan al molde complementario tres sondas por cada locus blanco. Una vez que las tres sondas hibridan, se ligan entre sí para formar una única sonda de mayor tamaño que, luego, se amplifica y secuencia (Sparks, A.B. et al. (2012) Prenat. Diagn. 32:3-9; publicación de patente estadounidense n.° 20120034603). Las muestras se analizan con una determinación paralela altamente multiplexada denominada análisis digital de regiones seleccionadas (DANSR). Tales enfoques dirigidos requieren un volumen de secuenciación considerablemente menor que los enfoques de MPSS, dado que únicamente se secuencian loci específicos del cromosoma de interés en lugar de regiones de todo el genoma.
Aún se requieren otras metodologías para enfoques de NIPT basados en NGS, particularmente enfoques que puedan dirigirse a secuencias específicas de interés y, así, permitan reducir considerablemente el volumen de secuenciación necesario en comparación con los enfoques de genoma completo.
Objeto de la invención
La invención provee métodos para análisis prenatales no invasivos que permiten detectar el riesgo de anomalías cromosómicas y utilizan un enfoque dirigido para enriquecer las secuencias de interés como paso previo a la secuenciación paralela en masa, junto con un análisis estadístico que permite un conteo y una evaluación altamente precisos de los constituyentes cromosómicos del plasma materno en regiones de interés. Así, los métodos de la invención reducen el volumen de secuenciación necesario para la secuenciación paralela en masa y hacen posible una aplicación de alta capacidad a menor costo y con un nivel muy alto de exactitud. Los métodos de la invención utilizan una mezcla de secuencias de captura de blancos (TACS) para enriquecer secuencias de interés en una muestra combinada que contiene tanto ADN materno como ADN fetal. En particular, la mezcla de TACS está diseñada de tal manera que las secuencias dentro de la mezcla tengan características que optimizan la eficiencia, la especificidad y la exactitud de la evaluación de las anomalías cromosómicas. Más específicamente, se ha optimizado el tamaño de las TACS, la cantidad de TACS, su ubicación en el/los cromosoma(s) de interés y su contenido de GC. La hibridación de las TACS a una biblioteca de secuenciación preparada a partir de una muestra combinada de ADN materno y fetal (p. ej., una muestra de plasma materno que contiene ADNfl), seguida por el aislamiento de aquellas secuencias dentro de la biblioteca que se unen a las TACS, permite enriquecer únicamente las regiones cromosómicas de interés como paso previo a la secuenciación paralela en masa y el correspondiente análisis.
Así, en un aspecto, la invención provee un método para evaluar el riesgo de una anomalía cromosómica en un cromosoma de interés en ADN fetal en una mezcla combinada de ADN materno y fetal, donde el método comprende:
(a) preparar la biblioteca de secuenciación a partir de la muestra combinada;
(b) hibridar la biblioteca de secuenciación a una mezcla de secuencias de captura de blancos (TACS), donde la mezcla de TACS comprende secuencias que se unen a uno o más cromosomas de interés y donde:
(i) cada secuencia de la mezcla tiene entre 100 y 260 pares de bases (bp) de longitud y/o entre 100 y 300 bp de longitud, y/o entre 100 y 350 bp de longitud, donde cada secuencia tiene un extremo 5' y un extremo 3';
(ii) cada secuencia de la mezcla se une al/a los cromosoma(s) de interés a una distancia de al menos 150 pares de bases, tanto en el extremo 5' como en el extremo 3', de regiones que presentan variaciones en el número de copias, duplicaciones segmentales o elementos de ADN repetitivo; y (iii) el contenido de GC de las TACS se encuentra entre 19 % y 50 %, y/o entre 19 % y 60 %, y/o entre 19 % y 70 % y/o entre 19 % y 80 %;
(c) aislar aquellos miembros de la biblioteca de secuenciación que se unen a las TACS para obtener una biblioteca enriquecida;
(d) amplificar y secuenciar la biblioteca enriquecida; y
(e) realizar análisis estadísticos sobre el resultado de la secuenciación de las secuencias de la biblioteca enriquecida para determinar así un riesgo asociado con la anomalía cromosómica y/o anomalía genética de otro tipo en el ADN fetal.
En una realización, la anomalía cromosómica es una aneuploidía, como una trisomía. El cromosoma de interés puede ser cualquier cromosoma, aunque los cromosomas preferentes incluyen el 13, el 18, el 21, el X y el Y. Una aneuploidía preferente para la detección es la trisomía 21 (T21). Además de las anomalías numéricas como las aneuploidías, la invención permite detectar otros tipos de anomalías cromosómicas, como anomalías estructurales, incluidas, sin carácter taxativo, las variaciones en el número de copias, incluidas, sin carácter taxativo, las microdeleciones y las microduplicaciones, las inserciones, las traslocaciones, las inversiones y las mutaciones pequeñas, incluidas las mutaciones puntuales y los perfiles de mutaciones.
En una realización, la mezcla de TACS está fijada a un sustrato sólido. Por ejemplo, las TACS pueden estar biotiniladas y fijadas a microesferas magnéticas recubiertas con estreptavidina. En otra realización, la mezcla de Ta Cs puede estar libre en solución.
En una realización, las TACS están diseñadas para unirse a un cromosoma de interés y a una o más secuencias de referencia para detectar el riesgo de una anomalía cromosómica en el cromosoma de interés. Como alternativa, la mezcla de TACS puede estar diseñada para unirse a múltiples cromosomas de interés de manera que pueda detectarse el riesgo de múltiples anomalías cromosómicas, así como, por ejemplo, el género fetal, todo ello en un único análisis de la muestra. Por ejemplo, en una realización, la mezcla de TACS comprende diferentes secuencias que se unen a los cromosomas 13, 18, 21 y X, o a los cromosomas 13, 18, 21, X e Y.
En varias realizaciones, el contenido de GC de las TACS se encuentra entre 19 % y 80 %, entre 19 % y 70 %, entre 19 % y 60 %, entre 19 % y 50 %, entre 19 % y 49 %, entre 19 % y 48 %, entre 19 % y 47 %, entre 19 % y 46 %, entre 19 % y 45 %, entre 19 % y 44 %, entre 19 % y 43 %, entre 19 % y 42 %, entre 19 % y 41 % o entre 19 % y 40 %.
En varias realizaciones, cada secuencia dentro de la mezcla de TACS tiene entre 100 y 350 pares de bases, entre 150 y 260 pares de bases, entre 100 y 200 pares de bases o entre 200 y 260 pares de bases de longitud. En una realización, cada secuencia de la mezcla de TACS tiene 250 pares de bases de longitud.
En varias realizaciones, la mezcla de TACS puede comprender 800 o más secuencias distintas, 1500 o más secuencias distintas, 2000 o más secuencias distintas, 2500 o más secuencias distintas, o 3000 o más secuencias distintas. En una realización, la mezcla de TACS comprende 1600 secuencias distintas.
En una realización, la secuenciación de la biblioteca enriquecida provee una profundidad de lecturas correspondiente a los loci ubicados en el cromosoma de interés y profundidades de lecturas correspondientes a los loci de referencia, y el análisis estadístico se realiza aplicando un algoritmo que contrasta secuencialmente la profundidad de lecturas de los loci ubicados en el cromosoma de interés contra la profundidad de lecturas de los loci de referencia, donde las diferencias detectadas pueden indicar la presencia de variantes genéticas. Los pasos del algoritmo pueden incluir, sin carácter taxativo, los siguientes: (a) eliminar los loci secuenciados de forma inadecuada; (b) mitigar el sesgo inducido por el contenido de GC; y (c) determinar la ploidía. En una realización, el sesgo inducido por el contenido de GC se mitiga agrupando los loci con contenidos de GC equiparables. En otra realización, la secuenciación de la biblioteca enriquecida provee el tamaño de los fragmentos del material genético acelular capturado por los TACS y el análisis estadístico comprende el uso de un algoritmo que compara y contrasta la distribución de tamaños de fragmentos entre los loci bajo prueba y los loci de referencia, donde las diferencias en la distribución indican la presencia de variantes genéticas. Los pasos del algoritmo pueden incluir, sin carácter taxativo, los siguientes: (a) eliminar los valores atípicos (outliers) de tamaños de fragmento; (b) crear una distribución binaria de tamaños de fragmentos; y (c) contrastar la distribución binaria de tamaños de fragmentos obtenida a partir de la región de interés con la distribución correspondiente a los loci de referencia para determinar la ploidía.
En general, la clasificación de la ploidía se logra mediante la aplicación de uno o más métodos estadísticos. Por ejemplo, el método estadístico puede seleccionarse de entre el grupo que consiste en una prueba t, una prueba de remuestreo (bootstrap) bivariada no paramétrica, una prueba de permutación estratificada, una prueba binomial de proporciones y/o combinaciones de las anteriores. En una realización, se aplican a la muestra los cuatro métodos estadísticos mencionados arriba. En general, el método estadístico resulta en una puntuación asociada a la muestra combinada y se detecta el riesgo de la anomalía cromosómica en cuestión en el ADN fetal cuando la puntuación de la muestra combinada se encuentra por encima de un valor umbral de referencia. El método de la invención puede comprender, además, la estimación de la fracción de ADN fetal en la muestra combinada.
En otra realización, el método estadístico puede seleccionarse de entre el grupo que comprende una prueba t, una prueba de remuestreo bivariada no paramétrica y una prueba de permutación estratificada. En una realización, se aplican a la muestra todos los métodos estadísticos mencionados arriba. En general, el método estadístico resulta en una puntuación asociada a la muestra combinada y se detecta el riesgo de la anomalía cromosómica en cuestión en el ADN fetal cuando la puntuación de la muestra combinada se encuentra por encima de un valor umbral de referencia. El método de la invención puede comprender, además, la estimación de la fracción de ADN fetal en la muestra combinada.
También se divulgan kits para aplicar el método de la invención. En una realización, el kit comprende un contenedor que comprende la mezcla de TACS e instrucciones para aplicar el método. En varias otras realizaciones, el kit comprende otros componentes para realizar los otros pasos del método. Descripción de las figuras
La Figura 1 es un diagrama esquemático del análisis paralelo múltiplex de regiones genómicas blanco para análisis prenatales no invasivos mediante secuencias de captura de blancos (TACS). La Figura 2 es una lista de regiones cromosómicas ejemplares para amplificar TACS que se unan a los cromosomas 13, 18, 21 o X.
La Figura 3 es un gráfico de la asignación de un valor de puntuación a 98 muestras de sangre materna sujetas a un análisis paralelo múltiplex de regiones genómicas blanco mediante TACS para la detección del riesgo de trisomía 21, donde se evalúa la significación estadística de las diferencias entre las medianas de las profundidades de lecturas de los grupos condicionalmente apareados mediante una fórmula de una prueba t (denominado, en la presente, método estadístico 1).
La Figura 4 es un gráfico de la asignación de un valor de puntuación a 98 muestras de sangre materna sujetas a un análisis paralelo múltiplex de regiones genómicas blanco mediante TACS para la detección del riesgo de trisomía 21, donde el análisis se realizó mediante un método de remuestreo bivariado no paramétrico (denominado, en la presente, método estadístico 2).
La Figura 5 es un gráfico de la asignación de un valor de puntuación a 98 muestras de sangre materna sujetas a un análisis paralelo múltiplex de regiones genómicas blanco mediante TACS para la detección del riesgo de trisomía 21, donde el análisis se realizó mediante una prueba de permutación estratificada (denominado en la presente método estadístico 3).
La Figura 6 es un gráfico de la asignación de un valor de puntuación a 98 muestras de sangre materna sujetas a un análisis paralelo múltiplex de regiones genómicas blanco para la detección del riesgo de trisomía 21, donde el análisis se realizó mediante una prueba binomial de las proporciones de tamaños de fragmentos (denominado, en la presente, método estadístico 4).
La Figura 7 es una gráfica de los valores de puntuación ponderados de las 98 muestras de sangre materna obtenidos de un análisis mediante los métodos estadísticos 1, 2, 3 y el método de puntuación ponderada 1 que se muestran en las Figuras 3 a 5.
La Figura 8 es una gráfica de los valores de puntuación ponderados de las 98 muestras de sangre materna obtenidos de un análisis mediante los métodos estadísticos 1, 2, 3, 4 y el método de puntuación ponderada 1 que se muestran en las Figuras 3 a 6.
La Figura 9 es una gráfica un método ponderado alternativo, el método de valores de puntuación ponderados 2, de los valores de puntuación de las 98 muestras de sangre materna obtenidos de un análisis mediante los métodos estadísticos 1, 2, 3 que se muestran en las Figuras 3 a 5.
La Figura 10 es un gráfico de la asignación de un valor de puntuación a 9 muestras sintéticas sujetas a un análisis paralelo múltiplex de regiones genómicas blanco mediante TACS dirigidas al locus 7q11.23, donde el análisis se realizó mediante una realización del método estadístico 1 para la detección de microdeleciones.
La Figura 11 es un gráfico de la asignación de un valor de puntuación a 9 muestras sintéticas sujetas a un análisis paralelo múltiplex de regiones genómicas blanco mediante TACS dirigidas al locus 7q11.23, donde el análisis se realizó mediante una realización del método estadístico 1 para la detección de microduplicaciones.
Descripción detallada de la invención
La invención refiere a un método de NIPT que involucra un enriquecimiento basado en hibridación de determinadas regiones blanco a lo largo del genoma humano en un panel de determinaciones, seguida por la cuantificación, combinada con un nuevo pipeline bioinformático y matemático. El enriquecimiento por hibridación en solución se ha usado en el pasado para enriquecer regiones específicas de interés antes de la secuenciación (véase, por ejemplo, Meyer, M y Kirchner, M. (2010) Cold Spring Harb. Protoc. 2010(6):pdbprot5448; Liao, G.J. et al. (2012) PLoS One 7:e38154; Maricic, T. et al. (2010) PLoS One 5:el4004; Tewhey, R. et al. (2009) Genome Biol. 10:R116; Tsangaras, K. et al. (2014) PLoS One 9:e109101). Sin embargo, en los métodos de NIPT de la invención, las secuencias blanco empleadas para enriquecer regiones específicas de interés, relevantes para la detección del riesgo de una anomalía cromosómica, se han optimizado para maximizar la eficiencia, la especificidad y la exactitud. El genoma humano está repleto de elementos que pueden confundir y desconcertar todo tipo de análisis genéticos, lo que pone en evidencia el beneficio de un enfoque hacia los NIPT que sea de naturaleza dirigido. En vista de ello, la complejidad del genoma humano y la presencia de estos elementos de confusión exigen un diseño cuidadoso de las secuencias de captura de blancos empleadas para el enriquecimiento. De acuerdo con lo que se describe en el presente, se han desarrollado secuencias de captura de blancos (TACS) óptimas que permiten NIPT más simples y robustos a la vez que minimizan el riesgo de resultados falsos positivos y falsos negativos que suelen ocurrir en los NIPT de genomas completos a causa de la inevitable secuenciación de elementos de confusión.
El método de la invención para evaluar el riesgo de una anomalía cromosómica en un cromosoma de interés en ADN fetal en una mezcla combinada de ADN materno y fetal comprende:
(a) preparar la biblioteca de secuenciación a partir de la muestra combinada;
(b) hibridar la biblioteca de secuenciación a una mezcla de secuencias de captura de blancos (TACS), donde la mezcla de TACS comprende secuencias que se unen a uno o más cromosomas de interés y donde:
(i) cada secuencia de la mezcla tiene entre 100 y 260 pares de bases (bp) de longitud, donde cada secuencia tiene un extremo 5' y un extremo 3';
(ii) cada secuencia de la mezcla se une al/a los cromosoma(s) de interés a una distancia de al menos 150 pares de bases, tanto en el extremo 5' como en el extremo 3', de regiones que presentan variaciones en el número de copias (CNV), duplicaciones segmentales o elementos de ADN repetitivo; y
(iii) el contenido de GC de las TACS se encuentra entre 19 % y 50 %;
(c) aislar aquellos miembros de la biblioteca de secuenciación que se unen a las TACS para obtener una biblioteca enriquecida;
(d) amplificar y secuenciar la biblioteca enriquecida; y
(e) realizar análisis estadísticos sobre el resultado de la secuenciación de las secuencias de la biblioteca enriquecida para determinar así un riesgo asociado con la anomalía cromosómica en el ADN fetal.
También se incluyen kits para aplicar el método de la invención.
Diversos aspectos de esta divulgación se describen en mayor detalle en las subsecciones siguientes.
Diseño de las secuencias de captura de blancos
En la presente, los términos "secuencias de captura de blancos" o "TACS" hacen referencia a secuencias de ADN cortas que son complementarias a la(s) región/ones de interés de uno o más cromosomas de interés y que se usan como "carnada" para capturar y enriquecer la región de interés a partir de una biblioteca amplia de secuencias, como una biblioteca de secuenciación de genoma completo preparada a partir de una muestra de plasma materno. Para el enriquecimiento, se usa una mezcla de TACS, donde las secuencias dentro de la mezcla se han optimizado en relación con: (i) la longitud de las secuencias; (ii) la distribución de las TACS a lo largo de la(s) región/ones de interés; y (iii) el contenido de GC de las TACS. Asimismo, se ha optimizado la cantidad de secuencias dentro de la mezcla de TACS (tamaño de la mezcla).
Se ha descubierto que las TACS con una longitud de 100 a 260 pares de bases son óptimas para maximizar la eficiencia de enriquecimiento. En varias otras realizaciones, cada secuencia dentro de la mezcla de TACS tiene entre 150 y 260 pares de bases, entre 100 y 200 pares de bases, entre 200 y 260 pares de bases o entre 100 y 350 pares de bases de longitud. En realizaciones preferentes, la longitud de las TACS de la mezcla es de 250 o 260 pares de bases. La persona razonablemente versada en la técnica apreciará que, por lo general, puede usarse una pequeña variación en el tamaño de las TACS sin afectar los resultados (p. ej., la eliminación de unos pocos pares de bases a cada extremo de las TACS). Así, la cantidad de pares de bases que se indican en la presente deben considerarse como "aproximadas", admitiendo una pequeña variación (p. ej., de 1 a 5 %) en la longitud. Así, por ejemplo, una longitud de "250 pares de bases" hace referencia a "aproximadamente 250 pares de bases", de manera que también abarca, por ejemplo, 248 pares de bases o 252 pares de bases.
La distribución de las TACS a lo largo de cada región o cromosoma de interés se ha optimizado para evitar las repeticiones con alto número de copias, las repeticiones con bajo número de copias y las variantes en el número de copias, y, a la vez, poder direccionar la captura a polimorfismos de nucleótidos individuales (SNP) informativos para permitir la detección de las aneuploidías, la detección de variaciones en el número de copias y la estimación de la fracción fetal (ff). Así, cada secuencia dentro de la mezcla de TACS está diseñada de manera tal que el extremo 5' y el extremo 3' se encuentran, cada uno, a una distancia de al menos 150 pares de bases de regiones en el genoma de las que se sabe que contienen uno o más de los siguientes elementos: variaciones en el número de copias (CNV), duplicaciones segmentales y/o elementos de ADN repetitivo (como transposones o zonas de repeticiones en tándem). En varias otras realizaciones, cada secuencia dentro de la mezcla de TACS está diseñada de manera tal que el extremo 5' y el extremo 3' se encuentran, cada uno, a una distancia de al menos 200, 250, 300, 400 o 500 pares de bases de regiones en el genoma de las que se sabe que contienen uno o más de los elementos anteriores.
El término "variaciones en el número de copias" (CNV) es un término de la técnica que hace referencia a una forma de variante estructural del genoma humano en la cual existen alteraciones en el ADN del genoma de ciertos individuos que resultan en una cantidad menor o mayor a la normal de una o más secciones del genoma. Las CNV corresponden a regiones relativamente extensas del genoma que pueden haberse borrado (por ejemplo, una sección que normalmente es A-B-C-D puede ser A-B-D) o duplicado (por ejemplo, una sección que normalmente es A-B-C-D puede ser A-B-C-C-D). Las CNV representan aproximadamente 13 % del genoma humano y el tamaño de cada variación varía entre aproximadamente 1 kilobase a varias megabases.
El término "duplicaciones segmentales" (también "repeticiones con bajo número de copias") también es un término de la técnica que refiere a bloques de ADN cuya longitud varía entre 1 y 400 kilobases que ocurren en más de una posición del genoma y que, por lo general, tienen un alto grado de identidad a nivel de secuencia (mayor de 90 %). Las duplicaciones segmentales se abordan, por ejemplo, en Eichler. E.E. (2001) Trends Genet. 17:661-669.
El término "elementos de ADN repetitivo" (también "ADN repetitivo" o "ADN repetido") también es un término de la técnica que refiere a patrones de ADN que ocurren en múltiples copias a lo largo del genoma. El término "elemento de ADN repetitivo" abarca las repeticiones terminales, las repeticiones en tándem y las repeticiones intercaladas, incluidos los transposones. Los elementos de ADN repetitivo en el marco de las tecnologías de NGS se analiza en más detalle, por ejemplo, en Todd, J. et al. (2012) Nature Reviews Genet. 13:36-46.
Las TACS están diseñadas con características específicas de contenido de GC con el fin de minimizar el sesgo inducido por el contenido de GC en los datos y permitir el uso de un pipeline de análisis de datos personalizado e innovador. Se ha determinado que las TACS con un contenido de GC de 19 a 50 % logran un enriquecimiento óptimo y son las que muestran mayor rendimiento con el ADN fetal acelular. Dentro de una mezcla de TACS, diferentes secuencias pueden tener diferentes contenido de GC porcentuales, pero, para ser incluida en la mezcla, el contenido de GC porcentual de cada secuencia debe encontrarse en el rango de 19 a 50 %. En algunas instancias, la mezcla de TACS puede seleccionarse de manera de definir otro rango de contenido de GC porcentual que se considere más adecuado para la evaluación de anomalías genéticas específicas. Algunos ejemplos de rangos de contenidos de GC porcentuales pueden ser, sin carácter taxativo, entre 19 % y 75 %, entre 19 % y 65 %, entre 19 % y 55 %, entre 19 % y 50 %, entre 19 % y 49 %, entre 19 % y 48 %, entre 19 % y 47 %, entre 19 % y 46 %, entre 19 % y 45 %, entre 19 % y 44 %, entre 19 % y 43 %, entre 19 % y 42 %, entre 19 % y 41 % o entre 19 % y 40 %.
Según se describen en mayor detalle más abajo a propósito de una realización del análisis de datos, luego de la amplificación y secuenciación de las secuencias enriquecidas, los loci de prueba y los loci de referencia pueden aparearse o agruparse en función de su contenido de GC porcentual (p. ej., los loci bajo análisis con un contenido de GC porcentual de 40 % se aparean con loci de referencia con un contenido de GC porcentual de 40 %). Se apreciará que el procedimiento de apareamiento en función del contenido de GC porcentual podría permitir una variación leve en el rango de contenido de GC porcentual admitido para un apareamiento. Como ejemplo no taxativo y con referencia al ejemplo descrito anteriormente, un locus de prueba con un contenido de GC porcentual de 40 % podría aparearse con loci de referencia con un rango de contenido de GC porcentual entre 39 y 41 %, abarcando el contenido de GC porcentual del locus de prueba dentro de un rango adecuado.
Para preparar una mezcla de TACS con los criterios optimizados mencionados arriba en relación con el tamaño, la ubicación en el genoma humano y el contenido de GC porcentual, pueden aplicarse métodos manuales o computarizados conocidos en la técnica para el análisis del genoma humano de referencia. En una realización, se implementa un método semiautomático en el que primeramente se designan manualmente regiones basadas en la versión 19 del genoma humano de referencia (hg19) de manera de evitar las regiones repetitivas mencionadas y, posteriormente, las regiones designadas se curan en relación con el contenido de GC con ayuda de software que calcula el contenido de GC de cada región en función de sus coordenadas en la versión 19 del genoma humano de referencia (hg19). En otra realización, se emplea software hecho a medida para analizar el genoma humano de referencia e identificar regiones adecuadas para TACS que cumplan ciertos criterios, incluidos, sin carácter taxativo, criterio referidos al contenido de GC porcentual, la proximidad a regiones repetitivas y/o la proximidad a otras TACS
La cantidad de TACS en la mezcla se ha examinado y ajustado cuidadosamente para lograr el mejor equilibrio entre la robustez de los resultados y el costo/la capacidad de la determinación. La mezcla generalmente contiene 800 o más TACS, pero puede incluir más; por ejemplo, 1500 o más TACS, 2000 o más TACS, o 2500 o más TACS. Se ha detectado que un número óptimo de TACS en la mezcla es de 1600. La persona razonablemente versada en la técnica apreciará que, por lo general, puede usarse una pequeña variación en el tamaño de la mezcla sin afectar los resultados (p. ej., la eliminación o el agregado de una pequeña cantidad de TACS). Así, la cantidades de TACS de la mezcla que se indican en la presente deben considerarse como "aproximadas", admitiendo una pequeña variación (p. ej., de 1 a 5 %) en su tamaño. Así, por ejemplo, un tamaño de mezcla de "1600 secuencias" hace referencia a "aproximadamente 1600 secuencias", de manera que también abarca, por ejemplo, 1590 secuencias o 1610 secuencias.
En vista de lo anterior, en otro aspecto, la invención provee un método para preparar una mezcla de TACS para usar en el método de la invención para detectar el riesgo de una anomalía cromosómica y/u otra anomalía genética, donde el método para preparar la mezcla de TACS comprende: seleccionar regiones en uno o más cromosomas de interés que cumplan los criterios definidos arriba (p. ej., que se encuentren a una distancia de al menos 150 pares de bases a cada extremo de las secuencias repetitivas mencionadas y que tengan un contenido de GC entre 19 % y 50 %); preparar cebadores que amplifiquen las secuencias que hibridan con las regiones seleccionadas; y amplificar las secuencias, donde cada secuencia tiene entre 100 y 260 pares de bases de longitud.
Obtención y preparación de las muestras
Los métodos de la invención se realizan sobre una muestra combinada que contiene tanto ADN materno como ADN fetal. En general, la muestra es una muestra de plasma materno, aunque pueden usarse otras fuentes de tejido que contengan tanto ADN materno como ADN fetal. El plasma materno puede obtenerse de una muestra de sangre periférica entera de una mujer embarazada y el plasma puede obtenerse mediante métodos estándar. Apenas 2 a 4 ml de plasma son suficientes para obtener material de ADN suficiente para el análisis de acuerdo con el método de la invención. Luego, el ADN acelular total puede extraerse de la muestra mediante técnicas estándar, que incluyen, sin carácter taxativo, el protocolo Qiasymphony (Qiagen) adecuado para aislar ADN fetal libre, así como cualquier otro método de extracción manual o automático adecuado para aislar ADN acelular.
Luego de aislarse, el ADN acelular de la muestra combinada se usa para construir una biblioteca de secuenciación cuyo fin es hacer la muestra compatible con una tecnología de secuenciación ulterior (por ejemplo, sin carácter taxativo, la secuenciación de última generación Illumina). En general, esto involucra la ligación de adaptadores a los extremos de los fragmentos de ADN acelular, seguida por una amplificación. Hay kits para la preparación de bibliotecas de secuenciación disponibles comercialmente. En el Ejemplo 1 se describe en detalle un protocolo ejemplar —sin carácter taxativo— para la preparación de una biblioteca de secuenciación.
Enriquecimiento mediante hibridación de TACS
Para enriquecer la(s) región/ones de interés del/de los cromosoma(s) de interés, se hace hibridar la mezcla de TACS con la biblioteca de secuenciación y, a continuación, se aíslan las secuencias de la biblioteca de secuenciación que hibrida a las TACS. Para facilitar el aislamiento de las secuencias deseadas enriquecidas, las TACS generalmente se modifican de tal manera que las secuencias que hibridan con las TACS se pueden separar de aquellas que no hibridan con las TACS. En general, esto se logra fijando las TACS a un sustrato sólido. Esto permite la separación física de las secuencias que hibridan con las TACAS de aquellas que no hibridan con las TACS. Por ejemplo, cada secuencia dentro de la mezcla de TACS puede marcarse con biotina y la mezcla puede fijarse a microesferas recubiertas con una sustancia que se una a la biotina, como estreptavidina o avidina. En una realización preferente, las TACS se marcan con biotina y se unen a microesferas magnéticas recubiertas con estreptavidina. Sin embargo, la persona razonablemente versada en la técnica apreciará que existen otros sistemas de unión por afinidad conocidos en la técnica y que pueden usarse en lugar del sistema de biotina-estreptavidina/avidina. Por ejemplo, puede usarse un sistema basado en anticuerpos en el que las TACs se marquen con un antígeno y, luego, se unan a microesferas recubiertas con el anticuerpo correspondiente. Además, las TACS pueden incorporar en un extremo una secuencia marca y pueden fijarse a un sustrato sólido mediante una secuencia complementaria en el sustrato sólido que hibride con la secuencia marca. Por otra parte, además de microesferas magnéticas, pueden usarse otros tipos de sustratos sólidos, como microesferas poliméricas y otros similares.
Luego del enriquecimiento de la(s) secuencia(s) de interés con las TACS y la formación de la biblioteca enriquecida, los miembros de la biblioteca enriquecida se eluyen del sustrato sólido y se amplifican y secuencian mediante métodos estándar conocidos en la técnica. En general, se emplea la tecnología estándar de secuenciación de última generación Illumina, aunque pueden emplearse también otras tecnologías de secuenciación que provean no solo información de secuencia sino también recuentos muy exactos. Para detectar anomalías genéticas —incluidas, sin carácter taxativo, las aneuploidías o las variaciones estructurales en el número de copias— exige un recuento muy exacto y la NGS es un tipo de tecnología que provee tal recuento muy exacto. Así, para la detección de anomalías genéticas, incluidas, sin carácter taxativo, las aneuploidías o las variaciones estructurales en el número de copias, pueden usarse otros métodos de recuento exactos, como la PCR digital y los microarreglos, en lugar de la NGS. En el Ejemplo 3 se describen en detalle protocolos ejemplares —sin carácter taxativo— para la amplificación y secuenciación de la biblioteca enriquecida.
Análisis de los datos
La información obtenida de la secuenciación de la biblioteca enriquecida se analiza mediante un innovador pipeline de análisis biomatemático/bioestadístico. Este pipeline de análisis explota las características de las TACS, en tanto que la alta eficiencia de la captura de blancos permite una detección eficiente de aneuploidías o variaciones estructurales en el número de copias, así como otros tipos de anomalías genéticas. En el Ejemplo 4 se describe en detalle un análisis ejemplar. En el análisis, los fragmentos de ADN secuenciados de la muestra se alinean primeramente al genoma humano de referencia. Se emplean métricas de control de calidad para inspeccionar las propiedades de la muestra alineada y decidir si la muestra es apta para clasificación. Estas métricas de calidad pueden incluir, sin carácter taxativo, el análisis de patrones de enriquecimiento de los loci de interés, como, por ejemplo, la profundidad de secuenciación general de la muestra, el volumen de secuenciación de la muestra que sea específico (“en el blanco”), el rendimiento de las TACS, el nivel esperado de sesgo inducido por el contenido de GC y la cuantificación de la fracción fetal. Para determinar el riesgo de una anomalía cromosómica en el ADN fetal de la muestra, se emplea un algoritmo innovador. Los pasos del algoritmo incluyen, sin carácter taxativo, eliminar los loci secuenciados de forma inadecuada; extraer información relativa a la profundidad de lecturas y el tamaño de fragmentos en coordenadas específicas de las TACS; mitigar el sesgo inducido por el contenido de GC; y determinar la ploidía.
La determinación de la ploidía se logra mediante uno o más métodos estadísticos, algunos de los cuales son, sin carácter taxativo, una prueba t, una prueba de remuestreo (bootstrap), una prueba de permutación, una prueba binomial de proporciones y/o combinaciones de las anteriores. La persona razonablemente versada en la técnica apreciará que la selección y aplicación de pruebas estadísticas para incluir en una determinación de la ploidía se basa en la cantidad de puntos de datos disponibles. Así, la idoneidad de cada prueba viene dada por distintos factores como —sin carácter taxativo— la cantidad de TACS utilizadas y la correspondiente aplicación para mitigar el sesgo inducido por el contenido de GC, si corresponde. Así, los métodos mencionados deben considerarse como ejemplos de los tipos de análisis estadísticos que pueden emplearse y no son los únicos métodos adecuados para la determinación de la ploidía. En general, el método estadístico resulta en una puntuación asociada a la muestra combinada y se detecta el riesgo de la anomalía cromosómica en cuestión en el ADN fetal cuando la puntuación de la muestra combinada se encuentra por encima de un valor umbral de referencia.
En particular, un aspecto de los análisis estadísticos involucra cuantificar y mitigar el sesgo inducido por el contenido de GC. Además del desafío de detectar pequeños cambios de señal en el ADN fetal en la muestra combinada (por ejemplo, sin carácter taxativo, la presencia de más o menos material genético de ciertas regiones cromosómicas fetales), el propio proceso de secuenciación introduce ciertos sesgos que pueden oscurecer la detección de la señal. Uno de tales sesgos es la secuenciación/amplificación preferente de las regiones genéticas en función de su contenido de GC. Por ello, ciertos métodos de detección —incluidos, sin carácter taxativo, los métodos basados en la profundidad de lecturas— deben tener en cuenta tal sesgo al momento de analizar los datos de secuenciación. Así, se debe cuantificar el sesgo en los datos y, posteriormente, se deben aplicar métodos adecuados que contemplen dicho sesgo de manera tal que las dependencias del contexto genético no puedan afectar los métodos estadísticos que pudieran usarse para cuantificar el riesgo de anomalías genéticas fetales.
Por ejemplo, un método para cuantificar el sesgo inducido por el contenido de GC es aplicar la técnica de suavizado local ponderado de diagramas de dispersión (LOESS) a los datos de secuenciación. Cada locus blanco puede definirse por su profundidad de lecturas obtenidas en la secuenciación y su contenido de GC. Una recta de ajuste óptimo por estas dos variables sobre una gran cantidad de loci provee una estimación de la profundidad de lecturas de secuenciación esperada dado el contenido de GC. Una vez que se completa este paso de cuantificación del sesgo inducido por el contenido de GC, el siguiente paso es usar esta información para considerar posibles sesgos en los datos. Un método es normalizar la profundidad de lecturas de todos los loci respecto de su profundidad de lecturas esperada (en función del contenido de GC de cada locus). En principio, eso desvincula los datos de profundidad de lecturas de su contexto genético y torna todos los datos comparables entre sí. Así, los datos recuperados de regiones con distintos contenidos de GC, como, por ejemplo —sin carácter taxativo—, distintos cromosomas, se pueden usar en pruebas estadísticas ulteriores para la detección de anomalías. Así, mediante el procedimiento LOESS, el sesgo inducido por el contenido de GC se desvincula de los datos antes de la aplicación de las pruebas estadísticas. En una realización, el análisis estadístico de las secuencias de la biblioteca enriquecida comprende mitigar el sesgo de GC con un procedimiento LOESS.
En una realización preferente alternativa, el sesgo inducido por el contenido de GC se cuantifica y mitiga agrupando los loci con contenidos de GC similares (equiparables). Así, conceptualmente, este método para mitigar el sesgo inducido por el contenido de GC comprende los tres pasos siguientes:
1) identificar y calcular el contenido de GC en las TACS;
2) mitigar/considerar el sesgo inducido por el contenido de GC mediante diversos procedimientos de apareamiento/agrupación de las TACS; y
3) calcular el riesgo de que distintas anomalías genéticas estén presentes en el feto aplicando métodos estadísticos y matemáticos a los conjuntos de datos resultantes del paso 2.
En el caso de la prueba t, el conjunto de datos se divide en dos grupos: los loci de prueba y los loci de referencia. Por cada grupo, se crean subconjuntos de grupos en los que los loci se categorizan de acuerdo con su contenido de GC como se ilustra en el ejemplo no taxativo de la Tabla 1, a continuación:
T l 1
Figure imgf000010_0001
La persona razonablemente versada en la técnica apreciará que la creación de subgrupos puede involucrar abarcar un rango de contenidos de GC adecuados y/o un subconjunto de loci definidos por un contenido de GC y/o un rango de contenido de GC dados. Así, el contenido de GC porcentual dado en el ejemplo no taxativo de la Tabla 1 deben considerarse "aproximados", admitiendo una leve variación (p. ej., 1 o 2 %). Así, por ejemplo, un contenido de GC porcentual de "40 %" pretende hacer referencia a "aproximadamente 40 %", de tal manera que, por ejemplo, también podrían estar comprendidos los loci con contenidos de GC en el rango de 39 % a 41 % si se considera pertinente.
Así, cuando se hace referencia a un contenido de GC particular, se entiende que la referencia y los subgrupos de loci de prueba pueden comprender cualquier cantidad de loci relacionados con un contenido de GC porcentual y/o rango particulares.
Posteriormente, por cada subgrupo de contenido de GC, se calcula una profundidad de lecturas representativa. Para ello, se pueden usar distintos métodos, incluidos, sin carácter taxativo, la media, la mediana o la moda de caja conjunto. Así, se crean dos vectores de profundidades de lecturas representativas, donde uno corresponde a los loci de referencia y el otro a los loci de prueba (p. ej., Xm e Ym). En una realización, ambos vectores pueden contrastarse entre sí para identificar diferencias significativas en la profundidad de lecturas. En otra realización, la diferencia entre ambos vectores puede usarse para evaluar si hay discrepancias considerables entre los loci de referencia y los loci de prueba. Se atribuye a la muestra la puntuación de la prueba. En el caso de los análisis estadísticos que emplean un enfoque de remuestreo (bootstrap), el conjunto de datos se divide en dos grupos: los loci de referencia y los loci de prueba. Entonces, se calcula el contenido de GC de cada locus. Luego, se realiza el siguiente procedimiento:
Se selecciona un locus al azar de entre los loci de referencia y se registran su profundidad de lecturas y su contenido de GC. Posteriormente, se selecciona un locus al azar de entre los loci de prueba, con la única condición de que su contenido de GC sea similar al del locus de referencia. Se registra su profundidad de lecturas. La persona razonablemente versada en la técnica apreciará que la similitud entre los contenidos de GC puede abarcar un rango de contenidos de GC adecuados. Así, la referencia a un contenido de GC porcentual específico puede considerarse "aproximada", "próxima" o "dentro de un rango adecuado" (p. ej., 1 a 2 %) que incluya el contenido de GC porcentual específico investigado. De este modo, se crea un par de loci de referencia y de prueba con contenidos de GC similares. Se registra la diferencia del par de loci de referencia y de prueba, notada E1. Luego, los loci se regresan a sus grupos respectivos. Este proceso se repite hasta crear una muestra de remuestreo del mismo tamaño que la cantidad de TACS de prueba presentes. Entonces, se estima y se registra una profundidad de lecturas representativa de la muestra de remuestreo, notada E_mu. Para ello, se pueden usar distintos métodos, incluidos, sin carácter taxativo, la media, la moda o la mediana del vector, y/o múltiplos de dichos valores.
El proceso descrito anteriormente se repite tantas veces como sea necesario y se crea una distribución de E_mu. Luego, se atribuye a la muestra una puntuación que corresponde a un percentil de esta distribución.
En el caso de los análisis estadísticos con una prueba de permutación, el conjunto de datos se ordena primero en dos grupos: los loci de prueba y los loci de referencia. Por cada grupo, se crean subconjuntos de grupos en los que los loci se categorizan de acuerdo con la similitud en sus contenidos de GC (véanse las columnas 2 y 3 del ejemplo no taxativo de la Tabla 2, a continuación). También se registra la cantidad de loci presentes en cada subgrupo de prueba. Los loci del grupo de prueba se usan para estimar la profundidad de lecturas del grupo de prueba, notada Yobs. Para hacerlo, puede seleccionarse un número representativo de cada subgrupo de contenido de GC. Para obtener una estimación de la profundidad de lecturas se pueden usar distintos métodos, incluidos, sin carácter taxativo, la media, la mediana o la moda de los loci seleccionados.
T l 2
Figure imgf000011_0001
Luego, se crea una distribución de los valores Yobs de prueba usando loci indistintamente de que provengan del grupo de prueba o del grupo de referencia, tal como se explica a continuación. Los loci de prueba y de referencia de cada subgrupo de contenido de GC (véase la última columna del ejemplo de la Tabla 2) se combinan para permitir calcular una nueva estimación de la profundidad de lecturas. De cada subgrupo combinado se escoge una cantidad de loci al azar, cantidad acotada superiormente por la cantidad de loci de prueba usados en el cálculo original de Yobs (p. ej., en el caso de un contenido de GC de 40 % y en el contexto del ejemplo no taxativo de la Tabla 2, esta cantidad de loci puede estar en el rango [1,ny40]). La nueva estimación de la profundidad de lecturas se calcula a partir de todos los loci seleccionados. El procedimiento se repite tantas veces como sea necesario para construir una distribución de las medias observadas. Luego, se le atribuye a una muestra una puntuación que corresponde a la posición de Yobs en esta distribución, usando una transformación adecuada que tiene en cuenta los momentos de la distribución construida. Al igual que con los métodos descritos anteriormente, se apreciará que se admite una ligera variación en el contenido de GC porcentual (p. ej., 1 a 2 %) si se considera adecuado. Así, la referencia a un contenido de GC específico puede interpretarse como "aproximada", de manera que, por ejemplo, al hacer referencia a un contenido de GC de 40 %, el método puede utilizar los loci que tengan un contenido de GC de "aproximadamente" 40 % (p. ej., entre 39 y 41 %).
En el caso del análisis estadístico con una prueba binomial de proporciones, se emplean los tamaños de fragmentos alineados a coordenadas genómicas específicas de los TACS. Se ha demostrado que los fragmentos de material genético acelular provenientes de la placenta son de menor tamaño que los de otros tipos de material genético acelular (Chan, K.C. (2004) Clin. Chem. 50:88-92). Así, el estadístico de interés es si la proporción de fragmentos pequeños alineados a una región de prueba específica de una TACS se aparta significativamente de lo que se espera en comparación con la proporción respectiva de otras regiones de referencia específicas de TACS, lo que indicaría una anomalía genética fetal.
De este modo, los tamaños de fragmentos se dividen en dos grupos. Los tamaños relacionados con los loci de prueba se asignan a un grupo y los tamaños de fragmentos relacionados con los loci de referencia se asignan al otro grupo. Posteriormente, en cada grupo, los tamaños de fragmentos se distribuyen en dos subgrupos, donde los fragmentos pequeños se asignan a un subgrupo y todos los fragmentos restantes se asignan al otro subgrupo. El último paso calcula la proporción de fragmentos pequeños en cada grupo y usa estas cantidades en una prueba binomial de proporciones. La puntuación de la prueba se atribuye a la muestra investigada.
El resultado final de una muestra puede asignarse combinado una o más puntuaciones derivadas de los diferentes métodos estadísticos, ejemplos no taxativos de lo cual se muestran en el Ejemplo 4. Kits
En otro aspecto, la divulgación provee kits para aplicar los métodos de la invención. En una realización, el kit comprende un contenedor que consiste de la mezcla de TACS e instrucciones para aplicar el método. En una realización, las TACS se proveen en un formato que permite unirlas a un sustrato sólido, por ejemplo, pueden ser TACS biotiniladas. En otra realización, las TACS se proveen junto con un sustrato sólido, por ejemplo, TACS biotiniladas provistas junto con microesferas magnéticas recubiertas con estreptavidina. En varias otras realizaciones, el kit puede comprender otros componentes para realizar otros aspectos del método. Por ejemplo, además de la mezcla de TACS, el kit puede comprender uno o más de los siguientes: (i) uno o más componentes para aislar ADN acelular de una muestra de plasma materno (p. ej., los que se describen en el Ejemplo 1); (ii) uno o más componentes para preparar la biblioteca de secuenciación (p. ej., cebadores, adaptadores, ligadores, enzimas de restricción, enzimas de ligación, polimerasas y similares, como los que se describen en el Ejemplo 1); (iii) uno o más componentes para amplificar y/o secuenciar la biblioteca enriquecida (p. ej., los que se describen en el Ejemplo 3); y/o (iv) software para realizar análisis estadístico (p. ej., el que se describe en el Ejemplo 4).
IV. Ejemplos
La presente invención se ilustra en mayor detalle mediante los siguientes ejemplos, pero no se debe interpretar que estos ejemplos limiten el alcance de la invención.
Ejemplo 1: Obtención de las muestras y preparación de las bibliotecas
Obtención de las muestras
Se obtuvieron muestras de plasma anónimas de mujeres embarazadas luego de la 10.a semana de gestación. Los protocolos empleados para la obtención de muestras para nuestro estudio fueron aprobados por el Comité de Bioética Nacional de Chipre y se obtuvo el consentimiento informado de todas las participantes.
Extracción de las muestras
Se extrajo ADN acelular de 2 a 4 ml de plasma de cada individuo mediante un método de extracción manual o automático adecuado para aislar ADN acelular, como, por ejemplo —sin carácter taxativo— el protocolo Qiasymphony adecuado para asilar ADN fetal libre (Qiagen).
Preparación de las bibliotecas
El ADN extraído de las muestras de plasma materno se usaron para la construcción de bibliotecas de secuenciación. Se usaron métodos estándar de preparación de bibliotecas con las siguientes modificaciones (Meyer, M. and Kircher, M. (2010) Cold Spring Harb. Protoc. 2010(6):pdb prot5448). Se preparó una biblioteca de extracción independiente como control negativo para evaluar toda contaminación introducida durante el experimento. Durante este paso, las salientes 5' y 3' se completaron agregando 12 unidades de polimerasa T4 (NEB) y se incorporaron fosfatos 5' usando 40 unidades de polinucleótido quinasa T4 (NEB) en una reacción de 100 pl con posterior incubación a 25 °C durante 15 minutos y, luego, 12 °C durante 15 minutos. Los productos de reacción se purificaron con el kit MinElute (Qiagen). Posteriormente, se ligaron los adaptadores PS y P7 (ver la sección preparación de los adaptadores) diluidos 1: 10 a ambos extremos del ADN con 5 unidades de ligasa de ADN T4 (NEB) en una reacción de 40 pl durante 20 minutos a temperatura ambiente, seguido por una purificación con el kit MinElute (Qiagen). Se eliminaron las hendiduras de hebra simple (nicks) en una reacción de relleno con 16 unidades de polimerasa Bst (NEB) en una reacción de 40 pl con posterior incubación a 65 °C durante 25 minutos y, luego, 12 °C durante 20 minutos. Los productos se purificaron con el kit MinElute (Qiagen). La amplificación de las bibliotecas se realizó con una polimerasa Fusion (Herculase II Fusion DNA polymerase de Agilent Technologies o Pfusion High Fidelity Polymerase de NEB) en reacciones de 50 pl con las siguientes condiciones de termociclado: 95 °C durante 3 min; seguido por 10 ciclos a 95 °C durante 30 s, 60 °C durante 30 s, 72 °C durante 30 s y, por último, 72 °C durante 3 min. Los productos finales de las bibliotecas se purificaron con el kit de purificación MinElute (Qiagen) y se midieron por espectrofotometría.
Preparación de los adaptadores
Se prepararon mezclas de hibridación de los adaptadores P5 y P7 (26) por separado y se las incubó durante 10 s a 95 °C, seguido por una rampa de 95 °C a 12 °C a razón de 0,1° C/s. Las reacciones de P5 y P7 se combinaron para obtener una mezcla de adaptadores lista para usar (100 pM de cada adaptador). Las mezclas de hibridación se prepararon de la siguiente manera. La mezcla de reacción P5 contenía el adaptador P5_F (500 pM) a una concentración final de 200 pM y el adaptador P5+P7_R (500 pM) a una concentración final de 200 pM, con buffer de hibridación de oligonucleótidos en concentración 1 X. Por su parte, la mezcla de reacción P7 contenía el adaptador P7_F (500 pM) a una concentración final de 200 pM y el adaptador P5+P7_R (500 pM) a una concentración final de 200 pM, con buffer de hibridación de oligonucleótidos en concentración 1 X (30). Las secuencias fueron las siguientes, donde * representa un enlace fosforotioato (PTO) (Integrated DNA Technologies) (Meyer, M. y Kircher, M. (2010) Cold Spring Harb. Protoc.
2010(6):pdb prot5448):
adaptador P5_F:
A*C*A*C*TCTTTCCCTACACGACGCTCTTCCG*A*T*C*T (ID. DE SEC. N.° 1).
adaptador P7 _F:
G*T*G*A*CTGGAGTTCAGACGTGTGCTCTTCCG*A*T*C*T (ID. DE SEC. N.° 2),
adaptador P5+P7_R:
A*G*A*T*CGGAA*G*A*G*C (ID. DE SEC. N.° 3).
Ejemplo 2: Diseño y preparación de secuencias de captura de blancos (TACS)
Se prepararon TACS personalizadas para la detección de anomalías cromosómicas totales o parciales en los cromosomas 13, 18, 21, X Y o cualquier otro, así como otras anomalías genéticas, incluidas, sin carácter taxativo, síndromes asociados con microdeleciones o microduplicaciones, traslocaciones, inversiones, inserciones y otras mutaciones puntuales o pequeñas. Los loci genómicos blancos usados para el diseño de las TACS se seleccionaron en función de su contenido de GC y su distancia a elementos de ADN repetitivo (distancia mínima de 150 bp). El tamaño de las TACS puede ser variable. En una realización del método, el tamaño de las TACs varía entre 100 y 260 bp y las TACS se generan mediante un método basado en la reacción en cadena de la polimerasa (PCR), que se describe a continuación. Las TACS se prepararon mediante una PCR símplex con polimerasa Taq estándar, cebadores diseñados para amplificar los loci blanco y ADN normal como molde. En la Figura 2 se muestran las regiones cromosómicas usadas para diseñar cebadores para amplificar loci adecuados en los cromosomas 13, 18, 21 y X, con el fin de preparar la mezcla de TACS para el análisis de los cromosomas 13, 18, 21 y X. Todas las TACS personalizadas se generaron empleando las siguientes condiciones de termociclado: 95 °C durante 3 min; 40 ciclos de 95 °C durante 15 s, 60 °C durante 15 s, 72 °C durante 12 s; y 72 °C durante 12 s, seguido por la verificación mediante electroforesis en gel de agarosa y purificación mediante kits estándar de limpieza de productos de PCR como el Qiaquick PCR Purification Kit (Qiagen), el NucleoSpin 96 PCR Clean-up Kit (Macherey-Nagel) o el kit Agencourt AMPure XP for PCR Purification (Beckman Coulter). La concentración se midió con un instrumento NanoDrop (Thermo Scientific).
Ejemplo 3: Hibridación de las TACS y amplificación
Biotinilación de las TACS
Las TACS se prepararon para su hibridación de acuerdo con un protocolo descrito anteriormente (Maricic, T. et al. (2010) PLoS One 5:el4004) con pequeñas modificaciones. Se comenzó por obtener extremos romos con el kit Quick Blunting Kit (NEB) y una incubación a temperatura ambiente durante 30 minutos. Posteriormente, los productos de la reacción se purificaron con el kit MinElute (Qiagen) y se ligaron a un adaptador de biotina mediante el kit Quick Ligation Kit (NEB) en una reacción de 40 pl a temperatura ambiente durante 15 minutos. Los productos de la reacción se purificaron con el kit MinElute (Qiagen) y se desnaturalizaron para obtener ADN de hebra simple antes de su inmovilización en microesferas magnéticas recubiertas con estreptavidina (Invitrogen).
Hibridación de TACS
Las bibliotecas amplificadas se mezclaron con oligonucleótidos bloqueadores (Maricic, T. supra) (200 pM), 5 pg de ADN Cot-1 (Cot-1 DNA, Invitrogen), 50 pg de ADN de esperma de salmón (Salmon Sperm DNA, Invitrogen), buffer de hibridación Agilent en concentración 2 X y agente bloqueador Agilent en concentración 10 X, y se calentaron a 95 °C durante 3 min para desnaturalizar las hebras de ADN. Luego de la desnaturalización, se realizó una incubación durante 30 minutos a 37 °C para bloquear los elementos repetitivos y las secuencias de los adaptadores. La mezcla resultante se agregó a las TACS biotiniladas. Todas las muestras se incubaron en un incubador giratorio durante 12 a 48 h a 66 °C. Luego de la incubación, las microesferas se lavaron como se describió anteriormente y el ADN se eluyó por calentamiento (Maricic, T. supra). Los productos eluidos se amplificaron con cebadores de adaptadores dirigidos hacia fuera. Los productos amplificados enriquecidos se combinaron de forma equimolar y se secuenciaron en una plataforma illumina o cualquier otra plataforma adecuada.
Ejemplo 4: Análisis bioinformático de las muestras
Alineación con el genoma humano
Por cada muestra, se aplicó la rutina bioinformática (pipeline) que se describe a continuación para alinear los fragmentos de ADN secuenciados de cada muestra con el genoma humano de referencia. Los fragmentos de lecturas apareadas dirigidas obtenidos de los resultados de la NGS se procesaron para eliminar las secuencias de adaptadores y las lecturas de baja calidad (puntuación Q < 25) con el software cutadapt (Martin, M. et al. (2011) EMB.netJournal 17.1). La calidad de las lecturas crudas y/o procesadas, junto con toda estadística descriptiva que ayudara a evaluar la calidad del resultado de la secuenciación de la muestra, se obtuvieron con el softWare FastQC (Babraham Institute (2015) FastQC) y/u otras herramientas de software propias. Las lecturas procesadas de al menos 25 bases de longitud se alinearon al genoma humano de referencia, versión hg 19 (UCSC Genome Bioinformatics) con un algoritmo de alineación basado en la transformación de Burrows-Wheeler (Li, H. and Durbin, R. (2009) Bioinformatics 25: 1754-1760). Si correspondía, las lecturas duplicadas se eliminaron luego de la alineación. En los casos en que correspondía, el resultado de la secuenciación obtenido de la misma muestra, pero procesado en distintas calles (lanes) de secuenciación se combinaron en un único archivo de salida. Los procedimientos de eliminación de lecturas duplicadas y combinación se realizaron con el paquete de herramientas de software Picard (Broad Institute (2015) Picard) y/o el paquete de herramientas de software Sambamba (Tarasov, Artern, el al. "Sambamba: fast processing of NGS alignment formats." Bioinformatics 31.12 (2015): 2032-2034).
El análisis de software anterior resultó en una versión final alineada de una muestra secuenciada contra el genoma humano de referencia y todos los pasos ulteriores se basaron en esta versión alineada. La información relativa a los polimorfismos de nucleótidos individuales (SNP) en los loci de interés se obtuvo con la herramienta bcftools del paquete de software SAMtools (Li, H. et al. (2009) Bioinformatics 25:2078-2079). La profundidad de lecturas por base en los loci de interés — denominada, en lo sucesivo, archivo mpileup— se obtuvo con la opción mpileup del paquete de software SAMtools. La información relativa al tamaño de los fragmentos alineados —denominada, en lo sucesivo, archivo de tamaños de fragmentos— se obtuvo con la opción view del paquete de software SAMtools.
El archivo mpileup y el archivo de tamaños de fragmentos se procesaron con interfaces de programación de aplicación (API) personalizadas escritas en los lenguajes de programación Python y R (Python Software Foundation (2015) Python; The R Foundation (2015) The R Project for Statistical Computing). Las API se usaron para determinar la ploidía de los cromosomas de interés mediante una serie de pasos (denominados colectivamente, en lo sucesivo, "el algoritmo") y también para recopilar otras estadísticas descriptivas previstas para usar como métricas de control de calidad, tales como —sin carácter taxativo— la cuantificación de la fracción fetal (denominadas colectivamente, en lo sucesivo, "métricas de control de calidad"). Las API también pueden usarse para la evaluación de anomalías genéticas a partir de datos generados al aplicar el método descrito en casos de embarazos múltiples, así como otras anomalías genéticas como —sin carácter taxativo— las microdeleciones, las microduplicaciones, las variaciones en el número de copias, las traslocaciones, las inversiones, las inserciones, las mutaciones puntuales y los perfiles de mutaciones.
Métricas de control de calidad
Se emplearon métricas de control de calidad para inspeccionar las propiedades de una muestra alineada y decidir si la muestra era apta para clasificación. Estas métricas fueron, sin carácter taxativo, las siguientes:
(a) El enriquecimiento de una muestra. Los patrones de enriquecimiento son indicativos de si una muestra tiene un enriquecimiento adecuado entre los loci de interés en un experimento de secuenciación dado (denominado, en lo sucesivo, una "corrida"). Para evaluar esto, se consideran distintas métricas, que incluyen, sin carácter taxativo:
(i) la profundidad de lecturas de la muestra en su conjunto que sean específicas (“en el blanco”);
(ii) el volumen de secuenciación de la muestra que sean específico (“en el blanco”) con relación a la cantidad total de lecturas mapeadas;
(iii) el rendimiento de TACS individuales en términos de la profundidad de lecturas alcanzada;
(iv) la curtosis y la asimetría estadística del enriquecimiento de TACS individuales;
y
(v) los momentos de curtosis y asimetría estadística que surgen de todas las TACS.
Las comprobaciones anteriores también se tienen en consideración en relación con el enriquecimiento del sesgo inducido por el contenido de GC. Las muestras que no cumplen con uno o más de los criterios mencionados anteriormente se identifican para su inspección ulterior antes de la clasificación.
(b) La fracción fetal de una muestra. Las muestras con una fracción fetal estimada por debajo de un umbral específico no se clasifican.
El algoritmo
El algoritmo es una colección de rutinas de procesamiento de datos y modelos matemáticos y estadísticos organizados como una serie de pasos. Los pasos del algoritmo buscan determinar la ploidía individual de un cromosoma de interés en relación con todos los demás cromosomas de la muestra secuenciada y se usan para la detección de anomalías cromosómicas totales o parciales en los cromosomas 13, 18, 21, X, Y o cualquier otro, así como otras anomalías genéticas como, por ejemplo —sin carácter taxativo—, los síndromes de microdeleciones/microduplicaciones y otras mutaciones puntuales o pequeñas. Así, el algoritmo puede usarse, sin carácter taxativo, para la detección de anomalías cromosómicas totales o parciales en los cromosomas 13, 18, 21, X Y o cualquier otro, así como otras anomalías genéticas, incluidas, sin carácter taxativo, microdeleciones, microduplicaciones, variaciones en el número de copias, traslocaciones, inversiones, inserciones, mutaciones puntuales y otros perfiles de mutaciones. El algoritmo realiza, sin carácter taxativo, dos tipos de evaluaciones, una relativa a la información sobre la profundidad de lecturas en cada muestra y otra relativa a la distribución de tamaños de fragmentos en regiones específicas de las TACS. A cada tipo de evaluación pueden asociarse una o más pruebas estadísticas, ejemplos no taxativos de los cuales se proveen en los métodos estadísticos descritos en la presente.
En caso de pruebas asociadas con la profundidad de lecturas, el algoritmo compara secuencialmente la profundidad de lecturas de los loci de cada cromosoma de interés (denominado, en lo sucesivo, cromosoma de prueba) contra la profundidad de lecturas de todos los demás loci (denominados, en lo sucesivo, loci de referencia) para determinar su ploidía. Por cada muestra, los pasos fueron, sin carácter taxativo, los siguientes:
(a) Eliminar los loci secuenciados de forma inadecuada. Se obtuvo la profundidad de lecturas de cada locus. Los loci que no alcanzaron una cantidad mínima de lecturas se consideraron insuficientemente enriquecidos y se eliminaron antes de los pasos ulteriores. (b) Mitigar el sesgo inducido por el contenido de GC. El procedimiento de secuenciación introduce discrepancias en la profundidad de lecturas entre los loci de interés en función de su contenido de GC. Para considerar tal sesgo, se empleó un nuevo enfoque de apareamiento de secuencias que aumenta tanto la sensibilidad y la especificidad a la hora de detectar aneuploidías cromosómicas. Se identificó el contenido de GC de cada locus del cromosoma de prueba y se agruparon los loci genéticos similares para formar grupos genéticamente apareados. El procedimiento se repitió con los loci de referencia. Luego, los grupos genéticamente apareados del cromosoma de prueba se aparearon condicionalmente con sus grupos genéticamente apareados contrapartes en el/los cromosoma(s) de referencia. Los grupos pueden tener cualquier cantidad de miembros. Luego, los grupos condicionalmente apareados se usaron para determinar la ploidía de los cromosomas de prueba.
(c) Determinar la ploidía. La determinación de la ploidía se realizó empleando un único método estadístico y/o una puntuación ponderada del resultado de los siguientes métodos estadísticos (sin carácter taxativo):
Método estadístico 1: Las diferencias en las profundidades de lecturas entre los grupos condicionalmente apareados se evaluaron para determinar su significación estadística con la fórmula de la prueba t:
x — a
t = ---- j=
s /Jn
donde t es el resultado de la prueba t, x es el promedio de las diferencias entre los grupos condicionalmente apareados, p es la profundidad de lecturas esperada y se fija en un valor que representa diferencias de profundidad de lecturas insignificantes entre ambos grupos, s es la desviación estándar de las diferencias entre los grupos condicionalmente apareados y n es la longitud del vector de las diferencias condicionalmente apareadas. La magnitud del estadístico t se usó para identificar la evidencia, si correspondía, contra la hipótesis nula de igualdad de ploidía entre los cromosomas de referencia y de prueba. Específicamente, t >= c1 (donde c1 es un umbral predefinido que pertenece al conjunto de todos los número positivos) indica evidencia en contra de la hipótesis nula. Los resultados del análisis de 98 muestras maternas correspondientes al cromosoma 21 con este método se muestran en la Figura 3.
Método estadístico 2: Remuestreo bivariado no paramétrico. El método de remuestreo (bootstrap) depende de la relación entre las variables aleatorias X (profundidad de lecturas de los loci de referencia) e Y (profundidad de lecturas de los loci de prueba). Aquí, tratamos la profundidad de lecturas de los señuelos en el grupo de referencia (variable aleatoria denotada por X) como la covariable independiente. El primer paso del procedimiento iterativo involucró un muestreo al azar con remuestreo (bootstrapping) de las profundidades de lecturas de los loci en los cromosomas de referencia, es decir, (x1,g1), ..., (xn,gn), donde el parámetro g es conocido y representa el contenido de GC del señuelo escogido. Luego, por cada señuelo de referencia seleccionado aleatoriamente (xi,gi), se generó una profundidad de lecturas correspondiente para un locus genéticamente apareado, a saber, (y1,g1), ... , (yn,gn). Así, se obtuvieron los datos bivariados (x1,y1), (x2,y2), ... , (xn,yn), condicionalmente apareados en función de su contenido de GC (parámetro gi). Las diferencias entre las profundidades de lecturas de los valores remuestreados genéticamente apareados xi e yi se usaron para calcular el estadístico de interés en cada iteración. En una realización, esta medida estadística puede ser, sin carácter taxativo, la moda, la media o la mediana de las diferencias registradas, y/o múltiplos de dichos valores. El procedimiento se repitió la cantidad de veces necesarias para construir la distribución del estadístico de interés a partir de estas diferencias. Se asignó a la muestra una puntuación que corresponde a un percentil específico de la distribución construida (p. ej., el 5.° percentil). Bajo la hipótesis nula, la ploidía es la misma entre los cromosomas de los grupos de referencia y de prueba. Así, las muestras en las que la puntuación de un cromosoma en particular era mayor a un umbral predefinido, notado c2, se clasificaron como muestras en las que era estadísticamente improbable que la ploidía fuera la misma que en la referencia. También pueden emplearse otras medidas estadísticas. Los resultados del análisis de 98 muestras maternas correspondientes al cromosoma 21 con este método se muestran en la Figura 4.
Método estadístico 3: Prueba de permutaciones estratificadas. El estadístico de interés es la profundidad de lecturas estimada del cromosoma de prueba, denotada por ¡,S, que se calcula a partir de todos los loci de los grupos genéticamente apareados de los cromosomas de prueba de la siguiente manera:
Figure imgf000017_0001
donde y ¡7- es la profundidad de lecturas del loci i que forma parte del grupo genéticamente apareado j (es decir, los loci que pertenecen a un grupo específico en virtud de su contenido de GC), es la cantidad de loci de prueba que son parte del grupo genéticamente apareado j y z es la cantidad de grupos genéticamente apareados.
A continuación, se construyó una distribución nula para evaluar Pobs. Para hacerlo, por cada grupo j, los loci de prueba y de referencia se combinaron (intercambiabilidad bajo la hipótesis nula) y cada grupo j se muestreó aleatoriamente hasta sin reposición (permutación estratificada). Esto creó un vector de valores, notado y;, del cual se calculó el valor promedio, notado y ;. El procedimiento se repitió la cantidad de veces necesarias para construir la distribución nula. Por último, Pobs - se studentizó respecto de la distribución nula con la siguiente fórmula:
Figure imgf000017_0002
donde P y oy son el primer momento y la raíz cuadrada del segundo momento de todos los valores estadísticos y ; permutados. En las muestras cuyos valores de ZYobs eran mayores de un umbral predefinido, notado c3, era estadísticamente menos probable que la ploidía fuera la misma entre los grupos de referencia y de prueba. Los resultados del análisis de 98 muestras maternas correspondientes al cromosoma 21 con este método se muestran en la Figura 5.
En el caso de las pruebas asociadas con los tamaños de fragmentos, el algoritmo calcula la proporción de fragmentos pequeños en los loci de prueba y la compara con la correspondiente proporción en los loci de referencia, como se describe en el método estadístico 4, a continuación.
Método estadístico 4: Proporciones de tamaños de fragmentos. Por cada muestra, se extrae la cantidad y el tamaño de los fragmentos alineados al genoma humano de referencia en las coordenadas correspondientes a las TACS. Posteriormente, los datos se filtran para eliminar los tamaños de fragmentos que se consideran valores estadísticamente atípicos usando el método de detección de valores atípicos basado en la mediana. Específicamente, se definen como valores atípicos aquellos fragmentos cuyo tamaño es mayor o menor a los umbrales Ffhr, dados por la siguiente ecuación:
Fthr Fmedian ± ( X X IQR)
donde Fmedlan es la mediana del tamaño de todos los fragmentos de una muestra, X es una variable que puede asumir valores en el conjunto M+, e IQR es el rango intercuartílico de los tamaños de fragmentos. Posteriormente, se realiza una prueba binomial de proporciones para buscar evidencia en contra de la hipótesis nula, H0, definida de la siguiente manera:
H0: La proporción de fragmentos pequeños en la región de prueba no difiere de la proporción de fragmentos pequeños en la región de referencia.
En varias realizaciones de la invención, los fragmentos pequeños se definen como aquellos fragmentos cuyo tamaño es menor o igual a un subconjunto de 1+ acotado superiormente por 160 bp. Si definimos como T el conjunto de todas las TACS, la región de prueba puede ser cualquier subconjunto propio S que defina la región investigada, y la región de referencia es el complemento relativo de S en T. Por ejemplo, en una realización de la invención, el conjunto S se define como el conjunto de todas las secuencias capturadas por TACS del cromosoma 2 l y, por consiguiente, el conjunto de referencia se define como el conjunto de todos los fragmentos capturados por TACS en los cromosomas de referencia, y/u otros loci de referencia.
La hipótesis alternativa, H1, se define de la siguiente manera:
H1: La proporción de fragmentos pequeños en la región de prueba difiere de la proporción de fragmentos pequeños en la región de referencia.
Así, teniendo en cuenta la corrección por continuidad, se calcula la siguiente puntuación (Brown et. al, Harrel):
wtest ( P - Pref) p ( i - p ) / ^test
donde
_ _ (F + 0.5)
^ (Ntest + 1)
_ i r^ef + 0 -5)
Vref ~ (Nref + 1)
F es la cantidad de fragmentos pequeños en la región de prueba, Fref es la cantidad de fragmentos pequeños en la región de referencia, Ntest es la cantidad total de fragmentos en la región de prueba y Nref es la cantidad total de fragmentos en la región de referencia.
Por cada muestra, el algoritmo contrasta secuencialmente la proporción de tamaños de fragmentos de las regiones investigadas (por ejemplo, sin carácter taxativo, el cromosoma 18, el cromosoma 21 y el cromosoma 13) contra las regiones de referencia, es decir, aquellas no investigadas en la prueba. Por cada muestra, se asigna una puntuación por cada prueba. Las puntuaciones superiores a un umbral, notado c4, proveen evidencia en contra de la hipótesis nula. Los resultados del análisis de 98 muestras maternas correspondientes al cromosoma 21 con este método se muestran en la Figura 6.
Método de puntuación ponderada 1: En una realización del método, se atribuyó a cada una de las muestras una puntuación ponderada, calculada como la suma ponderada de todos los métodos estadísticos de acuerdo con la siguiente fórmula:
VS{R,F) = z i max{Rs,Fs} ( 1 - z 1)min{Rs,Fs}
donde Rs es la puntuación corregida específica de la corrida obtenida de una contribución ponderada de cada método estadístico relacionado con la profundidad de lecturas de las muestras, que se define como:
CLí WjSís - R r )
Rs ar
y Rr es la mediana específica de la corrida, calculada a partir del vector de todas las puntuaciones no ajustadas ponderadas relacionadas con la profundidad de lecturas obtenidas de una única corrida de secuenciación, y ar es un múltiplo del desvío estándar de las puntuaciones R calculado a partir de un conjunto de referencia de 100 muestra euploides. Los términos max{Rs,Fs} y min{Ps,Fs} denotan los valores máximo y mínimo del conjunto entre llaves, respectivamente.
Fs es la puntuación corregida específica de la corrida obtenida del método estadístico relacionado con los tamaños de fragmentos y se define como:
Figure imgf000018_0001
donde Wtest tiene la misma definición que antes, es la mediana específica de la corrida, calculada a partir del vector de todas las puntuaciones estadísticas no ajustadas relacionadas con los fragmentos obtenidas de una única corrida de secuenciación, y ay es un múltiplo del desvío estándar de las puntuaciones F calculado a partir de un conjunto de referencia de 100 muestra euploides.
Una puntuación de clasificación única inferior a un valor predefinido indica que no hay evidencia en los datos observados de que una muestra tenga un riesgo significativo de aneuploidía. En las Figuras 7 y 8 se muestran los resultados correspondientes a las 98 muestras maternas usando el enfoque de puntuación ponderada sobre un subconjunto de los métodos o sobre todos los métodos, respectivamente.
Método de puntuación ponderada 2: En otra realización del método, la puntuación ponderada obtenida de los métodos estadísticos descritos anteriormente se usó para asignar a cada muestra una puntuación única de riesgo de aneuploidía de acuerdo con la siguiente fórmula:
j=N
ñ (t ,c ) = ^ w ,.|
7 = 0 J
donde R es el resultado de la puntuación ponderada, es el peso asignado al método j, t¡ la puntuación observada resultante del método j, y el umbral del método j.
Una puntuación de clasificación única inferior a un valor predefinido indica que no hay evidencia en los datos observados de que una muestra tenga un riesgo significativo de aneuploidía. En la Figura 9 se muestran los resultados de las 98 muestras maternas usando los métodos estadísticos 1 a 3 con el método de puntuación ponderada 2.
Dado que se asumió que todas las profundidades de lecturas de los señuelos del grupo de referencia provenían de la misma población y para tener un umbral universal, se emplearon ajustes específicos de cada corrida para aliviar los sesgos específicos de cada corrida.
El/los método(s) mencionado(s) también es/son adecuado(s) para la detección de otras anomalías genéticas, incluidas, sin carácter taxativo, las anomalías subcromosómicas. Un ejemplo no taxativo es la pérdida parcial contigua de material cromosómico que da lugar a una microdeleción, o la incorporación parcial contigua de material cromosómico que da lugar a una microduplicación. Un locus genético conocido sujeto a ambas anomalías es el 7q11.23. En una realización del método estadístico 1, se evaluaron muestras de plasma sintéticas con 5 %, 10 % y 20 % de material fetal para evaluar el aumento del riesgo de microdeleciones y/o microduplicaciones en el locus genético 7q11.23. Los resultados se ilustran en la Figura 10 en los casos de microdeleciones y en la Figura 11 en los casos de microduplicaciones.
En el caso de las mutaciones puntuales, se realizan varias pruebas binomiales que consideran la estimación de la fracción fetal de la muestra, notada f, la profundidad de lecturas del alelo menor, notada r, y la profundidad de lecturas total de la base secuenciada, notada n. Dos ejemplos frecuentes, pero no taxativos involucran la evaluación del riesgo cuando la anomalía genética es una mutación puntual recesiva o una mutación puntual dominante.
En el ejemplo no taxativo de una mutación puntual recesiva, la hipótesis nula evaluada es que tanto la madre como el feto son heterocigotas (es decir, la frecuencia del alelo menor es de 0,5), en tanto que la hipótesis alternativa es que el feto es homocigoto (la frecuencia del alelo menor es 0,5-f/2). Un valor p pequeño en la correspondiente prueba de cocientes de verosimilitudes (likelihood ratio) indicaría evidencia contraria a la hipótesis nula. En el ejemplo no taxativo de una mutación puntual dominante, la hipótesis nula evaluada es que tanto la madre como el feto son homocigotas en la posición dada, en tanto que la hipótesis alternativa es que solo el feto es heterocigoto en la posición dada. Un valor p pequeño en la correspondiente prueba de cocientes de verosimilitudes (likelihood ratio) indicaría evidencia contraria a la hipótesis nula.
Además de los anteriores, se desarrollaron métodos de determinación del sexo, ejemplos no taxativos de los cuales se describen a continuación. En una realización de la invención, se asignó el sexo fetal a una muestra usando una prueba de Poisson dada por la siguiente fórmula:
Pr(ry
Figure imgf000019_0001
donde X = (fB p)/2 y f es la fracción fetal estimada de la muestra, B es la cantidad de secuencias blanco en el cromosoma Y, p es la profundidad de lecturas de la muestra y k es la suma de las lecturas obtenidas de todos los blancos B. La hipótesis nula de la prueba de Poisson fue que la muestra era masculina. Un valor de Pr(ry) menor a un umbral cy se consideró como evidencia suficiente para rechazar la hipótesis nula, es decir, concluir que la muestra no era masculina. En los casos en los que uno o más de los términos para calcular Pr(ry) no estaban disponibles, el sexo de la muestra se clasificó como no disponible (NA).
En otra realización de la invención, el sexo fetal se asignó usando la profundidad de lecturas promedio de las secuencias blanco en el cromosoma Y. Si la profundidad de lecturas promedio de las secuencias blanco era superior a un umbral predefinido, donde tal umbral puede definirse en función de otras características específicas de la muestra como la profundidad de lecturas y la fracción fetal estimada, el sexo fetal se clasificó como masculino. Si la profundidad de lecturas promedio era inferior a dicho umbral, la muestra se clasificó como femenina.
Estimación de la fracción fetal
Se han desarrollado diversos métodos para estimar la fracción fetal que pueden aplicarse a embarazos simples y/o múltiples. Así, en función del tipo de embarazo, la fracción fetal estimada puede obtenerse de cualquiera de los métodos o como una estimación ponderada a partir de un subconjunto de los métodos desarrollados y/o de todos ellos. A continuación, se dan algunos ejemplos no taxativos.
En una realización, se desarrolló una técnica de aprendizaje computarizado basada en la inferencia bayesiana para calcular la distribución a posteriori de la fracción fetal de ADN empleando los recuentos alélicos en los loci heterocigotas del plasma materno de embarazos simples. Se utilizaron tres combinaciones informativas posibles de genotipos maternos/fetales dentro del modelo para identificar aquellos valores de fracción fetal de ADN con mayor respaldo de los datos observados.
Sea f la fracción fetal de ADN. Si la madre es heterocigota en un locus dado, el genotipo fetal puede ser heterocigota u homocigota, lo que resulta en frecuencias esperadas del alelo menor de 0,5 y 0.5-f/2, respectivamente. Si la madre es homocigota y el feto es heterocigota, la frecuencia esperada del alelo menor será de f/2. Se empleó un método de Monte Carlo basado en una cadena de Markov (algoritmo de Metropolis-Hastings) (The R Foundation (2015) The R Project for Statistical Computing) con una distribución a priori no informativa o informativa (es decir, que incorporara información adicional como la edad gestacional, el peso materno, etc.) para obtener una secuencia de muestras aleatorias de la distribución de probabilidad a posteriori de la fracción fetal de ADN basada en un modelo de mezclas finitas.
En otra realización, la fracción fetal estimada se calcula únicamente a partir del clúster de frecuencia alélica menor (MAF) específico del feto, es decir, el clúster formato cuando la madre es homocigota y el feto es heterocigota en un locus genómico dado. Se asume que la media de la fracción fetal estimada tiene una distribución normal N(2x,Ox), donde x es la media de la MAF específica del feto y es el desvío estándar de la MAF específica del feto. Luego, la fracción fetal estimada se obtiene de los percentiles de la distribución calculada, N{2ic,a¿).
En los embarazos de gestación múltiple —ejemplos no taxativos de los cuales incluyen los embarazos de gemelos monocigóticos y de mellizos dicigóticos, los embarazos de trillizos y distintos casos de donantes de óvulos y/o esperma—, la fracción fetal puede estimarse empleando información obtenida a partir de loci genéticos cuyo valor de MAF sea menor que un umbral, notado Mthresh, y derivada de posibles SNP específicos del feto. La persona razonablemente versada en la técnica apreciará que los SNP específicos del feto pueden originarse de cualquiera de los fetos, de cualquier combinación posible de los fetos o de todos los fetos de la gestación. Así, se ha desarrollado un algoritmo que estima la fracción fetal del feto con la menor contribución al contenido fetal total teniendo en cuenta la contribución combinatoria de cada feto a los valores de MAF que definen los SNP específicos del feto y también permite la contribución no homogénea de material fetal al contenido fetal total del material obtenido del plasma. Con este fin, el algoritmo emplea un enfoque de dos pasos.
En una realización del algoritmo, el embarazo múltiple considerado es un embarazo de mellizos dicigóticos. Como primer paso, la implementación algorítmica del modelo utiliza todos los SNP informativos y permite una contribución fetal no homogénea que puede explicarse con una diferencia relativa en las fracciones fetales estimadas respecto de un umbral definido, notado cf. Específicamente, si f1 y f2 representan las fracciones fetales de los fetos uno y dos, respectivamente, y f1 <= f2, la suposición es que f2 <= cf f1, donde cf es una constante real positiva mayor o igual a 1. Bajo esta hipótesis, los datos observados D, definidos como los recuentos de los alelos alternativo y de referencia en los loci de los SNP informativos, se suponen generados por una distribución combinada de tres binomiales (definidas por los parámetros f1/2, f2/2 y (f1+f2)/2), siendo la distribución a posteriori p(f1,f2|D) proporcional al modelo de observación, que puede expresarse como p(f1|f2,D) p(f2|D). La distribución a posteriori p(f1,f2|D) se muestra con un algoritmo de Metropolis-Hastings MCMC usando una distribución a priori uniforme. El enfoque de cuantiles empíricos se aplica al arreglo de datos generado para inferir las fracciones fetales.
Como segundo paso, el algoritmo ejecuta un algoritmo de agrupamiento (clustering) basado en un modelo (modelo de mezcla gausiana finita ajustado mediante el algoritmo EM; paquete mclust en R) para identificar si existe un clúster independiente de SNP atípicos del que se crea que está centrado en torno de f1/2. La existencia de tal clúster con una media que invalide la hipótesis cf >= f2/f1 lleva a la estimación de f1 usando únicamente SNP que son parte del clúster identificado.
Referencias
Chris Fraley and Adrian E. Raftery (2002). Model-based Clustering, Discriminant Analysis and Density Estimation. Journal of the American Statistical Association, 97:611-631
Chris Fraley, Adrian E. Raftery, T. Brendan Murphy, and Luca Scrucca (2012). mclust Version 4 for R: Normal Mixture Modeling for Model-Based Clustering, Classification, and Density Estimation. Technical Report No. 597, Department of Statistics, University of Washington
Ejemplo 5: Resultados del análisis de muestras maternas
Se analizaron noventa y ocho muestras maternas para evaluar el riesgo de trisomía del cromosoma 21 (T21) de acuerdo con las metodologías descritas en los ejemplos 1 a 4. Los valores de puntuación del riesgo detectado de T21 en cada una de las 98 muestras con los métodos estadísticos 1, 2, 3 y 4 se muestran en las gráficas de las Figuras 3, 4, 5 y 6, respectivamente. Cada punto representa el valor de puntuación de una muestra individual. La línea representa el umbral "c" (c = 3,00 en el caso del método 1, c = 5,00 en el caso del método 2, c = 4,00 en el caso del método 3 y c = 0,91 en el caso del método 4). A las puntuaciones que superaron el umbral en la dirección positiva (es decir, valor de puntuación > c, puntos oscuros) se les asignó un riesgo alto de aneuploidía en comparación con las puntuaciones que no superaron el umbral (es decir, valor de puntuación < c, puntos claros). Con los cuatro métodos estadísticos, a cuatro muestras se les asignó un riesgo alto de aneuploidía T21. Todos los métodos estadísticos identificaron un riesgo elevado en las mismas muestras, a pesar de que las puntuaciones tenían distribuciones diferentes en los distintos métodos.
Las puntuaciones ponderadas resultantes de las combinaciones de los métodos estadísticos 1, 2, 3 y 4 del algoritmo (descritas en el Ejemplo 4) se representan en las gráficas de las Figuras 7 a 9, donde, una vez, más cada punto representa el valor de puntuación de una muestra individual y la línea representa el umbral. Los valores de puntuación ponderados identificaron un riesgo elevado en las mismas cuatro muestras.
Las cuatro muestras en las que se identificó un riesgo elevado de T21 mediante los análisis anteriores se evaluaron de forma independiente y se verificó que se trataba de embarazos con un feto con trisomía 21, lo que confirma la exactitud del método para la evaluación del riesgo de T21. Los resultados del análisis de microdeleciones y microduplicaciones en muestras sintéticas se ilustran en las Figuras 10 y 11.

Claims (14)

REIVINDICACIONES
1. Un método para evaluar el riesgo de una anomalía cromosómica en ADN fetal en una mezcla combinada de ADN materno y fetal, donde el método comprende:
(a) preparar la biblioteca de secuenciación a partir de la muestra combinada;
(b) hibridar la biblioteca de secuenciación a una mezcla de secuencias de captura de blancos (TACS), donde la mezcla de TACS comprende secuencias que se unen a uno o más cromosomas de interés que comprenden una anomalía cromosómica y donde:
(i) cada secuencia de la mezcla tiene entre 100 y 260 nucleótidos de longitud, donde cada secuencia tiene un extremo 5' y un extremo 3';
(ii) cada secuencia de la mezcla se une al/a los cromosoma(s) de interés a una distancia de al menos 150 pares de bases, tanto en el extremo 5' como en el extremo 3', de regiones que presentan variaciones en el número de copias (CNV), duplicaciones segmentales o elementos de ADN repetitivo; y
(iii) el contenido de GC de las TACS se encuentra entre 19 % y 50 %;
(c) aislar aquellos miembros de la biblioteca de secuenciación que se unen a las TACS para obtener una biblioteca enriquecida;
(d) amplificar y secuenciar la biblioteca enriquecida; y
(e) realizar análisis estadísticos sobre las secuencias de la biblioteca enriquecida para determinar así un riesgo asociado con la anomalía cromosómica en el ADN fetal.
2. El método de la reivindicación 1, donde la anomalía cromosómica es una aneuploidía.
3. El método de la reivindicación 1, donde el/los cromosoma(s) de interés se selecciona(n) de entre el grupo que comprende los cromosomas 13, 18, 21, X e Y.
4. El método de la reivindicación 1, donde la anomalía cromosómica es la trisomía 21.
5. El método de la reivindicación 1, donde el anomalía cromosómica es una anomalía estructural, incluidas, sin carácter taxativo, las variaciones en el número de copias, incluidas las microdeleciones y las microduplicaciones, las inserciones, las traslocaciones, las inversiones y las mutaciones pequeñas, incluidas las mutaciones puntuales y los perfiles de mutaciones.
6. El método de la reivindicación 1, donde la muestra combinada es una muestra de plasma materno.
7. El método de la reivindicación 1, donde la mezcla de TACS:
(i) está fija a un sustrato sólido o puede estar libre en solución y, opcionalmente, las TACS están biotiniladas y unidas a microesferas magnéticas recubiertas con estreptavidina, o bien están libres en solución;
(ii) la mezcla de TACS se une a múltiples cromosomas de interés, de manera que pueden detectarse múltiples anomalías cromosómicas; o
(iii) la mezcla de TACS contiene diferentes secuencias que se unen a los cromosomas 13, 18, 21, X e Y.
8. El método de la reivindicación 1, donde:
(i) el contenido de GC de las TACS se encuentra entre 19 % y 46 %, por ejemplo, entre 19 % y 43 %;
(ii) la mezcla de TACS comprende 800 o más secuencias distintas, por ejemplo, 1500 o más secuencias distintas, 1600 secuencias distintas, 2000 o más secuencias distintas, 2500 o más secuencias distintas, o 20000 o más secuencias distintas; o
(iii) cada secuencia de la mezcla de TACS tiene entre 100 y 260 pares de bases de longitud.
9. El método de la reivindicación 1, donde la secuenciación de la biblioteca enriquecida provee una profundidad de lecturas correspondiente al cromosoma de interés y profundidades de lecturas correspondientes a los loci de referencia, y el análisis estadístico comprende aplicar un algoritmo que contrasta secuencialmente la profundidad de lecturas de los loci del cromosoma de interés contra la profundidad de lecturas de los loci de referencia, donde el algoritmo comprende pasos para: (a) eliminar los loci secuenciados de forma inadecuada; (b) mitigar el sesgo inducido por el contenido de GC; y (c) determinar la ploidía.
10. El método de la reivindicación 9, donde:
(i) el sesgo inducido por el contenido de GC se mitiga agrupando los loci con contenidos de GC equiparables; o
(ii) el método estadístico resulta en una puntuación asociada a la muestra combinada y se detecta el riesgo de la anomalía cromosómica en cuestión en el ADN fetal cuando la puntuación de la muestra combinada se encuentra por encima de un valor umbral de referencia.
11. El método de la reivindicación 1, donde secuenciar la biblioteca enriquecida provee la cantidad y el tamaño de los fragmentos secuenciados correspondientes a coordenadas específicas de las TACS y el análisis estadístico comprende aplicar un algoritmo que contrasta secuencialmente la proporción de tamaños de fragmento del cromosoma de interés contra la proporción de tamaños de fragmentos de los loci de referencia, donde el algoritmo comprende pasos para: (a) eliminar los valores atípicos de tamaños de fragmento; (b) calcular la proporción de tamaños de fragmentos; y (c) determinar la ploidía.
12. El método de las reivindicaciones 9 u 11, donde la determinación de la ploidía se realiza mediante la aplicación de uno o más métodos estadísticos.
13. El método de las reivindicaciones 1, 9 u 11, donde el/los método(s) estadístico(s) se selecciona(n) de entre el grupo que consiste en una prueba t, una prueba de remuestreo bivariada no paramétrica, una prueba de permutación estratificada y una prueba binomial de proporciones.
14. El método de la reivindicación 1, que comprende, además, la estimación de la fracción de ADN fetal en la muestra combinada.
ES16738215T 2015-05-22 2016-05-20 Análisis paralelo múltiplex de regiones genómicas blanco para análisis prenatales no invasivos Active ES2790533T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562165593P 2015-05-22 2015-05-22
US201562263320P 2015-12-04 2015-12-04
PCT/IB2016/000833 WO2016189388A1 (en) 2015-05-22 2016-05-20 Multiplexed parallel analysis of targeted genomic regions for non-invasive prenatal testing

Publications (1)

Publication Number Publication Date
ES2790533T3 true ES2790533T3 (es) 2020-10-28

Family

ID=56409121

Family Applications (1)

Application Number Title Priority Date Filing Date
ES16738215T Active ES2790533T3 (es) 2015-05-22 2016-05-20 Análisis paralelo múltiplex de regiones genómicas blanco para análisis prenatales no invasivos

Country Status (12)

Country Link
US (3) US11111538B2 (es)
EP (3) EP3666902B1 (es)
AU (1) AU2016269332B2 (es)
CA (1) CA2986200A1 (es)
CY (1) CY1122917T1 (es)
DK (1) DK3666902T3 (es)
EA (1) EA038117B1 (es)
ES (1) ES2790533T3 (es)
FI (1) FI3666902T3 (es)
HK (1) HK1252710A1 (es)
WO (1) WO2016189388A1 (es)
ZA (1) ZA201707850B (es)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PL3649258T3 (pl) * 2017-07-07 2022-10-03 Nipd Genetics Public Company Limited Multipleksowa analiza równoległa ze wzbogaceniem sekwencji docelowych do oznaczania próbek dna płodowego
CA3068111A1 (en) * 2017-07-07 2019-01-10 Nipd Genetics Public Company Limited Target-enriched multiplexed parallel analysis for assessment of risk for genetic conditions
AU2018296568A1 (en) 2017-07-07 2020-01-16 Medicover Public Co Ltd Enrichment of targeted genomic regions for multiplexed parallel analysis
DK3649260T3 (en) 2017-07-07 2022-08-08 Nipd Genetics Public Company Ltd Target-beriget multiplekset parallel analyse til vurdering af tumorbiomarkører
EP3696279A1 (en) * 2019-02-13 2020-08-19 Nipd Genetics Public Company Limited Methods for noninvasive prenatal testing of fetal abnormalities
EP4092130A4 (en) * 2020-01-17 2023-09-27 BGI Shenzhen METHOD FOR DETERMINING FETAL NUCLEIC ACID CONCENTRATION AND METHOD FOR FETAL GENOTYPING
CN116018646A (zh) * 2020-05-22 2023-04-25 阿克图尔公司 用于表征无细胞核酸片段的方法

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU658132B2 (en) 1989-11-13 1995-04-06 Children's Medical Center Corporation Non-invasive method for isolation and detection of fetal DNA
US6582908B2 (en) 1990-12-06 2003-06-24 Affymetrix, Inc. Oligonucleotides
GB9704444D0 (en) 1997-03-04 1997-04-23 Isis Innovation Non-invasive prenatal diagnosis
US6927028B2 (en) 2001-08-31 2005-08-09 Chinese University Of Hong Kong Non-invasive methods for detecting non-host DNA in a host using epigenetic differences between the host and non-host DNA
US20050282213A1 (en) 2003-09-22 2005-12-22 Trisogen Biotechnology Limited Partnership Methods and kits useful for detecting an alteration in a locus copy number
CA2540141C (en) 2003-09-22 2012-09-04 Trisogen Biotechnology Limited Partnership Methods and kits useful for detecting an alteration in a locus copy number
CA2541706C (en) 2003-10-08 2014-02-18 The Trustees Of Boston University Methods for prenatal diagnosis of chromosomal abnormalities
GB0413688D0 (en) 2004-06-18 2004-07-21 Novartis Forschungsstiftung Analysis of methylated nucleic acid
WO2006056480A2 (en) 2004-11-29 2006-06-01 Klinikum Der Universität Regensburg Means and methods for detecting methylated dna
US20090042195A1 (en) 2005-10-07 2009-02-12 Bradford Coffee Methods and systems for screening for and diagnosing dna methylation associated abnormalities and sex chromosome aneuploidies
ES2739483T3 (es) 2006-02-02 2020-01-31 Univ Leland Stanford Junior Detección genética fetal no invasiva mediante análisis digital
US7901884B2 (en) 2006-05-03 2011-03-08 The Chinese University Of Hong Kong Markers for prenatal diagnosis and monitoring
EA035451B9 (ru) 2007-07-23 2020-09-09 Те Чайниз Юниверсити Ов Гонконг Способ диагностики рака с использованием геномного секвенирования
JP5322471B2 (ja) 2008-03-27 2013-10-23 シスメックス株式会社 メチル化dnaの解析方法及びプライマーセット
US8476013B2 (en) 2008-09-16 2013-07-02 Sequenom, Inc. Processes and compositions for methylation-based acid enrichment of fetal nucleic acid from a maternal sample useful for non-invasive prenatal diagnoses
EP2952589B1 (en) 2008-09-20 2018-02-14 The Board of Trustees of The Leland Stanford Junior University Noninvasive diagnosis of fetal aneuploidy by sequencing
WO2011041485A1 (en) 2009-09-30 2011-04-07 Gene Security Network, Inc. Methods for non-invasive prenatal ploidy calling
ES2564656T3 (es) 2009-10-26 2016-03-28 Lifecodexx Ag Medios y métodos para el diagnóstico no invasivo de la aneuploidía cromosómica
EP4212630A1 (en) 2009-11-06 2023-07-19 The Chinese University of Hong Kong Size-based genomic analysis
US20120270739A1 (en) 2010-01-19 2012-10-25 Verinata Health, Inc. Method for sample analysis of aneuploidies in maternal samples
EP2848704B1 (en) 2010-01-19 2018-08-29 Verinata Health, Inc Sequencing methods for prenatal diagnoses
KR20120107512A (ko) 2010-01-26 2012-10-02 엔아이피디 제네틱스 리미티드 태아 이수성의 비침해성 출생전 진단을 위한 방법과 조성물
EP2854058A3 (en) 2010-05-18 2015-10-28 Natera, Inc. Methods for non-invasive pre-natal ploidy calling
US20120034603A1 (en) 2010-08-06 2012-02-09 Tandem Diagnostics, Inc. Ligation-based detection of genetic variants
EP3388532B1 (en) 2010-11-01 2021-03-10 Gen-Probe Incorporated Integrated capture and amplification of target nucleic acid for sequencing
US20120258892A1 (en) 2011-04-08 2012-10-11 Yan Wang Methods, Compositions, and Kits for Making Targeted Nucleic Acid Libraries
US9892230B2 (en) 2012-03-08 2018-02-13 The Chinese University Of Hong Kong Size-based analysis of fetal or tumor DNA fraction in plasma

Also Published As

Publication number Publication date
AU2016269332A1 (en) 2018-01-04
AU2016269332B2 (en) 2021-08-12
DK3666902T3 (da) 2024-09-09
US20220106642A1 (en) 2022-04-07
EA038117B1 (ru) 2021-07-08
EA201792570A1 (ru) 2018-05-31
ZA201707850B (en) 2021-03-31
FI3666902T3 (fi) 2024-08-13
CY1122917T1 (el) 2021-10-29
US11111538B2 (en) 2021-09-07
US20160340733A1 (en) 2016-11-24
EP3666902B1 (en) 2024-07-03
WO2016189388A1 (en) 2016-12-01
EP4428249A2 (en) 2024-09-11
EP3298166B1 (en) 2020-02-12
US20210130900A1 (en) 2021-05-06
CA2986200A1 (en) 2016-12-01
EP3298166A1 (en) 2018-03-28
EP3666902A1 (en) 2020-06-17
HK1252710A1 (zh) 2019-05-31

Similar Documents

Publication Publication Date Title
ES2790533T3 (es) Análisis paralelo múltiplex de regiones genómicas blanco para análisis prenatales no invasivos
JP6392904B2 (ja) Dnaのサイズに基づく解析
TWI611186B (zh) 多重妊娠之分子檢驗
ES2945311T3 (es) Detección rápida de aneuploidía
JP6525894B2 (ja) 超並列rna配列決定による母体血漿のトランスクリプトーム解析
ES2924548T3 (es) Análisis paralelo multiplexado con enriquecimiento de blancos para la evaluación tumoral
ES2920280T3 (es) Enriquecimiento de regiones genómicas blanco para análisis paralelo multiplexado
ES2925394T3 (es) Análisis paralelo multiplexado con enriquecimiento de blancos para la evaluación del riesgo de portar alteraciones genéticas
ES2924224T3 (es) Análisis paralelo multiplexado con enriquecimiento de blancos para la evaluación de muestras de ADN fetal