ES2924224T3

ES2924224T3 - Análisis paralelo multiplexado con enriquecimiento de blancos para la evaluación de muestras de ADN fetal

Info

Publication number: ES2924224T3
Application number: ES18745509T
Authority: ES
Inventors: George Koumbaris; Marios Ioannides; Elena KYPRI; Acilleas Achilleos; Petros MINA; Kyriakos Tsangaras; Philippos Patsalis
Original assignee: Nipd Genetics Public Co Ltd
Current assignee: Nipd Genetics Public Co Ltd
Priority date: 2017-07-07
Filing date: 2018-07-06
Publication date: 2022-10-05
Anticipated expiration: 2038-07-06
Also published as: ZA201908543B; EP3649258B1; US11649500B2; EP3649258A1; DK3649258T3; US20230416826A1; CA3068110A1; EP4116432A1; PT3649258T; WO2019008153A1; AU2018298437A1; PL3649258T3; US20210147936A1

Abstract

La invención proporciona métodos para la evaluación de muestras de ADN fetal usando análisis paralelo multiplexado enriquecido con diana. Los métodos de la invención utilizan secuencias de captura de objetivos (Target Capture Sequences, TACS) para enriquecer de este modo las secuencias objetivo de interés, seguido de una secuenciación paralela masiva y un análisis estadístico de la población enriquecida. Los métodos se pueden usar con muestras de ADN fetal o embrionario, por ejemplo, para la detección de la presencia de anomalías genéticas, por ejemplo, con fines de detección genética previa a la implantación (PGS) y diagnóstico (PGD) de FIV. También se proporcionan kits para llevar a cabo los métodos de la invención. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Análisis paralelo multiplexado con enriquecimiento de blancos para la evaluación de muestras de ADN fetal

Sector de al técnica

La invención se inscribe en el campo de la biología, de la medicina y de la química, más específicamente en el campo de la biología molecular e incluso más específicamente en el campo del diagnóstico molecular.

Estado de la técnica

El descubrimiento de ADN fetal libre (ADNfl) en la circulación materna (Lo, Y.M. et al. (1997) Lancet 350:485-487) marcó un hito en el camino hacia el desarrollo de análisis prenatales no invasivos para la detección de anomalías cromosómicas y abrió nuevas posibilidades en el entorno clínico. Sin embargo, el análisis directo de la cantidad reducida de ADNfl en presencia de un exceso de ADN materno es un gran desafío para los análisis prenatales no invasivos (NIPT) de anomalías cromosómicas. La implementación de tecnologías de secuenciación de última generación (NGS) en el desarrollo de NIPT ha revolucionado el campo. En 2008, dos grupos independientes demostraron que podía realizarse un NIPT para detectar la trisomía 21 mediante el uso de secuenciación masiva paralela shotgun (MPSS) de última generación (Chiu, R. W. et al. (2008) Proc. Natl. Acad. Sci. USA 105:20458-20463; Fan, H.C. et al. (2008) Proc. Natl. Acad. Sci. USA 105:16266-162710). La nueva era de los NIPT para la detección de anomalías cromosómicas ha abierto nuevas posibilidades para la implementación de estas tecnologías en la práctica clínica. Las empresas de biotecnología dedicadas total o parcialmente al desarrollo de NIPT han iniciado ensayos clínicos a gran escala tendientes a su implementación (Palomaki, G.E. et al. (2011) Genet. Med. 13:913-920; Ehrich, M. et al. (2011) Am. J. Obstet. Gynecol. 204:205e1-11; Chen, E.Z. et al. (2011) PLoS One 6:e21791; Sehnert, A.J. et al. (2011) Clin. Chem. 57:1042-1049; Palomaki, G.E. et al. (2012) Genet. Med. 14:296-305; Bianchi, D.W. et al. (2012) Obstet. Gynecol. 119:890-901; Zimmerman, B. et al. (2012) Prenat. Diag. 32:1233-1241; Nicolaides, K.H. et al. (2013) Prenat. Diagn. 33:575-579; Sparks, A.B. et al. (2012) Prenat. Diagn. 32:3-9).

Los primeros enfoques hacia los NIPT empleaban metodologías de secuenciación masiva paralela shotgun (MPSS) basada en tecnologías de NGS (véase, por ejemplo, la patente estadounidense n.° 7,888,017; la patente estadounidense n.° 8,008,018; la patente estadounidense n.° 8,195,415; la patente estadounidense n.° 8,296,076; la patente estadounidense n.° 8,682,594; la publicación de patente estadounidense n.° 20110201507; y la patente estadounidense n.° 20120270739). Estos enfoques son de genoma completo, donde toda la muestra materna — muestra que contiene tanto ADN materno como ADN fetal libre— se somete a amplificación, secuenciación y análisis.

Más recientemente, se han desarrollado enfoques de NIPT basados en NGS dirigida, en los que se secuencian únicamente secuencias específicas de interés. Por ejemplo, se ha descrito un enfoque de NIPT dirigido que emplea secuencias de captura de blancos (TACS) para la identificación de anomalías cromosómicas fetales a partir de una muestra de sangre materna (publicación de patente del PCT WO 2016/189388; publicación de patente estadounidense 2016/0340733; Koumbaris, G. et al. (2016) Clinical Chemistry, 62(6), pp. 848-855).

Tales enfoques dirigidos requieren un volumen de secuenciación considerablemente menor que los enfoques de MPSS, dado que únicamente se secuencian loci específicos de la secuencia blanco de interés en lugar de regiones de todo el genoma. Todavía se requieren metodologías para enfoques basados en NGS, en particular enfoques que puedan dirigirse a secuencias blanco específicas de interés, de modo de reducir considerablemente el volumen de secuenciación necesario en comparación con los enfoques de genoma completo y, al mismo tiempo, aumentar la profundidad de lecturas en la región de interés, lo que permitiría la detección de regiones con una baja relación señal-ruido. En particular, todavía se requieren metodologías que permitan detectar de forma confiable aberraciones genéticas presentes en cantidades diminutas. Por ejemplo, todavía se requieren metodologías que permitan el análisis de muestras de ADN que contengan predominantemente ADN fetal o embrionario, ya que tales muestras contienen solo cantidades diminutas de ADN fetal o embrionario.

Objeto de la invención

Esta invención provee métodos superiores para enriquecer regiones genómicas blanco de interés para su análisis mediante secuenciación paralela múltiplex, donde la muestra de ADN usada en el método contiene predominantemente o únicamente ADN fetal/embrionario. Así, los métodos permiten el análisis de cantidades iniciales muy pequeñas de ADN fetal o embrionario. Los métodos de la divulgación pueden usarse en el análisis de muestras de ADN fetales o embrionarias, por ejemplo, para detectar la presencia de anomalías genéticas, por ejemplo, para fines de detección genética previa a la implantación (PGS) y diagnóstico genético previo a la implantación (PGD) en tratamientos de fertilización in vitro (FIV). Los métodos de la invención utilizan una mezcla de secuencias de captura de blancos (TACS) diseñada de tal manera que las secuencias dentro de la mezcla tengan características que optimizan la eficiencia, la especificidad y la exactitud de la evaluación genética. En una realización, la mezcla de TACS comprende secuencias miembro cuya unión abarca todos los cromosomas del genoma humano (cromosomas 1-22, X e Y), lo que permite la evaluación de todo el genoma humano a partir de una única muestra de ADN fetal/embrionario.

Así, en un aspecto, la invención refiere a un método para evaluar el riesgo de una anomalía genética en una muestra de ADN que comprende predominantemente ADN fetal o embrionario y que comprende secuencias genómicas de interés, donde el método comprende: a) preparar una biblioteca de secuenciación a partir de la muestra de ADN que comprende predominantemente ADN fetal o embrionario; b) hibridar la biblioteca de secuenciación a una mezcla de secuencias de captura de blancos (TACS) de doble hebra, donde la mezcla de TACS comprende múltiples familias de TACS dirigidas a diferentes secuencias genómicas de interés que comprenden una anomalía genética, donde cada familia de TACS comprende múltiples secuencias miembro, donde cada secuencia miembro se une a la misma secuencia genómica de interés, pero tiene diferentes posiciones de inicio y/o fin con respecto a un sistema de coordenadas de referencia de la secuencia genómica de interés, donde las posiciones de inicio y/o fin de las secuencias miembro dentro de una familia de TACS con respecto a un sistema de coordenadas de referencia de la secuencia genómica de interés están escalonadas por entre 5 y 10 pares de bases y donde, además: i) cada secuencia miembro de la mezcla de TACS tiene entre 150 y 260 pares de bases de longitud, y cada secuencia miembro tiene un extremo 5' y un extremo 3'; ii) cada secuencia miembro se une a la misma secuencia genómica de interés a una distancia de al menos 50 pares de bases, tanto en el extremo 5' como en el extremo 3', de regiones que presentan variaciones en el número de copias (CNV), duplicaciones segmentales o elementos de ADN repetitivo; y iii) el contenido de GC de la mezcla de TACS, que se determina calculando el contenido de GC de cada secuencia miembro de la mezcla de TACS, se encuentra entre el 19 % y el 80 %; c) aislar aquellos miembros de la biblioteca de secuenciación que se unen a la mezcla de TACS para obtener una biblioteca enriquecida; d) amplificar y secuenciar la biblioteca enriquecida; e) alinear la biblioteca enriquecida con un genoma de referencia para obtener información sobre la profundidad de lecturas y recuentos alélicos; y f) aplicar análisis estadísticos a las secuencias de la biblioteca enriquecida para determinar el riesgo de una anomalía genética en la muestra de ADN.

En varias realizaciones, la muestra de ADN proviene, por ejemplo, de un embrión previo a la implantación, de trofoblastos intactos recolectados de una prueba de Papanicolaou materna o de células fetales halladas en el plasma materno. En una realización, la muestra de ADN se obtiene directamente de tejido fetal o embrionario. En ciertas realizaciones, la muestra de ADN se obtiene directamente de tejido fetal, de líquido amniótico, de las vellosidades coriónicas o del medio donde se cultivaron los productos de la concepción.

En una realización, la mezcla de TACS comprende miembros que se unen a los cromosomas 1-22, X e Y del genoma humano.

En ciertas realizaciones, el contenido de GC de la mezcla de TACS se encuentra entre el 19 % y el 80 % o entre el 19 % y el 46 %. En la presente, se describen otros rangos de porcentaje de contenido de GC de la mezcla de TACS.

En una realización, la mezcla de TACS comprende múltiples familias de TACS, donde cada miembro de una familia de TACS se une a la misma secuencia blanco de interés, pero con diferentes posiciones de inicio y/o fin en la secuencia con respecto a un sistema de coordenadas de referencia (p. ej., la unión de los distintos miembros de la familia de TACS a la secuencia blanco está escalonada), de modo de enriquecer secuencias blanco de interés, seguido de una secuenciación paralela en masa y un análisis estadístico de la población enriquecida. Usar, dentro de la mezcla de TACS, familias de TACS que se unen a cada secuencia blanco de interés en lugar de usar una única TACS que se una a cada secuencia blanco de interés aumenta considerablemente el enriquecimiento de las secuencias blanco de interés, lo que se manifiesta como un aumento promedio superior al 50 % en la profundidad de lecturas obtenida con familias de TACS en comparación con TACS individuales.

Así, en una realización, la mezcla de TACS comprende múltiples familias de TACS dirigidas a diferentes secuencias genómicas de interés, donde cada familia de TACS comprende múltiples secuencias miembro, donde cada secuencia miembro se une a la misma secuencia genómica de interés, pero tiene diferentes posiciones de inicio y/o fin con respecto a un sistema de coordenadas de referencia de la secuencia genómica de interés.

En ciertas realizaciones, cada familia de TACS comprende al menos 3 secuencias miembro o al menos 5 secuencias miembro. En la presente, se describen otros números posibles de secuencias miembro en cada familia de TACS. En una realización, la mezcla de TACS comprende al menos 50 familias de TACS diferentes. En la presente, se describen otros números posibles de familias de TACS dentro de la mezcla de TACS. En ciertas realizaciones, las posiciones de inicio y/o fin de las secuencias miembro dentro de una familia de TACS con respecto a un sistema de coordenadas de referencia están escalonadas por entre 5 y 10 pares de bases.

En una realización, la anomalía genómica es una aneuploidía cromosómica. En otras realizaciones, la anomalía genómica es una anomalía estructural, incluidos, sin carácter taxativo, los cambios en el número de copias, incluidas las microdeleciones y las microduplicaciones, las inserciones, las deleciones, las translocaciones, las inversiones y las mutaciones pequeñas, incluidas las mutaciones puntuales y los perfiles de mutaciones.

En una realización, la mezcla de TACS está fijada a un sustrato sólido. Por ejemplo, en una realización, las TACS están biotiniladas y fijadas a microesferas magnéticas recubiertas con estreptavidina.

En una realización, la amplificación de la biblioteca enriquecida se realiza en presencia de secuencias de bloqueo que inhiben la amplificación de secuencias no mutantes.

En una realización, los miembros de la biblioteca de secuenciación que se unen a la mezcla de TACS son parcialmente complementarios a la TACS.

En una realización, el análisis estadístico comprende un algoritmo de segmentación. Por ejemplo, la segmentación basada en la verosimilitud, la segmentación con ventanas pequeñas solapadas, la segmentación mediante pruebas paralelas de a pares y combinaciones de los anteriores. En una realización, el análisis estadístico comprende un algoritmo de clasificación basado en puntuaciones. En una realización, la secuenciación de la biblioteca enriquecida provee una profundidad de lecturas correspondiente a las secuencias genómicas de interés y profundidades de lecturas correspondientes a los loci de referencia, y el análisis estadístico comprende aplicar un algoritmo que contrasta secuencialmente la profundidad de lecturas de los loci de las secuencias genómicas de interés contra la profundidad de lecturas de los loci de referencia, donde el algoritmo comprende pasos para: (a) eliminar los loci secuenciados de forma inadecuada; (b) mitigar el sesgo inducido por el contenido de GC; y (c) determinar la ploidía. En una realización, el sesgo inducido por el contenido de GC se mitiga agrupando los loci con contenidos de GC equiparables. En una realización, la secuenciación de la biblioteca enriquecida provee el número y el tamaño de los fragmentos secuenciados correspondientes a coordenadas específicas de cada TACS, y el análisis estadístico comprende aplicar un algoritmo que contrasta secuencialmente la proporción de tamaños de fragmentos de la secuencia genómica de interés contra la proporción de tamaños de fragmentos de los loci de referencia, donde el algoritmo comprende pasos para: (a) eliminar los valores atípicos de tamaños de fragmentos; (b) calcular la proporción de tamaños de fragmentos; y (c) determinar la ploidía.

Descripción de las figuras

El expediente de la patente o solicitud de patente contiene al menos una figura a color. La Oficina proporcionará copias de esta patente o solicitud de patente con figuras a color a solicitud, sujeto al pago de la tarifa correspondiente.

La Figura 1 es un diagrama esquemático del análisis paralelo múltiplex de regiones genómicas blanco para análisis prenatales no invasivos mediante secuencias de captura de blancos (TACS).

La Figura 2 es una lista de regiones cromosómicas ejemplares para TACS de amplificación que se unan a, por ejemplo, los cromosomas 13, 18, 21 o X. En la Tabla 1, se muestra una lista más extensa. Las TACS de la Tabla 1 son las preferidas en la presente.

La Figura 3 es un diagrama esquemático del enriquecimiento basado en TACS de una secuencia de interés (línea gorda) usando una única TACS (izquierda) o usando una familia de TACS (derecha).

Las Figuras 4A-4B son gráficos que muestran el enriquecimiento usando familias de TACS frente al enriquecimiento usando TACS individuales, lo que se manifiesta en un aumento en la profundidad de lecturas promedio. En la Figura 4A, se muestran loci enriquecidos usando una familia de TACS (puntos rojos) frente a loci enriquecidos usando una única TACS (puntos azules); en el eje x se muestran las diferentes secuencias blanco y en el eje y, el cambio relativo en la profundidad de lecturas. La Figura 4B es un gráfico de barras que muestra el aumento relativo promedio en la profundidad de lecturas (54,7 %) cuando se usa una familia de TACS (derecha) respecto del caso cuando se usa una única TACS (izquierda).

La Figura 5 es un gráfico que muestra los resultados obtenidos con muestras de ADN fetal de las cuales se determinó la ploidía a partir de análisis de segmentación basados en verosimilitud y datos de secuenciación de genoma completo. La línea horizontal azul indica la profundidad de lecturas promedio en cada cromosoma. Las líneas rojas indican los umbrales de los intervalos esperados para el caso de diploidía. Los datos por encima de la línea roja superior se clasifican con ploidía superior a dos, y los datos por debajo de la línea roja inferior se clasifican con ploidía inferior a dos. En el panel superior, se muestran los resultados correspondientes a una muestra euploide femenina (un feto femenino con cromosoma X diploide, sin cromosoma Y y sin anomalías de ploidía). En el panel inferior, se muestran los resultados correspondientes a una muestra femenina aneuploide (un feto femenino con cromosoma X diploide, sin cromosoma Y y con monosomía 18 y 20). Los valores en el eje y son el logaritmo de la profundidad de lecturas.

La Figura 6 es un gráfico que muestra los resultados obtenidos con muestras de ADN fetal de las cuales se determinó la ploidía mediante secuenciación de genoma completo, seguida por análisis de segmentación con un análisis de ventanas pequeñas solapadas. La línea horizontal azul indica la profundidad de lecturas promedio en cada cromosoma.

Las líneas rojas indican los umbrales de los intervalos esperados para el caso de diploidía. En el panel superior, se muestran los resultados correspondientes a una muestra euploide masculina (un feto masculino con una única copia de los cromosomas X e Y y sin anomalías de ploidía). En el panel inferior, se muestran los resultados correspondientes a una muestra aneuploide masculina (un feto masculino con una única copia de los cromosomas X e Y y aneuploidías en los cromosomas 13 y 19: trisomía 13 y mosaicismo en el cromosoma 19). Los valores en el eje y son el logaritmo de la profundidad de lecturas.

La Figura 7 es un gráfico que muestra los resultados obtenidos con muestras de ADN fetal de las cuales se determinó la ploidía mediante secuenciación de genoma completo, seguida por análisis de segmentación con pruebas paralelas de a pares.

En el panel superior, se muestran los resultados de una muestra normal (euploide) y, en el panel inferior, los resultados de una muestra aneuploide, con aneuploidías en los cromosomas 1, 2, 13, 15, 16, 19 y 20.

La Figura 8 es un gráfico que muestra resultados obtenidos con muestras de ADN fetal de las cuales se determinó la ploidía mediante enriquecimiento basado en TACS, seguido por una clasificación basada en la puntuación. De acuerdo con la leyenda, las muestras indicadas con N tienen una ploidía normal, la muestra indicada con P corresponde a una trisomía parcial, las muestras indicadas con T corresponden a trisomías y las muestras indicadas con M corresponden a monosomías.

La Figura 9 es un gráfico de puntos que muestra los resultados de una prueba de fragmentos para la detección de un número creciente de fragmentos pequeños en una muestra combinada. Una muestra anómala aneuploide con una fracción fetal estimada del 2,8 % se detectó correctamente mediante este método. Los puntos negros son muestras individuales. En el eje x, se muestra el índice de la muestra. En el eje y, se muestra la puntuación que arroja el método basado en los tamaños de los fragmentos. Una puntuación mayor que el umbral mostrado por la línea gris indica una desviación respecto del tamaño esperado de los fragmentos, lo que es indicativo de la presencia de una aneuploidía.

La Figura 10 es un gráfico que muestra los resultados obtenidos con muestras de ADN fetal de las cuales se determinó la ploidía a partir de análisis de segmentación basados en verosimilitud y datos de secuenciación de genoma completo tras enriquecimiento basado en TACS. La línea horizontal azul indica la profundidad de lecturas promedio en cada cromosoma.

Las líneas rojas indican los umbrales de los intervalos esperados para el caso de diploidía. Los datos por encima de la línea roja superior se clasifican con ploidía superior a dos, y los datos por debajo de la línea roja inferior se clasifican con ploidía inferior a dos. En el panel superior, se muestran los resultados correspondientes a una muestra euploide masculina (un feto masculino con una copia del cromosoma X, una copia del cromosoma Y y sin anomalías de ploidía). En el panel inferior, se muestran los resultados correspondientes a una muestra aneuploide masculina con trisomía 13 y monosomía 21. Los valores en el eje y son el logaritmo de la profundidad de lecturas.

La Figura 11 es un gráfico que muestra los resultados obtenidos con muestras de ADN fetal de las cuales se determinó la ploidía a partir de análisis de segmentación basados en verosimilitud y datos tras enriquecimiento basado en TACS. La línea horizontal azul indica la profundidad de lecturas promedio en cada cromosoma. Las líneas rojas indican los umbrales de los intervalos esperados para el caso de diploidía. Los datos por encima de la línea roja superior se clasifican con ploidía superior a dos, y los datos por debajo de la línea roja inferior se clasifican con ploidía inferior a dos. En el panel superior, se muestran los resultados correspondientes a una muestra euploide masculina (un feto masculino con una copia del cromosoma X, una copia del cromosoma Y y sin anomalías de ploidía). En el panel inferior, se muestran los resultados correspondientes a una muestra aneuploide masculina con trisomía 13 y monosomía 21. Los valores en el eje y son el logaritmo de la profundidad de lecturas.

En la Tabla 1, se muestran posiciones de TACS ejemplares y preferentes. Las secuencias correspondientes se indican en el listado de secuencias.

Descripción detallada de la invención

La invención refiere a un método para analizar anomalías genéticas que involucra un enriquecimiento basado en hibridación de determinadas regiones blanco a lo largo del genoma humano en un panel de determinaciones, seguido por la cuantificación, combinada con un nuevo pipeline bioinformático y matemático. En la Figura 1, se muestra un resumen esquemático del método.

El enriquecimiento por hibridación en solución se ha usado en el pasado para enriquecer regiones específicas de interés antes de la secuenciación (véase, por ejemplo, Meyer, M y Kirchner, M. (2010) Cold Spring Harb. Protoc.

2010(6):pdbprot5448; Liao, G.J. et al. (2012) PLoS One 7:e38154; Maricic, T. et al. (2010) PLoS One 5:e14004; Tewhey, R. et al. (2009) Genome Biol. 10:R116; Tsangaras, K. et al. (2014) PLoS One 9:e109101; publicación de patente del PCT WO 2016/189388; publicación de patente estadounidense 2016/0340733; Koumbaris, G. et al. (2015) Clinical Chemistry, 62(6), pp. 848-855). Sin embargo, en los métodos de la invención, las secuencias blanco (denominadas secuencias de captura de blancos o TACS) usadas para enriquecer regiones específicas de interés se han optimizado para maximizar la eficiencia, la especificidad y la precisión y, además, permiten el análisis de cantidades iniciales muy pequeñas de ADN fetal o embrionario en muestras que contienen únicamente o predominantemente ADN fetal o embrionario.

Además, en ciertas realizaciones, las TACS usadas en los métodos son familias de TACS que comprenden múltiples miembros que se unen a la misma secuencia genómica, pero con diferentes posiciones de inicio y/o fin, de modo que el enriquecimiento de las secuencias genómicas de interés mejora significativamente en comparación con el uso de una única TACS que se une a la secuencia genómica. La configuración de tales familias de TACS se ilustra esquemáticamente en la Figura 3, que muestra que las diferentes posiciones de inicio y/o fin de los miembros de la familia de TACS cuando se unen a la secuencia genómica de interés dan lugar a un patrón de unión escalonado de los miembros de la familia.

Usar, dentro de la mezcla de TACS, familias de TACS que se unen a cada secuencia blanco de interés en lugar de usar una única TACS que se una a cada secuencia blanco de interés aumenta considerablemente el enriquecimiento de las secuencias blanco de interés, lo que se manifiesta como un aumento promedio superior al 50 % en la profundidad de lecturas obtenida con familias de TACS en comparación con TACS individuales. En el Ejemplo 5, se compara el uso de una familia de TACS y de una única TACS y se describe la mejora significativa en la profundidad de lecturas observada.

Análisis de muestra de ADN fetal o embrionario

Los métodos y los kits de la divulgación pueden usarse en el análisis de muestras de ADN fetales o embrionarias, por ejemplo, para detectar la presencia de anomalías genéticas, por ejemplo, para fines de detección genética previa a la implantación (PGS) y diagnóstico genético previo a la implantación (p Gd ) en tratamientos de fertilización in vitro (FIV). Así, en los métodos de la invención, la muestra de ADN comprende predominantemente o únicamente ADN fetal o embrionario. Los métodos pueden usarse con muestras de una o solo unas pocas células fetales o embrionarias. En el contexto de la presente, “unas pocas” células fetales o embrionarias hace referencia a 10 o menos células fetales o embrionarias. Así, los métodos permiten el análisis de cantidades muy pequeñas de ADN fetal o embrionario. La muestra de ADN fetal o embrionario contiene predominantemente o únicamente ADN fetal o embrionario y se describe en más detalle abajo, en la subsección sobre la preparación de la muestra. En el Ejemplo 6, se describe un ejemplo del uso del método con muestras obtenidas de biopsias de 3 días o de 5 días.

El método basado en el enriquecimiento por TACS de la divulgación puede usarse para la detección de una amplia variedad de anomalías genéticas. En una realización, la anomalía genética es una aneuploidía cromosómica (como una trisomía, una trisomía parcial o una monosomía). En otras realizaciones, la anomalía genómica es una anomalía estructural, incluidos, sin carácter taxativo, los cambios en el número de copias, incluidas las microdeleciones y las microduplicaciones, las inserciones, las translocaciones, las inversiones y las mutaciones pequeñas, incluidas las mutaciones puntuales y los perfiles de mutaciones. En otra realización, la anomalía genética es un mosaicismo cromosómico.

Diseño de las secuencias de captura de blancos

En la presente, los términos “secuencias de captura de blancos” o “TACS” hacen referencia a secuencias de ADN cortas que son complementarias a la(s) región/ones de interés en una o más secuencias genómicas de interés (p. ej., uno o más cromosomas de interés) y que se usan como “señuelo” para capturar y enriquecer la región de interés a partir de una biblioteca amplia de secuencias, como una biblioteca de secuenciación de genoma completo preparada a partir de una muestra biológica. Para el enriquecimiento se usa una mezcla de TACS, donde las secuencias dentro de la mezcla se han optimizado en relación con: (i) la longitud de las secuencias; (ii) la distribución de las TACS a lo largo de la(s) región/ones de interés; y (iii) el contenido de GC de las TACS. Asimismo, se ha optimizado la cantidad de secuencias dentro de la mezcla de TACS (tamaño de la mezcla).

Se ha descubierto que las TACS con una longitud de 150 a 260 pares de bases son óptimas para maximizar la eficiencia de enriquecimiento. En varias otras realizaciones, cada secuencia dentro de la mezcla de TACS tiene entre 150 y 260 pares de bases o entre 200 y 260 pares de bases de longitud. En realizaciones preferentes, la longitud de las TACS de la mezcla es de 250 pares de bases o 260 pares de bases.

La distribución de las TACS a lo largo de cada región o cromosoma de interés se ha optimizado para evitar las repeticiones con alto número de copias, las repeticiones con bajo número de copias y las variantes en el número de copias, y, a la vez, poder direccionar la captura a polimorfismos de nucleótidos individuales (SNP) informativos para permitir la detección de las aneuploidías, la detección de cambios estructurales en el número de copias y la estimación de la fracción fetal (ff). Así, cada secuencia dentro de la mezcla de TACS está diseñada de manera tal que el extremo 5' y el extremo 3' se encuentran, cada uno, a una distancia de al menos 50 pares de bases de regiones en el genoma de las que se sabe que contienen uno o más de los siguientes elementos: variaciones en el número de copias (CNV), duplicaciones segméntales y/o elementos de ADN repetitivo (como transposones o zonas de repeticiones en tándem). En varias otras realizaciones, cada secuencia dentro de la mezcla de TACS está diseñada de manera tal que el extremo 5' y el extremo 3' se encuentran, cada uno, a una distancia de al menos 50, 100, 150, 200, 250, 300, 400 o 500 pares de bases de regiones en el genoma de las que se sabe que contienen uno o más de los elementos anteriores.

El término "variaciones en el número de copias" (CNV) es un término de la técnica que hace referencia a una forma de variante estructural del genoma humano en la cual existen alteraciones en el ADN del genoma de ciertos individuos que resultan en una cantidad menor o mayor a la normal de una o más secciones del genoma. Las CNV corresponden a regiones relativamente extensas del genoma que pueden haberse borrado (por ejemplo, una sección que normalmente es A-B-C-D puede ser A-B-D) o duplicado (por ejemplo, una sección que normalmente es A-B-C-D puede ser A-B-C-C-D). Las CNV representan aproximadamente el 13 % del genoma humano y el tamaño de cada variación varía entre aproximadamente 1 kilobase a varias megabases.

El término "duplicaciones segmentales" (o "repeticiones con bajo número de copias") también es un término de la técnica que refiere a bloques de ADN cuya longitud varía entre 1 y 400 kilobases que ocurren en más de una posición del genoma y que, por lo general, tienen un alto grado de identidad a nivel de secuencia (mayor del 90 %). Las duplicaciones segmentales se abordan, por ejemplo, en Eichler. E.E. (2001) Trends Genet. 17:661-669.

El término "elementos de ADN repetitivo" (o "ADN repetitivo/repetido") también es un término de la técnica que refiere a patrones de ADN que ocurren en múltiples copias a lo largo del genoma. El término "elemento de ADN repetitivo" abarca las repeticiones terminales, las repeticiones en tándem y las repeticiones intercaladas, incluidos los transposones. Los elementos de ADN repetitivo en el marco de las tecnologías de NGS se analizan en más detalle, por ejemplo, en Todd, J. et al. (2012) Nature Reviews Genet. 13:36-46.

Las TACS están diseñadas con características específicas de contenido de GC con el fin de minimizar el sesgo inducido por el contenido de GC en los datos y permitir el uso de un pipeline de análisis de datos personalizado e innovador. Se ha determinado que las TACS con un contenido de GC del 19 al 80 % logran un enriquecimiento óptimo y son las que muestran mayor rendimiento con el ADN fetal acelular. Dentro de una mezcla de TACS, diferentes secuencias pueden tener diferentes contenidos de GC porcentuales, pero, para ser incluida en la mezcla, el contenido de GC porcentual de cada secuencia, obtenido calculando el contenido de GC de cada miembro de la mezcla de TACS o de cada familia de TACS, debe encontrarse en el rango del 19 al 80 %. Eso significa que cada miembro de la mezcla o de cada familia de TACS en la mezcla tiene un contenido de GC porcentual dentro del rango porcentual dado (p. ej., un contenido de GC entre el 19 y el 80 %).

En algunas instancias, la mezcla de TACS (a saber, cada miembro de cada familia de TACS) puede seleccionarse de manera de definir otro rango de contenido de GC porcentual que se considere más adecuado para la evaluación de anomalías genéticas específicas. Algunos ejemplos de rangos de contenido de GC porcentual son, sin carácter taxativo, entre 19 % y 80 %, o entre 19 % y 79 %, o entre 19 % y 78 %, o entre 19 % y 77 %, o entre 19 % y 76 %, o entre 19 % y 75 %, o entre 19 % y 74 %, o entre 19 % y 73 %, o entre 19 % y 72 %, o entre 19 % y 71 %, o entre 19 % y 70 %, o entre 19 % y 69 %, o entre 19 % y 68 %, o entre 19 % y 67 %, o entre 19 % y 66 %, o entre 19 % y 65 %, o entre 19 % y 64 %, o entre 19 % y 63 %, o entre 19 % y 62 %, o entre 19 % y 61 %, o entre 19 % y 60 %, o entre 19 % y 59 %, o entre 19 % y 58 %, o entre 19 % y 57 %, o entre 19 % y 56 %, o entre 19 % y 55 %, o entre 19 % y 54 %, o entre 19 % y 53 %, o entre 19 % y 52 %, o entre 19 % y 51 %, o entre 19 % y 50 %, o entre 19 % y 49 %, o entre 19 % y 48 %, o entre 19 % y 47 %, o entre 19 % y 46 %, o entre 19 % y 45 %, o entre 19 % y 44 %, o entre 19 % y 43 %, o entre 19 % y 42 %, o entre 19 % y 41 %, o entre 19 % y 40 %.

Según se describen en mayor detalle más abajo a propósito de una realización del análisis de datos, luego de la amplificación y secuenciación de las secuencias enriquecidas, los loci de prueba y los loci de referencia pueden aparearse o agruparse en función de su contenido de GC porcentual (p. ej., los loci de prueba con un contenido de GC porcentual del 40 % se aparean con loci de referencia con un contenido de GC porcentual del 40 %). Se apreciará que el procedimiento de apareamiento en función del contenido de GC porcentual podría permitir una variación leve en el rango de contenido de GC porcentual admitido para un apareamiento. Como ejemplo no taxativo y con referencia al ejemplo descrito anteriormente, un locus de prueba con un contenido de GC porcentual del 40 % podría aparearse con loci de referencia con un rango de contenido de GC porcentual entre el 39 y el 41 %, abarcando el contenido de GC porcentual del locus de prueba dentro de un rango adecuado.

Para preparar una mezcla de TACS con los criterios optimizados mencionados arriba en relación con el tamaño, la ubicación en el genoma humano y el contenido de GC porcentual, pueden aplicarse métodos manuales o computarizados conocidos en la técnica para el análisis del genoma humano de referencia. En una realización, se implementa un método semiautomático en el que primeramente se designan manualmente regiones basadas en la versión 19 del genoma humano de referencia (hg19), de manera de evitar las regiones repetitivas mencionadas, y, posteriormente, las regiones designadas se curan en relación con el contenido de GC con ayuda de software que calcula el contenido de GC de cada región en función de sus coordenadas en la versión 19 del genoma humano de referencia (hg19). En otra realización, se emplea software hecho a medida para analizar el genoma humano de referencia e identificar regiones adecuadas para TACS que cumplan ciertos criterios, incluidos, sin carácter taxativo, criterios referidos al contenido de GC porcentual, la proximidad a regiones repetitivas y/o la proximidad a otras TACS.

La cantidad de TACS en la mezcla se ha examinado y ajustado cuidadosamente para lograr el mejor equilibrio entre la robustez de los resultados y el costo/la capacidad de la determinación. La mezcla generalmente contiene 800 o más TACS, pero puede incluir más; por ejemplo, 1500 o más TACS, 2000 o más TACS, 2500 o más TACS, 3500 o más TACS o 5000 o más TACS. Se ha detectado que un número óptimo de TACS en la mezcla es de 5000. La persona razonablemente versada en la técnica apreciará que, por lo general, puede usarse una pequeña variación en el tamaño de la mezcla sin afectar los resultados (p. ej., la eliminación o el agregado de una pequeña cantidad de TACS). Así, las cantidades de TACS de la mezcla que se indican en la presente deben considerarse como "aproximadas", admitiendo una pequeña variación (p. ej., del 1 al 5 %) en su tamaño. Así, por ejemplo, un tamaño de mezcla de "1600 secuencias" hace referencia a "aproximadamente 1600 secuencias", de manera que también abarca, por ejemplo, 1590 secuencias o 1610 secuencias.

En vista de lo anterior, en otro aspecto, la invención provee un método para preparar una mezcla de TACS para usar en el método de la invención para detectar el riesgo de una anomalía cromosómica y/u otra anomalía genética, donde el método para preparar la mezcla de TACS comprende: seleccionar regiones en uno o más cromosomas de interés que cumplan los criterios definidos arriba (p. ej., que se encuentren a una distancia de al menos 50 pares de bases a cada extremo de las secuencias repetitivas mencionadas y que tengan un contenido de GC entre el 19 % y el 80 %, que se obtiene calculando el contenido de GC de cada miembro de cada familia de TACS); preparar cebadores que amplifiquen las secuencias que hibridan con las regiones seleccionadas; y amplificar las secuencias, donde cada secuencia tiene entre 100 y 500 pares de bases de longitud.

Para usar en los métodos de la divulgación, la mezcla de TACS normalmente se fija a un sustrato sólido, como microesferas (p. ej., microesferas magnéticas) o a una columna. En una realización, las TACS de la mezcla de TACS están marcadas con biotina y están unidas a microesferas magnéticas recubiertas con una sustancia que se une a la biotina, como la estreptavidina o la avidina, a fin de fijar la mezcla de TACS a un sustrato sólido. Otros sistemas de unión adecuados para fijar la mezcla de TACS a un sustrato sólido (como microesferas o una columna) son conocidos para la persona versada en la técnica y están fácilmente disponibles en la técnica. Cuando se usan microesferas magnéticas como sustrato sólido, las secuencias que se unen a las TACS unidas a las microesferas pueden separarse magnéticamente de las secuencias que no se unen a las TACS.

Familias de TACS

En una realización, la mezcla de TACS comprende múltiples familias de TACS dirigidas a diferentes secuencias genómicas de interés. Cada familia de TACS comprende múltiples miembros que se unen a la misma secuencia genómica de interés, pero tienen diferentes posiciones de inicio y/o fin con respecto a un sistema de coordenadas de referencia de la secuencia genómica de interés. Normalmente, el sistema de coordenadas de referencia que se usa para el análisis del ADN genómico es el genoma humano de referencia versión hg19, que está disponible públicamente en la técnica, aunque pueden usarse también otros sistemas de coordenadas. Como alternativa, el sistema de coordenadas de referencia puede ser un genoma artificial basado en la versión hg19 que contenga únicamente las secuencias genómicas de interés. En la Figura 2, se muestran ejemplos sin carácter taxativo de posiciones de inicio/fin de TACS que se unen a los cromosomas 13, 18, 21, X o Y.

Cada familia de TACS comprende al menos 2 miembros que se unen a la misma secuencia genómica de interés. En varias realizaciones, cada familia de TACS comprende al menos 2 secuencias miembro, o al menos 3 secuencias miembro, o al menos 4 secuencias miembro, o al menos 5 secuencias miembro, o al menos 6 secuencias miembro, o al menos 7 secuencias miembro, o al menos 8 secuencias miembro, o al menos 9 secuencias miembro o al menos 10 secuencias miembro. En varias realizaciones, cada familia de TACS comprende 2 secuencias miembro, o 3 secuencias miembro, o 4 secuencias miembro, o 5 secuencias miembro, o 6 secuencias miembro, o 7 secuencias miembro, u 8 secuencias miembro, o 9 secuencias miembro o 10 secuencias miembro. En varias realizaciones, las múltiples familias de TACS comprenden diferentes familias que tienen diferentes números de secuencias miembro. Por ejemplo, una familia de TACS puede comprender una familia de TACS que comprende 3 secuencias miembro, otra familia de TACS que comprende 4 secuencias miembro, otra familia de TACS que comprende 5 secuencias miembro, y así. En una realización, una familia de TACS comprende entre 3 y 5 secuencias miembro. En otra realización, la familia de TACS comprende 4 secuencias miembro.

La mezcla de TACS comprende múltiples familias de TACS. En una realización, una mezcla de TACS comprende al menos 2 familias de TACS. En varias realizaciones, una mezcla de TACS comprende al menos 3 familias de TACS diferentes, o al menos 5 familias de TACS diferentes, o al menos 10 familias de TACS diferentes, o al menos 50 familias de TACS diferentes, o al menos 100 familias de TACS diferentes, o al menos 500 familias de TACS diferentes, o al menos 1000 familias de TACS diferentes, o al menos 2000 familias de TACS diferentes, o al menos 4000 familias de TACS diferentes o al menos 5000 familias de TACS diferentes.

Cada miembro de una familia de TACS se une a la misma región genómica de interés, pero con diferentes posiciones de inicio y/o fin con respecto a un sistema de coordenadas de referencia de la secuencia genómica de interés, de modo que el patrón de unión de los miembros de la familia de TACS es escalonado (véase la Figura 3). En distintas realizaciones, las posiciones de inicio y/o fin están escalonadas por 5-10 pares de bases. En una realización, las posiciones de inicio y/o fin están escalonadas por 5 pares de bases. En otra realización, las posiciones de inicio y/o fin están escalonadas por 10 pares de bases.

Obtención y preparación de las muestras

Los métodos de la invención pueden usarse con diversas muestras biológicas que contengan únicamente o predominantemente ADN fetal o embrionario. En el contexto de la presente, una muestra que contiene “predominantemente ADN fetal o embrionario” es una que contiene más de 50 % de ADN fetal o embrionario y, normalmente, contiene más de 90 %, 95 % o 99 % de ADN fetal o embrionario. En una realización, el origen de la muestra que contiene predominantemente ADN fetal o embrionario es un conjunto de células fetales o embrionarias obtenidas de una biopsia embrionaria de embriones derivados de fertilización in vitro (FIV) antes de su implantación. Se ha demostrado que pueden obtenerse células intactas de embriones derivados de FIV antes de su implantación para procesos de detección genética previa a la implantación (PGS) y diagnóstico genético previo a la implantación (PGD). Un óvulo se fertiliza mediante FIV, y las células resultantes se recolectan durante el crecimiento in vitro del embrión. Por ejemplo, las células pueden recolectarse de un embrión de 3 días o de un embrión de 5 días. Normalmente, si la recolección de células se realiza en el día 3, se obtiene una única célula, también conocida como blastómero, y, si la recolección se realiza en el día 5, se obtienen unas pocas células, también conocidas como células del trofectodermo. Normalmente, la integridad genética de las células fetales cultivadas se analiza mediante hibridación genómica comparativa basada en microarreglos (aCGH), una tecnología que puede detectar anomalías genéticas superiores a cierto tamaño genómico. El método de la divulgación provee una forma alternativa de detectar anomalías genómicas en células fetales obtenidas de un embrión, lo que ofrece una mayor resolución del genoma analizado.

En otra realización, la fuente de la muestra que contiene predominantemente ADN fetal o embrionario es un conjunto de células fetales o embrionarias obtenidas de forma no invasiva mediante la recolección de células intactas (trofoblastos) de una prueba de Papanicolaou (prueba de citología vaginal) de la madre. Recientemente, se ha demostrado que esta es una forma simple y segura de obtener material genético fetal o embrionario de forma no invasiva y que las células obtenidas de la prueba de Papanicolaou muestran una gran abundancia (casi 100 %) de material genético fetal o embrionario (Jain, C.V. et al. (2016) Science Translational Medicine 8(363):363re4-363re4).

En otra realización, la fuente de la muestra que contiene predominantemente ADN fetal o embrionario es una o unas pocas células embrionarias en plasma materno. Así, una o unas pocas células embrionarias presentes en el plasma materno pueden aislarse y puede usarse ADN de una o unas pocas células como muestra de ADN en los métodos de la invención.

En otras realizaciones, la muestra que contiene predominantemente ADN fetal o embrionario es una muestra de ADN obtenida directamente de tejido fetal o de líquido amniótico, o bien de las vellosidades coriónicas o del medio donde se cultivaron los productos de la concepción.

En otra realización, la muestra de ADN que contiene predominantemente ADN fetal o embrionario se obtiene directamente de tejido fetal o embrionario.

Para la preparación de la muestra biológica, generalmente se lisan las células y se extrae ADN mediante técnicas estándar conocidas en la técnica, de las cuales un ejemplo, sin carácter taxativo, es el protocolo Qiasymphony (Qiagen).

Luego de aislarse, el ADN libre de la muestra se usa para construir una biblioteca de secuenciación cuyo fin es hacer la muestra compatible con una tecnología de secuenciación ulterior (por ejemplo, la secuenciación de última generación). En general, esto involucra la ligación de adaptadores a los extremos de los fragmentos de ADN libre, seguida por una amplificación. Hay kits para la preparación de bibliotecas de secuenciación disponibles comercialmente. En el Ejemplo 1, se describe en detalle un protocolo ejemplar —sin carácter taxativo— para la preparación de una biblioteca de secuenciación.

Enriquecimiento mediante hibridación de TACS

Para enriquecer la(s) región/ones de interés del/de los cromosoma(s) de interés, se hace hibridar la mezcla de TACS con la biblioteca de secuenciación y, a continuación, se aíslan las secuencias de la biblioteca de secuenciación que hibrida con las TACS. Para facilitar el aislamiento de las secuencias deseadas enriquecidas, las TACS generalmente se modifican de tal manera que las secuencias que hibridan con las TACS se pueden separar de aquellas que no hibridan con las TACS. En general, esto se logra fijando las TACS a un sustrato sólido. Esto permite la separación física de las secuencias que hibridan con las TACS de aquellas que no hibridan con las TACS. Por ejemplo, cada secuencia dentro de la mezcla de TACS puede marcarse con biotina, y la mezcla puede fijarse a microesferas recubiertas con una sustancia que se una a la biotina, como estreptavidina o avidina. En una realización preferente, las TACS se marcan con biotina y se unen a microesferas magnéticas recubiertas con estreptavidina. Sin embargo, la persona razonablemente versada en la técnica apreciará que existen otros sistemas de unión por afinidad conocidos en la técnica y que pueden usarse en lugar del sistema de biotina-estreptavidina/avidina. Por ejemplo, puede usarse un sistema basado en anticuerpos en el que las TACS se marquen con un antígeno y, luego, se unan a microesferas recubiertas con el anticuerpo correspondiente. Además, las TACS pueden incorporar en un extremo una secuencia marca y pueden fijarse a un sustrato sólido mediante una secuencia complementaria en el sustrato sólido que hibride con la secuencia marca. Por otra parte, además de microesferas magnéticas, pueden usarse otros tipos de sustratos sólidos, como microesferas poliméricas y otros similares.

En ciertas realizaciones, los miembros de la biblioteca de secuenciación que se unen a la mezcla de TACS son perfectamente complementarios a las TACS. En otras realizaciones, los miembros de la biblioteca de secuenciación que se unen a la mezcla de TACS son parcialmente complementarios a las TACS. Por ejemplo, en ciertas circunstancias, puede ser deseable utilizar y analizar datos provenientes de fragmentos de ADN que son productos del proceso de enriquecimiento, pero que no necesariamente pertenecen a las regiones genómicas de interés (es decir, tales fragmentos de ADN podrían unirse a las TACS a causa de homologías parciales [complementariedad parcial] con las TACS y, al ser secuenciados, producirían muy baja cobertura a lo largo del genoma en coordenadas que no sean las de las TACS).

Luego del enriquecimiento de la(s) secuencia(s) de interés con las TACS y la formación de la biblioteca enriquecida, los miembros de la biblioteca enriquecida se eluyen del sustrato sólido y se amplifican y secuencian mediante métodos estándar conocidos en la técnica. En general, se emplea la tecnología estándar de secuenciación de última generación, aunque pueden emplearse también otras tecnologías de secuenciación que provean no solo información de secuencia, sino también recuentos muy exactos. Detectar anomalías genéticas —incluidas, sin carácter taxativo, las aneuploidías o los cambios estructurales en el número de copias— exige un recuento muy exacto, y la NGS es un tipo de tecnología que provee tal recuento muy exacto. Así, para la detección de anomalías genéticas, incluidas, sin carácter taxativo, las aneuploidías o los cambios estructurales en el número de copias, pueden usarse otros métodos de recuento exactos, como la PCR digital y los microarreglos, en lugar de la NGS. En el Ejemplo 3, se describen en detalle protocolos ejemplares —sin carácter taxativo— para la amplificación y secuenciación de la biblioteca enriquecida.

Análisis de los datos

La información obtenida de la secuenciación de la biblioteca enriquecida puede analizarse mediante un innovador pipeline de análisis biomatemático/bioestadístico. En el Ejemplo 4, se presentan detalles de un ejemplo de un análisis realizado con este pipeline, y este se describe en más detalle a continuación. En la presente, también se proveen otros enfoques de análisis de datos para diferentes fines. Por ejemplo, en el Ejemplo 6, se describen enfoques de análisis de datos para analizar muestras de ADN fetal y/o embrionario en busca de anomalías genéticas.

El pipeline de análisis que se describe en el Ejemplo 4 explota las características de las TACS, en tanto que la alta eficiencia de la captura de blancos permite una detección eficiente de aneuploidías o cambios estructurales en el número de copias, así como otros tipos de anomalías genéticas. En el análisis, los fragmentos de ADN secuenciados de la muestra se alinean primeramente al genoma humano de referencia. Se emplean métricas de control de calidad para inspeccionar las propiedades de la muestra alineada y decidir si la muestra es apta para clasificación. Estas métricas de calidad pueden incluir, sin carácter taxativo, el análisis de patrones de enriquecimiento de los loci de interés, como, por ejemplo, la profundidad de secuenciación general de la muestra, el volumen de secuenciación específico de la muestra, el rendimiento de las TACS, el nivel esperado de sesgo inducido por el contenido de ^gC y la cuantificación de la fracción de interés. Para determinar el riesgo de una anomalía cromosómica en el ADN fetal de la muestra, se emplea un algoritmo innovador. Los pasos del algoritmo incluyen, sin carácter taxativo, eliminar los loci secuenciados de forma inadecuada; extraer información relativa a la profundidad de lecturas y el tamaño de fragmentos en coordenadas específicas de las TACS; mitigar el sesgo inducido por el contenido de GC; y determinar la ploidía.

La determinación de la ploidía se logra mediante uno o más métodos estadísticos, algunos de los cuales son, sin carácter taxativo, una prueba t, una prueba de remuestreo (bootstrap), una prueba de permutación, una prueba binomial de proporciones, métodos basados en segmentación y/o combinaciones de las anteriores. La persona razonablemente versada en la técnica apreciará que la selección y aplicación de pruebas estadísticas para incluir en una determinación de la ploidía se basa en la cantidad de puntos de datos disponibles. Así, la idoneidad de cada prueba viene dada por distintos factores como —sin carácter taxativo— la cantidad de TACS utilizadas y la correspondiente aplicación para mitigar el sesgo inducido por el contenido de GC, si corresponde. Así, los métodos mencionados deben considerarse como ejemplos de los tipos de análisis estadísticos que pueden emplearse y no son los únicos métodos adecuados para la determinación de la ploidía. En general, el método estadístico resulta en una puntuación asociada a la muestra combinada y se detecta el riesgo de la anomalía cromosómica en cuestión en el ADN fetal cuando la puntuación de la muestra combinada se encuentra por encima de un valor umbral de referencia.

En particular, un aspecto de los análisis estadísticos involucra cuantificar y mitigar el sesgo inducido por el contenido de GC. Además del desafío de detectar pequeños cambios de señal en el ADN fetal en la muestra combinada y/u otros componentes de ADN de interés que forman parte de una muestra combinada (por ejemplo, sin carácter taxativo, la presencia de más o menos material genético de ciertas regiones cromosómicas), el propio proceso de secuenciación introduce ciertos sesgos que pueden oscurecer la detección de la señal. Uno de tales sesgos es la secuenciación/amplificación preferente de las regiones genéticas en función de su contenido de GC. Por ello, ciertos métodos de detección —incluidos, sin carácter taxativo, los métodos basados en la profundidad de lecturas— deben tener en cuenta tal sesgo al momento de analizar los datos de secuenciación. Así, se debe cuantificar el sesgo en los datos y, posteriormente, se deben aplicar métodos adecuados que contemplen dicho sesgo de manera tal que las dependencias del contexto genético no puedan afectar los métodos estadísticos que pudieran usarse para cuantificar el riesgo de anomalías genéticas fetales.

Por ejemplo, un método para cuantificar el sesgo inducido por el contenido de GC es aplicar la técnica de suavizado local ponderado de diagramas de dispersión (LOESS) a los datos de secuenciación. Cada locus blanco puede definirse por su profundidad de lecturas obtenidas en la secuenciación y su contenido de GC. Una recta de ajuste óptimo por estas dos variables sobre una gran cantidad de loci provee una estimación de la profundidad de lecturas de secuenciación esperada dado el contenido de GC. Una vez que se completa este paso de cuantificación del sesgo inducido por el contenido de GC, el siguiente paso es usar esta información para considerar posibles sesgos en los datos. Un método es normalizar la profundidad de lecturas de todos los loci respecto de su profundidad de lecturas esperada (en función del contenido de GC de cada locus). En principio, eso desvincula los datos de profundidad de lecturas de su contexto genético y torna todos los datos comparables. Así, los datos recuperados de regiones con distintos contenidos de GC, como, por ejemplo —sin carácter taxativo—, distintos cromosomas, se pueden usar en pruebas estadísticas ulteriores para la detección de anomalías. Así, mediante el procedimiento LOESS, el sesgo inducido por el contenido de GC se desvincula de los datos antes de la aplicación de las pruebas estadísticas. En una realización, el análisis estadístico de las secuencias de la biblioteca enriquecida comprende mitigar el sesgo de GC con un procedimiento LOESS.

En una realización alternativa, el sesgo inducido por el contenido de GC se cuantifica y mitiga agrupando los loci con contenidos de GC similares (equiparables). Así, conceptualmente, este método para mitigar el sesgo inducido por el contenido de GC comprende los tres pasos siguientes:

1) identificar y calcular el contenido de GC en las TACS;

2) mitigar/considerar el sesgo inducido por el contenido de GC mediante diversos procedimientos de apareamiento/agrupación de las TACS; y

3) calcular el riesgo de que distintas anomalías genéticas estén presentes en el feto aplicando métodos estadísticos y matemáticos a los conjuntos de datos resultantes del paso 2.

En el caso de la prueba t, el conjunto de datos se divide en dos grupos: los loci de prueba y los loci de referencia. Por cada grupo, se crean subconjuntos de grupos en los que los loci se categorizan de acuerdo con su contenido de GC, como se ilustra en el ejemplo no taxativo de la Tabla 1, a continuación:

Tabla 1

La persona razonablemente versada en la técnica apreciará que la creación de subgrupos puede abarcar un rango de contenidos de GC adecuados y/o un subconjunto de loci definidos por un contenido de GC y/o un rango de contenido de GC dados. Así, el contenido de GC porcentual dado en el ejemplo no taxativo de la Tabla 1 debe considerarse “aproximado”, admitiendo una leve variación (p. ej., 1 o 2 %). Así, por ejemplo, un contenido de GC porcentual del “40 %” pretende hacer referencia a “aproximadamente el 40 %”, de tal manera que, por ejemplo, también podrían estar comprendidos los loci con contenidos de GC en el rango del 39 % al 41 % si se considera pertinente.

Así, cuando se hace referencia a un contenido de GC particular, se entiende que la referencia y los subgrupos de loci de prueba y de referencia pueden comprender cualquier cantidad de loci relacionados con un contenido de GC porcentual y/o rango particulares.

Posteriormente, por cada subgrupo de contenido de GC, se calcula una profundidad de lecturas representativa. Para ello, se pueden usar distintos métodos, incluidos, sin carácter taxativo, la media, la mediana o la moda de caja conjunto. Así, se crean dos vectores de profundidades de lecturas representativas, donde uno corresponde a los loci de referencia y el otro a los loci de prueba (p. ej., Xm e Ym). En una realización, ambos vectores pueden contrastarse entre sí para identificar diferencias significativas en la profundidad de lecturas. En otra realización, la diferencia entre ambos vectores puede usarse para evaluar si hay discrepancias considerables entre los loci de referencia y los loci de prueba. Se le atribuye a la muestra la puntuación que arroja la prueba.

En el caso de los análisis estadísticos con un enfoque de remuestreo, el conjunto de datos se divide primero en dos grupos: los loci de prueba y los loci de referencia. Entonces, se calcula el contenido de GC de cada locus. Luego, se realiza el siguiente procedimiento:

Se selecciona un locus al azar de entre los loci de referencia y se registran su profundidad de lecturas y su contenido de GC. Posteriormente, se selecciona un locus al azar de entre los loci de prueba, con la única condición de que su contenido de GC sea similar al del locus de referencia. Se registra su profundidad de lecturas. La persona razonablemente versada en la técnica apreciará que la similitud entre los contenidos de GC puede abarcar un rango de contenidos de GC adecuados. Así, la referencia a un contenido de GC porcentual específico puede considerarse “aproximada”, “próxima” o “dentro de un rango adecuado” (p. ej., 1 a 2 %) que incluya el contenido de GC porcentual específico investigado. De este modo, se crea un par de loci de referencia y de prueba con contenidos de GC similares. Se registra la diferencia del par de loci de referencia y de prueba, notada E1. Luego, los loci se regresan a sus grupos respectivos. Este proceso se repite hasta crear una muestra de remuestreo del mismo tamaño que la cantidad de TACS de prueba presentes. Entonces, se estima y se registra una profundidad de lecturas representativa de la muestra de remuestreo, notada E_mu. Para ello, se pueden usar distintos métodos, incluidos, sin carácter taxativo, la media, la moda o la mediana del vector, y/o múltiplos de dichos valores.

El proceso descrito anteriormente se repite tantas veces como sea necesario y se crea una distribución de E_mu. Luego, se atribuye a la muestra una puntuación que corresponde a un percentil de esta distribución.

En el caso de los análisis estadísticos con una prueba de permutación, el conjunto de datos se ordena primero en dos grupos: los loci de prueba y los loci de referencia. Por cada grupo, se crean subconjuntos de grupos en los que los loci se categorizan de acuerdo con la similitud en sus contenidos de GC (véanse las columnas 2 y 3 del ejemplo no taxativo de la Tabla 2, a continuación). También se registra la cantidad de loci presentes en cada subgrupo de prueba. Los loci del grupo de prueba se usan para estimar la profundidad de lecturas del grupo de prueba, notada Yobs. Para hacerlo, puede seleccionarse un número representativo de cada subgrupo de contenido de GC. Para obtener una estimación de la profundidad de lecturas se pueden usar distintos métodos, incluidos, sin carácter taxativo, la media, la mediana o la moda de los loci seleccionados.

Tabla 2

Luego, se crea una distribución de los valores Yobs de prueba usando indistintamente loci que provengan del grupo de prueba o del grupo de referencia, tal como se explica a continuación. Los loci de prueba y de referencia de cada subgrupo de contenido de GC (véase la última columna del ejemplo de la Tabla 2) se combinan para permitir calcular una nueva estimación de la profundidad de lecturas. De cada subgrupo combinado, se escoge una cantidad de loci al azar, cantidad acotada superiormente por la cantidad de loci de prueba usados en el cálculo original de Yobs (p. ej., en el caso de un contenido de GC del 40 % y en el contexto del ejemplo no taxativo de la Tabla 2, esta cantidad de loci puede estar en el rango [1,ny40]). La nueva estimación de la profundidad de lecturas se calcula a partir de todos los loci seleccionados. El procedimiento se repite tantas veces como sea necesario para construir una distribución de las medias observadas. Luego, se le atribuye a una muestra una puntuación que corresponde a la posición de Yobs en esta distribución, usando una transformación adecuada que tiene en cuenta los momentos de la distribución construida. Al igual que con los métodos descritos anteriormente, se apreciará que se admite una ligera variación en el contenido de ^{g C}porcentual (p. ej., 1 a 2 %) si se considera adecuado. Así, la referencia a un contenido de GC específico puede interpretarse como “aproximada”, de manera que, por ejemplo, al hacer referencia a un contenido de GC del 40 %, el método puede utilizar los loci que tengan un contenido de GC de “aproximadamente” el 40 % (p. ej., entre el 39 y el 41 %).

En el caso del análisis estadístico con una prueba binomial de proporciones, se emplean los tamaños de fragmentos alineados a coordenadas genómicas específicas de los TACS. Se ha demostrado que los fragmentos de material genético acelular provenientes de la placenta tienden a ser de menor tamaño que los de otros tipos de material genético acelular (Chan, K.C. (2004) Clin. Chem. 50:88-92). Así, el estadístico de interés es si la proporción de fragmentos pequeños alineados a una región de prueba específica de una TACS se aparta significativamente de lo que se espera en comparación con la proporción respectiva de otras regiones de referencia específicas de TACS, lo que indicaría una anomalía genética fetal.

De este modo, los tamaños de fragmentos se dividen en dos grupos. Los tamaños relacionados con los loci de prueba se asignan a un grupo y los tamaños de fragmentos relacionados con los loci de referencia se asignan al otro grupo. Posteriormente, en cada grupo, los tamaños de fragmentos se distribuyen en dos subgrupos, donde los fragmentos pequeños se asignan a un subgrupo y todos los fragmentos restantes se asignan al otro subgrupo. El último paso es calcular la proporción de fragmentos pequeños en cada grupo y usar estas cantidades en una prueba binomial de proporciones. La puntuación de la prueba se atribuye a la muestra investigada.

El resultado final de una muestra puede asignarse combinado una o más puntuaciones derivadas de los diferentes métodos estadísticos, ejemplos no taxativos de lo cual se muestran en el Ejemplo 4.

En el caso de los análisis estadísticos basados en métodos de segmentación, se obtiene la profundidad de lecturas y la composición de la secuencia de regiones genómicas de tamaño fijo que no se solapan entre sí. En el conjunto de datos que se obtiene, el sesgo en la profundidad de lecturas inducido por el contenido de GC se puede mitigar, sin carácter taxativo, usando un método de ajuste polinómico para estimar la profundidad de lecturas estimada de las regiones en función de su contenido de ^{G c .}Luego, se usa el valor esperado, que depende del contenido de GC, para normalizar las regiones mediante métodos adecuados conocidos para la persona versada en la técnica. Posteriormente, el conjunto de datos normalizado se procesa mediante una o más rutinas de clasificación basadas en la segmentación. Para ello, los algoritmos procesan puntos de datos consecutivos para detectar la presencia de variaciones en la profundidad de lecturas, que se manifiestan como “saltos” o “caídas” respecto de los puntos de datos circundantes. En función de la rutina de segmentación empleada, se les asigna a los puntos de datos una puntuación que se usa para asignar la pertenencia a segmentos con profundidades de lecturas de desempeño similar. Por ejemplo, los puntos de datos consecutivos con valores de puntuación dentro de un rango adecuado podrían clasificarse como un segmento, mientras que los puntos de datos consecutivos con valores de puntuación que superaran umbrales definidos podrían asignarse a otro segmento. En el Ejemplo 6, se dan detalles de rutinas basadas en la segmentación.

Kits de la invención

En otro aspecto, la invención provee kits para aplicar los métodos de la divulgación. En una realización, el kit comprende un contenedor que consiste de la mezcla de TACS e instrucciones para aplicar el método. En una realización, las TACS se proveen en un formato que permite unirlas a un sustrato sólido, por ejemplo, pueden ser TACS biotiniladas. En otra realización, las TACS se proveen junto con un sustrato sólido, por ejemplo, TACS biotiniladas provistas junto con microesferas magnéticas recubiertas con estreptavidina.

En una realización, el kit comprende un contenedor que comprende la mezcla de TACS e instrucciones para aplicar el método, donde la mezcla de TACS comprende múltiples secuencias miembro, donde:

(i) cada secuencia miembro de la familia de TACS tiene entre 100 y 500 pares de bases (bp) de longitud, y cada secuencia miembro tiene un extremo 5' y un extremo 3';

(ii) cada secuencia miembro se une a la misma secuencia genómica de interés a una distancia de al menos 50 pares de bases, tanto en el extremo 5' como en el extremo 3', de regiones que presentan variaciones en el número de copias (CNV), duplicaciones segmentales o elementos de ADN repetitivo; y

(iii) el contenido de GC de la mezcla de TACS, que se determina calculando el contenido de GC de cada secuencia miembro de la mezcla de TACS, se encuentra entre el 19 % y el 80 %.

En una realización, la mezcla de TACS comprende múltiples familias de TACS, donde cada familia de TACS comprende múltiples secuencias miembro, donde cada secuencia miembro se une a la misma secuencia genómica de interés, pero tiene diferentes posiciones de inicio y/o fin con respecto a un sistema de coordenadas de referencia de la secuencia genómica de interés.

Además, cualquiera de las diversas características descritas en la presente en cuanto al diseño y la estructura de las TACS puede incorporarse a las TACS incluidas en el kit.

En varias otras realizaciones, el kit puede comprender otros componentes para realizar otros aspectos del método. Por ejemplo, además de la mezcla de TACS, el kit puede comprender uno o más de los siguientes: (i) uno o más componentes para aislar ADN acelular de una muestra biológica (p. ej., los que se describen en el Ejemplo 1); (ii) uno o más componentes para preparar la biblioteca de secuenciación (p. ej., cebadores, adaptadores, soluciones amortiguadoras, ligadores, enzimas de restricción, enzimas de ligación, polimerasas y similares, como los que se describen en el Ejemplo 1); (iii) uno o más componentes para amplificar y/o secuenciar la biblioteca enriquecida (p. ej., los que se describen en el Ejemplo 3); y/o (iv) software para realizar análisis estadístico (p. ej., el que se describe en el Ejemplo 4).

Análisis basado en fragmentos

En otro aspecto, la invención refiere al análisis de muestras basado en fragmentos, que se describe en mayor detalle en el Ejemplo 7. Hay evidencia en la literatura de que puede hallarse ADN fetal libre en el medio de los productos de concepción obtenidos por FIV y de que este puede usarse para la evaluación de anomalías cromosómicas (Liu, WeiQiang, et al. (2017)). Además, ciertos tipos específicos de anomalías genéticas pueden estar caracterizados por y/o asociados con fragmentos que tienen un tamaño menor al tamaño esperado de los fragmentos provenientes de tejidos sanos (Jiang et al., (2015), Proceedings of the National Academy of Sciences, 112(11), pp. E1317-E1325).

Entonces, la detección basada en fragmentos puede usarse para detectar anomalías. Por ejemplo, puede usarse una prueba binomial de proporciones, como se describe en el Ejemplo 4, para la detección de un aumento en la presencia de material de ácidos nucleicos proveniente de células anómalas sobre la base del tamaño de los fragmentos. En particular, bajo la hipótesis nula de que la distribución de tamaños de fragmentos provenientes de células euploides y aneuploides es la misma, se puede usar una prueba binomial de proporciones (como se describe en el Ejemplo 4) con corrección de continuidad para cuantificar cualquier evidencia en contrario.

Ejemplos

La presente invención se ilustra en mayor detalle mediante los siguientes ejemplos, pero no se debe interpretar que estos ejemplos limiten el alcance de la invención.

Ejemplo 1: Obtención de las muestras y preparación de las bibliotecas

En la Figura 1, se muestra de forma esquemática la metodología general para el enfoque de análisis paralelo multiplexado basado en TACS para la evaluación genética. En este ejemplo, se describen métodos para recolectar y procesar una muestra de ADN fetal o embrionario, seguido de la preparación de la biblioteca de secuenciación para su uso en la metodología de la Figura 1.

Obtención de las muestras

Se aplicó a muestras de células fetales obtenidas de biopsias de embriones de 3 y 5 días, respectivamente, la metodología de las TACS que se muestra en la Figura 1 a fin de determinar la presencia de anomalías genéticas. Los protocolos empleados para la obtención de muestras para nuestro estudio fueron aprobados por el Comité de Bioética Nacional de Chipre y se obtuvo el consentimiento informado de todas las participantes.

Preparación de las bibliotecas de secuenciación

Las células fetales recolectadas se lisaron inicialmente y se extrajo el ADN usando el kit PicoPLEX WGA Kit de Rubicon Genomics (Liang, L. et al. (2013) PLoS One 8(4), p. e61838). Luego de un paso de preamplificación, el material lisado se amplificó usando una enzima de amplificación y una solución amortiguadora suministrada por el fabricante. Posteriormente, el ADN se purificó y, a continuación, se fragmentó por sonicación. Luego de la fragmentación, se usaron métodos estándar de preparación de las bibliotecas, con las siguientes modificaciones. Se preparó una biblioteca de extracción independiente como control negativo para evaluar toda contaminación introducida durante el experimento. Durante este paso, las salientes 5' y 3' se completaron agregando 12 unidades de polimerasa T4 (NEB) y se incorporaron fosfatos 5' usando 40 unidades de polinucleótido quinasa T4 (NEB) en una reacción de 100 pl con posterior incubación a 25 °C durante 15 minutos y, luego, 12 °C durante 15 minutos. Los productos de reacción se purificaron con el kit MinElute (Qiagen). Posteriormente, se ligaron los adaptadores P5 y P7 (ver la sección sobre la preparación de los adaptadores) diluidos 1:10 a ambos extremos del ADN con 5 unidades de ligasa de ADN T4 (T4 DNA ligase, NEB) en una reacción de 40 pl durante 20 minutos a temperatura ambiente, seguido por una purificación con el kit MinElute (Qiagen). Se eliminaron las hendiduras de hebra simple (nicks) en una reacción de relleno con 16 unidades de polimerasa Bst (NEB) en una reacción de 40 pl con posterior incubación a 65 °C durante 25 minutos y, luego, 12 °C durante 20 minutos. Los productos se purificaron con el kit MinElute (Qiagen). La amplificación de las bibliotecas se realizó con una polimerasa Fusion (Herculase II Fusion DNA polymerase de Agilent Technologies o Pfusion High Fidelity Polymerase de NEB) en reacciones de 50 pl con las siguientes condiciones de termociclado: 95 °C durante 3 min; seguido por 10 ciclos de 95 °C durante 30 s, 60 °C durante 30 s y 72 °C durante 30 s; y, por último, 72 °C durante 3 min (Koumbaris, G. et al. (2015) Clinical Chemistry, 62(6), pp. 848-855). Los productos finales de las bibliotecas se purificaron con el kit de purificación MinElute (Qiagen) y se midieron por espectrofotometría.

Preparación de los adaptadores

Se prepararon mezclas de hibridación de los adaptadores P5 y P7 por separado y se las incubó durante 10 s a 95 °C, seguido por una rampa de 95 °C a 12 °C a razón de 0,1° C/s. Las reacciones de P5 y P7 se combinaron para obtener una mezcla de adaptadores lista para usar (100 pM de cada adaptador). Las mezclas de hibridación se prepararon de la siguiente manera. La mezcla de reacción P5 contenía el adaptador P5_F (500 pM) a una concentración final de 200 pM y el adaptador P5+P7_R (500 pM) a una concentración final de 200 pM, con una solución amortiguadora de hibridación de oligonucleótidos en concentración 1 X. Por su parte, la mezcla de reacción P7 contenía el adaptador P7_F (500 pM) a una concentración final de 200 pM y el adaptador P5+P7_R (500 pM) a una concentración final de 200 pM, con una solución amortiguadora de hibridación de oligonucleótidos en concentración 1 X (Koumbaris, G. et al. (2015) Clinical Chemistry, 62(6), pp. 848-855). Las secuencias fueron las siguientes, donde * representa un enlace fosforotioato (PTO) (Integrated ^dNA Technologies):

adaptador P5_F:

A*c *a *C*TCTTTCCCTACACGACGCTCTTCCG*A*T*C*T (ID DE SEC. N.°: XX)

adaptador P7_F:

G*t *g *A*CTGGAGTTCAGACGTGTGCTCTTCCG*A*T*C*T (ID DE SEC. N.°: YY)

adaptador P5+ P7_R:

A*G*A*T*CGGAA*G*A*G*C (ID DE SEC. N.°: ZZ)

Ejemplo 2: Diseño y preparación de secuencias de captura de blancos (TACS)

En este ejemplo, se describe la preparación de TACS personalizadas para la detección de anomalías cromosómicas totales o parciales en los cromosomas 1-22, X e Y o cualquier otro, así como otras anomalías genéticas, incluidas, sin carácter taxativo, mosaicismo cromosómico, síndromes asociados con microdeleciones o microduplicaciones, translocaciones, inversiones, inserciones y otras mutaciones puntuales o pequeñas. Los loci genómicos blanco usados para el diseño de las TACS se seleccionaron en función de su contenido de GC y su distancia a elementos repetitivos (distancia mínima de 50 bp). El tamaño de las TACS puede ser variable. En una realización del método, el tamaño de las TACS varía entre 100 y 500 bp y las TACS se generan mediante un método basado en la reacción en cadena de la polimerasa (PCR), que se describe a continuación. Las TACS se prepararon mediante una PCR símplex con polimerasa Taq estándar, cebadores diseñados para amplificar los loci blanco y ADN normal como molde.

Todas las TACS personalizadas se generaron empleando las siguientes condiciones de termociclado: 95 °C durante 3 minutos; 40 ciclos de 95 °C durante 15 segundos, 60 °C durante 15 segundos, 72 °C durante 12 segundos; y 72 °C durante 12 segundos, seguido por la verificación mediante electroforesis en gel de agarosa y purificación mediante kits estándar de limpieza de productos de PCR, como el kit Qiaquick PCR Purification Kit (Qiagen), el kit NucleoSpin 96 PCR Clean-up Kit (Macherey-Nagel) o el kit Agencourt AMPure XP for PCR Purification (Beckman Coulter). La concentración se midió con un instrumento NanoDrop (Thermo Scientific).

Ejemplo 3 : Hibridación de las TACS y amplificación

En este ejemplo, se describen los pasos que se ilustran esquemáticamente en la Figura 1: captura de blancos por hibridación con TACS, seguida de la cuantificación de las secuencias capturadas mediante secuenciación de última generación (NGS).

Biotinilación de las TACS

Las TACS se prepararon para su hibridación de acuerdo con un protocolo descrito anteriormente (Koumbaris, G. et al. (2015) Clinical Chemistry, 62(6), pp. 848-855). Se comenzó por obtener extremos romos con el kit Quick Blunting Kit (NEB) y una incubación a temperatura ambiente durante 30 minutos. Posteriormente, los productos de la reacción se purificaron con el kit MinElute (Qiagen) y se ligaron a un adaptador de biotina mediante el kit Quick Ligation Kit (NEB) en una reacción de 40 pl a temperatura ambiente durante 15 minutos. Los productos de la reacción se purificaron con el kit MinElute (Qiagen) y se desnaturalizaron para obtener ADN de hebra simple antes de su inmovilización en microesferas magnéticas recubiertas con estreptavidina (Invitrogen).

Hibridación de TACS

Las bibliotecas amplificadas se mezclaron con oligonucleótidos de bloqueo (Koumbaris, G. et al. (2105) Clinical Chemistry, 62(6), pp. 848-855) (200 |^j M), 5 |jg de ADN Cot-1 (Cot-1 DNA, Invitrogen), 50 |jg de ADN de esperma de salmón (Salmon Sperm DNA, Invitrogen), buffer de hibridación Agilent en concentración 2 X y agente bloqueador Agilent en concentración 10 X, y se calentaron a 95 °C durante 3 min para desnaturalizar las hebras de ADN. Luego de la desnaturalización, se realizó una incubación durante 30 minutos a 37 °C para bloquear los elementos repetitivos y las secuencias de los adaptadores. La mezcla resultante se agregó a las TACS biotiniladas. Todas las muestras se incubaron en un incubador giratorio durante 12 a 48 h a 66 °C. Luego de la incubación, las microesferas se lavaron como se describió anteriormente y el ADN se eluyó por calentamiento (Koumbaris, G. et al. (2105) Clinical Chemistry, 62(6), pp. 848-855). Los productos eluidos se amplificaron con cebadores de adaptadores dirigidos hacia fuera. Los productos amplificados enriquecidos se combinaron de forma equimolar y se secuenciaron en una plataforma adecuada.

Ejemplo 4: Análisis bioinformático de las muestras

En este ejemplo, se describen enfoques representativos de análisis estadístico para usar en la metodología que se ilustra en la Figura 1 ("Pipeline de análisis” en la Figura 1).

Alineación con el genoma humano

Por cada muestra, se aplicó la rutina bioinformática (pipeline) que se describe a continuación para alinear los fragmentos de ADN secuenciados de cada muestra con el genoma humano de referencia. Los fragmentos de lecturas apareadas dirigidas obtenidos de los resultados de la NGS se procesaron para eliminar las secuencias de adaptadores y las lecturas de baja calidad (puntuación Q < 25) con el software cutadapt (Martin, M. et al. (2011) EMB.netJournal 17.1). La calidad de las lecturas crudas y/o procesadas, junto con toda estadística descriptiva que ayudara a evaluar la calidad del resultado de la secuenciación de la muestra, se obtuvieron con el software FastQC (Babraham Institute (2015) FastQC) y/u otras herramientas de software propias. Las lecturas procesadas de al menos 25 bases de longitud se alinearon al genoma humano de referencia, versión hg 19 (UCSC Genome Bioinformatics), con un algoritmo de alineación basado en la transformación de Burrows-Wheeler (Li, H. and Durbin, R. (2009) Bioinformatics 25:1754-1760), pero también pueden usarse otros algoritmos conocidos para la persona versada en la técnica. Si correspondía, las lecturas duplicadas se eliminaron luego de la alineación. En los casos en que correspondía, el resultado de la secuenciación obtenido de la misma muestra, pero procesado en distintas calles (lanes) de secuenciación, se combinó en un único archivo de salida. Los procedimientos de eliminación de lecturas duplicadas y combinación se realizaron con el paquete de herramientas de software Picard (Broad Institute (2015) Picard) y/o el paquete de herramientas de software Sambamba (Tarasov, Artem, et al. "Sambamba: fast processing of NGS alignment formats." Bioinformatics 31.12 (2015): 2032-2034).

El análisis de software anterior resultó en una versión final alineada de una muestra secuenciada contra el genoma humano de referencia, y todos los pasos ulteriores se basaron en esta versión alineada. La información relativa a los polimorfismos de nucleótidos individuales (SNP) en los loci de interés se obtuvo con la herramienta bcftools del paquete de software samtools (Li, H. et al. (2009) Bioinformatics 25:2078-2079) y/u otro software conocido para la persona versada en la técnica. La profundidad de lecturas por base en los loci de interés —denominada, en lo sucesivo, archivo mpileup— se obtuvo con la opción mpileup del paquete de software SAMtools. La información relativa al tamaño de los fragmentos alineados —denominada, en lo sucesivo, archivo de tamaños de fragmentos— se obtuvo con la opción view del paquete de software SAMtools y/u otro software conocido para la persona versada en la técnica.

El archivo mpileup y el archivo de tamaños de fragmentos se procesaron con interfaces de programación de aplicación (API) personalizadas escritas en los lenguajes de programación Python y R (Python Software Foundation (2015) Python; The R Foundation (2015) The R Project for Statistical Computing). Las API se usaron para determinar la ploidía de los cromosomas de interés y/u otras anomalías genéticas en regiones de interés a lo largo del genoma humano mediante una serie de pasos (denominados colectivamente, en lo sucesivo, "el algoritmo") y también para recopilar otras estadísticas descriptivas previstas para usar como métricas de control de calidad, tales como —sin carácter taxativo— la cuantificación de la fracción fetal (denominadas colectivamente, en lo sucesivo, "métricas de control de calidad"). Las API también pueden usarse para la evaluación de anomalías genéticas a partir de datos generados al aplicar el método descrito en casos de embarazos múltiples, así como otras anomalías genéticas como —sin carácter taxativo— las microdeleciones, las microduplicaciones, los cambios en el número de copias, las translocaciones, las inversiones, las inserciones, las mutaciones puntuales y los perfiles de mutaciones.

Métricas de control de calidad

Se emplearon métricas de control de calidad para inspeccionar las propiedades de una muestra alineada y decidir si la muestra era apta para clasificación. Una de estas métricas fue, sin carácter taxativo, el enriquecimiento de una muestra. Los patrones de enriquecimiento son indicativos de si una muestra tiene un enriquecimiento adecuado entre los loci de interés en un experimento de secuenciación dado (denominado, en lo sucesivo, una "corrida"). Para evaluar esto, se consideran distintas métricas, que incluyen, sin carácter taxativo:

(i) la profundidad de lecturas específicas en la muestra en su conjunto;

(ii) el volumen de secuenciación específico de la muestra con relación a la cantidad total de lecturas mapeadas;

(iii) el rendimiento de TACS individuales en términos de la profundidad de lecturas alcanzada;

(iv) la curtosis y la asimetría estadística del enriquecimiento de TACS individuales;

(v) los momentos de curtosis y asimetría estadística que surgen de todas las TACS;

(vi) la distribución de tamaños de fragmentos;

(vii) el porcentaje de duplicación;

(viii) el porcentaje de lecturas apareadas; y

(ix) el porcentaje de lecturas alineadas,

si corresponde.

Las comprobaciones anteriores también se tienen en consideración en relación con el enriquecimiento del sesgo inducido por el contenido de GC. Las muestras que no cumplen con uno o más de los criterios mencionados anteriormente se identifican para su inspección ulterior antes de la clasificación.

El algoritmo

El algoritmo es una colección de rutinas de procesamiento de datos y modelos matemáticos y estadísticos organizados como una serie de pasos. Los pasos del algoritmo buscan determinar la ploidía individual de un cromosoma de interés en relación con todos los demás cromosomas de la muestra secuenciada y se usan para la detección de anomalías cromosómicas totales o parciales en los cromosomas 1-22, X e Y o cualquier otro, así como otras anomalías genéticas como, por ejemplo —sin carácter taxativo—, el mosaicismo cromosómico, los síndromes de microdeleciones/microduplicaciones y otras mutaciones puntuales o pequeñas. Así, el algoritmo puede usarse, sin carácter taxativo, para la detección de anomalías cromosómicas totales o parciales en los cromosomas 13, 18, 21, X, Y o cualquier otro, así como otras anomalías genéticas, incluidas, sin carácter taxativo, microdeleciones, microduplicaciones, variaciones en el número de copias, translocaciones, inversiones, inserciones, mutaciones puntuales y otros perfiles de mutaciones.

En el caso de pruebas asociadas con la profundidad de lecturas, el algoritmo compara secuencialmente la profundidad de lecturas de los loci de cada cromosoma de interés (denominado, en lo sucesivo, cromosoma de prueba) contra la profundidad de lecturas de todos los demás loci (denominados, en lo sucesivo, loci de referencia) para determinar su ploidía. Por cada muestra, los pasos fueron, sin carácter taxativo, los siguientes:

(a) Eliminar los loci secuenciados de forma inadecuada. Se obtuvo la profundidad de lecturas de cada locus. Los loci que no alcanzaron una cantidad mínima de lecturas se consideraron insuficientemente enriquecidos y se eliminaron antes de los pasos ulteriores.

(b) Mitigar el sesgo genético (sesgo inducido por el contenido de GC). El procedimiento de secuenciación puede introducir discrepancias en la profundidad de lecturas entre los loci de interés en función de su contenido de GC. Para considerar tal sesgo, se empleó un nuevo enfoque de apareamiento de secuencias que aumenta tanto la sensibilidad como la especificidad a la hora de detectar aneuploidías cromosómicas. Se identificó el contenido de GC de cada locus del cromosoma de prueba y se agruparon los loci genéticos similares para formar grupos genéticamente apareados. El procedimiento se repitió con los loci de referencia. Luego, los grupos genéticamente apareados del cromosoma de prueba se aparearon condicionalmente con sus grupos genéticamente apareados contrapartes en el/los cromosoma(s) de referencia. Los grupos pueden tener cualquier cantidad de miembros. Luego, los grupos condicionalmente apareados se usaron para determinar la ploidía de los cromosomas de prueba.

(c) Determinar las anomalías genéticas. La determinación de la condición en cuanto a la ploidía u otras anomalías genéticas de interés, incluidas, sin carácter taxativo, las microdeleciones, las microduplicaciones, los cambios en el número de copias, las translocaciones, las inversiones, las inserciones, las mutaciones puntuales y otros perfiles de mutaciones, se logró usando un único método estadístico y/o un enfoque de puntuaciones ponderadas aplicado a los resultados de los siguientes métodos estadísticos, sin carácter taxativo:

Método estadístico 1: Las diferencias en las profundidades de lecturas entre los grupos condicionalmente apareados se evaluaron para determinar su significación estadística con la fórmula de la prueba t:

donde t es el resultado de la prueba t, x es el promedio de las diferencias entre los grupos condicionalmente apareados, y es la profundidad de lecturas esperada y se fija en un valor que representa diferencias de profundidad de lecturas insignificantes entre ambos grupos, s es la desviación estándar de las diferencias entre los grupos condicionalmente apareados y n es la longitud del vector de las diferencias condicionalmente apareadas. La magnitud del estadístico t se usó para identificar la evidencia, si correspondía, contra la hipótesis nula de igualdad de ploidía entre los cromosomas de referencia y de prueba. Específicamente, t >= c1 (donde c1 es un umbral predefinido que pertenece al conjunto de todos los números positivos) indica evidencia en contra de la hipótesis nula de que no existen diferencias.

Método estadístico 2: Remuestreo bivariado no paramétrico. El método de remuestreo (bootstrap) depende de la relación entre las variables aleatorias X (profundidad de lecturas de los loci de referencia) e Y (profundidad de lecturas de los loci de prueba). Aquí, la profundidad de lecturas de los señuelos en el grupo de referencia (variable aleatoria denotada por X) fueron tratados como la covariable independiente. El primer paso del procedimiento iterativo involucró un muestreo al azar con remuestreo (bootstrapping) de las profundidades de lecturas de los loci en los cromosomas de referencia, es decir, (x1,g1), ..., (xn,gn), donde el parámetro g es conocido y representa el contenido de GC del señuelo escogido. Luego, por cada señuelo de referencia seleccionado aleatoriamente (xi,gi), se generó una profundidad de lecturas correspondiente para un locus genéticamente apareado, a saber, (y1,g1), ..., (yn,gn). Así, se obtuvieron los datos bivariados (x1,y1), (x2,y2), ..., (xn,yn), condicionalmente apareados en función de su contenido de GC (parámetro gi). Las diferencias entre las profundidades de lecturas de los valores remuestreados genéticamente apareados xi e yi se usaron para calcular el estadístico de interés en cada iteración. En una realización, esta medida estadística puede ser, sin carácter taxativo, la moda, la media o la mediana de las diferencias registradas, y/o múltiplos de dichos valores. El procedimiento se repitió la cantidad de veces necesarias para construir la distribución del estadístico de interés a partir de estas diferencias. Se asignó a la muestra una puntuación que corresponde a un percentil específico de la distribución construida (p. ej., el 5.° percentil). Bajo la hipótesis nula, la ploidía es la misma entre los cromosomas de los grupos de referencia y de prueba. Así, las muestras en las que la puntuación de un cromosoma en particular era mayor a un umbral predefinido, notado c2, se clasificaron como muestras en las que era estadísticamente improbable que la ploidía fuera la misma que en la referencia. También pueden emplearse otras medidas estadísticas.

Método estadístico 3: Prueba de permutaciones estratificadas. El estadístico de interés es la profundidad de lecturas estimada del cromosoma de prueba, denotada por Po6s, que se calcula a partir de todos los loci de los grupos genéticamente apareados de los cromosomas de prueba de la siguiente manera:

donde yij es la profundidad de lecturas del locus i que forma parte del grupo genéticamente apareado j (es decir, los loci que pertenecen a un grupo específico en virtud de su contenido de GC), Nj es la cantidad de loci de prueba que son parte del grupo genéticamente apareado j y T es la cantidad de grupos genéticamente apareados.

A continuación, se construyó una distribución nula para evaluar Yobs. Para hacerlo, por cada grupo j, los loci de prueba y de referencia se combinaron (intercambiabilidad bajo la hipótesis nula) y cada grupo j se muestreó aleatoriamente hasta Nj veces sin reposición (permutación estratificada). Esto creó un vector de valores, notado yi, del cual se calculó el valor promedio. El procedimiento se repitió la cantidad de veces necesarias para construir la distribución nula. Por último, ?obs se studentizó respecto de la distribución nula con la siguiente fórmula:

donde Y y oY son el primer momento y la raíz cuadrada del segundo momento de todos los valores estadísticos y¡ permutados. En las muestras cuyos valores de ZY0bs eran mayores de un umbral predefinido, notado c3, era estadísticamente menos probable que la ploidía fuera la misma entre los grupos de referencia y de prueba.

En el caso de las pruebas asociadas con los tamaños de fragmentos, el algoritmo calcula la proporción de fragmentos pequeños en los loci de prueba y la compara con la correspondiente proporción en los loci de referencia, como se describe en el método estadístico 4, a continuación.

Método estadístico 4: Proporciones de tamaños de fragmentos. Por cada muestra, se extrae la cantidad y el tamaño de los fragmentos alineados al genoma humano de referencia en las coordenadas correspondientes a las TACS. Posteriormente, los datos se filtran para eliminar los tamaños de fragmentos que se consideran valores estadísticamente atípicos usando el método de detección de valores atípicos basado en la mediana. Específicamente, se definen como valores atípicos aquellos fragmentos cuyo tamaño es mayor o menor a los umbrales Fthr.

dados por la siguiente ecuación:

donde Fmedian es la mediana del tamaño de todos los fragmentos de una muestra, X es una variable que puede asumir valores en el conjunto R+ e IQR es el rango intercuartílico de los tamaños de fragmentos. Posteriormente, se realiza una prueba binomial de proporciones para buscar evidencia en contra de la hipótesis nula, H0, definida de la siguiente manera:

H0: La proporción de fragmentos pequeños en la región de prueba no difiere de la proporción de fragmentos pequeños en la región de referencia.

En varias realizaciones de la invención, los fragmentos pequeños se definen como aquellos fragmentos cuyo tamaño es menor o igual a un subconjunto de Z+ acotado superiormente por 160 bp. Si definimos como T el conjunto de todas las TACS, la región de prueba puede ser cualquier subconjunto propio S que defina la región investigada, y la región de referencia es el complemento relativo de S en T. Por ejemplo, en una realización de la invención, el conjunto S se define como el conjunto de todas las secuencias capturadas por TACS del cromosoma 21 y, por consiguiente, el conjunto de referencia se define como el conjunto de todos los fragmentos capturados por TACS en los cromosomas de referencia y/u otros loci de referencia.

La hipótesis alternativa, H1, se define de la siguiente manera:

H1: La proporción de fragmentos pequeños en la región de prueba difiere de la proporción de fragmentos pequeños en la región de referencia.

Así, teniendo en cuenta la corrección por continuidad, se calcula la siguiente puntuación (Brown et al., Harrel):

donde

F es la cantidad de fragmentos pequeños en la región de prueba, Fref es la cantidad de fragmentos pequeños en la región de referencia, Ntest es la cantidad total de fragmentos en la región de prueba y Nref es la cantidad total de fragmentos en la región de referencia.

Por cada muestra, el algoritmo contrasta secuencialmente la proporción de tamaños de fragmentos de las regiones investigadas (por ejemplo, sin carácter taxativo, el cromosoma 21, el cromosoma 18, el cromosoma 13 u otras regiones de interés [sub]cromosómicas) contra las regiones de referencia, es decir, aquellas no investigadas en la prueba. Por cada muestra, se asigna una puntuación por cada prueba. Las puntuaciones superiores a un umbral, notado c4, proveen evidencia en contra de la hipótesis nula.

Método de puntuación ponderada 1: En una realización del método, se atribuyó a cada muestra s una puntuación ponderada, calculada como la suma ponderada de todos los métodos estadísticos de acuerdo con la siguiente fórmula:

VS(R,F) = z1max{Rs, Fs] (1 — z1)m¿n{fís,Fs)

donde Rs es la puntuación corregida específica de la corrida obtenida de una contribución ponderada de cada método estadístico relacionado con la profundidad de lecturas de la muestra s, que se define como:

y Rr es la mediana específica de la corrida, calculada a partir del vector de todas las puntuaciones no ajustadas ponderadas relacionadas con la profundidad de lecturas obtenidas de una única corrida de secuenciación, y Or es un múltiplo del desvío estándar de las puntuaciones R calculado a partir de un conjunto de referencia de 100 muestras euploides. Los términos max{Rs,Fs} y min{Rs,Fs} denotan los valores máximo y mínimo del conjunto entre llaves, respectivamente.

Fs es la puntuación corregida específica de la corrida obtenida del método estadístico relacionado con los tamaños de fragmentos y se define como:

donde Wtest tiene la misma definición que antes, Rf es la mediana específica de la corrida, calculada a partir del vector de todas las puntuaciones estadísticas no ajustadas relacionadas con los fragmentos obtenidas de una única corrida de secuenciación, y Of es un múltiplo del desvío estándar de las puntuaciones F calculado a partir de un conjunto de referencia de 100 muestra euploides.

Una puntuación de clasificación única inferior a un valor predefinido indica que no hay evidencia en los datos observados de que una muestra tenga un riesgo significativo de aneuploidía.

Método de puntuación ponderada 2 : En otra realización del método, la puntuación ponderada obtenida de los métodos estadísticos descritos anteriormente se usó para asignar a cada muestra una puntuación única de riesgo de anomalía genética de acuerdo con la siguiente fórmula:

donde R es el resultado de la puntuación ponderada, wj es el peso asignado al método j, tj es la puntuación observada resultante del método j, y cj es el umbral del método j.

Dado que se asumió que todas las profundidades de lecturas de los señuelos del grupo de referencia provenían de la misma población, y para tener un umbral universal, se emplearon ajustes específicos de cada corrida para aliviar los sesgos específicos de cada corrida.

El/los método(s) mencionado(s) también es/son adecuado(s) para la detección de otras anomalías genéticas, incluidas, sin carácter taxativo, las anomalías subcromosómicas. Un ejemplo no taxativo es la pérdida parcial contigua de material cromosómico que da lugar a una microdeleción, o la incorporación parcial contigua de material cromosómico que da lugar a una microduplicación. Un locus genético conocido sujeto a ambas anomalías es el 7q11.23. En una realización del método estadístico 1, se evaluaron muestras de plasma sintéticas con 5 %, 10 % y 20 % de material fetal para evaluar el aumento del riesgo de microdeleciones y/o microduplicaciones en el locus genético 7q11.23.

En el caso de las mutaciones puntuales, se realizan varias pruebas binomiales que consideran la estimación de la fracción fetal de la muestra, notada f, la profundidad de lecturas del alelo menor, notada r, y la profundidad de lecturas total de la base secuenciada, notada n. Dos ejemplos frecuentes, pero no taxativos, involucran la evaluación del riesgo cuando la anomalía genética es una mutación puntual recesiva o una mutación puntual dominante.

Además de los anteriores, se desarrollaron métodos de determinación del sexo, ejemplos no taxativos de los cuales se describen a continuación. En una realización de la invención, se asignó el sexo fetal a una muestra usando una prueba de Poisson dada por la siguiente fórmula:

donde , * =

y f es la fracción fetal estimada de la muestra, B es la cantidad de secuencias blanco en el cromosoma Y, p es la profundidad de lecturas de la muestra y k es la suma de las lecturas obtenidas de todos los blancos B. La hipótesis nula de la prueba de Poisson fue que la muestra era masculina. Un valor de Pr(ry ) menor a un umbral cy se consideró como evidencia suficiente para rechazar la hipótesis nula, es decir, concluir que la muestra no era masculina. En los casos en los que uno o más de los términos para calcular Pr(ry ) no estaban disponibles, el sexo de la muestra se clasificó como no disponible (NA).

En otra realización de la invención, el sexo fetal se asignó usando la profundidad de lecturas promedio de las secuencias blanco en el cromosoma Y. Si la profundidad de lecturas promedio de las secuencias blanco era superior a un umbral predefinido, donde tal umbral puede definirse en función de otras características específicas de la muestra, como la profundidad de lecturas y la fracción fetal estimada, el sexo fetal se clasificó como masculino. Si la profundidad de lecturas promedio era inferior a dicho umbral, la muestra se clasificó como femenina.

Ejemplo 5 : Enriquecimiento de blancos usando familias de TACS

En este ejemplo, una familia de TACS, que contenía múltiples miembros que se unían todos a la misma secuencia blanco de interés, se usó para el enriquecimiento, en lugar de usar una única TACS que se uniera a una secuencia blanco de interés. Cada miembro de la familia de TACS se unía a la misma secuencia blanco de interés, pero tenía diferentes coordenadas de inicio y/o fin con respecto a un sistema de coordenadas de referencia de dicha secuencia blanco (p. ej., la versión hg 19 del genoma humano de referencia). Así, cuando se alinea a la secuencia blanco, la familia de TACS exhibe un patrón de unión escalonado, como se muestra en la Figura 3. Normalmente, los miembros de la familia de TACS estaban escalonados aproximadamente entre 5 y 10 pares de bases.

Se preparó una familia de TACS que contenía cuatro miembros (es decir, cuatro secuencias que se unían a la misma secuencia blanco, pero con diferentes posiciones de inicio/fin, de modo que la unión de los miembros a la secuencia blanco era escalonada). También se preparó una hibridación de una TACS individual como control. Las TACS se fijaron a un sustrato sólido marcándolas con biotina y uniéndolas a microesferas magnéticas recubiertas con una sustancia que se une a la biotina (p. ej., estreptavidina o avidina), como se describió en el Ejemplo 3. Luego, la familia de TACS y la TACS individual se hibridaron a una biblioteca de secuencias, las secuencias unidas se eluyeron y amplificaron, y estos productos de amplificación enriquecidos se combinaron de forma equimolar y se secuenciaron en una plataforma de secuenciación adecuada, como se describió en el Ejemplo 3.

Las secuencias enriquecidas de la muestra con la familia de TACS y de la muestra con la TACS individual se analizaron para determinar la profundidad de lecturas. Los resultados se muestran en las Figuras 4A y 4B. Como se observa en la Figura 4A, las secuencias blanco de interés enriquecidas con la familia de cuatro TACS (puntos rojos) mostraron un cambio relativo en la profundidad de lecturas en comparación con las secuencias de control enriquecidas con una TACS individual (puntos azules). Para determinar el cambio relativo, se normalizó la profundidad de lecturas en cada locus por la profundidad de lecturas promedio de una muestra, donde la profundidad de lecturas promedio se calculó a partir de todos los loci enriquecidos con una TACS individual. Como se muestra en la Figura 4B, se observó un aumento promedio general del 54,7 % en la profundidad de lecturas con la familia de cuatro TACS.

Este ejemplo demuestra que el uso de una familia de TACS en lugar de una TACS individual mejora significativamente el enriquecimiento de una secuencia blanco de interés, lo que resulta en un aumento significativo de la profundidad de lecturas de esa secuencia.

Ejemplo 6: Análisis de muestras de ADN fetal a partir de una biopsia embrionaria

En este ejemplo, muestras de ADN fetal obtenidas de células fetales de una biopsia embrionaria se analizaron mediante la metodología de las TACS que se muestra en la Figura 1 a fin de detectar anomalías cromosómicas en las muestras fetales.

Obtención de las muestras fetales, preparación de las bibliotecas y enriquecimiento mediante TACS

Se aplicó a muestras de células fetales obtenidas de biopsias de embriones de 3 y 5 días, respectivamente, la metodología de las TACS que se muestra en la Figura 1 a fin de determinar la presencia de anomalías genéticas. Todas las muestras se sometieron previamente a detección genética previa a la implantación (PGS) y a hibridación genómica comparativa basada en microarreglos (aCGH) como parte de los estudios de rutina. Los resultados de la aCGH se usaron como patrón de referencia de los resultados obtenidos.

Las células fetales recolectadas se lisaron inicialmente y se extrajo el ADN usando el kit PicoPLEX WGA Kit de Rubicon Genomics (Liang, L. et al. (2013) PLoS One 8(4), p. e61838).

En el caso de ciertas muestras de las que debía realizarse secuenciación de genoma completo, el material lisado se sometió a amplificación de genoma completo usando kits comerciales diseñados para tal fin. Brevemente, luego de un paso de preamplificación, el material lisado se amplificó usando una enzima de amplificación y una solución amortiguadora suministrada por el fabricante. Posteriormente, el ADN se purificó y, a continuación, se fragmentó por sonicación. Luego, el ADN fragmentado se procesó mediante métodos estándar de preparación de bibliotecas de secuenciación, como se describió en el Ejemplo 1. Estos suelen involucrar la ligación de adaptadores en los extremos de los fragmentos de ADN libre, seguida de amplificación. Además de la descripción que se proporcionó en el Ejemplo 1, hay kits de preparación de bibliotecas de secuenciación disponibles comercialmente para este fin.

En el caso de las muestras a las que se les debía aplicar el enriquecimiento basado en TACS, la biblioteca de secuenciación obtenida mediante los métodos anteriores se sometió a hibridación con TACS, esencialmente de acuerdo con lo que se describió en el Ejemplo 3. Para enriquecer la(s) región/ones de interés del/de los cromosoma(s) de interés, se hizo la mezcla de TACS con la biblioteca de secuenciación y, a continuación, se aislaron las secuencias de la biblioteca de secuenciación que habían hibridado con las TACS. Para facilitar el aislamiento de las secuencias deseadas enriquecidas, las TACS generalmente se modificaron de tal manera que las secuencias que hibridaran con las TACS pudieran separarse de aquellas que no hibridaran con las TACS. Por lo general, esto se logró fijando las TACS a un sustrato sólido como se describió en el Ejemplo 3, lo que permitió la separación física de las secuencias que habían hibridado con las TACS de aquellas que no habían hibridado con las TACS. La mezcla de TACS usada puede contener múltiples TACS individuales que se unen a diferentes secuencias blanco de interés o, como alternativa, puede contener múltiples familias de TACS, cada una de las cuales contiene múltiples miembros que se unen a la misma secuencia blanco de interés, pero con diferentes posiciones de inicio y/o fin en la secuencia blanco, tal y como se describió en el Ejemplo 5.

Para el análisis de muestras de ADN fetal mediante enriquecimiento basado en TACS, la mezcla de TACS puede contener TACS dirigidas a un subconjunto de cromosomas de interés (p. ej., los cromosomas 13, 18, 21, X e Y). Más preferentemente, sin embargo, la mezcla de TACS contiene diversas TACS dirigidas a todos los cromosomas del genoma humano (los cromosomas 1 a 22, X e Y), de modo que se abarque todo el genoma, lo que permite la determinación de anomalías cromosómicas en cualquier cromosoma del genoma humano.

Por lo general, se usó secuenciación de última generación (NGS) para secuenciar las secuencias enriquecidas mediante TACS (o el genoma completo, en el caso de las muestras analizadas por secuenciación de genoma completo), lo que arrojó recuentos muy exactos, así como información sobre la secuencia. Los productos de las bibliotecas se combinaron de forma equimolar y, luego, se secuenciaron.

Análisis de los datos

Los datos obtenidos por NGS se procesaron para eliminar las secuencias adaptadoras y las lecturas de baja calidad. Las lecturas cuya longitud era de al menos 25 bases luego de eliminar los adaptadores se alinearon contra la versión hg 19 del genoma humano de referencia. Si correspondía, las lecturas duplicadas se eliminaron luego de la alineación. En los casos en que correspondía, el resultado de la secuenciación obtenido de la misma muestra, pero procesado en distintas calles (lanes) de secuenciación, se combinó en un único archivo de salida. El análisis de software dio como resultado una versión final de una muestra secuenciada alineada contra el genoma de referencia humano, de la cual luego se extrajo información en términos de los polimorfismos de nucleótidos individuales (SNP) en los loci de interés, la profundidad de lecturas por base y el tamaño de los fragmentos alineados.

Tanto en el caso de la secuenciación de genoma completo como en la secuenciación de genoma completo basada en TACS, se obtuvo la profundidad de lecturas de regiones genómicas no solapadas de tamaño fijo (p. ej., 50 kb o 1 Mb) usando la herramienta bedcov del paquete samtools, que calcula la suma de todas las lecturas en una región genómica especificada. El valor obtenido se dividió entre la longitud de las ventanas. En el caso de la secuenciación dirigida basada en TACS, la profundidad de lecturas se obtuvo usando la herramienta mpileup del paquete samtools, que proporciona información sobre la profundidad de lecturas por base en secuencias contiguas especificadas o la herramienta bedcov. La mediana de los valores medidos se asignó como profundidad de lecturas de un locus determinado. Los valores atípicos de profundidad de lecturas se eliminaron usando un enfoque de detección de valores atípicos basado en la mediana o en la media. Por último, se mitigó el sesgo en la profundidad de lecturas inducido por el contenido de GC usando un método de ajuste polinomial local para estimar la profundidad de lecturas esperada de las regiones en función de su contenido de GC y, luego, normalizando las regiones respecto de este valor esperado.

La profundidad de lecturas normalizada de todas las regiones se usó como entrada para

(a) distintos algoritmos de clasificación basados en la segmentación (que se describen en más detalle abajo) y/o

(b) algoritmos de clasificación basados en puntuaciones (que se describen en más detalle abajo),

los cuales luego se usaron para determinar la ploidía de las regiones interrogadas, así como el tamaño de las aneuploidías genéticas, en su caso. Los algoritmos de clasificación basados en puntuaciones se usaron únicamente con los datos de secuenciación tras enriquecimiento.

Determinación de la ploidía usando algoritmos de segmentación

Se desarrollaron tres tipos diferentes de algoritmos de segmentación y estos se aplicaron al análisis de muestras de ADN fetal: (i) segmentación basada en la verosimilitud; (ii) segmentación usando ventanas pequeñas solapadas; y (iii) segmentación usando pruebas paralelas de a pares. Cada uno de estos algoritmos se describe en mayor detalle abajo, junto con los resultados de su aplicación.

Cada algoritmo es una colección de rutinas de procesamiento de datos y modelado estadístico dispuestas como una serie de pasos con el fin de decidir si los datos de secuenciación observados contradicen la hipótesis nula H0, definida de la siguiente manera: H0 = No hay desviaciones de

ploidía respecto de la ploidía esperada.

En el caso de los genomas humanos, la ploidía esperada es la diploidía. El enfoque de segmentación busca descubrir quiebres en datos consecutivos donde exista una distinción clara entre las profundidades de lecturas a cada lado, lo cual, a su vez, indica un cambio en la ploidía. A continuación, se describen los algoritmos.

A. Segmentación basada en la verosimilitud

Dado un conjunto de puntos de datos ordenados {x_{1},x_{2},x_{3},x_{4},..,x_{N}}, que describen la profundidad de lecturas, el objetivo era inferir en qué punto x_{i} la distribución de los datos cambia (es decir, hay un cambio significativo y consecutivo en la profundidad de lecturas). Este punto se rotuló como punto de quiebre Q_{1}. Por ejemplo, si la distribución de los datos cambia después de x_{3}, entonces $_{1}=x_{3}. Si hay más de un punto de quiebre, el algoritmo rotulará el siguiente punto de quiebre descubierto como &_{2}. Los pasos del algoritmo fueron los siguientes:

(a) Dada una secuencia de datos (i,x_{i}), donde i=1..N, el algoritmo estima la cantidad de modos de los datos. Para este fin, se empleó un proceso conocido como estimación de densidad bivariada basada en núcleos. Por ejemplo, si había un único punto de quiebre, el algoritmo indicaba que había 2 modos en la distribución de los datos.

(b) Decidir la ubicación del/de los punto(s) de quiebre en los datos, si es que hay uno o más puntos de quiebre. Esto se logró con el siguiente algoritmo:

(1) En función de la cantidad de puntos de quiebre detectados en (a), definir la función de densidad de probabilidad (pdf) de los datos, que depende de los valores desconocidos de los puntos de quiebre. Esta puede ser, sin carácter taxativo, una combinación de distribuciones normales.

(2) Calcular la estimación de máxima verosimilitud de la pdf del paso (1) para un conjunto fijo de valores del/de los punto(s) de quiebre.

(3) Repetir el paso (2) para diferentes conjuntos de valores del/de los punto(s) de quiebre.

(4) Seleccionar como punto(s) de quiebre el/los valor(es) que maximizan el paso (2).

Nótese que el algoritmo hace esto asignando la pertenencia en todas las combinaciones de todos los puntos de quiebre estimados en la parte (a). A modo de ejemplo, si la probabilidad es máxima cuando los datos x_{1} a x_{3} vienen de la primera distribución, entonces $_{1}=x_{3} y la pertenencia de x_{1} a x_{3} se asigna a la primera distribución, mientras que x_{4} a x_{N} se asignan a la(s) siguiente(s) distribución(ones) identificada(s). Si la verosimilitud es máxima cuando todos los puntos de datos x_{i} se asignan al mismo modo, significa que no hay un punto de quiebre definido y todos los puntos de datos se asignan a la misma distribución. Para la implementación de esto, pueden usarse distintas distribuciones y métodos computacionales conocidos para la persona versada en la técnica.

En la Figura 5, se muestran resultados representativos de análisis de ADN fetal realizados usando el algoritmo de segmentación basado en la verosimilitud. Estos resultados demuestran que el análisis de segmentación basado en la verosimilitud puede clasificar aberraciones a nivel de cromosomas completos en muestras de ADN fetal (p. ej., de productos de la concepción sometidos a PGD/PGS). En el panel superior de la Figura 5, se presenta una muestra sin anomalías de ploidía de la que se realizó secuenciación de genoma completo. La profundidad de lecturas esperada de cada cromosoma (barras horizontales azules) se encuentra entre las líneas rojas que indican el rango de valores correspondiente a la ploidía normal, decidido a partir de los datos. Incluso si los puntos de datos (puntos grises) caen ocasionalmente fuera de los intervalos de confianza, esto no constituye evidencia suficiente para concluir que existen aberraciones de ploidía de acuerdo con la métrica probabilística empleada. Por el contrario, si suficientes puntos de datos caen fuera de los intervalos de confianza, la medida probabilística empleada puede asignar otra ploidía. Un caso tal se presenta en la parte inferior de la Figura 5, donde se determinó que la muestra tiene monosomía 18 y monosomía 20.

De modo similar, la Figura 10 presenta resultados del algoritmo usando datos derivados de las coordenadas específicas de las TACS, combinados con datos de productos de complementariedad parcial con las TACS que alinean a coordenadas que no son de las TACS y producen una baja cobertura a lo largo de todo el genoma. En el panel superior de la Figura 10, se presenta una muestra masculina normal, mientras que, en el panel inferior, la muestra masculina se clasifica como una muestra con trisomía del cromosoma 13 y monosomía del cromosoma 21.

En la Figura 11, se presentan resultados del algoritmo usando únicamente datos de coordenadas específicas de las TACS. Al igual que en la Figura 10, en el panel superior de la Figura 11, se presenta una muestra masculina normal, mientras que, en el panel inferior, la muestra masculina se clasifica como una muestra con trisomía del cromosoma 13 y monosomía del cromosoma 21.

Así, puede observarse que el algoritmo clasifica exitosamente datos de enriquecimiento basado en TACS y de secuenciación de genoma completo basada en TACS, lo que permite la correcta clasificación de las anomalías cromosómicas y, al mismo tiempo, requiere significativamente menos secuenciación que los enfoques de secuenciación masiva paralela shotgun.

B. Segmentación con ventanas pequeñas solapadas

Dado un conjunto de puntos de datos, el objetivo era determinar la pertenencia de cada punto de datos a un conjunto de clústeres de acuerdo con un esquema de umbrales. Para hacerlo, el algoritmo sigue estos pasos:

(a) Dado un conjunto de datos de profundidad de lecturas consecutivos x_{i} (i=1 a N), los datos se dividen en ventanas de tamaño fijo que se solapan entre sí. Por ejemplo, si w_{1} = {x_{1} , ..., x{10}} denota la primera ventana, entonces w_{2} = {x_{2}, ..., x_{11}}, w_{3} = {x_{3}, ..., x_{12}}, etc.

(b) Por cada ventana w_{k}, se calcula una puntuación S(k) = (X_{k} - m)/m, donde X_{k} es la mediana de w_{k} y m es la mediana de todos los valores de x_{i} de todos los cromosomas.

(c) Asignar la pertenencia a un clúster sobre la base de un valor de

umbral s, donde: si S(k) < s, se asigna pertenencia al clúster 1;

si s <= S(k) < C_{1}s, se asigna pertenencia al clúster 2;

si 2s <= S(k) < C_{2}s, se asigna pertenencia al clúster 3; etc.,

donde C_{j} son valores reales positivos mayores de uno. Por ejemplo, si s es un valor umbral particular, entonces todas las w_{k} para las cuales S(k) < s se asignan al clúster 1. Todas las w_{k} para las cuales s <= S(k) < C_{1}s se asignan al clúster 2. Todas las w_{k} consecutivas para las cuales 2s <= S(k) < C_{2}s se asignan al clúster 3, etc. El umbral s puede determinarse a partir de los datos o tratarse como un parámetro de ajuste.

En la Figura 6, se muestran resultados representativos de la determinación de la ploidía de muestras de ADN fetal (p. ej., productos de la concepción sometidos a PGS/PGD). En el panel superior, se representa una muestra normal. Al igual que en la Figura 5, la profundidad de lecturas esperada de cada cromosoma (barras horizontales azules) se encuentra entre las líneas rojas, que indican el rango de valores correspondiente a la ploidía normal. La profundidad de lecturas esperada se calcula a partir de los puntos de datos individuales (puntos grises). La profundidad de lecturas promedio y los puntos de datos de los cromosomas X e Y se encuentran por debajo de la línea roja inferior, lo que indica que hay una única copia de cada cromosoma, tal y como se espera en una muestra masculina. En la parte inferior de la Figura 6, se presenta una muestra aneuploide, que se clasifica como una muestra con trisomía 13 y mosaicismo en el cromosoma 19.

C. Segmentación mediante pruebas paralelas de a pares

En este enfoque de segmentación, primero se realiza una determinación de la ploidía con cromosomas completos y, luego, una determinación de la ploidía a nivel subcromosómico, de la siguiente manera:

(a) Los datos sobre la profundidad de lecturas de un cromosoma candidato se comparan con los datos sobre la profundidad de lecturas de otros cromosomas usando pruebas estadísticas no paramétricas. El proceso se repite hasta haber probado todos los cromosomas candidatos.

(b) Los resultados se ajustan por comparaciones múltiples para evitar resultados falsos positivos.

(c) En función del resultado de la prueba estadística con los datos ajustados, se asigna la ploidía relevante a los cromosomas candidatos que muestran evidencia significativa en contra de la hipótesis nula

(d) Una vez que se ha determinado la ploidía a nivel de cromosomas completos, se evalúa la ploidía a nivel subcromosómico, para lo cual se dividen las regiones de cada cromosoma en tamaños más pequeños, al azar. Luego, cada región subcromosómica se evalúa para detectar desviaciones significativas respecto de la profundidad de lecturas a nivel del cromosoma completo usando pruebas estadísticas similares a las de los pasos (a) al (c).

En la Figura 7, se muestran resultados representativos de la determinación de la ploidía de muestras de ADN fetal (p. ej., productos de la concepción sometidos a PGS/PGD). En el panel superior, se representa una muestra normal. Al igual que en el caso de las Figuras 5, 6, 10 y 11, la profundidad de lecturas esperada de cada cromosoma se muestra con barras azules horizontales. En este caso, se omitieron las barras correspondientes a los intervalos de confianza. En la parte superior de la Figura 7, se presenta una muestra normal, mientras que, en la parte inferior, se presenta una muestra con muchas anomalías.

Determinación de la ploidía mediante clasificación basada en puntuaciones

Además de analizarse con los algoritmos basados en segmentación que se describieron anteriormente, las muestras de ADN fetal pueden analizarse mediante clasificación basada en puntuaciones. En primer lugar, los datos sobre profundidad de lecturas se transformaron mediante transformaciones de raíz cuadrada o logarítmicas para minimizar los sesgos de varianza. Luego, se aplicaron métodos como los que se describieron en el Ejemplo 4 para determinar la ploidía de cada región evaluada (pueden evaluarse regiones cromosómicas o subcromosómicas).

En la Figura 8, se muestran resultados representativos de la aplicación de un sistema de clasificación basado en puntuaciones a muestras de ADN fetal (p. ej., productos de la concepción sometidos a PGS/PGD). Los puntos verdes indican muestras con ploidía normal, mientras que todos los demás que caen por encima o por debajo de los umbrales de ploidía normal indican algún tipo de anomalía. Específicamente, los puntos azules corresponden a muestras con trisomía, los puntos color cian corresponden a muestras con trisomía parcial y los puntos rojos corresponden a muestras con monosomía.

En resumen, este ejemplo demuestra el análisis exitoso de muestras de ADN (p. ej., productos de la concepción sometidos a PGS/PGD) en busca de anomalías cromosómicas usando datos de secuenciación de genoma completo, datos de secuenciación de genoma completo basados en TACS o datos tras enriquecimiento basado en TACS, así como una variedad de enfoques de análisis estadístico. Además, el ejemplo muestra que los métodos usados con los datos de secuenciación de genoma completo pueden aplicarse con éxito a datos de secuenciación de genoma completo basados en TACS y datos tras enriquecimiento basado en TACS.

Ejemplo 7 : Pruebas basadas en los tamaños de los fragmentos

Hay evidencia en la literatura de que el tejido no sano puede estar caracterizado por y/o asociado con fragmentos en el plasma que tienen un tamaño menor al tamaño esperado de los fragmentos provenientes de tejidos sanos (Jiang et al., (2015), Proceedings of the National Academy of Sciences, 112(11), pp. E1317-E1325). Además, se ha demostrado que puede hallarse ADN fetal libre en el medio usado para el cultivo embrionario de los productos de concepción de ^pG^s/PGD y que este puede usarse para la evaluación de anomalías cromosómicas (Liu, WeiQiang, et al. (2017). Así, se puede utilizar una prueba basada en los tamaños de fragmentos para detectar la presencia de variaciones en el número de copias (CNV). Para tal fin, puede usarse una prueba binomial de proporciones, como se describe en el Ejemplo 4, para la detección de un aumento en la presencia de material de ácidos nucleicos proveniente de tejido no sano sobre la base del tamaño de los fragmentos. En particular, bajo la hipótesis nula de

Claims

REIVINDICACIONES

1. Un método para evaluar el riesgo de una anomalía genética en una muestra de ADN que comprende predominantemente ADN fetal o embrionario y que comprende secuencias genómicas de interés, donde el método comprende:

a) preparar una biblioteca de secuenciación a partir de la muestra de ADN que comprende predominantemente ADN fetal o embrionario;

b) hibridar la biblioteca de secuenciación con una mezcla de secuencias de captura de blancos (TACS) de doble hebra, donde la mezcla de TACS comprende múltiples familias de TACS dirigidas a diferentes secuencias genómicas de interés que comprenden una anomalía genética, donde cada familia de TACS comprende múltiples secuencias miembro, donde cada secuencia miembro se une a la misma secuencia genómica de interés, pero tiene diferentes posiciones de inicio y/o fin con respecto a un sistema de coordenadas de referencia de la secuencia genómica de interés, donde las posiciones de inicio y/o fin de las secuencias miembro dentro de una familia de TACS con respecto a un sistema de coordenadas de referencia están escalonadas por entre 5 y 10 pares de bases y donde, además:

i) cada secuencia miembro de la mezcla de TACS tiene entre 150 y 260 pares de bases (bp) de longitud, y cada secuencia miembro tiene un extremo 5' y un extremo 3';

ii) cada secuencia miembro se une a la misma secuencia genómica de interés a una distancia de al menos 50 pares de bases, tanto en el extremo 5' como en el extremo 3', de regiones que presentan variaciones en el número de copias (CNV), duplicaciones segmentales o elementos de ADN repetitivo; y

iii) el contenido de GC de la mezcla de TACS, que se determina calculando el contenido de GC de cada secuencia miembro de la mezcla de TACS, se encuentra entre el 19 % y el 80 %;

c) aislar aquellos miembros de la biblioteca de secuenciación que se unen a la mezcla de TACS para obtener una biblioteca enriquecida;

d) amplificar y secuenciar la biblioteca enriquecida;

e) alinear la biblioteca enriquecida con un genoma de referencia para obtener información sobre la profundidad de lecturas y recuentos alélicos; y

f) aplicar análisis estadísticos a las secuencias de la biblioteca enriquecida para determinar el riesgo de una anomalía genética en la muestra de ADN.

2. El método de la reivindicación 1, donde la muestra de ADN proviene de un embrión previo a la implantación, de trofoblastos intactos recolectados de una prueba de Papanicolaou materna o de células fetales halladas en el plasma materno.

3. El método de una cualquiera de las reivindicaciones 1 a 2, donde la muestra de ADN se obtiene directamente de tejido fetal, de líquido amniótico, de las vellosidades coriónicas o del medio donde se cultivaron los productos de la concepción.

4. El método de una cualquiera de las reivindicaciones 1 a 3, donde la mezcla de TACS comprende miembros que se unen a los cromosomas 1-22, X e Y del genoma humano.

5. El método de la reivindicación 1, donde la mezcla de TACS comprende al menos 5 familias de TACS diferentes, donde, opcionalmente, cada familia comprende al menos 3 secuencias miembro.

6. El método de una cualquiera de reivindicaciones 1 a 5, donde la anomalía genética es una aneuploidía cromosómica o donde la anomalía genética es una anomalía estructural, incluidos, sin carácter taxativo, los cambios en el número de copias, incluidas las microdeleciones y las microduplicaciones, las inserciones, las translocaciones, las deleciones, las inversiones y las mutaciones pequeñas, incluidas las mutaciones puntuales y los perfiles de mutaciones.

7. El método de una cualquiera de las reivindicaciones 1 a 6, donde la mezcla de TACS se fija a un sustrato sólido, donde, opcionalmente las TACS están biotiniladas y se unen a microesferas magnéticas recubiertas con estreptavidina.

8. El método de una cualquiera una las reivindicaciones 1 a 7, donde la amplificación de la biblioteca enriquecida se realiza en presencia de secuencias de bloqueo que inhiben la amplificación de secuencias no mutantes.

9. El método de una cualquiera de las reivindicaciones 1 a 8, donde los miembros de la biblioteca de secuenciación que se unen a la mezcla de TACS son parcialmente complementarios a las TACS.

10. El método de una cualquiera de las reivindicaciones 1 a 9, donde el análisis estadístico comprende un algoritmo de segmentación, donde, opcionalmente, el algoritmo de segmentación se selecciona de entre el grupo que consiste de la segmentación basada en verosimilitud, la segmentación con ventanas pequeñas solapadas, la segmentación con pruebas paralelas de a pares y combinaciones de los anteriores.

11. El método de una cualquiera de las reivindicaciones 1 a 10, donde la secuenciación de la biblioteca enriquecida provee una profundidad de lecturas correspondiente a las secuencias genómicas de interés y profundidades de lecturas correspondientes a los loci de referencia, y el análisis estadístico comprende aplicar un algoritmo que contrasta secuencialmente la profundidad de lecturas de los loci de las secuencias genómicas de interés contra la profundidad de lecturas de los loci de referencia, donde el algoritmo comprende pasos para: (a) eliminar los loci secuenciados de forma inadecuada; (b) mitigar el sesgo inducido por el contenido de GC; y (c) determinar la ploidía, donde, opcionalmente el sesgo inducido por el contenido de GC se mitiga agrupando loci con contenidos de GC equiparables.

12. El método de una cualquiera una de las reivindicaciones anteriores, donde la secuenciación de la biblioteca enriquecida provee el número y el tamaño de los fragmentos secuenciados correspondientes a coordenadas específicas de cada TACS y el análisis estadístico comprende aplicar un algoritmo que contrasta secuencialmente la proporción de tamaños de fragmentos de la secuencia genómica de interés contra la proporción de tamaños de fragmentos de los loci de referencia, donde el algoritmo comprende pasos para: (a) eliminar los valores atípicos de tamaños de fragmentos; (b) calcular la proporción de tamaños de fragmentos; y (c) determinar la ploidía.