ES2625079T3 - Composiciones y métodos por PCR altamente multiplexada - Google Patents

Composiciones y métodos por PCR altamente multiplexada Download PDF

Info

Publication number
ES2625079T3
ES2625079T3 ES12881774.9T ES12881774T ES2625079T3 ES 2625079 T3 ES2625079 T3 ES 2625079T3 ES 12881774 T ES12881774 T ES 12881774T ES 2625079 T3 ES2625079 T3 ES 2625079T3
Authority
ES
Spain
Prior art keywords
primers
target
dna
primer
loci
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES12881774.9T
Other languages
English (en)
Inventor
Bernhard Zimmermann
Matthew M. HILL
Philippe Gilbert LACROUTE
Michael Dodd
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Natera Inc
Original Assignee
Natera Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Natera Inc filed Critical Natera Inc
Priority claimed from PCT/US2012/066339 external-priority patent/WO2014018080A1/en
Application granted granted Critical
Publication of ES2625079T3 publication Critical patent/ES2625079T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/686Polymerase chain reaction [PCR]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Abstract

Un método de amplificar loci diana en una muestra de ácido nucleico, el método comprende: a)poner en contacto una muestra de ácido nucleico que comprende loci diana con una biblioteca de cebadores de prueba que comprende al menos 1.000 diferentes pares de cebadores para producir una mezcla de reacción en un volumen de reacción; donde cada par de cebadores incluye un cebador de prueba directo y un cebador de prueba inverso que se hibridan en el mismo locus diana, y donde los cebadores no incluyen sondas de inversión molecular (MIPs); b)someter la mezcla de reacción a las condiciones de reacción en cadena de la polimerasa (PCR) para producir productos amplificados que incluyen amplicones diana; donde la concentración de cada cebador de prueba es inferior a 10 nM; donde la longitud del paso de reformación térmica de las condiciones de reacción es superior a 10 minutos; donde al menos 1.000 loci diana diferentes se amplifican simultáneamente; y donde (i) menos de un 20% de los productos amplificados son dímeros del cebador de prueba, (ii) al menos un 80% de los productos amplificados son amplicones diana, y (iii) al menos un 80% de los loci diana están amplificados; y c) secuenciar los productos amplificados.

Description

5
10
15
20
25
30
35
40
45
50
55
DESCRIPCION
Composiciones y metodos por PCR altamente multiplexada Referencia cruzada a aplicaciones relacionadas
Esta solicitud reivindica las ventajas y la prioridad de la Solicitud de patente USA con el numero de serie 13/683.604 (publicada como US2013/0123120), presentada el 21 de noviembre de 2012, y la Solicitud provisional USA con el numero de serie 61/675.020, presentada el 24 de julio de 2012. La Solicitud de patente USA con el numero de serie 13/683.604 es una continuacion en parte de la Solicitud de patente USA con el numero de serie 13/300.235 (publicada como US2012/0270212) presentada el 18 de noviembre de 2011 es una continuacion en parte de la Solicitud de patente USA con el numero de serie 13/110,685 (publicada como US2011/0288780), presentada el 18 de mayo de 2011, y reivindica las ventajas de la Solicitud provisional USA con el numero de serie 61/675.020, presentada el 24 de julio de 2012. La Solicitud de patente USA con el numero de serie 13/110.685 reivindica las ventajas de la Solicitud provisional USA con el numero de serie 61/395.850, presentada el 18 de mayo de 2010; La Solicitud provisional USA con el numero de serie 61/398.159, presentada el 21 de junio de 2010; la Solicitud provisional USA con el numero de serie 61/462.972, presentada el 9 de febrero de 2011; la Solicitud provisional USA con el numero de serie 61/448.547, presentada el 2 de marzo de 2011; y la Solicitud provisional USA con el numero de serie 61/516.996, presentada el 12 de abril de
2011. La Solicitud de patente USA con el numero de serie 13/300.235 reivindica las ventajas de la Solicitud provisional USA con el numero de serie 61/571.248, presentada el 23 de junio de 2011.
DECLARACION RELATIVA A LA INVESTIGACION O DESARROLLO PATROCINADOS FEDERALMENTE
Este trabajo ha recibido la subvencion numero 5R44HD60423-3, concedida por el Instituto Nacional de la Salud. El gobierno de los Estados Unidos puede tener derechos sobre cualquier patente que se publique en esta solicitud.
Campo de la invencion
Por lo general, la presente invencion se refiere a metodos y composiciones para amplificar simultaneamente las regiones de acido nucleico multiple de interes en un volumen de reaccion.
Antecedentes de la invencion
Para aumentar el rendimiento del ensayo y permitir un uso mas eficiente las muestras de acido nucleico, se puede llevar a cabo la amplificacion simultanea de muchos acidos nucleicos de destino en una muestra de interes mediante la combinacion de muchos cebadores oligonucleotidos con la muestra y sometiendo posteriormente la muestra a las condiciones de la reaccion en cadena de la polimerasa (PCR) en un proceso conocido en la tecnica como PCR multiplexada. El uso de PCR multiplexada puede simplificar significativamente los procedimientos experimentales y acortar el tiempo necesario para el analisis y la deteccion de acido nucleico. Sin embargo, cuando se agregan varios pares a la misma reaccion de PCR, se pueden generar productos de amplificacion no diana, como dfmeros de cebadores amplificados. El riesgo de generar dichos productos aumenta a medida que el numero de cebadores aumenta. Estos amplicones no diana limitan significativamente el uso de los productos amplificados para su ulterior analisis y/o ensayos. Por lo tanto, es necesario mejorar los metodos para reducir la formacion de amplicones no diana durante la PCR multiplexada.
Los metodos de PCR multiplexada mejorados senan utiles para una serie de aplicaciones, como el Diagnostico Genetico Prenatal No Invasivo (NPD). En concreto, los metodos actuales de diagnostico prenatal pueden alertar a los medicos y padres de anomalfas en el crecimiento de los fetos. Sin diagnostico prenatal, uno de cada 50 bebes nace con una grave deficiencia ffsica o mental, y uno de cada 30 tendra algun tipo de malformacion congenita. Desafortunadamente, los metodos estandar tienen una calidad de precision pobre, o implican un procedimiento invasivo que conlleva un riesgo de aborto. Los metodos basados en niveles de hormonas en la sangre materna o las mediciones por ultrasonidos no son invasivos, sin embargo, tambien tienen niveles de precision bajos. Los metodos como la amniocentesis, la biopsia de vellosidades corionica y las muestras de sangre fetal tiene una alta precision, pero son invasivos y entranan riesgos considerables. La amniocentesis se ha realizado en aproximadamente un 3% de todos los embarazos en los EE.UU., aunque su frecuencia de uso ha disminuido durante la ultima decada y media.
Los seres humanos normales tienen dos juegos de 23 cromosomas en cada celula diploide sana, en los que una copia procede de cada progenitor. La aneuploidfa, una condicion en una celula nuclear donde la celula contiene demasiados y/o muy pocos cromosomas se considera responsable de un gran porcentaje de implantaciones fallidas, abortos, y enfermedades geneticas. La deteccion de anomalfas cromosomicas puede identificar a personas o a embriones con condiciones tales como el smdrome de Down, smdrome de Klinefelter y el smdrome de Turner, entre otros, ademas de aumentar las probabilidades de tener un embarazo satisfactorio. La realizacion de pruebas para detectar anomalfas cromosomicas es especialmente importante como tambien lo es la edad de la madre: entre los 35 y los 40 anos se estima que al menos el 40% de los embriones son anomalos, y por encima de los 40, mas de la mitad de los embriones son anomalos.
Se ha descubierto recientemente que el ADN fetal sin celulas y las celulas fetales intactas pueden entrar en la circulacion sangumea materna. Por consiguiente, el analisis de este material genetico puede permitir un NPD precoz. Se desea mejorar los metodos para mejorar la sensibilidad y especificidad y reducir el tiempo y los costes necesarios para el NPD.
5
10
15
20
25
30
35
40
45
50
55
60
P. Shen et al., Proceedings of the National Academy of Sciences, vol. 18(16), 5 de abril de 2011, paginas 6549-6554, describe la utilidad de sondas candado largas (LPP) para capturar el 2xon focalizado seguido de una secuenciacion basada en matriz.
Fredricksson Simon et al., Nucleic Acids Research, Vol. 35(7), 1 de febrero de 2007, paginas e47.1- e47.6, describe el uso de un metodo para la amplificacion multiplexada de acidos nucleicos con el fin de amplificar la secuencia codificadora de 10 genes del cancer humano en un ensayo. Se inicio la amplificacion mediante PCR multiplexada con 170 pares de cebador. A continuacion, cada producto de PCR se circularize por ligadura. Las moleculas de ADN circulares se enriquecieron todavfa mas mediante la replicacion en drculo rodante cebada aleatoriamente.
Resumen de la invencion
La invencion se define en las reivindicaciones que se incluyen en el anexo. En un aspecto, la invencion presenta metodos de amplificacion de loci diana en una muestra de acido nucleico. En algunas realizaciones, el metodo consiste en (i) poner en contacto la muestra de acido nucleico con una biblioteca de cebadores de prueba que, se hibridan simultaneamente a al menos 1.000. 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o
100.000 loci diana diferentes para producir una mezcla de reaccion; y (ii) someter la mezcla de reaccion a las condiciones de reaccion de extension del cebador para producir productos amplificados que incluyen amplicones diana. En algunas realizaciones, el metodo tambien incluye determinar la presencia o ausencia de al menos un amplicon diana (por ejemplo, al menos un 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, o 99,5% de los amplicones diana). En algunas realizaciones, el metodo tambien incluye determinar la secuencia de al menos un amplicon diana (por ejemplo, al menos un 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, o 99,5% de los amplicones diana).
En varias realizaciones de cualquiera de los aspectos de la invencion, al menos 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 loci diana diferentes se amplifican. En algunas realizaciones, al menos un 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, o 99,5% de los productos amplificados son amplicones diana. En algunas realizaciones, al menos un 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, o 99,5% de los loci focalizados son amplificados. En varias realizaciones, menos de un 60, 50, 40, 30, 20, 10, 5, 4, 3, 2, 1, 0,5, 0,25, 0,1, o 0,05% de los productos amplificados son dfmeros de cebadores. En algunas realizaciones, la biblioteca de cebadores de prueba incluye al menos 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 pares de cebador de prueba, en donde cada par de cebador de prueba incluye un cebador de prueba directo y un cebador de prueba inverso que se hibridan en el mismo locus diana. En algunas realizaciones,
la biblioteca de cebadores de prueba incluye al menos 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 cebadores de prueba individuales que se hibridan a diferentes loci seleccionados, en donde los cebadores individuales no forman parte de los pares de cebador.
En varias realizaciones de cualquiera de los aspectos de la invencion, la concentracion de cada cebador de prueba es inferior a 100, 75, 50, 25, 10, 5, 2, o 1 nM. En varias realizaciones, el contenido de GC de los cebadores de prueba esta entre 30 y 80%, por ejemplo, entre 40 y 70% o 50 y 60%, incluidos. En algunas realizaciones, el intervalo de las temperaturas de fusion de los cebadores de prueba es inferior a 20, 15, 10, 5, 3, o 1 °C. En algunas realizaciones, la longitud de los cebadores de prueba esta entre 15 y 100 nucleotidos, por ejemplo, 15 y 75 nucleotidos, 15 y 40 nucleotidos, 17 y 35 nucleotidos, 18 y 30 nucleotidos, 20 y 65 nucleotidos, incluidos. En algunas realizaciones, los cebadores de prueba incluyen una etiqueta que no es espedfica de la diana, como una etiqueta que forma una estructura de bucle interno. En algunas realizaciones, la etiqueta esta entre dos zonas de union de ADN. En varias realizaciones, los cebadores de prueba incluyen una region 5' que es espedfica para un locus diana, una region interna que no es espedfica para el locus diana y forma una estructura de bucle, y una region 3' que es espedfica del locus diana. En varias realizaciones, la longitud de la region 3' es al menos de 7 nucleotidos. En algunas realizaciones, la longitud de la region 3' esta entre 7 y 20 nucleotidos, por ejemplo, entre 7 y 15 nucleotidos, o 7 y 10 nucleotidos, incluidos. En varias realizaciones, los cebadores de prueba incluyen una region 5' que no es espedfica para un locus diana (como una etiqueta o un punto de union de cebador universal) seguido de una region que es espedfica de un locus diana, una region interna que no es espedfica para el locus diana y forma una estructura de bucle, y una region 3' que es espedfica del locus diana. En algunas realizaciones, el intervalo de la longitud de los cebadores de prueba es inferior a 50, 40, 30, 20, 10, o 5 nucleotidos. En algunas realizaciones, la longitud de los amplicones diana esta entre 50 y 100 nucleotidos, por ejemplo, entre 60 y 80 nucleotidos, o 60 y 75 nucleotidos, incluidos. En algunas realizaciones, el intervalo de la longitud de los amplicones diana es inferior a 50, 25, 15, 10, o 5 nucleotidos.
En varias realizaciones decualquiera de los aspectos de la invencion, las condiciones de reaccion de extension del cebador son condiciones de reaccion en cadena de la polimerasa (PCR). En varias realizaciones, la longitud de la fase de reformacion termica es superior a 3, 5, 8, 10, o 15 minutos. En varias realizaciones, la longitud de la fase de extension es superior a 3, 5, 8, 10, o 15 minutos.
En varias realizaciones de cualquiera de los aspectos de la invencion, los cebadores de prueba se utilizan para amplificar simultaneamente al menos 1.000 loci diana diferentes en una muestra que incluye aDn materno de la madre embarazada de un feto y el ADN fetal para determinar la presencia o ausencia de una anomalfa cromosomica fetal. En varias realizaciones, el metodo incluye ligar un punto de union del cebador universal a las moleculas de ADN en la muestra; amplificando las moleculas de ADN ligadas utilizando al menos 1.000 cebadores espedficos y un cebador universal para producir un primer conjunto de productos amplificados; y amplificar el primer conjunto de productos amplificados utilizando al menos 1.000 pares
5
10
15
20
25
30
35
40
45
50
55
60
de cebadores espedficos para producir un segundo conjunto de productos amplificados. En varias realizaciones, se utilizan al menos 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 pares de cebador diferentes.
En varias realizaciones de cualquiera de los aspectos de la invencion, los cebadores de prueba se utilizan para
amplificar simultaneamente al menos 1.000 loci diana diferentes en una muestra que incluye ADN de un supuesto padre
de un feto y al mismo tiempo amplificar los loci diana seleccionado en una muestra que incluye ADN materno de la madre embarazada del feto y el aDn fetal para determinar si el presunto padre es el padre biologico del feto.
En varias realizaciones de cualquiera de los aspectos de la invencion, los cebadores de prueba se utilizan para
amplificar simultaneamente al menos 1.000 loci diana diferentes en una celula o multiples celulas de un embrion para
determinar la presencia o ausencia de una anomalfa cromosomica. En varias realizaciones, se analizan las celulas de un conjunto de dos o mas embriones, y se selecciona un embrion para la fertilizacion in vitro.
En varias realizaciones de cualquiera de los aspectos de la invencion, los cebadores de prueba se utilizan para amplificar simultaneamente al menos 1.000 loci diana diferentes en una muestra de acido nucleico forense. En varias realizaciones, la longitud de la fase de reformacion termica es superior a 3, 5, 8, 10, o 15 minutos.
En varias realizaciones de cualquiera de los aspectos de la invencion, el metodo implica el uso de los cebadores de prueba para amplificar simultaneamente al menos 1.000 loci diana diferentes en una muestra de acido nucleico de control para producir un primer conjunto de amplicones diana y para amplificar simultaneamente los loci diana en una muestra de acido nucleico de prueba para producir un segundo conjunto de amplicones diana. y comparar el primer y el segundo conjuntos de amplicones diana para determinar si un locus diana esta presente en una muestra, pero ausente en la otra, o si un locus diana esta presente en diferentes niveles en la muestra de control y la muestra de prueba. En varias realizaciones, la muestra de prueba es de un individuo sospechoso de tener una enfermedad o fenotipo de interes (como cancer), o un mayor riesgo de una enfermedad o fenotipo de interes; y en donde uno o mas de los loci diana incluye una secuencia (por ejemplo., un polimorfismo u otra mutacion) asociados con un mayor riesgo de desarrollar la enfermedad o fenotipo de interes, o asociados con la enfermedad o fenotipo de interes. En varias realizaciones, el metodo implica el uso de los cebadores de prueba para amplificar simultaneamente 1.000; loci diana diferentes en una muestra de control que incluye el ARN para producir un primer conjunto de amplicones diana y para amplificar simultaneamente los loci diana en una muestra de prueba que incluye el ARN para producir un segundo conjunto de amplicones diana; y comparar el primer y el segundo conjuntos de amplicones diana para determinar la presencia o ausencia de una diferencia en los niveles de expresion de ARN entre la muestra de control y la muestra de prueba. En varias realizaciones, el ARN es mRNA. En varias realizaciones, la muestra de prueba es de un individuo sospechoso de tener una enfermedad o fenotipo de interes (como cancer), o un mayor riesgo de una enfermedad o fenotipo de interes (como cancer); y en el cual uno o mas de los loci diana incluye una secuencia (por ejemplo, un polimorfismo u otra mutacion) asociados con un mayor riesgo de desarrollar la enfermedad o fenotipo de interes, o asociados con la enfermedad o fenotipo de interes. En algunas realizaciones, la muestra de prueba es de un individuo diagnosticado con una enfermedad o fenotipo de interes (como cancer); y en donde una diferencia en el nivel de expresion de ARN entre la muestra de control y la muestra de prueba indica que un locus diana incluye una secuencia (por ejemplo, un polimorfismo u otra mutacion) asociados con un mayor o menor riesgo de desarrollar la enfermedad o fenotipo de interes.
En algunas realizaciones de cualquiera de los aspectos de la invencion, los cebadores de prueba se seleccionan de una biblioteca de cebadores candidatos en base a uno o mas parametros, como la seleccion de cebadores utilizando cualquiera de los metodos de la invencion. En algunas realizaciones, los cebadores de prueba se seleccionan de una biblioteca de cebadores candidatos basandose al menos en parte en la capacidad de los cebadores candidatos de formar dfmeros de cebadores.
En un aspecto, la invencion presenta metodos de seleccion de cebadores de prueba de una biblioteca de cebadores candidatos. En varias realizaciones, la seleccion implica (i) calcular en un ordenador una puntuacion no deseable para la mayona o todas las combinaciones posibles de dos cebadores candidatos de la biblioteca, donde cada puntuacion no deseable se basa, al menos en parte, en la probabilidad de la formacion de dimeros entre los dos cebadores candidatos; (ii) extraer el cebador candidato con la puntuacion no deseable mas alta de la biblioteca de cebadores candidatos; y (iii) si el cebador candidato que se ha extrafdo en el paso (ii) es un miembro de un par de cebadores, extraer, a continuacion, el otro miembro del par de cebadores de la biblioteca de cebadores candidatos; y (iv) opcionalmente repetir los pasos (ii) y (iii), con el fin de seleccionar una biblioteca de cebadores de prueba. En algunas realizaciones, el
metodo de seleccion se lleva a cabo hasta que las puntuaciones no deseables para las combinaciones del cebador candidato restantes en la biblioteca son todas iguales o por debajo de un umbral mmimo. En algunas realizaciones, el metodo de seleccion se lleva a cabo hasta que el numero de cebadores candidatos restantes en la biblioteca se reduce a un numero deseado. En varias realizaciones, una puntuacion no deseable se calcula para al menos 80, 90, 95, 98, 99, o 99,5% de las combinaciones posibles de cebadores candidatos en la biblioteca. En varias realizaciones, los cebadores candidatos restantes en la biblioteca pueden amplificar simultaneamente al menos 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 loci diana diferentes. En varias realizaciones, el metodo tambien incluye (v) poner en contacto una muestra de acido nucleico que incluye loci diana con los cebadores candidatos restantes en la biblioteca para producir una mezcla de reaccion; y (vi) someter la mezcla de reaccion a las condiciones de reaccion de extension del cebador para producir productos amplificados que incluye amplicones diana.
5
10
15
20
25
30
35
40
45
50
55
60
En un aspecto, la invencion presenta metodos de seleccion de cebadores de prueba de una biblioteca de cebadores candidatos. En varias realizaciones, la seleccion de cebadores de prueba se selecciona de una biblioteca de cebadores candidates e implica (i) calcular en un ordenador una puntuacion no deseable para la mayona o todas las combinaciones posibles de dos cebadores candidatos de la biblioteca, donde cada puntuacion no deseable se basa, al menos en parte, en la probabilidad de la formacion de dimeros entre los dos cebadores candidatos; (ii) extraer de la biblioteca de cebadores candidatos el cebador candidato que es parte del mayor numero de combinaciones de dos cebadores candidatos con una puntuacion no deseable por encima de un primer umbral mmimo; (iii) si el cebador candidato que se ha extrafdo en el paso (ii) es un miembro de un par de cebadores, extraer, a continuacion, el otro miembro del par de cebadores de la biblioteca de cebadores candidatos; y (iv) opcionalmente repetir los pasos (ii) y (iii), con el fin de seleccionar una biblioteca de cebadores de prueba. En algunas realizaciones, el metodo de seleccion se lleva a cabo hasta que las puntuaciones no deseables para las combinaciones del cebador candidato restantes en la biblioteca son todas iguales o por debajo del primer umbral mmimo. En algunas realizaciones, el metodo de seleccion se lleva a cabo hasta que el numero de cebadores candidatos restantes en la biblioteca se reduce a un numero deseado. En varias realizaciones, una puntuacion no deseable se calcula para al menos 80, 90, 95, 98, 99, o 99,5% de las combinaciones posibles de cebadores candidatos en la biblioteca. En varias realizaciones, los cebadores candidatos restantes en la biblioteca pueden amplificar simultaneamente al menos 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 loci diana diferentes. En varias realizaciones, el metodo tambien incluye (v) poner en contacto una muestra de acido nucleico que incluye loci diana con los cebadores candidatos restantes en la biblioteca para producir una mezcla de reaccion; y (ii) someter la mezcla de reaccion a las condiciones de reaccion de extension del cebador para producir productos amplificados que incluye amplicones diana.
En algunas realizaciones de cualquiera de los aspectos de la invencion, el metodo de seleccion implica reducir todavfa mas el numero de cebadores candidatos restantes en la biblioteca disminuyendo el primer umbral mmimo utilizado en el paso (ii) a un segundo umbral mmimo mas bajo y opcionalmente repetir los pasos (ii) y (iii). En algunas realizaciones, el metodo de seleccion implica aumentar el primer umbral mmimo utilizado en el paso (ii) a un segundo umbral mmimo mas alto y opcionalmente repetir los pasos (ii) y (iii). En algunas realizaciones, el metodo de seleccion se lleva a cabo hasta que las puntuaciones no deseables para las combinaciones del cebador candidato restantes en la biblioteca son todas iguales o por debajo del segundo umbral mmimo, o hasta que el numero de cebadores candidato restantes en la biblioteca se reduce a un numero deseado.
En varias realizaciones de cualquiera de los aspectos de la invencion, el metodo implica, antes del paso (i), identificar o seleccionar los cebadores que se hibridan al loci diana. En algunas realizaciones, multiples cebadores (o pares de cebador) se hibridan al mismo locus diana, y el metodo de seleccion se utiliza para seleccionar un cebador (o un par de cebadores) para este locus diana en base a uno o mas parametros. En varias realizaciones, el metodo implica, antes del paso (ii), quitar un par de cebadores de la biblioteca que produce un amplicon diana que se solapa con un amplicon diana producido por otro par de cebadores. En varias realizaciones, se selecciona un cebador candidato de un grupo de dos o mas cebadores candidatos con puntuaciones no deseables iguales para quitarlos de la biblioteca de cebadores candidatos en base a uno o mas parametros distintos. En algunas realizaciones, los cebadores candidatos restantes en la biblioteca se utilizan como una biblioteca de cebadores de prueba en cualquiera de los metodos de la invencion. En algunas realizaciones, la biblioteca de cebadores de prueba resultante incluye cualquiera de los cebadores de prueba de la invencion.
En varias realizaciones de cualquiera de los aspectos de la invencion, las puntuaciones no deseables se basan, al menos en parte, en uno o mas parametros seleccionados del grupo compuesto por la tasa de heterocigosidad del locus diana, el predominio de la enfermedad asociada con una secuencia (por ejemplo, un polimorfismo) en el locus diana, la penetrancia de la enfermedad asociada con una secuencia (por ejemplo, un polimorfismo) en el locus dina, la especificidad del cebador candidato para el locus diana, el tamano del cebador candidato, la temperatura de fusion del amplicon diana, el contenido de GC del amplicon diana, la eficiencia de la amplificacion del amplicon diana, y el tamano del amplicon diana.
En varias realizaciones de cualquiera de los aspectos de la invencion, las puntuaciones no deseables se basan, al menos en parte, en uno o mas parametros seleccionados del grupo compuesto por la tasa de heterocigosidad del locus diana, la especificidad del cebador candidato para el locus diana; el tamano del cebador candidato, la temperatura de fusion del amplicon diana, el contenido de GC del amplicon diana, la eficiencia de la amplificacion del amplicon diana, y el tamano del amplicon diana; y los cebadores de prueba se utilizan para amplificar simultaneamente al menos 1.000 loci diana diferentes en una muestra que incluye ADN materno de la madre embarazada de un feto y el ADN fetal para determinar la presencia o ausencia de una anomalfa cromosomica fetal. En varias realizaciones, el metodo incluye ligar un punto de union del cebador universal a las moleculas de ADN en la muestra; amplificar las moleculas de ADN ligadas utilizando al menos 1.000 cebadores espedficos y un cebador universal para producir un primer conjunto de productos amplificados; y amplificar el primer conjunto de productos amplificados utilizando al menos 1.000 pares de cebadores espedficos para producir un segundo conjunto de productos amplificados. En varias realizaciones, se utilizan al menos 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 pares de cebador diferentes. En varias realizaciones, al menos 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 loci diana diferentes se amplifican.
En varias realizaciones de cualquiera de los aspectos de la invencion, las puntuaciones no deseables se basan, al menos en parte, en uno o mas parametros seleccionados del grupo compuesto por la tasa de heterocigosidad del locus diana, la especificidad del cebador candidato para el locus diana; el tamano del cebador candidato, la temperatura de
5
10
15
20
25
30
35
40
45
50
55
60
fusion del amplicon diana, el contenido de GC del amplicon diana, la eficiencia de la amplificacion del amplicon diana, y el tamano del amplicon diana; y los cebadores de prueba se utilizan para amplificar simultaneamente al menos 1.000 loci diana diferentes en una muestra que incluye aDn de un supuesto padre de un feto y al mismo tiempo amplificar los loci diana en una muestra que incluye ADN materno de la madre embarazada del feto y el ADN fetal para determinar si el presunto padre es el padre biologico del feto. En varias realizaciones, al menos 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 loci diana diferentes se amplifican.
En varias realizaciones de cualquiera de los aspectos de la invencion, las puntuaciones no deseables se basan, al menos en parte, en uno o mas parametros seleccionados del grupo compuesto por la tasa de heterocigosidad del locus diana, la especificidad del cebador candidato para el locus diana; el tamano del cebador candidato, la temperatura de fusion del amplicon diana, el contenido de GC del amplicon diana, la eficiencia de la amplificacion del amplicon diana, y el tamano del amplicon diana; y los cebadores de prueba se utilizan para amplificar simultaneamente al menos 1.000 loci diana diferentes en una celula o multiples celulas de un embrion para determinar la presencia o ausencia de una anomalfa cromosomica. En varias realizaciones, se analizan las celulas de un conjunto de dos o mas embriones, y se selecciona un embrion para la fertilizacion.
En varias realizaciones, al menos 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o
100.000 loci diana diferentes se amplifican.
En varias realizaciones de cualquiera de los aspectos de la invencion, las puntuaciones no deseables se basan, al menos en parte, en uno o mas parametros seleccionados del grupo compuesto por la tasa de heterocigosidad del locus diana, la especificidad del cebador candidato para el locus diana; el tamano del cebador candidato, la temperatura de fusion del amplicon diana, el contenido de GC del amplicon diana, la eficiencia de la amplificacion del amplicon diana, y el tamano del amplicon diana; y los cebadores de prueba se utilizan para amplificar simultaneamente al menos 1.000 loci diana diferentes en una muestra de acido nucleico forense. En varias realizaciones, la longitud de la fase de reformacion termica es superior a 3, 5, 8, 10, o 15 minutos. En varias realizaciones, al menos 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 loci diana diferentes se amplifican.
En varias realizaciones de cualquiera de los aspectos de la invencion, las puntuaciones no deseables se basan, al menos en parte, en uno o mas parametros seleccionados del grupo compuesto por el la tasa de heterocigosidad del locus diana, el predominio de la enfermedad asociada con una secuencia (por ejemplo, un polimorfismo) en el locus diana, la penetrancia de la enfermedad asociada con una secuencia (por ejemplo, un polimorfismo) en el locus dina, la especificidad del cebador candidato para el locus diana, el tamano del cebador candidato, la temperatura de fusion del amplicon diana, el contenido de GC del amplicon diana, la eficiencia de la amplificacion del amplicon diana, y el tamano del amplicon diana; y el metodo implica el uso de los cebadores de prueba para amplificar simultaneamente al menos
1.000 loci diana diferentes en una muestra de acido nucleico de control para producir un primer conjunto de amplicones diana y para amplificar simultaneamente los loci diana en una muestra de acido nucleico de prueba para producir un segundo conjunto de amplicones diana; y comparar el primer y el segundo conjuntos de amplicones diana para determinar si un locus diana esta presente en una muestra, pero ausente en la otra, o si un locus diana esta presente en diferentes niveles en la muestra de control y la muestra de prueba. En varias realizaciones, la muestra de prueba es de un individuo sospechoso de tener una enfermedad o fenotipo de interes, o un mayor riesgo de una enfermedad o fenotipo de interes; y en donde uno o mas de los loci diana incluye una secuencia (por ejemplo, un polimorfismo) en el locus diana asociado con un mayor riesgo de desarrollar la enfermedad o fenotipo de interes, o asociado con la enfermedad o fenotipo de interes. En varias realizaciones, al menos 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 loci diana diferentes se amplifican.
En varias realizaciones de cualquiera de los aspectos de la invencion, las puntuaciones no deseables se basan, al menos en parte, en uno o mas parametros seleccionados del grupo compuesto por la tasa de heterocigosidad del locus diana, el predominio de la enfermedad asociada con una secuencia (por ejemplo, un polimorfismo) en el locus diana, la penetrancia de la enfermedad asociada con una secuencia (por ejemplo, un polimorfismo) en el locus diana, la especificidad del cebador candidato para el locus diana, el tamano del cebador candidato, la temperatura de fusion del amplicon diana, el contenido de GC del amplicon diana, la eficiencia de la amplificacion del amplicon diana, y el tamano del amplicon diana; y, el metodo implica el uso de los cebadores de prueba para amplificar simultaneamente 1.000; diferentes loci diana en una muestra de control que incluye el ARN para producir un primer conjunto de amplicones diana y para amplificar simultaneamente los loci diana en una muestra de prueba que incluye el ARN para producir un segundo conjunto de amplicones diana; y comparar el primer y el segundo conjuntos de amplicones diana para determinar la presencia o ausencia de una diferencia en los niveles de expresion de ARN entre la muestra de control y la muestra de prueba. En varias realizaciones, el ARN es mRNA. En varias realizaciones, la muestra de prueba es de un individuo sospechoso de tener una enfermedad o fenotipo de interes (como cancer), o un mayor riesgo de una enfermedad o fenotipo de interes (como cancer); y en donde uno o mas de los loci diana incluye una secuencia (por ejemplo, un polimorfismo u otra mutacion) asociados con un mayor riesgo de desarrollar la enfermedad o fenotipo de interes, o asociados con la enfermedad o fenotipo de interes. En algunas realizaciones, la muestra de prueba es de un individuo diagnosticado con una enfermedad o fenotipo de interes (como cancer); y en donde una diferencia en el nivel de expresion de ARN entre la muestra de control y la muestra de prueba indica que un locus diana incluye una secuencia (por ejemplo, un polimorfismo u otra mutacion) asociados con un mayor o menor riesgo de desarrollar la enfermedad o fenotipo de interes. En varias realizaciones, al menos 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 loci diana diferentes se amplifican.
5
10
15
20
25
30
35
40
45
50
55
60
En un aspecto, la invencion presenta bibliotecas de cebadores. En algunas realizaciones, los cebadores se seleccionan de una biblioteca de cebadores candidatos utilizando cualquiera de los metodos de la invencion. En algunas realizaciones, la biblioteca incluye cebadores que se hibridan simultaneamente hasta al menos 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000loci diana diferentes. En algunas realizaciones, la biblioteca incluye cebadores que amplifican simultaneamente al menos 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 loci diana diferentes. En algunas realizaciones, la biblioteca incluye cebadores que amplifican simultaneamente al menos 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 loci diana diferentes, de tal modo que menos de 60, 40, 30, 20, 10, 5, 4, 3, 2, 1, 0,5, 0,25, 0,1, o 0,05% de los productos amplificados son dfmeros de cebadores. En algunas realizaciones, la biblioteca incluye cebadores que amplifican simultaneamente 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 loci diana diferentes, de tal modo que al menos 50, 60, 70, 80, 90, 95, 96, 97,
98, 99, o 99,5% de los productos amplificados son amplicones diana. En algunas realizaciones, la biblioteca incluye cebadores que amplifican simultaneamente loci focalizados de tal modo que al menos 50, 60, 70, 80, 90, 95, 96, 97, 98,
99, o 99,5% de los loci focalizados de 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 loci diana diferentes se amplifican. En algunas realizaciones, la biblioteca de cebadores incluye al menos 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 pares de cebador de prueba, en donde cada par de cebadores incluye un cebador de prueba directo y un cebador de prueba inverso en el que cada par de cebadores de prueba se hibrida en un locus diana. En algunas realizaciones, la biblioteca de cebadores incluye al menos 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 cebadores de prueba individuales que se hibridan cada uno de ellos a diferentes locus diana, en donde los cebadores individuales no forman parte de los pares de cebador.
En varias realizaciones de cualquiera de los aspectos de la invencion, la concentracion de cada cebador es inferior a
100, 75, 50, 25, 10, 5, 2, o 1 nM. En varias realizaciones, el contenido de GC de los cebadores esta entre 30 y 80%, por ejemplo, entre 40 y 70% o 50 y 60%, incluidos. En algunas realizaciones, el intervalo de contenido de GC de los cebadores es inferior a 30, 20, 10, o 5%. En varias realizaciones, la temperatura de fusion de los cebadores esta entre 40 y 80 °C, por ejemplo, entre 50 y 70 °C, 55 y 65 °C, o 57 y 60,5 °C, incluidos. En algunas realizaciones, el intervalo de la temperatura de fusion de los cebadores es inferior a 15, 10, 5, 3, o 1 °C. En algunas realizaciones, la longitud de los cebadores esta entre 15 y 100 nucleotidos, por ejemplo, 15 y 75 nucleotidos, 15 y 40 nucleotidos, 17 y 35 nucleotidos, 18 y 30 nucleotidos, o 20 y 65 nucleotidos, incluidos. En algunas realizaciones, los cebadores incluyen una etiqueta que no es espedfica de la diana, como una etiqueta que forma una estructura de bucle interno. En algunas realizaciones, la etiqueta esta entre dos zonas de union de ADN. En varias realizaciones, los cebadores incluyen una region 5' que es espedfica para un locus diana, una region interna que no es espedfica para el locus diana y forma una estructura de bucle, y una region 3' que es espedfica del locus diana. En varias realizaciones, la longitud de la region 3' es al menos de 7 nucleotidos. En algunas realizaciones, la longitud de la region 3' esta entre 7 y 20 nucleotidos, por ejemplo, entre 7 y 15 nucleotidos, o 7 y 10 nucleotidos, incluidos. En varias realizaciones, los cebadores incluyen una region 5' que no es espedfica para un locus diana (como otra etiqueta o un punto de union del cebador universal) seguido de una region que es espedfica de un locus diana, una region interna que no es espedfica para el locus diana y forma una estructura de bucle, y una region 3' que es espedfica del locus diana. En algunas realizaciones, el intervalo de la longitud de los cebadores es inferior a 50, 40, 30, 20, 10, o 5 nucleotidos. En algunas realizaciones, la longitud de los amplicones diana esta entre 50 y 100 nucleotidos, por ejemplo, entre 60 y 80 nucleotidos, o 60 y 75 nucleotidos, incluidos. En algunas realizaciones, el intervalo de la longitud de los amplicones diana es inferior a 50, 25, 15, 10, o 5 nucleotidos.
En un aspecto, la presente divulgacion proporciona kits que incluyen cualquier de las bibliotecas de cebadores de la invencion para amplificar loci diana en una muestra de acido nucleico. En algunas realizaciones, el kit incluye instrucciones para utilizar la biblioteca para amplificar los loci diana.
En un aspecto, la presente divulgacion presenta metodos para determinar un estado de ploidfa de cromosoma en un feto en gestacion. En algunas realizaciones, el metodo consiste en poner en contacto una muestra de acido nucleico con una biblioteca de cebadores que se hibridan simultaneamente a al menos 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 loci polimorficos diferentes para producir una mezcla de reaccion; en donde la muestra de acido nucleico incluye ADN materno de la madre del feto y ADN fetal del feto. En algunas realizaciones, la mezcla de reaccion se somete a condiciones de reaccion de extension del cebador para producir productos amplificados; los productos amplificados se miden con un secuenciador de alto rendimiento
para producir datos de secuenciacion; los recuentos de alelos en los loci polimorficos se calculan en un ordenador en base a los datos de secuenciacion; en un ordenador se crean una pluralidad de hipotesis de ploidfa cada una de ellas perteneciente a un estado de ploidfa posible diferente del cromosoma; un modelo de distribucion conjunto para los recuentos de alelos esperados en los loci polimorficos en el cromosoma se genera en un ordenador para cada hipotesis de ploidfa; una probabilidad relativa de cada hipotesis de ploidfa se determina en un ordenador utilizando el modelo de distribucion conjunto y los recuentos de alelos; y el estado de ploidfa del feto se determina seleccionando el estado de ploidfa correspondiente a la hipotesis con la mayor probabilidad.
En un aspecto, la divulgacion presenta metodos para determinar un estado de ploidfa de un cromosoma en un feto en gestacion. En una realizacion un metodo para determinar un estado de ploidfa de un cromosoma en un feto en gestacion incluye la obtencion de una primera muestra de ADN que comprende ADN materno de la madre del feto y ADN fetal del feto, la preparacion de la primera muestra aislando el aDn para obtener una muestra preparada, la medicion del ADN en la muestra preparada a una pluralidad de loci polimorficos en el cromosoma, el calculo, en un
5
10
15
20
25
30
35
40
45
50
55
60
ordenador, de los recuentos de alelos en la pluralidad de loci polimorficos de las mediciones de ADN realizadas en la muestra preparada, la creacion, en un ordenador, de una pluralidad de hipotesis de ploidfa cada una de ellas perteneciente a un estado de ploidfa posible diferente del cromosoma, la creacion, en un ordenador, de un
modelo de distribucion conjunto para los recuentos de alelos esperados en la pluralidad de loci polimorficos en el cromosoma para cada hipotesis de ploidfa, la determinacion, en un ordenador, de una probabilidad relativa de cada una de las hipotesis de ploidfa utilizando el modelo de distribucion conjunto y los recuentos de alelos medidos en la muestra preparada, y la determinacion del estado de ploidfa del feto seleccionando el estado de ploidfa correspondiente a la hipotesis con la mayor probabilidad.
En un aspecto, la divulgacion presenta metodos de realizar pruebas para determinar la distribucion anomala de un cromosoma en una muestra que incluye una mezcla de ADN materno y fetal. En algunas realizaciones, el metodo consiste en (i) poner en contacto la muestra con una biblioteca de cebadores que se hibridan simultaneamente a al menos 1.000. 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 loci diana diferentes para producir una mezcla de reaccion; en la que los loci diana son de una pluralidad de cromosomas diferentes: y en la que la pluralidad de cromosomas diferentes incluye al menos un primer cromosoma sospechoso de tener una distribucion anomala en la muestra y al menos un segundo cromosoma que se supone que esta distribuido normalmente en la muestra; (ii) someter la mezcla de reaccion a las condiciones de reaccion de extension del cebador para producir productos amplificados; (iii) secuenciar los productos amplificados para obtener una pluralidad de etiquetas de secuencia que se alineen con los loci diana; en donde las etiquetas de secuencia tienen la longitud suficiente para ser asignadas a un locus diana espedfico; (iv) asignar en un ordenador la pluralidad de etiquetas de secuencia a sus loci diana correspondientes; (v) determinar en un ordenador un numero de etiquetas de secuencia que se alinean con los loci diana del primer cromosoma y un numero de etiquetas de secuencia que se alinean con los loci diana del segundo cromosoma; y (vi) comparar en un ordenador los numeros del paso (v) para determinar la presencia o ausencia de una distribucion anomala del primer cromosoma.
En un aspecto, la divulgacion proporciona metodos para detectar la presencia o ausencia de una aneuploidfa fetal. En algunas realizaciones, el metodo consiste en (i) poner en contacto una muestra que incluye una mezcla de ADN materno y fetal con una biblioteca de cebadores que se hibridan simultaneamente a al menos 1.000. 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 loci diana no polimorficos diferentes para producir una mezcla de reaccion; en la que los loci diana son de una pluralidad de cromosomas diferentes: (ii) someter la mezcla de reaccion a las condiciones de reaccion de extension del cebador para producir productos amplificados que incluyen amplicones diana; (iii) cuantificar en un ordenador una frecuencia relativa de los
amplicones diana del primer y segundo cromosomas de interes; (iv) comparar en un ordenador la frecuencia relativa de los amplicones diana del primer y segundo cromosoma de interes; e (v) identificar la presencia o ausencia de una aneuploidfa en base a las frecuencias relativas comparadas del primer y segundo cromosoma de interes. En algunas realizaciones, el primer cromosoma es un cromosoma sospechoso de ser euploide. En algunas realizaciones, el segundo cromosoma es un cromosoma sospechoso de ser aneuploidfa.
En un aspecto, se describe un metodo para determinar la presencia o ausencia de aneuploidfa fetal en una muestra de tejido materno que comprende ADN genomico materno y fetal, el metodo incluye (a) la obtencion de una mezcla de ADN genomico materno y fetal de dicha muestra de tejido materno, (b) la realizacionde una secuenciacion de ADN paralela masivamente de fragmentos de ADN seleccionados aleatoriamente de la mezcla de ADN genomico materno y fetal del paso (a) para determinar la secuencia de dichos fragmentos de ADN , (c) la identificacion de los cromosomas a los que las secuencias obtenidas en el paso (b) pertenecen, (d) la utilizacion de los datos del paso (c) para determinar una cantidad de al menos un primer cromosoma en dicha mezcla de ADN genomico materno y fetal, en donde al menos dicho primer cromosoma se supone que es euploide en el feto, (e) la utilizacion de los datos del paso (c) para determinar una cantidad de un segundo cromosoma en dicha mezcla de ADN genomico materno y fetal, en donde dicho segundo cromosoma se sospecha que es aneuploide en el feto, (f) el calculo de la fraccion de ADN fetal en la mezcla de ADN materno y fetal, (g) el calculo de una distribucion esperada de la cantidad del segundo cromosoma diana si el segundo cromosoma diana es euploide, la utilizacion del numero en el paso (d), (h) el calculo de una distribucion esperada de la cantidad del segundo cromosoma diana si el segundo cromosoma diana es aneuploide, la utilizacion del primer numero del paso (d) y la fraccion calculada de ADN fetal en la mezcla de ADN materno y fetal en el paso (f), y (i) utilizando una probabilidad maxima o el enfoque a posteriori maximo para determinar si la cantidad del segundo cromosoma segun se ha determinado en el paso (e) es mas probable que sea parte de la distribucion calculada en el paso (g) o la distribucion calculada en el paso (h); indicando, por tanto, la presencia o ausencia de una aneuploidfa fetal.
En varias realizaciones de cualquiera de los aspectos de la divulgacion, el metodo tambien incluye la obtencion de datos genotfpicos de uno o ambos padres del feto. En algunas realizaciones, obtener datos genotfpicos de uno o ambos padres del feto incluye preparar el ADN de los padres en donde la preparacion comprende preferentemente enriquecer el ADN en la pluralidad de loci polimorficos para dar ADN de los padres preparado, opcionalmente amplificar el ADN de los padres preparado, y medir el ADN de los padres en la muestra preparada en la pluralidad de loci polimorficos.
En varias realizaciones de cualquiera de los aspectos de la divulgacion, la creacion de un modelo de distribucion conjunto para las probabilidades de recuento de alelos esperado de la pluralidad de loci polimorficos en el cromosoma se lleva a cabo utilizando los datos geneticos obtenidos de uno o de ambos padres. En algunas realizaciones, la muestra (por ejemplo, la primera muestra) se ha aislado del plasma materno y, cuando se lleva a cabo la obtencion de
5
10
15
20
25
30
35
40
45
50
55
60
datos genotipicos de la madre, estimando los datos genotfpicos maternos de las mediciones de ADN realizadas en la muestra preparada.
En un aspecto, se describe un cuadro de diagnostico para ayudar a determinar un estado de ploidfa de un cromosoma en un feto en gestacion donde el cuadro de diagnostico es capaz de ejecutar los pasos de preparacion y medicion de cualquiera de los metodos de la divulgacion.
En varias realizaciones de cualquiera de los aspectos de la divulgacion, los recuentos de alelos son probabilfsticos en lugar de binarios. En algunas realizaciones, las mediciones del ADN en la muestra preparada en la pluralidad de loci polimorficos tambien se utilizan para determinar si el feto ha heredado o no uno o una pluralidad de haplotipos vinculados a la enfermedad.
En varias realizaciones de cualquiera de los aspectos de la divulgacion, la creacion de un modelo de distribucion conjunto para las probabilidades del recuento de alelos se realiza utilizando datos sobre la probabilidad de que los cromosomas se crucen en diferentes ubicaciones en un cromosoma para modelar la dependencia entre alelos polimorficos en el cromosoma. En algunas realizaciones, la creacion de un modelo de distribucion conjunto para los recuentos de alelos y el paso de determinar la probabilidad relativa de cada hipotesis se realiza utilizando un metodo que no requiere el uso de un cromosoma de referencia.
En varias realizaciones de cualquiera de los aspectos de la divulgacion, la determinacion de la probabilidad relativa de cada hipotesis hace uso de una fraccion estimada de ADN fetal en la muestra preparada. En algunas realizaciones, las mediciones de ADN de la muestra preparada utilizada en el calculo de las probabilidades del recuento de alelos y la determinacion de la probabilidad relativa de cada hipotesis comprende datos geneticos primarios. En algunas realizaciones, la seleccion del estado de ploidfa correspondiente a la hipotesis con la mayor probabilidad se lleva a cabo utilizando las estimaciones de probabilidad maximas o las estimaciones a posteriori maximas.
En varias realizaciones de cualquiera de los aspectos de la divulgacion, la determinacion del estado de ploidfa del feto tambien incluye la combinacion de las probabilidades relativas de cada una de las hipotesis de ploidfa determinadas utilizando el modelo de distribucion conjunto y las probabilidades del recuento de alelos con las probabilidades relativas de cada una de las hipotesis de ploidfa que se calculan utilizando tecnicas estadfsticas tomadas de un grupo que se compone de un analisis de recuento de lectura, la comparacion de tasas de heterocigosidad, una estadfstica que solo esta disponible cuando se utiliza informacion genetica de los padres, la probabilidad de senales genotfpicas normalizadas para determinados contextos de los progenitores, una estadfstica que se calcula utilizando una fraccion fetal estimada de la muestra (por ejemplo, la primera muestra) o la muestra preparada, y combinaciones de estas.
En varias realizaciones de cualquiera de los aspectos de la divulgacion, se calcula una estimacion de certeza para el estado de ploidfa determinado. En algunas realizaciones, el metodo tambien incluye tomar una accion clmica en base al estado de ploidfa determinado del feto, en donde la accion clmica se selecciona de o bien la finalizacion del embarazo o mantenerlo.
En varias realizaciones de cualquiera de los aspectos de la divulgacion, el metodo se puede realizar para fetos entre 4 y 5 semanas de gestacion; entre 5 y 6 semanas de gestacion; entre 6 y 7 semanas de gestacion; entre 7 y 8 semanas de gestacion; entre 8 y 9 semanas de gestacion; entre 9 y 10 semanas de gestacion; entre 10 y 12 semanas de gestacion; entre 12 y 14 semanas de gestacion; entre 14 y 20 semanas de gestacion; entre 20 y 40 semanas de gestacion; en el primer trimestre; en el segundo trimestre; en el tercer trimestre; o combinaciones de estos.
En varias realizaciones de cualquiera de los aspectos de la divulgacion, un informe que muestra un estado de ploidfa determinado de un cromosoma en un feto en gestacion generado utilizando el metodo. En algunas realizaciones, se describe un kit para determinar un estado de ploidfa de un cromosoma diana en un feto en gestacion disenado para ser utilizado con cualquiera de los metodos de la invencion, el kit incluye una pluralidad de cebadores directos interiores y opcionalmente la pluralidad de cebadores inversos interiores, donde cada uno de los cebadores esta disenado para que se hibride en la region de ADN inmediatamente corriente arriba y/o corriente abajo de uno de los lugares polimorficos en el cromosoma diana, y opcionalmente en cromosomas adicionales, donde la region de hibridacion esta separada del lugar polimorfico por un numero de bases pequeno, en el que el numero pequeno se selecciona del grupo compuesto de 1, 2, 3, 4, 5, 6 a 10, 11 a 15, 16 a 20, 21 a 25, 26 a 30, 31 a 60, y combinaciones de estos.
En un aspecto, la divulgacion presenta metodos para establecer si un presunto padre es el padre biologico de un feto que se esta gestando en una madre embarazada. En algunas realizaciones, el metodo consiste en (i) amplificar simultaneamente una pluralidad de loci polimorficos que incluye al menos 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 loci polimorficos diferentes en material genetico del presunto padre para producir un primer conjunto de productos amplificados; (ii) amplificar simultaneamente la pluralidad de loci polimorficos correspondiente en una muestra mezclada de ADN que se originaa partir de unamuestrade sangre de la madre embarazada para producir un segundo conjunto de productos amplificados; en donde la muestra mezclada de ADN incluye ADN fetal y ADN materno; (iii) determinar en un ordenador la probabilidad de que el presunto padre sea el padre biologico del feto utilizando mediciones genotfpicas en base al primer y segundo conjuntos de productos amplificados; y (iv) establecer si el presunto padre es el padre biologico del feto utilizando la probabilidad determinada de que el presunto padre es el padre biologico del feto. En varias realizaciones, el metodo incluye ademas amplificar simultaneamente la pluralidad de loci polimorficos correspondiente en el material genetico de la madre para producir un tercer conjunto de productos amplificados; en donde la probabilidad de que el presunto padre sea el padre biologico del
5
10
15
20
25
30
35
40
45
50
55
60
feto se determina utilizando mediciones genotipicas en base al primer, segundo y tercer conjuntos de productos amplificados.
En un aspecto, la divulgacion proporciona metodos de estimar las probabilidades relativas de que cada embrion de un conjunto de embriones se desarrollara como se desea. En algunas realizaciones, el metodo consiste en poner en contacto una muestra de cada embrion con una biblioteca de cebadores que se hibridan simultaneamente a al menos 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 loci diana diferentes para producir una mezcla de reaccion para cada embrion, en donde cada una de las muestras se deriva de una o mas celulas de un embrion. En algunas realizaciones, cada mezcla de reaccion se somete a condiciones de reaccion de extension del cebador para producir productos amplificados. En algunas realizaciones, el metodo incluye determinar en un ordenador una o mas caractensticas de al menos una celula de cada embrion en base a los productos amplificados; y estimar en un ordenador las probabilidades relativas de que cada embrion se desarrollara segun se desee, en base a una o mas caractensticas de al menos una celula para cada embrion.
En un aspecto, la divulgacion presenta metodos de medir la cantidad de dos o mas loci diana en una muestra de acido nucleico. En algunas realizaciones, el metodo implica (i) utilizar una PCR para amplificar una muestra de acido nucleico que incluye un primer locus estandar, un segundo locus estandar, un primer locus diana, y un segundo locus diana para formar productos amplificados; donde el primer locus estandar y el primer locus diana tienen el mismo numero de nucleotidos pero tienen una secuencia que difiere en uno o mas nucleotidos; y donde el segundo locus estandar y el segundo locus diana tienen el mismo numero de nucleotidos pero tienen una secuencia que difiere en uno o mas nucleotidos; (ii) secuenciar los productos amplificados para determinar una relacion estandar que compare la cantidad relativa del primer locus estandar amplificado en comparacion con el segundo locus estandar amplificado; en donde una relacion estandar indica la diferencia en la eficiencia de la PCR para la amplificacion del primer locus estandar y el segundo locus estandar; (iii) determinar una relacion diana que compare la cantidad relativa del primer locus diana amplificado en comparacion con el segundo locus diana amplificado; y (iv) ajustar la relacion diana del paso (iii) en base a la relacion estandar del paso (ii) para determinar la cantidad relativa del primer locus diana y el segundo locus diana en la muestra. En varias realizaciones, el metodo implica determinar la cantidad absoluta del primer locus diana y el segundo locus diana en la muestra. En varias realizaciones, el metodo incluye ademas determinar la presencia o ausencia de un locus diana (por ejemplo, al menos 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 loci diana diferentes en la muestra. En varias realizaciones, el metodo implica utilizar cualquiera de las bibliotecas de cebadores de la invencion. En varias realizaciones, el metodo implica amplificar simultaneamente 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 loci diana diferentes.
En un aspecto, la divulgacion presenta metodos de medir cuantitativamente una pluralidad de dianas geneticas en una muestra para analisis. En algunas realizaciones, el metodo incluye (i) mezclar material genetico derivado de la muestra para analisis con una pluralidad de reactivos de amplificacion espedficos diana, y una pluralidad de secuencias estandar correspondientes a las dianas de los reactivos de amplificacion espedficos diana; (ii) amplificar zonas diana del material genetico y las secuencias estandar para producir amplicones diana y amplicones de secuencia estandar; y (iii) medir la cantidad de amplicones diana y amplicones de secuencia estandar producidos. En algunas realizaciones, el material genetico esta presente en una biblioteca genetica. En algunas realizaciones, las dianas geneticas son loci polimorficos (como, por ejemplo, SNP). En algunas realizaciones, la medicion de la cantidad se consigue contando las secuencias. En algunas realizaciones, el metodo incluye ademas la determinacion del numero de copias estimada de al menos un cromosoma en una muestra del que la biblioteca genetica se ha derivado, en donde la determinacion implica comparar el numero de lecturas de secuencia de un amplicon diana con el numero de lecturas de secuencia de un amplicon estandar. En algunas realizaciones, las secuencias estandar y la biblioteca genetica
incluye puntos de cebado universal capaces de ser cebados por el mismo cebador. En algunas realizaciones, el paso de mezcla incluye al menos 10; 100, 500; 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 reactivos de amplificacion espedficos diana diferentes y al menos 10; 100, 500; 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 secuencias estandar. En varias realizaciones, el metodo implica utilizar cualquiera de las bibliotecas de cebadores de la invencion. En varias realizaciones, el metodo implica amplificar simultaneamente 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 zonas diana diferentes. En algunas realizaciones, se conocen las cantidades relativas de cada una de las secuencias estandar. En algunas realizaciones, las cantidades relativas de cada una de las secuencias se ha calibrado con respecto a un genoma de referencia. En algunas realizaciones, la muestra para analisis incluye una mezcla de genomas fetales y maternos. En algunas realizaciones, la muestra para analisis se deriva de la sangre de una mujer embarazada o se deriva del plasma sangumeo. En algunas realizaciones, el genoma de referencia tiene al menos una aneuploidfa, como una aneuploidfa en el cromosoma 13, 18, 21, X, o Y. En algunas realizaciones, el genoma de referencia es diploide.
En un aspecto, la divulgacion presenta una mezcla que incluye una pluralidad de secuencias estandar geneticas, en donde la cantidad relativa de cada secuencia estandar genetica en la mezcla se ha determinado mediante la calibracion a un genoma de referencia. En varias realizaciones, la mezcla incluye al menos 10; 100, 500; 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 secuencias estandar geneticas. En varias realizaciones, las secuencias estandar geneticas incluyen un primer punto de cebado universal, un segundo punto de cebado universal, un primer punto de cebado espedfico diana, un segundo punto de cebado espedfico diana, y una secuencia de marcador situada entre el primer y el segundo puntos de cebado espedficos diana, en donde el primer
5
10
15
20
25
30
35
40
45
50
55
60
punto de cebado espedfico diana y el segundo punto de cebado espedfico diana estan situados entre el primer y el segundo puntos de cebado universal. En varias realizaciones, la calibracion implica utilizar cualquiera de las bibliotecas de cebadores de la invencion. En varias realizaciones, la calibracion implica amplificar simultaneamente 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 zonas diana diferentes. En algunas realizaciones, el genoma de referencia tiene al menos una aneuploidfa, como una aneuploidfa en el cromosoma 13, 18, 21, X, o Y. En algunas realizaciones, el genoma de referencia es diploide.
En un aspecto, la divulgacion presenta metodos de producir un conjunto de secuencias estandar geneticas calibradas. En algunas realizaciones, el metodo incluye (i) formar una mezcla de reaccion de amplificacion que incluye una biblioteca genetica preparada a partir de una genoma de referencia, una pluralidad de conjuntos de reactivos del cebador espedficos diana, y una pluralidad de secuencias estandar geneticas correspondientes a los conjuntos de reactivos de amplificacion espedficos diana, (ii) amplificar la biblioteca genetica y las secuencias estandar geneticas para producir amplicones de las secuencias diana y amplicones de las secuencias estandar geneticas, (iii) medir la cantidadde los amplicones de las secuencias diana y los amplicones de las secuencias estandar geneticas, y (iv) determinar la cantidad relativa de cada una de las secuencias estandar geneticas con respecto a la otra, por la cual se calibra la pluralidad de secuencias estandar geneticas. En varias realizaciones, se utilizan al menos 10; 100, 500; 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 secuencias estandar geneticas. En varias realizaciones, el metodo implica utilizar cualquiera de las bibliotecas de cebadores de la invencion. En varias realizaciones, el metodo implica amplificar simultaneamente 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o secuencias diferentes. En algunas realizaciones, el genoma de referencia tiene al menos una aneuploidfa, como una aneuploidfa en el cromosoma 13, 18, 21, X, o Y. En algunas realizaciones, el genoma de referencia es diploide.
En un aspecto, la divulgacion proporciona un conjunto de secuencias estandar geneticas que han sido calibradas segun cualquiera de los metodos de la invencion. En un aspecto, la invencion proporciona un conjunto de secuencias estandar geneticas que se han podido calibrar antes, durante o despues de que se haya llevado a cabo el metodo.
En un aspecto, la divulgacion presenta metodos de medir el numero de copias de un gen de interes que tiene al menos un alelo que tiene una eliminacion. En algunas realizaciones, el metodo incluye (i) mezclar material genetico derivado a partir de una muestra para analisis con un reactivo de amplificacion espedfico del gen de interes y que no puede amplificar significativamente la eliminacion que comprende el alelo del gen de interes, una secuencia estandar correspondiente al gen de interes, un reactivo de amplificacion espedfico para una secuencia de referencia, y una secuencia estandar correspondiente a la secuencia de referencia; (ii) amplificar la secuencia de genes de interes, la secuencia estandar correspondiente al gen de interes, la secuencia de referencia, y la secuencia estandar correspondiente a la secuencia de referencia para producir genes de los amplicones de interes, los amplicones de secuencia de referencia, y los amplicones de secuencia estandar; y (iii) medir la cantidad de amplicones diana y amplicones de secuencia estandar producidos. En algunas realizaciones, la medicion de la cantidad se consigue contando las lecturas de secuencia. En algunas realizaciones, el metodo incluye ademas la determinacion del numero de copias estimada de al menos un cromosoma en una muestra del que la biblioteca genetica se ha derivado, en donde la determinacion implica comparar el numero de secuencias de amplicones diana con el numero de secuencias de amplicones estandar. En algunas realizaciones, las secuencias estandar y la biblioteca genetica incluyen puntos de cebado universal capaces de ser cebados por el mismo cebador. En algunas realizaciones, las cantidades relativas de cada una de las secuencias se han calibrado con respecto a un genoma de referencia. En varias realizaciones, se utilizan al menos 10; 100, 500; 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 secuencias estandar geneticas. En varias realizaciones, el metodo implica utilizar cualquiera de las bibliotecas de cebadores de la invencion. En varias realizaciones, el metodo implica amplificar simultaneamente 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 zonas diana diferentes. En algunas realizaciones, el genoma de referencia es diploide. En algunas realizaciones, la muestra para analisis esta derivada de la sangre.
En algunas realizaciones de cualquiera de los aspectos de la divulgacion, que enriquecen preferentemente el ADN en la muestra (por ejemplo, la primera muestra) en los loci diana (por ejemplo, la pluralidad de loci polimorficos) incluye la obtencion de una pluralidad de sondas precircularizadas donde cada sonda esta dirigida a uno de los loci (por ejemplo, loci polimorficos), donde el extremo 3' y 5' de las sondas esta disenado preferiblemente para que se hibride en una region de ADN que esta separada del punto polimorfico del locus por un pequeno numero de bases, donde el pequeno numero es 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21 a 25, 26 a 30, 31 a 60, o una combinacion de estos, hibridando las sondas precircularizadas al ADN de la muestra (por ejemplo, la primera muestra), que llena el hueco entre los extremos de la sonda hibridada utilizando ADN polimerasa, circularizando la sonda precircularizada, y amplificando la sonda circularizada.
En algunas realizaciones de cualquiera de los aspectos de la divulgacion, que enriquecen preferentemente el ADN en los loci diana (por ejemplo., la pluralidad de loci polimorficos) incluye la obtencion de una pluralidad de sondas para PCR mediadas por union donde cada sonda para PCR focaliza uno de los loci diana (por ejemplo, los loci polimorficos), y donde las sondas para PCR corriente arriba y corriente abajo estan disenadas para que se hibriden en una region de ADN en una hebra de ADN que esta separada preferiblemente del punto polimorfico del locus por un pequeno numero de bases, donde el pequeno numero es 1,2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21 a 25, 26 a 30, 31 a 60, o una combinacion de estos, hibridando las sondas para PCR mediadas por union al ADN de la muestra (por ejemplo, la primera muestra), que llena el hueco entre los extremos de la sonda para PCR mediada por union
5
10
15
20
25
30
35
40
45
50
55
60
utilizando ADN polimerasa, ligando las sondas para PCR mediadas por union, y amplificando las sondas para PCR mediadas por union.
En algunas realizaciones de varios aspectos de la divulgacion, que enriquece preferentemente el ADN en los loci diana (por ejemplo, la pluralidad de loci polimorficos) incluye la obtencion de una pluralidad de sondas de captura hubridas que focalizan los loci (por ejemplo, los loci polimorficos), hibridando las sondas de captura hubridas en el ADN en la muestra (por ejemplo, la primera muestra) y eliminan ffsicamente algunos o todo el ADN no hibridado de la muestra (por ejemplo, la primera muestra) de ADN.
En algunas realizaciones de cualquiera de los aspectos de la divulgacion, las sondas de captura hubridas estan disenadas para hibridarse en una region que flanquea pero no se solapa con el punto polimorfico. En algunas realizaciones, las sondas de captura hubridas estan disenadas para hibridarse con una region que flanquea pero no se solapa con el punto polimorfico, y donde la longitud de la sonda de captura de flanqueo se puede seleccionar del grupo compuesto por menos de unas 120 bases, menos de unas 110 bases, menos de unas 100 bases, menos de unas 90 bases, menos de unas 80 bases, menos de unas 70 bases, menos de unas 60 bases, menos de unas 50 bases, menos de unas 40 bases, menos de unas 30 bases, y menos de unas 25 bases. En algunas realizaciones, las sondas de captura hubrida estan disenadas para que se hibriden en una region que se solapa con el punto polimorfico, y donde la pluralidad de sondas de captura hfbrida comprende al menos dos sondas de captura hubrida para cada loci polimorfico, y donde cada sonda de captura hubrida esta disenada para ser complementaria de un alelo diferente en el locus polimorfico.
En algunas realizaciones de cualquiera de los aspectos de la divulgacion, el enriquecimiento preferente del ADN en una pluralidad de loci polimorficos incluye la obtencion de una pluralidad de cebadores directos internos donde cada cebador se dirige a uno de los loci polimorficos, y donde el extremo 3' de los cebadores directos internos esta disenado para hibridarse con una region de ADN corriente arriba del punto polimorfico, y separada del punto polimorfico por un pequeno numero de bases, donde el pequeno numero de bases se selecciona del grupo compuesto por 1, 2, 3, 4, 5, 6 a 10, 11 a 15, 16 a 20, 21 a 25, 26 a 30, o 31 a 60 pares de bases, opcionalmente obteniendo una pluralidad de cebadores inversos internos donde cada cebador se dirige a uno de los loci polimorficos, y donde el extremo 3' de los cebadores inversos internos esta disenado parahibridarse con una region de ADN corriente arriba del sitio polimorfico, y separada del sitio polimorfico por un pequeno numero de bases, donde el pequeno numero de bases se selecciona del grupo compuesto por 1, 2, 3, 4, 5, 6 a 10, 11 a 15, 16 a 20, 21 a 25, 26 a 30, o 31 a 60 pares de bases, hibridando los cebadores internos con el ADN, y amplificando el ADN utilizando la reaccion en cadena de la polimerasa para formar amplicones.
En algunas realizaciones de cualquiera de los aspectos de la divulgacion, el metodo tambien incluye la obtencion de una pluralidad de cebadores directos exteriores en donde cada cebador focaliza uno de los diana (por ejemplo, loci polimorficos), y donde los cebadores directos exteriores estan disenados para que se hibriden en la region de ADN corriente arriba del cebador directo interior, obteniendo opcionalmente una pluralidad de cebadores inversos exteriores donde cada cebador focaliza uno de los loci diana (por ejemplo, loci polimorficos), y donde los cebadores inversos exteriores estan disenados para hibridarse en la region de ADN inmediatamente corriente abajo del cebador inverso interior, hibridando los primeros cebadores en el ADN, y amplificando el ADN utilizando la reaccion en cadena de polimerasa.
En algunas realizaciones de cualquiera de los aspectos de la divulgacion, el metodo tambien incluye la obtencion de una pluralidad de cebadores inversos exteriores donde cada cebador focaliza uno de los loci polimorficos, y donde los cebadores inversos exteriores estan disenados para que se hibriden en la region de ADN inmediatamente corriente abajo del cebador inverso interior, la obtencion opcionalmente de una pluralidad de cebadores directos exteriores donde cada cebador focaliza uno de los loci diana(por ejemplo, los loci polimorficos), y donde los cebadores directos exteriores estan disenados para hibridarse en la region de ADN corriente arriba del cebador directo interior, hibridando los primeros cebadores en el ADN, y amplificando el ADN utilizando la reaccion en cadena de polimerasa.
En algunas realizaciones de cualquiera de los aspectos de la divulgacion, la preparacion de la muestra (por ejemplo, la primera muestra) incluye ademas anexar adaptadores universales al ADN en la muestra (por ejemplo, la primera muestra) y amplificar el ADN en la muestra (por ejemplo, la primera muestra) utilizando la reaccion en cadena de polimerasa. En algunas realizaciones, al menos una fraccion de los amplicones que se amplifican es inferior a 100 bp, inferior a 90 bp, inferior a 80 bp, inferior a 70 bp, inferior a 65 bp, inferior a 60 bp, inferior a 55 bp, inferior a 50 bp, o inferior a 45 bp, y donde la fraccion es un 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, o 99%.
En algunas realizaciones de cualquiera de los aspectos de la invencion, la amplificacion del ADN se realiza en uno o en varios volumenes de reaccion individual, y en donde cada volumen de reaccion individual contiene mas de 100 pares de cebador directos e inversos diferentes, mas de 200 pares de cebador directos e inversos diferentes, mas de 500 pares de cebador directos e inversos diferentes, mas de 1.000 pares de cebador directos e inversos diferentes, mas de 2.000 pares de cebador directos e inversos diferentes, mas de 5.000 pares de cebador directos e inversos diferentes, mas de 10.000 pares de cebador directos e inversos diferentes, mas de 20.000 pares de cebador directos e inversos diferentes, mas de 50.000 pares de cebador directos e inversos diferentes, o mas de 100.000 pares de cebador directos e inversos diferentes.
5
10
15
20
25
30
35
40
45
50
55
60
En algunas realizaciones de cualquiera de los aspectos de la invencion, la preparacion de la muestra (por ejemplo, la primera muestra) comprende ademas dividir la muestra (por ejemplo, la primera muestra) en una pluralidad de porciones, y donde el ADN en cada porcion esta enriquecido preferentemente en un subconjunto de los loci diana (por ejemplo, una pluralidad de loci polimorficos). En algunas realizaciones, los cebadores internos se seleccionan identificando pares de cebadores que es probable que formen duplex de cebadores no deseados y eliminando de la pluralidad de cebadores al menos uno de los pares de cebadores identificados por su probabilidad de formar duplex de cebadores no deseados. En algunas realizaciones, los cebadores interiores contienen una region que esta disenada para que se hibride o bien corriente arriba o corriente abajo del locus focalizado (por ejemplo, el locus polimorfico), y opcionalmente contienen una secuencia de cebado universal disenada para permitir la amplificacion por PCR. En algunas realizaciones, al menos algunos de los cebadores contienen ademas una region aleatoria que difiere para cada molecula del cebador. En algunas realizaciones, al menos algunos de los cebadores contienen ademas un codigo de barras molecular.
En algunas realizaciones de cualquiera de los aspectos de la divulgacion, el enriquecimiento preferente resulta en un grado medio de sesgo alelico entre la muestra preparada y la muestra (por ejemplo, la primera muestra) de un factor seleccionado del grupo que se compone de no mas de un factor de 2, no mas de un factor de 1,5, no mas de un factor de 1,2, no mas de un factor de 1,1, no mas de un factor de 1,05, no mas de un factor de 1,02, no mas de un factor de 1,01, no mas de un factor de 1,005, no mas de un factor de 1,002, no mas de un factor de 1,001y no mas de un factor de 1,0001. En algunas realizaciones, la pluralidad de loci polimorficos son SNP. En algunas realizaciones, la medicion del ADN en la muestra preparada se realiza mediante secuenciacion.
En algunas realizaciones de cualquiera de los aspectos de la invencion, los loci diana estan presentes en el mismo acido nucleico de interes (por ejemplo, el mismo cromosoma o la misma region de un cromosoma). En algunas realizaciones, al menos algunos de los loci diana estan presentes en diferentes acidos nucleicos de interes (por ejemplo, diferentes cromosomas). En algunas realizaciones, la muestra de acido nucleico incluye acidos nucleicos fragmentados o digeridos. En algunas realizaciones, la muestra de acido nucleico incluye ADN, cDNA, o mRNA genomico. En algunas realizaciones, la muestra de acido nucleico incluye ADN de una sola celula. En algunas realizaciones, la muestra de acido nucleico es una muestra de sangre o plasma que esta practicamente libre de celulas. En algunas realizaciones, la muestra de acido nucleico incluye o esta derivada de sangre, plasma, saliva, semen, esperma, cultivo celular flotante, secrecion mucosa, placa dental, tejido del tracto gastrointestinal, heces, orina, pelo, hueso, fluidos corporales, lagrimas, tejido, piel, unas, blastomeros, embriones, lfquido amniotico, muestras de vellosidades corionicas, bilis, linfa, mucosidad cervical, o una muestra forense. En algunas realizaciones, los loci diana son segmentos de acidos nucleicos humanos. En algunas realizaciones, los loci diana comprenden o se componen de polimorfismos de un solo nucleotido (SNP). En algunas realizaciones, los cebadores son moleculas de ADN.
En algunas realizaciones de cualquiera de los aspectos de la invencion, el ADN en la muestra (por ejemplo, la primera muestra) se origina a partir de plasma materno. En algunas realizaciones, la preparacion de la muestra (por ejemplo, la primera muestra) comprende ademas la amplificacion del ADN. En algunas realizaciones, la preparacion de la muestra (por ejemplo, la primera muestra) comprende ademas enriquecer preferentemente el ADN en la muestra (por ejemplo, la primera muestra) en los loci diana (por ejemplo, una pluralidad de loci polimorficos).
En varias realizaciones, la reaccion de extension del cebador o la reaccion en cadena de la polimerasa incluye la adicion de uno o mas nucleotidos mediante una polimerasa. En varias realizaciones, la reaccion de extension del cebador o la reaccion en cadena de la polimerasa no incluye PCR mediado por union. En varias realizaciones, la reaccion de extension del cebador o la reaccion en cadena de la polimerasa no incluye la union de dos cebadores por una ligasa. En varias realizaciones, los cebadores no incluyen sondas invertidas vinculadas (LIP), que tambien se pueden denominar sondas precircularizadas, sondas precircularizantes, sondas circularizantes, sondas candado, o sondas de inversion molecular (MIP).
Se entiende que los aspectos y realizaciones de la invencion que se describen en el presente documento incluyen aspectos y realizaciones "que comprenden," "que se componen," y "que se componen basicamente de' (formula).
Definiciones
Polimorfismo de un solo nucleotido (SNP) hace referencia a un solo nucleotido que puede diferir entre los genomas de dos miembros de la misma especie. El empleo del termino no debe implicar ninguna limitacion en la frecuencia con que se produce cada variante.
Secuencia puede referirse a una secuencia de ADN o una secuencia genetica. Puede referirse a la estructura ffsica, primaria de la molecula o cadena de ADN en un individuo. Puede referirse a la secuencia de nucleotidos que se encuentra en esa molecula de ADN o a la cadena complementaria de la molecula de ADN. Puede referirse a la informacion contenida en la molecula de ADN como su representacion in silico.
Locus se refiere a una region determinada de interes en el ADN de un individuo, que puede referirse a un SNP, el punto de una posible insercion o delecion, o el punto de otra variacion genetica relevante. Los SNP vinculados a enfermedad pueden referirse tambien a loci vinculados a enfermedad. Alelo polimorfico, tambien "locus polimorfico, se refiere a un alelo o locus en el que el genotipo vana entre individuos de una determinada especie. Algunos ejemplos de alelos polimorficos incluyen polimorfismos de un solo nucleotido, repeticiones en tandem cortas, eliminaciones, duplicaciones e inversiones.
5
10
15
20
25
30
35
40
45
50
55
Punto polimorfico hace referencia a los nucleotidos espedficos encontrados en una region polimorfica que vana entre individuos.
Alelo
Datos geneticos, tambien "datos genotipicos", se refiere a los datos que describen aspectos del genoma de uno o mas individuos. Pueden referirse a uno o un conjunto de loci, secuencias parciales o completas, cromosomas parciales o completes o al genoma complete. Se puede referir a la identidad de uno o una pluralidad de nucleotidos; puede referirse a un conjunto de nucleotidos secuenciales o nucleotidos de diferentes ubicaciones en el genoma, o una combinacion de estos.
Los datos genotfpicos se utilizan tipicamente in silico; sin embargo, tambien es posible considerar nucleotidos ffsicos en una secuencia como datos geneticos qmmicamente codificados. Se puede decir que los datos genotfpicos son "sobre", "de" o "procedentes del" individuo o los individuos. Los datos genotfpicos se pueden referir a medidas resultantes de una plataforma de determinacion genotfpica cuyas mediciones se realizan con material genetico.
Material genetico tambien "Muestra genetica, " se refiere a materia ffsica, como tejido o sangre, de uno o mas individuos que comprenden datos geneticos ruidosos de ADN o ARN, se refiere a datos geneticos con cualquiera de los siguientes elementos: perdidas de alelos, mediciones inciertas de pares de bases, mediciones incorrectas de pares de bases, mediciones ausentes de pares de bases,
mediciones inciertas de inserciones o deleciones,
mediciones inciertas de numero de copias de segmentos de cromosomas, senales falsas, mediciones ausentes, otros errores, o combinaciones de estos.
Certeza se refiere a la probabilidad estadfstica que el SNP, el alelo, el conjunto de alelos determinados, o el numero determinado de copias de segmento de cromosoma represente correctamente el estado genetico real del individuo.
Determinacion de ploid^a, tambien “Determinacion del Numero de Copia de Cromosoma” o “Determinacion del Numero de Copia” (CNC), puede hacer referencia al acto de determinar la cantidad y/o identidad cromosomica de uno o mas cromosomas presentes en una celula.
Aneuploid^a se refiere al estado en que estan presentes en una celula un numero erroneo de cromosomas (por ejemplo, el numero erroneo de cromosomas completos o el numero erroneo de segmentos de cromosomas como, por ejemplo, la presencia de deleciones o duplicaciones de un segmento de cromosoma). En el caso de una celula somatica humana, puede referirse al caso de que una celula no contenga 22 pares de cromosomas autosomicos y un par de cromosomas sexuales. En un gameto humano, puede referirse al caso de que una celula no contenga uno de cada uno de los 23 cromosomas. En el caso de un tipo de cromosoma individual, se puede referir al caso donde mas o menos de dos copias de cromosomas homologos pero no identicos estan presentes, o donde hay dos copias de cromosomas presentes que se originan del mismo progenitor. En algunas realizaciones, la eliminacion de un segmento de cromosoma es una microeliminacion.
Estado de ploid^a se refiere a la cantidad e identidad cromosomica de uno o mas tipos de cromosomas en una celula.
Cromosoma se puede referir a una unica copia del cromosoma, lo que significa una unica molecula de ADN de las que hay 46 en una celula somatica normal; un ejemplo es el "cromosoma de origen materno 18". Cromosoma tambien se puede referir al tipo de cromosoma, del que hay 23 en una celula somatica humana normal; un ejemplo es "cromosoma 18".
Identidad cromosomica puede referirse al numero de cromosomas referente, es decir, el tipo de cromosoma. Los humanos normales tienen 22 tipos de cromosomas autosomicos numerados, y dos tipos de cromosomas sexuales. Puede referirse tambien al origen parental del cromosoma. Puede tambien referirse a un cromosoma espedfico heredado del progenitor. Tambien puede referirse a otras caractensticas identificadoras de un cromosoma.
El estado del material genetico o simplemente “estado genetico" puede referirse a la identidad de un conjunto de SNP en el ADN, puede referirse a los haplotipos por fases del material genetico, y puede referirse a la secuencia del ADN, incluyendo inserciones, deleciones, repeticiones y mutaciones. Tambien puede referirse al estado de ploidfa de uno o mas cromosomas, segmentos cromosomicos o conjunto de segmentos cromosomicos.
Datos alelicos se refiere a un conjunto de datos genotfpicos respecto a un conjunto de uno o mas alelos. Puede referirse a los datos haplotfpicos por fases. Puede referirse a identidades de SNP, y puede referirse a los datos de secuencia del ADN, incluyendo inserciones, deleciones, repeticiones y mutaciones. Puede incluir el origen parental de cada alelo.
Estado alelico se refiere al estado real de los genes en un conjunto de uno o mas alelos. Puede referirse al estado real de los genes descrito por los datos alelicos.
Ratio alelico o ratio de alelos, se refiere al ratio entre la cantidad de cada alelo en un locus que se encuentra presente en una muestra o en un individuo. Cuando la muestra se ha medido mediante secuenciacion, el ratio alelico se puede referir al ratio de lecturas de secuencias que corresponden a cada alelo del locus. Cuando la muestra se ha medido por un metodo de medicion basado en la intensidad, el ratio del alelo se puede referir al ratio de las cantidades de cada alelo presente en ese locus estimado por el metodo de medicion.
5
10
15
20
25
30
35
40
45
50
55
Recuento de alelos se refiere al numero de secuencias que corresponden a un determinado locus y, si ese locus es polimorfico, se refiere al numero de secuencias que corresponden a cada uno de los alelos. Si cada alelo se somete a conteo de forma binaria, entonces el recuento de alelos sera el numero entero. Si los alelos se someten a conteo probabiKstico, entonces el recuento de alelos podra ser una fraccion.
Probabilidad del recuento de alelos se refiere al numero de secuencias que es probable que correspondan a un locus determinado o a un conjunto de alelos en un locus polimorfico, combinado con la probabilidad de la correspondencia. Cabe senalar que los recuentos de alelos son equivalentes a las probabilidades del recuento de alelos, donde la probabilidad de correspondencia para cada secuencia recontada es binaria (cero o uno). En algunas realizaciones, las probabilidades del recuento de alelos pueden ser binarias. En algunas realizaciones, las probabilidades del recuento de alelos puede establecerse que sean iguales a las mediciones de ADN.
Distribucidn alelica, o ‘distribucion de recuento de alelos' hace referencia a la cantidad relativa de cada alelo que esta presente para cada locus en un conjunto de loci. Una distribucion alelica puede hacer referencia a un individuo, a una muestra, o a un conjunto de mediciones realizada en una muestra. En el contexto de la secuenciacion, la distribucion alelica hace referencia al numero o numero probable de lecturas que corresponden a un alelo determinado para cada alelo en un conjunto de loci polimorficos. Las mediciones de alelos se pueden tratar probabilisticamente, es decir, la probabilidad de que un alelo determinado este presente para una lectura de secuencia determinada es una fraccion entre 0 y 1, o se pueden tratar de un modo binario, es decir, cualquier lectura determinada se considera que es exactamente cero o una copia de un alelo determinado.
Patron de distribucion alelica se refiere a un conjunto de distribuciones alelicas diferentes para distintos contextos parentales. Determinados patrones de distribucion alelica pueden ser indicativos de determinados estados de ploidfa.
Sesgo alelico se refiere al grado en el que el ratio medido de alelos de un locus heterocigoto difiere del ratio que estaba presente en la muestra original de ADN. El grado de sesgo alelico en un determinado locus es igual al ratio alelico observado en ese locus, medido, dividido por el ratio de alelos de la muestra de ADN original en ese locus. El sesgo alelico se puede definir para que sea superior a uno, de forma que si el calculo del grado de sesgo alelico da un valor, x, que es inferior a 1, entonces el grado de sesgo alelico se puede reajustar como 1/x. El sesgo alelico se puede deber a un sesgo de amplificacion, un sesgo de purificacion o algun otro fenomeno que afecta a distintos alelos de forma diferente.
Cebador, tambien “sonda para PCR” hace referencia a una sola molecula de ADN (un oligomero de ADN) o una coleccion de moleculas de ADN (oligomeros de ADN) donde las moleculas de ADN son identicas, o casi identicas, y donde el cebador contiene una region que esta disenada para que se hibride a un locus focalizado (por ejemplo, un locus polimorfico focalizado o un locus no polimorifico), y puede contener una secuencia de cebado disenada para permitir la amplificacion por PCR. Un cebador tambien puede contener un codigo de barras molecular. Un cebador puede contener una region aleatoria que difiere para cada molecula individual. Los terminos “cebador de prueba” y “cebador candidato” no son limitativos y pueden referirse a cualquiera de los cebadores que se describen en el presente documento.
Biblioteca de cebadores se refiere a una poblacion de dos o mas cebadores. En varias realizaciones, la biblioteca incluye al menos 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 cebadores diferentes. En varias realizaciones, la biblioteca incluye al menos 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 pares de cebadores diferentes, en donde cada par de cebadores incluye un cebador de prueba directo y un cebador de prueba inverso en el que cada par de cebadores de prueba se hibrida en un locus diana. En algunas realizaciones, la biblioteca de cebadores incluye al menos 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 cebadores individuales diferentes que se hibridan cada uno de ellos a diferentes locus diana, en donde los cebadores individuales no forman parte de los pares de cebador. En algunas realizaciones, la biblioteca tiene tanto (i) pares de cebadores como (ii) cebadores individuales (como cebadores universales) que no forman parte de los pares de cebadores.
Sonda de captura h^brida hace referencia a cualquier secuencia de acido nucleico, posiblemente modificada, que se genera mediante diversos metodos como PCR o smtesis directa y destinada a ser complementaria de una hebra de una secuencia de ADN diana espedfica en una muestra. Las sondas de captura fubridas exogenas se pueden anadir a una muestra preparada e hibridada a traves de un proceso de desnaturalizacion-rehibridacion para formar duplex de fragmentos exogenos-endogenos. Posteriormente, estos duplex se pueden separar ffsicamente de la muestra a traves de diversos medios.
Lectura de secuencia se refiere a los datos que representan una secuencia de bases de nucleotidos que han sido medidas utilizando un metodo de secuenciacion clonico. La secuenciacion clonica puede producir datos de la secuencia que representan una unica molecula o clones o agrupaciones de una molecula de ADN original. Una lectura de secuencia tambien puede tener una puntuacion de calidad asociada en cada posicion de base de la secuencia indicando la probabilidad de que el nucleotido ha sido determinado correctamente.
Establecer la correspondencia de una lectura de secuencia es el proceso de determinar la ubicacion de origen de la lectura de secuencia en la secuencia del genoma de un organismo concreto. La ubicacion de origen de las lecturas de secuencia se basa en la similaridad de la secuencia nucleotida de la lectura y la secuencia del genoma.
5
10
15
20
25
30
35
40
45
50
Error de copia emparejada, tambien “aneuploid^a de cromosoma emparejado”, o “MCA”, se refiere a un estado de aneuploid^a donde una celula contiene dos cromosomas identicos o casi identicos. Este tipo de aneuploidfa puede surgir durante la formacion de los gametos en la meiosis, y puede ser denominada error de no disyuncion meiotica. Este tipo de error se puede producir en la mitosis. La trisoirna emparejada se puede referir al caso en el que tres copias de un determinado cromosoma se encuentran presentes en un individuo y dos de las copias son identicas.
Error de copia no emparejada, tambien “Aneuploidfa de Cromosoma Unico” o “UCA”, se refiere a un estado de aneuploidfa en el que una celula contiene dos cromosomas que proceden del mismo progenitor, y que pueden ser homologos pero no identicos. Este tipo de aneuploidfa puede surgir durante la meiosis, y puede ser denominado error meiotico. La trisomfa no emparejada se puede referir al caso en el que tres copias de un determinado cromosoma se encuentran presentes en un individuo y dos de las copias son del mismo progenitor, y son homologas, pero no identicas. Cabe senalar que la trisomfa no emparejada se puede referir al caso en el que dos cromosomas homologos de un progenitor estan presentes, y donde algunos segmentos de los cromosomas son identicos mientras que otros segmentos son simplemente homologos.
Cromosomas homologos se refiere a copias de cromosomas que contienen el mismo conjunto de genes que normalmente se emparejan durante la meiosis.
Cromosomas identicos se refiere a copias de cromosomas que contienen el mismo conjunto de genes, y para cada gen tienen el mismo conjunto de alelos que son identicos, o casi identicos.
Perdida de alelos (Allele Drop Out, ADO) se refiere a la situacion en la que al menos no se detecta uno de los pares de bases en un conjunto de pares de bases de cromosomas homologos en un alelo determinado.
Perdida de locus (Locus Drop Out, LDO) se refiere a la situacion en la que no se detectan ambos pares de bases en un conjunto de pares de bases de cromosomas homologos en un alelo determinado.
Homocigoto se refiere a tener alelos similares en loci cromosomicos correspondientes.
Heterocigoto puede referirse a tener alelos distintos en loci cromosomicos correspondientes.
Tasa de heterocigosidad hace referencia a la tasa de individuos en la poblacion que tienen alelos heterocigoticos en un locus determinado. La tasa de heterocigosidad tambien se puede referir al ratio previsto o medido de alelos, en un determinado locus de un individuo o una muestra de ADN.
Polimorfismo de un solo nucleotido altamente informativo (HISNP) se refiere a un SNP donde el feto tiene un alelo que no se encuentra presente en el genotipo de la madre.
Region cromosomica se refiere a un segmento de un cromosoma o un cromosoma completo.
Segmento de un cromosoma se refiere a una seccion de un cromosoma que en cuanto a tamano puede ir de un par de bases al cromosoma entero.
Cromosoma se refiere a un cromosoma completo, o tambien a un segmento o seccion de un cromosoma.
Copias se refiere al numero de copias de un segmento de cromosoma. Puede referirse a copias identicas, o puede referirse a copias no identicas homologas de un segmento de cromosoma, donde las distintas copias del segmento de cromosoma contienen un conjunto de loci sustancialmente similar, y donde uno o mas de los alelos son distintos. Hay que advertir que, en algunos casos de aneuploidfa, tales como el error de copia M2, es posible tener algunas copias del segmento de cromosoma determinado que sean identicas, asf como algunas copias del mismo segmento de cromosoma que no sean identicas.
Haplotipo se refiere a una combinacion de alelos en multiples loci que son tfpicamente heredados juntos en el mismo cromosoma. El haplotipo puede referirse a solamente dos loci o a un cromosoma completo, dependiendo del numero de eventos de recombinacion que se han producido entre un conjunto de loci determinado. El haplotipo puede referirse tambien a un conjunto de polimorfismos de un solo nucleotido (SNP) en una sola cromatida que estan asociados estadfsticamente.
Datos haplotipicos llamados tambien “datos por fases” o “datos geneticos ordenados”; puede referirse a datos de un solo cromosoma en un genoma diploide o poliploide; es decir, la copia materna o paterna aislada de un cromosoma en un genoma diploide.
Ajuste por fases se refiere a la accion de determinar los datos geneticos haplotfpicos de un individuo concreto no ordenados, datos geneticos diploides (o poliploides). Puede referirse a la accion de determinar cual de dos genes en un alelo, para un conjunto de alelos hallado en un cromosoma, esta asociado con cada uno de los dos cromosomas homologos en un individuo.
Datos por fases se refiere a los datos geneticos donde se han determinado uno o mas haplotipos.
Hipotesis se refiere a un posible estado de ploidfa en un conjunto de cromosomas determinado, o un conjunto de estados alelicos posibles en un conjunto de loci determinado. El conjunto de posibilidades puede contener uno o mas elementos.
5
10
15
20
25
30
35
40
45
50
55
Hipotesis de numero de copias, tambien “hipotesis de estado de ploid^a”, se refiere a una hipotesis sobre el numero de copias de un cromosoma determinado en un individuo. Puede referirse tambien a una hipotesis sobre la identidad de cada uno de los cromosomas, incluyendo el progenitor de origen de cada cromosoma, y cual de los dos cromosomas del progenitor esta presente en el individuo. Tambien puede referirse a una hipotesis sobre que cromosomas, o segmentos de cromosomas, de haberlos, de un individuo relacionado, se corresponden geneticamente con un cromosoma determinado de un individuo
Individuo diana se refiere al individuo cuyo estado genetico esta siendo determinado. En algunas realizaciones, solo una cantidad limitada de ADN esta disponible para el individuo diana. En algunas realizaciones, el individuo dianaes un feto. En algunas realizaciones, puedehaber mas de un individuo diana. En algunas realizaciones, cada feto que se origino a partir de un par de padres puede considerarse individuos diana. En algunas realizaciones, los datos geneticos que se estan determinando son unos de un conjunto de determinaciones de alelos. En algunas realizaciones, los datos geneticos que se estan determinando son una determinacion de ploidfa.
Individuo relacionado hace referencia a cualquier individuo que esta relacionado geneticamente y, por este motivo, comparte bloques de haplotipos con el individuo diana. En un contexto, el individuo diana puede ser un progenitor genetico del individuo diana, o cualquier material genetico derivado de un progenitor, como esperma, un cuerpo polar, un embrion, un feto o un nino. Puede referirse tambien a un hermano, progenitor o abuelo.
Hermano se refiere a cualquier individuo cuyos padres geneticos sean los mismos que los del individuo en cuestion. En algunas realizaciones, se puede referir a un recien nacido, un embrion, o un feto, o una o mas celulas que se originan a partir de un recien nacido, un embrion, o un feto. Un hermano puede referirse tambien a un individuo haploide procedente de uno de los progenitores, como esperma, un cuerpo polar, o cualquier otro conjunto de materia genetica haplotfpica. Un individuo puede ser considerado hermano de sf mismo.
Fetal se refiere "al feto" o "a la region de la placenta que es geneticamente similar al feto". En una mujer embarazada, alguna porcion de la placenta es geneticamente similar al feto, y el ADN fetal flotante libre que se encuentra en la sangre materna puede haberse originado en la porcion de la placenta con un genotipo que coincide con el del feto. Cabe senalar que la informacion genetica de la mitad de los cromosomas de un feto se hereda de la madre del feto. En algunas realizaciones, el ADN de estos cromosomas heredados de la madre que procedfa de una celula fetal se considera que es “de origen fetal,” no “de origen materno.”
ADN de origen fetal se refiere al ADN que era originalmente parte de la celula cuyo genotipo era esencialmente equivalente al del feto.
ADN de origen materno se refiere al ADN que era originalmente parte de la celula cuyo genotipo era esencialmente equivalente al de la madre.
Nino se refiere a un embrion, un blastomero o un feto. Cabe senalar que en las realizaciones divulgadas en el presente documento, los conceptos descritos se aplican igualmente bien a los individuos que son un nino ya nacido, un feto, un embrion o un conjunto de celulas de estos. El uso del termino nino puede simplemente indicar que el individuo designado como el nino es la descendencia genetica de los padres.
Progenitor se refiere a la madre o el padre geneticos de un individuo. Un individuo tiene tipicamente dos progenitores, una madre y un padre, aunque esto no tiene que ser necesariamente asf, por ejemplo, en el quimerismo cromosomico o genetico. Un padre puede ser considerado un individuo.
Contexto parental se refiere al estado genetico de un SNP determinado, en cada uno de los dos cromosomas relevantes para cada uno de los dos progenitores de la diana.
Desarrollo segun deseado, tambien “desarrollo normal”, se refiere a un embrion viable implantado en un utero y que resulte en un embarazo y/o a un embarazo que sigue y que resulta en un nacimiento vivo y/o a que el nino nacido carece de anomalfas cromosomicas y/o a que el nino nacido carece de otros estados geneticos no deseados, tales como genes vinculados a enfermedad. El termino “desarrollo segun deseado” comprende todo aquello que puedan desear los padres o el personal sanitario. En algunos casos “desarrollo segun deseado” puede referirse a un embrion viable o no viable que resulte util para la investigacion medica u otros fines.
Insercion en un utero se refiere al proceso de transferencia de un embrion a la cavidad uterina, en el contexto de la fertilizacion in vitro.
Plasma materno se refiere a la porcion de plasma de la sangre de una mujer que esta embarazada.
Decision cUnica se refiere a cualquier decision de tomar o no tomar una medida que tiene un resultado que afecta a la salud o a la supervivencia de un individuo. En el contexto del diagnostico prenatal, una decision clmica puede referirse a la decision de abortar o no un feto. Una decision clmica puede referirse tambien a la decision de realizar mas pruebas, de emprender acciones para mitigar un fenotipo no deseado o de emprender acciones para prepararse para el nacimiento de un nino con anomalfas.
Cuadro de diagnostico se refiere a una o una combinacion de maquinas disenadas para realizar uno o una pluralidad de aspectos de los metodos divulgados en el presente documento. En una realizacion, el cuadro de diagnostico puede estar colocado en un punto de atencion al paciente. En una realizacion, el cuadro de diagnostico puede realizar una
5
10
15
20
25
30
35
40
45
50
55
amplificacion focalizada seguida de una secuenciacion. En una realizacion, el cuadro de diagnostico puede funcionar solo o con la ayuda de un tecnico.
Metodo basado en informatica se refiere a un metodo que conffa sustancialmente en la estad^stica para dar sentido a una gran cantidad de datos. En el contexto del diagnostico prenatal, se refiere a un metodo disenado para determinar el estado de ploidfa de uno o mas cromosomas, o el estado alelico de uno o mas alelos, deduciendo estadfsticamente el estado mas probable, en lugar de medir directamente de forma ffsica el estado, partiendo de una gran cantidad de datos geneticos, por ejemplo, una secuenciacion o array molecular. En una realizacion de la presente divulgacion, la tecnica basada en informatica puede ser una divulgada en esta patente. En una realizacion de la presente divulgacion puede ser PARENTAL SUPPORT™.
Datos geneticos primarios se refiere a las senales de intensidad analogas que son producidas por una plataforma de determinacion del genotipo. En el contexto de matrices de SNP, los datos geneticos primarios hacen referencia a las senales de intensidad antes de que se haya realizado cualquier determinacion de genotipo. En el contexto de la secuenciacion, los datos geneticos primarios se refieren a las mediciones analogas, analogas al cromatograma, que proceden del secuenciador antes de que se haya determinado la identidad de cualesquiera pares de bases y antes de que la secuencia se haya correlacionado con el genoma.
Datos geneticos secundarios se refiere a los datos geneticos procesados que son producidos por una plataforma de determinacion del genotipo. En el contexto de un array del SNP, los datos geneticos secundarios se refieren a las determinaciones del alelo realizadas por el software asociado con el lector de arrays del SNP, donde el software ha realizado una determinacion con independencia de que un determinado alelo se encuentre presente o no en la muestra. En el contexto de la secuenciacion, los datos geneticos secundarios se refieren a las identidades del par de bases de las secuencias que se han determinado y posiblemente tambien donde las secuencias se han correlacionado con el genoma.
Diagnostico prenatal no invasivo (NPD), o tambien "analisis prenatal no invasivo" (NPS), se refiere a un metodo para determinar el estado genetico de un feto que se esta gestando en una madre, utilizando material genetico que se encuentra en la sangre de la madre, donde el material genetico se obtiene extrayendo sangre intravenosa de la madre.
Enriquecimiento preferente de ADN que corresponde a un locus, o enriquecimiento preferente de ADN en un locus, se refiere a cualquier metodo que resulta en un aumento del porcentaje de moleculas de ADN en la mezcla de ADN que corresponde al locus tras el enriquecimiento respecto del porcentaje de moleculas de ADN existente en la mezcla de ADN que corresponde al locus antes del enriquecimiento. El metodo puede implicar la amplificacion selectiva de moleculas de ADN que corresponden a un locus. El metodo puede implicar la eliminacion de moleculas de ADN que no corresponden al locus. El metodo puede implicar una combinacion de metodos. El grado de enriquecimiento se define como el porcentaje de moleculas de ADN tras el enriquecimiento de la mezcla que corresponde al locus dividido por el porcentaje de moleculas de ADN antes del enriquecimiento de la mezcla que corresponde al locus. El enriquecimiento preferente se puede realizar en una pluralidad de loci. En algunas realizaciones de la presente divulgacion, el grado de enriquecimiento es mayor que 20. En algunas realizaciones de la presente divulgacion, el grado de enriquecimiento es mayor que 200. En algunas realizaciones de la presente divulgacion, el grado de enriquecimiento es mayor que 2000. Cuando se realiza un enriquecimiento preferente en una pluralidad de loci, el grado de enriquecimiento se puede referir al grado medio de enriquecimiento de todos los loci que componen el conjunto de loci.
Amplificacion se refiere a un metodo que aumenta el numero de copias de una molecula de ADN.
Amplificacion selectiva se puede referir a un metodo que aumenta el numero de copias de una molecula concreta de ADN o moleculas de ADN que corresponden a una
region concreta del ADN. Tambien se puede referir a un metodo que aumenta el numero de copias de una molecula de ADN focalizada, o una region focalizada de ADN determinada mas de lo que aumenta en las moleculas o regiones de ADN no focalizadas. La amplificacion selectiva puede ser un metodo de enriquecimiento preferente.
Secuencia de cebado universal se refiere a una secuencia de ADN que se puede unir a una poblacion de moleculas de ADN diana, por ejemplo, mediante enlace, PCR o PCR mediada por enlace. Una vez anadida a la poblacion de moleculas diana, se pueden utilizar cebadores espedficos para las secuencias de cebado universal con el fin de amplificar la poblacion diana utilizando un unico par de cebadores de amplificacion. Las secuencias de cebado universal tipicamente no estan relacionadas con las secuencias diana.
Adaptadores universales, o "adaptadores de union" o "etiquetas de biblioteca" son moleculas de ADN que contienen una secuencia de cebado universal que se puede unir mediante enlace covalente al extremo 5' y 3' de una poblacion de moleculas de ADN de doble cadena diana. La adicion de los adaptadores proporciona secuencias de cebado universal a los extremos 5' y 3' de la poblacion diana con la que se puede producir la amplificacion por PCR, amplificando todas las moleculas de la poblacion diana con un unico par de cebadores de amplificacion.
Focalizacion se refiere a un metodo utilizado para amplificar de forma selectiva o enriquecer de forma preferente las moleculas de ADN que corresponden a un conjunto de loci en una mezcla de ADN.
Modelo de distribucion conjunto se refiere a un modelo que define la probabilidad de eventos definidos en terminos de multiples variables aleatorias, dada una pluralidad de variables aleatorias definidas en el mismo espacio de probabilidad,
5
10
15
20
25
30
35
40
45
donde las probabilidades de la variable estan vinculadas. En algunas realizaciones, se puede utilizar el caso degenerado donde las probabilidades de las variables no estan vinculadas.
Breve descripcion de las ilustraciones
Las realizaciones descritas en el presente documento se explicaran mas detalladamente con referencia a los dibujos adjuntos, en donde se hace referencia a dichas estructuras mediante numeros a traves de diferentes vistas. Los dibujos que se muestran no son necesariamente a escala, sino que se hace hincapie generalmente en ilustrar los principios de las realizaciones que se describen en el presente documento.
Figura 1: Representacion grafica del metodo de mini-PCR multiplexada directa.
Figura 2: Representacion grafica del metodo de mini-PCR semi-anidada.
Figura 3: Representacion grafica del metodo de mini-PCR anidada.
Figura 4: Representacion grafica del metodo de mini-PCR hemi-anidada.
Figura 5: Representacion grafica del metodo de mini-PCR triplemente hemi-anidada.
Figura 6: Representacion grafica del metodo de mini-PCR anidado unilateral.
Figura 7: Representacion grafica del metodo de mini-PCR unilateral.
Figura 8: Representacion grafica del metodo de mini-PCR semi-anidada inversa.
Figura 9: Algunos flujos de trabajo posibles de los metodos semi-anidados.
Figura 10: Representacion grafica de adaptadores de union de bucle.
Figura 11: Representacion grafica de cebadores etiquetados internamente.
Figura 12: Un ejemplo de algunos cebadores con etiquetas internas.
Figura 13: Representacion grafica de un metodo utilizando cebadores con una region de union al adaptador de union.
Figura 14: Precisiones simuladas de la determinacion del estado de ploidfa para el metodo del recuento con dos tecnicas de analisis diferentes.
Figura 15: Ratio de dos alelos para una pluralidad de SNP de una lmea celular del Experimento 4.
Figura 16: Ratio de dos alelos para una pluralidad de SNP de una lmea celular del Experimento 4 clasificadas por cromosoma.
Figuras 17A-D: Ratio de dos alelos para una pluralidad de SNP en cinco muestras de plasma de cuatro mujeres embarazadas, clasificadas por cromosoma.
Figura 18: Fraccion de datos que se puede explicar por la varianza binomial antes y despues de la correccion de datos.
Figura 19: Grafico que muestra el enriquecimiento relativo del ADN fetal de las muestras siguiendo un breve protocolo de preparacion de bibliotecas.
Figura 20: Profundidad del grafico de lectura que compara los metodos de PCR directa y semi-anidada.
Figura 21: Comparacion de la profundidad de lectura para la PCR directa de tres muestras genomicas.
Figura 22: Comparacion de la profundidad de lectura para la mini-PCR semi-anidada de tres muestras.
Figura 23: Comparacion de la profundidad de lectura para reacciones 1200-plex y 9600-plex.
Figura 24: Ratios del recuento de lectura para seis celulas de tres cromosomas.
Figura 25: Ratios de alelos para dos reacciones de tres celulas y una tercera reaccion realizada con 1 ng de ADN genomico en tres cromosomas.
Figura 26: Ratios de alelos para dos reacciones de una unica celula en tres cromosomas
Figura 27: Comparacion de dos bibliotecas de cebadores que muestran el numero de loci con una determinada frecuencia de alelos menor que son focalizados por cada biblioteca de cebadores.
Figura 28A: Grafica de la electroforesis de los productos de PCR. Las Figuras 28B-28M son
electroferogramas de las lmeas 1-12, respectivamente, en la Figura 28A.
Figuras 29A-29E: La representacion en dibujos de un metodo de la divulgacion para la determinacion de una aneuploidfa fetal (Figura 29A). Los datos del genotipo maternos y paternos (de sangre o hisopos bucales) y los datos de frecuencia de cruce de la base de datos HapMap se utilizan para generar (Figura 29B) multiples hipotesis independientes para cada estado de ploidfa fetal potencial in silico (Figura 29C). Cada una de estas hipotesis se amplfa para incluir sub-hipotesis que tienen en cuenta los diferentes puntos de cruce. El modelo de datos predice el aspecto
5
10
15
20
25
30
35
40
45
50
55
60
que tendran los datos de secuenciacion (las distribuciones alelicas esperadas) dado cada genotipo fetal hipotetico y a diferentes fracciones ADN libre de celulas fetales, y se compara con los datos de secuenciacion reales; la probabilidad para cada hipotesis se determina utilizando la estad^stica Bayesiana. En este ejemplo hipotetico, se determina la hipotesis con la probabilidad mas alta (euploidfa) (Figura 29D). Las probabilidades individuales de la Figura 29C se suman para cada familia de hipotesis de numero de copia (monosoirna, disoirna o triploid^a). La hipotesis con la maxima probabilidad se denomina estado de ploidfa, revela la fraccion fetal y representa la precision calculada espedfica de la muestra (Figura 29E).
Figuras 30A-30H: Representaciones graficas tfpicas de euploidfa (Figuras 30A-30C),
monosoirna (Figura 30D:), y trisoirna (Figuras 30E-30H). Para todos los graficos, el eje x representa la posicion lineal de los loci polimorficos individuales a lo largo de cada cromosoma (como se indica debajo de los graficos), y el eje y representa el numero de lecturas de un alelo A como una fraccion del total de lecturas de alelos (A+B). Los genotipos maternos y fetales, ademas de la posicion del eje y alrededor del cual estan centradas las bandas, se indican a la derecha de los graficos. Si se desea para facilitar la visualizacion, los graficos pueden estar codificados por colores segun el genotipo materno, de modo que el rojo indique un genotipo materno de AA, el azul indique un genotipo materno de BB, y el verde indique un genotipo materno de AB. Si se desea, las contribuciones de alelo materno se pueden indicar en color en la columna “Genotipo fetal”. Las contribuciones de alelo se indican como maternas|fetales, de modo que los alelos para los que la madre es AA y el feto es AB se indican como AA|AB. Figura 30A: Graficos generados cuando dos cromosomas estan presentes y la fraccion ADN libre de celulas fetal es el 0%. Este grafico es de una mujer que no esta embarazada y, por tanto, representa el patron cuando el genotipo es completamente materno. Las agrupaciones de alelos, por tanto, estan centradas alrededor de 1 (AA alelos), 0,5 (AB alelos), y 0 (BB alelos). Figura 30B: Grafico generado cuando dos cromosomas estan presentes y la fraccion fetal es el 12%. La contribucion de alelos fetales a la fraccion de alelo A lee los cambios de posicion de algunos puntos de alelo arriba y abajo a lo largo del eje y, de modo que las bandas estan centradas alrededor de 1 (alelos AA|AA), 0,94 (alelos AA|AB), 0,56 (alelos AB|AA), 0,50 (alelos AB|Ab), 0,44 (alelos AB|BB), 0,06 (alelos BB|AB), y 0 (alelos BB|BB). Figura 30C. Grafico generado cuando dos cromosomas estan presentes y la fraccion fetal es el 26%. Este patron, que incluye dos bandas rojas y dos bandas azules perifericas y un tno de bandas verdes en el centro, se puede ver rapidamente (no se muestra el color). Las bandas estan centradas alrededor de 1 (alelos AA|AA), 0,87 (alelos AA|AB), 0,63 (alelos AB|AA alelos), 0,50 (alelos AB|AB), 0,37 (alelos AB|BB), 0,13 (alelos BB|AB), y 0 (alelos BB|BB). Figura 30D: Grafico generado cuando un cromosoma esta presente y la fraccion fetal es el 26%. El patron distintivo de una banda periferica externa roja y una externa azul ademas de dos bandas verdes en el centro indica monosoirna heredada de la madre (no se muestra el color). Puesto que el feto solo contribuye un unico alelo (A o B) a las lecturas de alelos, las bandas perifericas roja y azul internas no estan presentes, y el tno de bandas del centro se condensa en dos bandas (no se muestra el color). Las bandas estan centradas alrededor de 1 (alelos AA|A), 0,57 (alelos AB|A), 0,43 (alelos AB|B), y 0 (alelos BB|B). Figura 30E: Grafico generado cuando tres cromosomas estan presentes y la fraccion fetal es el 27%. Este patron de dos bandas rojas y dos azules perifericas ademas de dos bandas verdes en el centro indica trisoirna mitotica heredada de la madre (no se muestra el color). Las bandas estan centradas alrededor de 1 (alelos AA|AAA), 0,88 (alelos AA|AAB), 0,56 (alelos AB|AAB), 0,44 (alelos AB|ABB), 0,12 (alelos BB|ABB)
y 0 (alelos BB|BBB). Figura 30F: Grafico generado cuando tres cromosomas estan presentes y la fraccion fetal es el 14%. Este patron de tres bandas rojas y tres azules perifericas ademas de dos bandas verdes en el centro indica trisoirna mitotica heredada del padre (no se muestra el color). Las bandas estan centradas alrededor de 1 (alelos AA|AAA), 0,93 (alelos AA|AAB), 0,87 (alelos AA|ABB), 0,60 (alelos AB|AAA), 0,53 (alelos AB|AAB), 0,47 (alelos AB|ABB), 0,40 (alelos AB|BBB), 0,13 (alelos BB|AAB), 0,07 (alelos BB|ABB), y 0 (alelos BB|BBB). Figura 30G: Grafico generado cuando tres cromosomas estan presentes y la fraccion fetal es el 35%). Este patron de dos bandas rojas y dos bandas azules perifericas y cuatro bandas verdes en el centro indica trisoirna mitotica heredada de la madre (no se muestra el color). Las bandas estan centradas alrededor de 1 (alelos AA|AAA), 0,85 (alelos AA|AAB), 0,72 (alelos AB|AAA), 0,57 (alelos AB|AAB), 0,43 (alelos AB|ABB), 0,28 (alelos AB|BBB), 0,15 (alelos BB|ABB), y 0 (alelos BB|BBB). Figura 30H: Grafico generado cuando tres cromosomas estan presentes y la fraccion fetal es el 25%. Este patron de dos bandas rojas y dos azules perifericas ademas de cuatro bandas verdes en el centro indica trisoirna mitotica heredada del padre (no se muestra el color). Este patron se puede distinguir del de la trisoirna mitotica heredada de la madre (como en la Figura 30G:) por la posicion de las bandas perifericas internas. Espedficamente, las bandas estan centradas alrededor de 1 (alelos AA|AAA), 0,78 (alelos AA|ABB), 0,67 (alelos AB|AAA), 0.56 (alelos AB|AAB), 0,44 (alelos AB|ABB), 0,33 (alelos AB|BBB), 0,22 (alelos BB|AAB), y 0 (alelos BB|BBB).
Figura 31: Representaciones graficas de (Figura 31 A) muestras de prueba euploide, (Figura 3 IB) T13, (Figura 31C) T18, (Figura 31D) T21, (Figura 31E) 45,X, y (Figura 31F) 47,XXY segun se indica. Cada cromosoma se indica en la parte superior del grafico, los genotipos fetales y maternos se indican a la derecha de los graficos, el eje x representa la posicion lineal de los SNP a lo largo de cada cromosoma, y el eje y indica el numero de lecturas de alelos A como una fraccion de las lecturas totales. Cabe senalar la posicion de la agrupacion alterada basada en la fraccion fetal que se describe en el presente documento. Cada punto representa un solo locus SNP. Los genotipos fetales y maternos se indican a la derecha del grafico, y las identidades de los cromosomas se indican en la parte superior de los graficos.
Figura 32: El predominio de aneuploidfas cromosomicas sexuales combinada en el nacimiento es mayor que la de aneuploidfas autosomicas.
5
10
15
20
25
30
35
40
45
50
55
60
A pesar de que los dibujos anteriormente identificados exponen las realizaciones divulgadas en el presente documento, tambien se contemplan otras realizaciones, tal y como se hace constar en la exposicion. Esta realizacion presenta realizaciones ilustrativas mediante una representacion.
Descripcion detallada
La invencion se define en las reivindicaciones que se incluyen en el anexo. La presente invencion se basa en parte en el sorprendente descubrimiento de que a menudo solo un numero relativamente pequeno de cebadores en una biblioteca de cebadores son responsables de una cantidad sustancial de los dfmeros de cebadores amplificados que se forman durante reacciones pCr multiplexadas. Se han desarrollado metodos para seleccionar los cebadores menos deseados para eliminarlos de una
biblioteca de cebadores candidatos. Al reducir la cantidad de dfmeros de cebadores a una cantidad negligible (-0,1% de los productos de PCR, estos metodos permiten a las bibliotecas de cebadores resultantes amplificar simultaneamente un gran numero de loci diana en una sola reaccion PCR multiplexada. Puesto que los cebadores se hibridan con los loci diana y los amplifican en lugar de hibridarse con otros cebadores y formar dfmeros de cebadores amplificados, el numero de loci diana diferentes que se pueden amplificar aumenta. Tambien se ha descubierto que utilizando concentraciones de cebador mas bajas y tiempos de reformacion termica mucho mas largos de lo normal aumenta la probabilidad de que los cebadores se hibriden en los loci diana en lugar de hibridarse entre sf y formen dfmeros de cebadores.
Durante la amplificacion por PCR y la secuenciacion de 19.488 loci diana en una muestra genomica, 99,4- 99,7% de las lecturas de secuenciacion se correlacionaron con el genoma, de esas, 99,99% de las correlacionadas con los loci focalizados. Para las muestras de plasma con 10 millones de lecturas de secuenciacion, de forma tfpica al menos 19.350 de los 19.488 loci focalizados (99,3 %) se amplificaron y se secuenciaron. Ser capaz de amplificar simultaneamente un gran numero de loci diana a la vez reduce enormemente la cantidad de tiempo y la cantidad de ADN necesarios para analizar miles de loci diana. Por ejemplo, el ADN de una sola celula es suficiente para analizar simultaneamente miles de loci diana, lo cual es importante para aplicaciones en las que la cantidad de ADN es baja como, por ejemplo, las pruebas geneticas de una sola celula de un embrion antes de la fertilizacion in vitro o la realizacion de pruebas geneticas de una muestra forense con poco ADN. Ademas, poder analizar los loci diana en un volumen de reaccion (como una camara o un pocillo) en lugar de dividir la muestra en multiples reacciones diferentes reduce la variabilidad que puede ocurrir entre reacciones. Ademas, se han desarrollado metodos para utilizar estandares de referencia para corregir el sesgo de amplificacion que puede ocurrir entre loci diana diferentes. Por ejemplo, diferencias en la eficiencia de la amplificacion entre loci diana debidas a factores como el contenido de GC pueden producir diferentes cantidades de productos de PCR para ser producidos para loci diana que estan realmente presentes en la misma cantidad. El uso de estandares de referencia similares a los loci diana permite la deteccion de dicho sesgo de amplificacion de modo que se pueda corregir durante la cuantificacion de los loci diana.
Durante la secuenciacion de productos de PCR, se detectan artefactos como dfmeros de cebadores y, por tanto, inhiben la deteccion de amplicones diana. Debido a esta limitacion, se suelen utilizar microarrays con sondas de hibridacion para la deteccion ya que las microarrays son menos sensibles a las interferencias de los dfmeros de cebadores. El alto nivel de multiplexado con amplicones diana minimos que ahora se ha conseguido permite la PCR seguida de una secuenciacion para ser utilizado como una alternativa a los microarrays.
Los metodos de PCR multiplexada de la invencion pueden estar en una variedad de aplicaciones como, por ejemplo, determinacion del genotipo, deteccion de anomalfas cromosomicas (como aneuploidfa de cromosoma fetal), mutacion de genes y analisis de polimorfismos (como, por ejemplo, polimorfismos de un solo nucleotido, SNP), analisis de delecion de genes, determinacion de la paternidad, analisis de diferencias geneticas entre las poblaciones, analisis forense, medicion de la predisposicion a una enfermedad, analisis cuantitativo de mRNA, y deteccion e identificacion de agentes infecciosos (como bacterias, parasitos, y virus). Los metodos de PCR multiplexada tambien se pueden utilizar para pruebas prenatales no invasivas, como pruebas de paternidad o la deteccion de anomalfas cromosomicas fetales.
Ejemplos de metodos de diseno de cebadores
La PCR altamente multiplexada a menudo puede dar como resultado la produccion de una proporcion muy alta de ADN de producto que genera reacciones secundarias improductivas como la formacion de dfmeros de cebadores. En una realizacion, los cebadores particulares que son mas propensos a causar reacciones secundarias improductivas se pueden quitar de la biblioteca de cebadores para dar una biblioteca de cebadores que dara como resultado una mayor proporcion de ADN amplificado que se corresponde con el genoma. El paso de quitar cebadores problematicos, es decir, aquellos cebadores que son especialmente propensos a formar dfmeros ha permitido inesperadamente niveles de multiplexado para PCR extremadamente altos para un posterior analisis por secuenciacion. En sistemas como el de secuenciacion, donde el rendimiento se degrada significativamente por los dfmeros de cebadores y/o otros productos problematicos, se ha conseguido un multiplexado mayor que 10, mayor que 50, y mayor que 100 veces mas alto que otros multiplexados descritos. Cabe senalar que esto se opone a los metodos de deteccion basados en una sonda, por ejemplo, microarrays, TAQMAN, PCR etc. donde un exceso de dfmeros de cebadores no afectara al resultado de forma apreciable. Tambien cabe senalar que la creencia general en la tecnica es que multiplexar la PCR para la secuenciacion esta limitado a unos 100 ensayos en el mismo pocillo. Fluidigm y Rain Dance ofrecen plataformas para realizar 48 o 1000s ensayos por PCR en reacciones paralelas para una muestra.
5
10
15
20
25
30
35
40
45
50
55
60
Hay varias formas de elegir cebadores para una biblioteca donde la cantidad de dfmeros de cebadores no correspondiente u otros productos problematicos de cebador se minimizan. Los datos empmicos indican que un pequeno numero de cebadores 'malos' son responsables de una gran cantidad de reacciones secundarias de dfmeros de cebadores no correspondientes. Quitar estos cebadores 'malos' puede aumentar el porcentaje de lecturas de secuencia que corresponden a los loci focalizados. Una manera de identificar los cebadores 'malos' es mirar a los datos de secuenciacion de ADN que se amplifico mediante la amplificacion focalizada; estos dfmeros de cebadores que se ven con mayor frecuencia se pueden quitar para dar una biblioteca de cebadores que es significativamente menos probable de producir ADN de producto secundario que no corresponde con el genoma. Tambien hay programas disponibles publicamente que pueden calcular la energfa de union de varias combinaciones de cebadores, y quitar aquellos con la energfa de union mas alta tambien daran una biblioteca de cebadores que es significativamente menos probable de producir ADN de producto secundario que no corresponde con el genoma.
En algunas realizaciones para seleccionar cebadores, se crea una biblioteca inicial de cebadores candidatos designando uno o mas cebadores o pares de cebadores a loci diana candidatos. Un conjunto de loci diana candidatos (como los SNP) se puede seleccionar en base a informacion disponible publicamente sobre parametros deseados para los loci diana, como frecuencia de SNP dentro de una poblacion diana o la tasa de heterocigosidad de los SNP. En una realizacion, los cebadores para PCR pueden estar disenados utilizando el programa Primer3 (pagina web primer3.sourceforge.net; libprimer3 version 2.2.3). Si lo desea, los cebadores se pueden disenar para reformar termicamente en un intervalo de temperatura de reformacion termica determinado, tener un intervalo determinado de contenido de GC, tener un intervalo de tamano determinado, producir amplicones diana en un intervalo de tamano determinado, y/o tener otras caractensticas de parametros. Empezar con multiples cebadores o pares de cebadores por locus diana candidato aumenta la probabilidad de que un cebador o par de cebadores se mantenga en la biblioteca para la mayona de loci diana o para todos ellos. En una realizacion, los criterios de seleccion pueden requerir que al menos un par de cebadores por locus diana permanezca en la biblioteca. De este modo, la mayona o todos los loci diana se amplificaran cuando se utilice la biblioteca de cebadores final. Esto es deseable para aplicaciones como analisis para eliminaciones o duplicaciones de un gran numero de ubicaciones en el genoma o analisis para un gran numero de secuencias (como polimorfismos u otras mutaciones) asociadas con una enfermedad o un mayor riesgo para una enfermedad. Si un par de cebadores de la biblioteca produjese un amplicon diana que se solapa con un amplicon diana producido por otro par de cebadores, uno de los pares de cebadores se puede quitar de la biblioteca para evitar interferencias.
En algunas realizaciones, las “puntuaciones no deseables” (la puntuacion mas alta representa la menos deseable) se calcula (como el calculo en un ordenador) para la mayona o todas las combinaciones posibles de dos cebadores de una biblioteca de cebadores candidatos. En varias realizaciones, una puntuacion no deseable se calcula para al menos 80, 90, 95, 98, 99, o 99,5% de las combinaciones posibles de cebadores candidatos en la biblioteca. Cada puntuacion no deseable se basa al menos en parte en la probabilidad de formacion de dimeros entre los dos cebadores candidatos. Es deseable, que la puntuacion no deseable tambien se puede basar en uno o mas parametros seleccionados del grupo compuesto por la tasa de heterocigosidad del locus diana, el predominio de la enfermedad asociada con una secuencia (por ejemplo, un polimorfismo) en el locus diana, la penetrancia de la enfermedad asociada con una secuencia (por ejemplo, un polimorfismo) en el locus diana, especificidad del cebador candidato para el locus diana, tamano del cebador candidato, la temperatura de fusion del amplicon diana, el contenido de GC del amplicon diana, la eficiencia de la amplificacion del amplicon diana, y el tamano del amplicon diana. Si se consideran multiples factores, la puntuacion no deseable se puede calcular en base a una media ponderada de los diversos parametros. A los parametros se les puede asignar diferentes pesos en base a su importancia para la aplicacion particular para la que se utilizaran los cebadores. En algunas realizaciones, el cebador con la puntuacion no deseable mas alta se quita de la biblioteca. Si el cebador que se ha quitado es un miembro de un par de cebadores que se hibrida con un locus diana, entonces el otro miembro del par de cebadores se puede quitar de la biblioteca. El proceso de quitar cebadores se puede repetir segun se desee. En algunas realizaciones, el metodo de seleccion se lleva a cabo hasta que las puntuaciones no deseables para las combinaciones del cebador candidato restantes en la biblioteca son todas iguales o por debajo de un umbral mmimo. En algunas realizaciones, el metodo de seleccion se lleva a cabo hasta que el numero de cebadores candidatos restantes en la biblioteca se reduce a un numero deseado.
En varias realizaciones, despues de que se hayan calculado las puntuaciones no deseables, el cebador candidato que es parte del mayor numero de combinaciones de dos cebadores candidatos con una puntuacion no deseable por encima de un primer umbral mmimo se quita de la biblioteca. Este paso omite las interacciones iguales o por debajo del primer umbral mmimo ya que estas interacciones son menos significativas. Si el cebador que se ha quitado es un miembro de un par de cebadores que se hibrida con un locus diana, entonces el otro miembro del par de cebadores se puede quitar de la biblioteca. El proceso de quitar cebadores se puede repetir segun se desee. En algunas realizaciones, el metodo de seleccion se lleva a cabo hasta que las puntuaciones no deseables para las combinaciones del cebador candidato restantes en la biblioteca son todas iguales o por debajo del primer umbral mmimo. Si el numero de cebadores candidatos restantes en la biblioteca es superior al deseado, el numero de cebadores se puede reducir disminuyendo el primer umbral mmimo a un segundo umbral mmimo mas bajo y repetir el proceso de quitar cebadores. Si el numero de cebadores candidatos restantes en la biblioteca es inferior al deseado, el metodo se puede continuar aumentando el primer umbral mmimo a un segundo umbral mmimo mas alto y repetir el proceso de quitar cebadores utilizando la biblioteca de cebadores candidatos original, permitiendo, de este modo, que mas cebadores candidatos permanezcan en la biblioteca. En algunas realizaciones, el metodo de seleccion se lleva a cabo hasta que las puntuaciones no deseables para las combinaciones del cebador candidato restantes en la biblioteca son todas iguales o
5
10
15
20
25
30
35
40
45
50
55
60
por debajo del segundo umbral mmimo, o hasta que el numero de cebadores candidate restantes en la biblioteca se reduce a un numero deseado.
Si lo desea, los pares de cebador que producen un amplicon diana que se solapa con un amplicon diana producido por otro par de cebadores se pueden dividir en reacciones de amplificacion separadas. Las reacciones de amplificacion por PCR multiples pueden ser deseables para aplicaciones en las que es deseable analizar todos los loci diana candidatos (en lugar de omitir loci diana candidatos del analisis debido a la superposicion de amplicones diana).
Estos metodos de seleccion minimizan el numero de cebadores candidatos que se tienen que quitar de la biblioteca para conseguir la reduccion deseada en dfmeros de cebadores. Al quitar un numero mas pequeno de cebadores candidatos de la biblioteca, se pueden amplificar mas loci diana (o todos) utilizando la biblioteca de cebadores resultante. El multiplexado de grandes numeros de cebadores impone restricciones considerables en los ensayos que se pueden incluir. Los ensayos que interactuan involuntariamente dan como resultado productos de amplificacion
falsos. Las restricciones de tamano de miniPCR pueden dar como resultado mas restricciones. En una realizacion, es posible empezar con un gran numero de SNP diana potenciales (entre aproximadamente 500 a mas de 1 millon) e intentar designar cebadores para amplificar cada SNP. Cuando se pueden disenar cebadores es posible intentar identificar pares de cebador que es muy probable que puedan formar productos falsos evaluando la probabilidad de formacion doble de cebadores falsos entre todos los pares de cebadores posibles utilizando parametros termodinamicos publicados para la formacion doble de ADN. Las interacciones del cebador se pueden clasificar mediante una funcion de puntuacion relacionada con la interaccion y los cebadores con las peores puntuaciones de interaccion se eliminan hasta que se cumpla el numero de cebadores deseados. En los casos en los que las SNP que tienen probabilidades de ser heterocigoticas son muy utiles, es posible tambien clasificar la lista de ensayos y seleccionar los ensayos mas compatibles con heterocigotos. Los experimentos han validado que los cebadores con puntuaciones de interaccion altas son mas propensos a formar dfmeros de cebadores. Con una multiplexacion alta no es posible eliminar todas las interacciones falsas, pero es esencial quitar los cebadores o pares de cebadores con las puntuaciones de interaccion mas altas in silico ya que pueden dominar toda una reaccion, limitando en gran medida la amplificacion para las dianas previstas. Hemos realizado este procedimiento para crear conjuntos de cebadores multiplexados de hasta y en algunos casos mas de 100.0 cebadores. La mejora debida a este procedimiento es sustancial, ya que permite la amplificacion de mas del 80%, mas del 90%, mas del 95%, mas del 98%, e incluso mas del 99% en los productos diana determinada por la secuenciacion de todos los productos de PCR, en comparacion con un 10% a partir de una reaccion en la que los peores cebadores no se quitaron. Cuando se combina con un enfoque semianidado parcial como se ha descrito previamente, mas de un 90%, e incluso mas de un 95% de los amplicones pueden corresponder a las secuencias focalizadas.
Tenga en cuenta que hay otros metodos para determinar que sondas para PCR es probable que formen dfmeros. En una realizacion, el analisis de un conjunto de ADN que se ha amplificado utilizando un conjunto de cebadores no optimizados puede ser suficiente para determinar cebadores problematicos. Por ejemplo, el analisis se puede realizar utilizando secuenciacion, y aquellos dfmeros que estan presentes en mayor numero estan determinados a ser aquellos que tienen mas probabilidades de formar dfmeros, y se pueden quitar.
Este metodo tiene un numero de aplicaciones potenciales, por ejemplo, para la determinacion del genotipo de SNP, la determinacion de la tasa de heterocigosidad, la medicion del numero de copias, y otras aplicaciones de secuenciacion focalizadas. En una realizacion, el metodo de diseno de cebador se puede utilizar en combinacion con el metodo de mini-PCR que se describe en cualquier otra parte en este documento. En algunas realizaciones, el metodo de diseno del cebador se puede utilizar como parte de un metodo de PCR multiplexada masivo.
El uso de etiquetas en los cebadores puede reducir la amplificacion y secuenciacion de productos de dfmeros de cebadores. En algunas realizaciones, el cebador contiene una region interna que forma una estructura en bucle con una etiqueta. En realizaciones espedficas, los cebadores incluyen una region 5' que es espedfica para un locus diana, una region interna que no es espedfica para el locus diana y forma una estructura de bucle, y una region 3' que es espedfica para el locus diana. En algunas realizaciones, la region de bucle puede encontrarse entre dos regiones de union donde las dos regiones de union estan disenadas para unirse a regiones continuas o colindantes de ADN de la plantilla. En varias realizaciones, la longitud de la region 3' es al menos de 7 nucleotidos. En algunas realizaciones, la longitud de la region 3' esta entre 7 y 20 nucleotidos, por ejemplo, entre 7 y 15 nucleotidos, o 7 y 10 nucleotidos, incluidos. En varias realizaciones, los cebadores incluyen una region 5' que no es espedfica para un locus diana (como una etiqueta o un punto de union del cebador universal) seguido de una region que es espedfica de un locus diana, una region interna que no es espedfica para el locus diana y forma una estructura de bucle, y una region 3' que es espedfica del locus diana. Los cebadores de etiquetas se pueden utilizar para acortar secuencias espedficas diana necesarias por debajo de 20, por debajo de 15, por debajo de 12, e incluso por debajo de 10 pares base. Esto puede ser fortuito con un diseno de cebador estandar cuando la secuencia diana se fragmenta dentro del punto de union del cebador, o se puede disenar en el diseno del cebador. Las ventajas de este metodo incluyen: aumenta el numero de ensayos que se pueden disenar para una determinada longitud de amplicon maxima, y acorta la secuenciacion “no
informativa” de la secuencia del cebador. Tambien se puede utilizar en combinacion con el etiquetado interno (vease en otra parte de este documento).
En una realizacion, la cantidad relativa de productos no productivos en la amplificacion por PCR focalizada multiplexada se puede reducir subiendo la temperatura de reformacion termica. En los casos en que se amplifican bibliotecas con la
5
10
15
20
25
30
35
40
45
50
55
60
misma etiqueta que los cebadores espedficos diana, la temperature de reformacion termica se puede aumentar en comparacion con el ADN genomico ya que las etiquetas contribuiran a la union del cebador. En algunas realizaciones utilizamos concentraciones de cebador considerablemente mas bajas que las que se han informado anteriormente junto con la utilizacion de tiempos de reformacion termica mas largos que los que se han informado en cualquier otra parte. En algunas realizaciones los tiempos de reformacion termica pueden durar mas de 3 minutos, mas de 5 minutos, mas de 8 minutos, mas de 10 minutos, mas de 15 minutos, mas de 20 minutos, mas de 30 minutos, mas de 60 minutos, mas de 120 minutos, mas de 240 minutos, mas de 480 minutos, e incluso mas de 960 minutos. En una realizacion, se utilizan tiempos de reformacion termica mas largos que en informes anteriores, lo que permite concentraciones de cebador mas bajas. En varias realizaciones, se utilizan tiempos de reformacion termica mas largos de lo normal, por ejemplo, superiores a 3, 5, 8, 10, o 15 minutos. En algunas realizaciones, las concentraciones de cebador son tan bajas como 50 nM, 20 nM, 10 nM, 5 nM, 1 nM, e inferiores a 1 uM. Esto sorprendentemente da como resultado un rendimiento robusto para las reacciones altamente multiplexadas, por ejemplo, reacciones de 1.000-plex, reacciones de 2.000- plex, reacciones de 5.000-plex, reacciones de 10.000-plex, reacciones de 20.000-plex, reacciones de 50.000-plex, e incluso reacciones de 100.000-plex. En una realizacion, la amplificacion utiliza uno, dos, tres, cuatro o cinco ciclos ejecutados con tiempos de reformacion termica prolongados, seguida de ciclos de PCR con tiempos de reformacion termica mas habituales con cebadores con etiquetas.
Para seleccionar ubicaciones diana, se puede empezar con un conjunto de disenos de par de cebadores candidatos y crear un modelo termodinamico de interacciones potencialmente adversas entre pares de cebadores y, a continuacion, utilizar el modelo para eliminar disenos que son incompatibles con otros disenos del conjunto.
Despues del proceso de seleccion, los cebadores restantes en la biblioteca se pueden utilizar en cualquiera de los metodos de la invencion.
Ejemplos de bibliotecas de cebadores
En un aspecto, la invencion presenta bibliotecas de cebadores, dichos cebadores se seleccionan de una biblioteca de cebadores candidatos utilizando cualquiera de los metodos de la invencion. En algunas realizaciones, la biblioteca incluye cebadores que se hibridan simultaneamente (o son capaces de hibridarse simultaneamente) o que se amplifican simultaneamente (o son capaces de amplificarse simultaneamente) al menos 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 loci diana diferentes en un volumen de reaccion. En varias realizaciones, la biblioteca incluye cebadores que amplifican simultaneamente (o son capaces de amplificar simultaneamente) entre 1.000 y 2.000; 2.000 y 5.000; 5.000 y 7.500; 7.500 y 10.000; 10.000 y 20.000; 20.000 y 25.000;
25.000 y 30.000; 30.000 y 40.000; 40.000 y 50.000; 50.000 y 75.000; o 75.000 y 100.000 loci diana diferentes en un volumen de reaccion. En varias realizaciones, la biblioteca incluye cebadores que amplifican simultaneamente (o son capaces de amplificar simultaneamente) entre 1.000 y 100.000; loci diana diferentes en un volumen de reaccion, como, por ejemplo, entre 1.000 y 50.000; 1.000 y 30.000; 1.000 y 20.000; 1.000 y 10.000; 2.000 y 30.000; 2.000 y 20.000;
2.000 y 10.000; 5.000 y 30.000; 5.000 y 20.000; o 5.000 y 10.000 loci diana diferentes, incluidos. En algunas realizaciones, la biblioteca incluye cebadores que amplifican simultaneamente (o pueden amplificar simultaneamente) los loci diana en un volumen de reaccion de tal modo que menos de un 60, 40, 30, 20, 10, 5, 4, 3, 2, 1, 0,5, 0,25, 0,1, o 250,5% de los productos amplificados son dfmeros de cebadores. Las diversas realizaciones, la cantidad de productos amplificados que son dfmeros de cebadores esta entre 0,5 y 60%, como, por ejemplo, entre 0,1 y 40%, 0,1 y 20%, 0,25 y 20%, 0,25 y 10%, 0,5 y 20%, 0,5 y 10%, 1 y 20%, o 1 y 10%, incluido. En algunas realizaciones, los cebadores amplifican simultaneamente (o pueden amplificar simultaneamente) los loci diana en un volumen de reaccion de tal modo que al menos un 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, o 99,5% de los productos amplificados son amplicones diana. En varias realizaciones, la cantidad de productos amplificados que son amplicones diana esta entre 50 y 99,5%, como, por ejemplo, entre 60 y 99%, 70 y 98%, 80 y 98%, 90 y 99,5%, o 95 y 99,5%, incluido. En algunas realizaciones, los cebadores amplifican simultaneamente (o pueden amplificar simultaneamente) los loci diana en un volumen de reaccion de tal modo que al menos un 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, o 99,5% de los loci focalizados son amplificados. En varias realizaciones, la cantidad de loci diana que se amplifican esta entre 50 y 99,5%, como, por ejemplo, entre 60 y 99%, 70 y 98%), 80 y 99%, 90 y 99,5%, 95 y 99,9%, o 98 y 99,99% incluido. En algunas
realizaciones, la biblioteca de cebadores incluye al menos 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 pares de cebador de prueba, en donde cada par de cebadores incluye un cebador de prueba directo y un cebador de prueba inverso en el que cada par de cebadores de prueba se hibrida en un locus diana. En algunas realizaciones, la biblioteca de cebadores incluye al menos 101.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 cebadores de prueba individuales que se hibridan cada uno de ellos a diferentes locus diana, en donde los cebadores individuales no forman parte de los pares de cebador.
En varias realizaciones, la concentracion de cada cebador es inferior a 100, 75, 50, 25, 20, 10, 5, 2, o 1 nM, o inferior a 500, 100, 10, o 1 uM. En varias realizaciones, la concentracion de cada cebador esta entre 1 uM y 100 nM, como, por ejemplo, entre 1 uM y 1 nM, 1 y 75 nM, 2 y 50 nM o 5 y 50 nM, incluido. En varias realizaciones, el contenido de GC de los cebadores esta entre 30 y 80%, como, por ejemplo, entre 40 y 70% o 50 y 60%, incluidos. En algunas realizaciones, el intervalo de contenido de Gc de los cebadores es inferior a 30, 20, 10, o 5%. En algunas realizaciones, el intervalo de contenido de GC de los cebadores esta entre 5 y 30%, como, por ejemplo, 5 y 20% o 5 y 10%), incluido. En algunas realizaciones, la temperatura de fusion (Tm) de los cebadores de prueba es entre 40 y 80 °C, como, por ejemplo, 50 y 70 °C, 55 y 65 °C, o 57 y 60,5 °C, incluido. En algunas realizaciones, la Tm se calcula utilizando el programa Primer3 (libprimer3 version 2.2.3) utilizando los parametros SantaLucia integrados (pagina web primer3.sourceforge.net). En
5
10
15
20
25
30
35
40
45
50
55
60
algunas realizaciones, el intervalo de la temperatura de fusion de los cebadores es inferior a 15, 10, 5, 3, o 1 °C. 25En algunas realizaciones, el intervalo de la temperatura de fusion de los cebadores esta entre 1 y 15 °C, como, por ejemplo, entre 1 y 10 °C, 1 y 5 °C, o 1 y 3 °C, incluido. En algunas realizaciones, la longitud de los cebadores esta entre 15 y 100 nucleotidos, como, por ejemplo, entre 15 y 75 nucleotidos,
15 y 40 nucleotidos, 17 y 35 nucleotidos, 18 y 30 nucleotidos, 20 y 65 nucleotidos, incluido. En algunas realizaciones, el intervalo de la longitud de los cebadores es inferior a 50, 40, 30, 20, 10, o 5 nucleotidos. En algunas realizaciones, el intervalo de la longitud de los cebadores esta entre 5 y 50 nucleotidos, como, por ejemplo, 5 y 40 nucleotidos, 5 y 20 nucleotidos, o 5 y 10 nucleotidos, incluidos. En algunas realizaciones, la longitud de los amplicones diana esta entre 50 y 100 nucleotidos, por ejemplo, entre 60 y 80 nucleotidos, o 60 y 75 nucleotidos, incluidos. En algunas realizaciones, el intervalo de la longitud de los amplicones diana es inferior a 50, 25, 15, 10, o 5 nucleotidos. En algunas realizaciones, el intervalo de la longitud de los amplicones diana esta entre 5 y 50 nucleotidos, como, por ejemplo, 5 y 25 nucleotidos, 5 y 15 nucleotidos, o 5 y 10 nucleotidos, incluidos.
Estas bibliotecas de cebadores se pueden utilizar en cualquiera de los metodos de la invencion.
Ejemplos de kits de cebadores
En un aspecto, la invencion presenta un kit (como, por ejemplo, kits para amplificar loci diana en una muestra de acido nucleico) que incluye cualquiera de las bibliotecas de cebadores de la invencion. En algunas realizaciones, puede formularse un kit que comprende una pluralidad de cebadores disenado para alcanzar los metodos descritos en esta divulgacion. Los cebadores pueden ser cebadores directos e inversos exteriores, cebadores directos e inversos interiores como se divulga en el presente documento, pueden ser cebadores que han sido disenados para tener una afinidad de union baja con otros cebadores en el kit como se describe en la seccion sobre diseno de cebadores, pueden ser sondas de captura hforidas o sondas precircularizadas como se describe en las secciones pertinentes, o alguna combinacion de estas. En una realizacion, se puede formular un kit para determinar un estado de ploidfa de un cromosoma diana en un feto en gestacion disenado para ser utilizado con los metodos divulgados en el presente documento, el kit comprende una pluralidad de cebadores directos interiores y opcionalmente una pluralidad de cebadores inversos interiores, y opcionalmente cebadores directos exteriores y cebadores inversos exteriores, donde cada uno de los cebadores esta disenado para que se hibride en la region del ADN inmediatamente corriente arriba y/o corriente abajo de uno de los puntos diana (por ejemplo, puntos polimorficos) en el cromosoma diana, y opcionalmente cromosomas adicionales. En una realizacion, el kit de cebador se puede utilizar en combinacion con el cuadro de diagnostico que se describe en otra parte de este documento. En algunas realizaciones, el kit incluye instrucciones para utilizar la biblioteca para amplificar los loci diana.
Ejemplos de metodos de PCR multiplexada
En un aspecto, la invencion presenta metodos de amplificar loci diana en una muestra de acido nucleico que implica (i) poner en contacto la muestra de acido nucleico con una biblioteca de cebadores que se hibridan simultaneamente a menos de 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 loci diana diferentes para producir una mezcla de reaccion; y (ii) someter la mezcla de reaccion a las condiciones de reaccion de extension del cebador (como, por ejemplo, las condiciones de PCR) para producir productos amplificados que incluyen amplicones diana. En algunas realizaciones, el metodo tambien incluye determinar la presencia o ausencia de al menos un amplicon diana (por ejemplo, al menos un 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, o 99,5% de los amplicones diana). En algunas realizaciones, el metodo tambien incluye determinar la secuencia de al menos un amplicon diana (por ejemplo, al menos un 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, o 99,5% de los amplicones diana). En algunas realizaciones, al menos un 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, o 99,5% de los loci diana son amplificados. En varias realizaciones, menos de un 60, 50, 40, 30, 20, 10, 5, 4, 3,2, 1, 0,5, 0,25, 0,1, o 0,05% de los productos amplificados son dfmeros de cebadores.
En una realizacion, un metodo divulgado en el presente documento utiliza la PCR focalizada altamente multiplexada y altamente eficiente para amplificar ADN, seguida de una secuenciacion de alto rendimiento para determinar las frecuencias alelicas en cada locus diana. La capacidad para multiplexar mas de unos 50 o 100 cebadores para PCR en un volumen de reaccion de forma que la mayona de las lecturas de secuencia resultantes que se correspondan con los loci diana sea algo novedoso y no obvio. Una tecnica que permite realizar una PCR focalizada altamente multiplexada de forma altamente eficiente implica el diseno de cebadores que es poco probable que se hibriden entre sf. Las sondas para PCR, a las que de forma tfpica se hace referencia como cebadores, se seleccionan creando un modelo termodinamico de interacciones potencialmente adversas entre al menos 500; al menos 1.000; al menos 2.000; al menos 5.000; al menos 7.500; al menos 10.000; al menos 20.000; al menos 25.000; al menos 30.000; al menos 40.000; al menos 50.000; al menos 75.000; o al menos 100.000 pares de cebadores potenciales, o interacciones no intencionadas entre cebadores y el ADN de la muestra y, a continuacion, utilizando el modelo para eliminar disenos que son incompatibles con otros disenos del conjunto. Otra tecnica que permite realizar una PCR focalizada altamente multiplexada de forma altamente eficiente consiste en utilizar un planteamiento de anidado parcial o total en la PCR focalizada. El uso de uno o una combinacion de estos planteamientos permiten el multiplexado de al menos 300, al menos 800, al menos 1200, al menos 4000 o al menos 10.000 cebadores en un unico conjunto con el ADN amplificado resultante que comprende una mayona de moleculas de ADN que, cuando se secuencia, se corresponded con los loci diana. El uso de uno o una combinacion de estos planteamientos permite el multiplexado de un gran numero de cebadores en un unico conjunto con el ADN amplificado resultante que comprende mas de un 50%, mas de un 60%,
5
10
15
20
25
30
35
40
45
50
55
60
mas de un 67%, mas de un 80%, mas de un 90%, mas de un 95%, mas de un 96%, mas de un 97%, mas de un 98%, mas de un 99%, o mas de un 99,5% de moleculas de ADN que representan un mapa de los loci diana.
En algunas realizaciones la deteccion del material genetico diana se puede realizar de forma multiplexada. El numero de secuencias diana geneticas que se pueden ejecutar en paralelo puede ir de uno a diez, de diez a cien, de cien a mil, de mil a diez mil, de diez mil a cien mil, de cien mil a un millon, o de un millon a diez millones. Los intentos anteriores de multiplexar mas de 100 cebadores por conjunto han dado como resultado problemas significativos con reacciones secundarias no deseadas tales como la formacion de dfmeros de cebador.
PCR focalizada
En algunas realizaciones, la PCR se puede utilizar para focalizar ubicaciones espedficas del genoma. En muestras de plasma, el ADN original esta altamente fragmentado (de forma tfpica es inferior a 500 bp, con una longitud media inferior a 200 bp). En la PCR, tanto los cebadores directos como los inversos se recuecen en el mismo fragmento para permitir la amplificacion. Por tanto, si los fragmentos son cortos, los ensayos por PCR deben amplificar tambien las regiones relativamente cortas. Al igual que las MIPS, si las posiciones polimorficas estan demasiado cerca del punto de union de la polimerasa, podna dar como resultado ciertos sesgos en la amplificacion de alelos diferentes. Actualmente, los cebadores para PCR que focalizan regiones polimorficas, como aquellas que contienen SNP, estan disenadas de forma tfpica de tal modo que el extremo 3' del cebador se hibridara en la base inmediatamente adyacente a la base o bases polimorficas. En una realizacion de la presente divulgacion, los extremos 3' tanto del cebador para PCR directo como del cebador para PCR inverso estan disenados para hibridarse a bases que estan a una o varias posiciones de distancia de las posiciones de la variante (puntos polimorficos) del alelo focalizado. El numero de bases entre el punto polimorfico (SNP u otro) y la base a la que el extremo 3' del cebador esta disenado para que se hibride puede ser una base, pueden ser dos bases, pueden ser tres bases, pueden ser cuatro bases, pueden ser cinco bases, pueden ser seis bases, pueden ser de siete a diez bases, pueden ser de once a quince bases, o pueden ser de dieciseis a veinte bases. Los cebadores directo e inverso pueden estar disenados para hibridar un numero diferente de bases lejos del punto polimorfico.
El ensayo de PCR se puede generar en grandes cantidades, sin embargo, las interacciones entre diferentes ensayos de PCR dificulta multiplexarlos mas alla de unos cien ensayos. Se pueden utilizar varios planteamientos moleculares complejos para aumentar el nivel de multiplexado, aunque puede seguir estando limitado a poco mas de 100, quiza 200, o posiblemente 500 ensayos por reaccion. Se pueden dividir muestras con grandes cantidades de ADN entre multiples sub-reacciones y despues recombinarse antes de la secuenciacion. Para muestras donde o bien la muestra en conjunto o una subpoblacion de moleculas de ADN es limitada, la division de la muestra introducina ruido estatico. En una realizacion, una cantidad de ADN pequena o limitada puede referirse a una cantidad por debajo de 10 pg, entre 10 y 100 pg, entre 100 pg y 1 ng, entre 1 y 10 ng, o entre 10 y 100 ng. Cabe senalar que mientras que este metodo es especialmente util en pequenas cantidades de ADN donde
otros metodos que implican la division en multiples conjuntos pueden producir problemas significativos relacionados con el ruido estocastico introducido, este metodo sigue proporcionando la ventaja de minimizar el sesgo cuando se ejecuta en muestras de cualquier cantidad de ADN. En estas situaciones se puede utilizar un paso de pre-amplificacion universal para aumentar la cantidad de la muestra en conjunto. De forma ideal, este paso de pre-amplificacion no debena alterar apreciablemente las distribuciones aleicas.
En una realizacion, un metodo de la presente divulgacion puede generar productos de PCR que son espedficos para un gran numero de loci focalizados, espedficamente de 1.000 a 5.000 loci, de 5.000 a 10.000 loci o mas de 10.000 loci, para la determinacion del genotipo por secuenciacion o cualquier otro metodo de determinacion del genotipo, de muestras limitadas como celulas individuales o ADN de fluidos corporales. Actualmente, la realizacion de reacciones de PCR multiplexada de mas de 5 a 10 dianas presenta un importante reto y a menudo se ve obstaculizada por productos secundarios del cebador, como dfmeros de cebadores, y otros artefactos. Cuando se detectan secuencias diana utilizando microarrays con sondas de hibridacion, se pueden omitir los dfmeros de cebadores y otros artefactos, ya que no son detectados. Sin embargo, cuando se utiliza la secuenciacion como un metodo de deteccion, la amplia mayona de las lecturas de secuenciacion secuenciana estos artefactos y no las secuencias diana deseadas en una muestra. Los metodos descritos en la tecnica utilizados para multiplexar mas de 50 o 100 reacciones en un volumen de reaccion seguidos de secuenciacion daran como resultado de forma tfpica mas de un 20%, y a menudo mas de un 50%, en muchos casos mas de un 80% y en algunos casos mas de un 90% de lecturas de secuencia no diana.
En general, para realizar una secuenciacion focalizada de multiples dianas (n) de una muestra (superior a 50, superior a 100, superior a 500, o superior a 1.000), se puede dividir la muestra en un numero de reacciones paralelas que amplifican una diana individual. Esto se ha realizado en placas multipocillo de PCR o se puede realizar en plataformas comerciales como FLUIDIGM ACCESS ARRAY (48 reacciones por muestra en chips microflmdicos) o DROPLET PCR de RAIN DANCE TECHNOLOGY (de cientos a miles de dianas). Lamentablemente, estos metodos de division y agrupacion son problematicos para las muestras con una cantidad limitada de ADN ya que, a menudo, no hay suficientes copias del genoma para garantizar que hay una copia de cada region del genoma en cada pocillo. Este es un problema especialmente grave cuando los loci polimorficos estan focalizados, y las proporciones relativas de los alelos en los loci polimorficos son necesarias, ya que el ruido estocastico introducido por la division y el agrupamiento producira unas mediciones muy poco precisas de las proporciones de los alelos que estaban presentes en la muestra original de ADN. En el presente documento se describe un metodo de amplificar de un modo eficaz y efectivo muchas
5
10
15
20
25
30
35
40
45
50
55
60
reacciones de PCR que es aplicable a casos donde solo esta disponible una cantidad limitada de ADN. En una realizacion, el metodo se puede
aplicar para el analisis de celulas individuales, fluidos corporales, mezclas de ADN como el ADN flotante libre que se encuentra en el plasma materno, biopsias, muestras del medio ambiente y/o forenses.
En una realizacion, la secuenciacion focalizada puede implicar uno, una pluralidad, o todos los pasos siguientes, a) Generar y amplificar una biblioteca con secuencias de adaptador en ambos extremos de fragmentos de ADN, b) Dividir en multiples reacciones despues de la amplificacion de la biblioteca, c) Generar y opcionalmente amplificar una biblioteca con secuencias de adaptador en ambos extremos de los fragmentos de ADN, d) Realizar la amplificacion de 1000- a 10.000-plex de dianas seleccionadas utilizando un cebador “Directo” espedfico diana por diana y un cebador espedfico de etiqueta, e) Realizar una segunda amplificacion de este producto utilizando cebadores “Inversos” espedficos diana y uno (o mas) cebadores espedficos para una etiqueta universal que se introdujo como parte de los cebadores directos espedficos diana en la primera ronda, f) Realizar una preamplificacion de 1000-plex de dianas seleccionadas para un numero limitado de ciclos, g) Dividir el producto en multiples alfcuotas y amplificar subconjuntos de dianas en reacciones individuales (por ejemplo, de 50 a 500-plex, aunque esto se puede utilizar hasta un plexado individual. h) Agrupar productos de reacciones de subconjuntos paralelos, i) Durante estas amplificaciones los cebadores pueden llevar etiquetas compatibles de secuenciacion (parciales o completas) de tal modo que los productos se puedan secuenciar.
PCR altamente multiplexada
En el presente documento se divulgan metodos que permiten la amplificacion focalizada de mas de un centenar a decenas de miles de secuencias diana (por ejemplo, loci SNP) de una muestra de acido nucleico como ADN genomico obtenido de plasma. La muestra amplificada puede estar relativamente libre de productos de dfmeros de cebadores y tener un sesgo alelico bajo en los loci diana. Si durante o despues de la amplificacion los productos se anexan con adaptadores compatibles de secuenciacion, el analisis de estos productos se puede realizar por secuenciacion.
La realizacion de una amplificacion por PCR altamente multiplexada utilizando metodos conocidos en la tecnica da como resultado la generacion de productos de dfmeros de cebadores que superan a los productos de amplificacion deseados y no son adecuados para la secuenciacion. Esto se puede reducir empmcamente eliminando cebadores que forman estos productos, o realizando la seleccion in silico de cebadores. Sin embargo, cuanto mayor sea el numero de ensayos, mas diffcil se vuelve el problema.
Una solucion es dividir la reaccion 5000-plex en varias amplificaciones con un menor plexado, por ejemplo, reacciones de cien 50-plex o cincuenta 100-plex, o utilizar microflmdicos o incluso dividir la muestra en reacciones PCR individuales. Sin embargo, si el ADN de la muestra es limitado, como en el diagnostico prenatal no invasivo del plasma de embarazo, se debe evitar dividir la muestra entre multiples reacciones ya que esto resultara en un cuello de botella.
En el presente documento se describen metodos para amplificar primero globalmente el ADN de plasma de una muestra y, a continuacion, dividir la muestra en multiples reacciones de enriquecimiento diana multiplexadas con numeros mas moderados de secuencias diana por reaccion. En una realizacion, un metodo de la presente divulgacion se puede utilizar para enriquecer preferentemente una mezcla de ADN en una pluralidad de loci, el metodo comprende uno o mas de los siguientes pasos: la generacion y amplificacion de una biblioteca a partir de una mezcla de ADN donde las moleculas en la biblioteca tienen secuencias de adaptador ligadas en ambos extremos de los fragmentos de ADN, la division de la biblioteca amplificada en multiples reacciones, la realizacion de una primera ronda de amplificacion multiplexada de dianas seleccionadas utilizando un cebador “directo” espedfico diana por diana y uno o una pluralidad de cebadores “inversos” universales espedficos de adaptador. En una realizacion, un metodo de la presente divulgacion incluye ademas la realizacion de una segunda amplificacion utilizando cebadores espedficos diana “inversos” y uno o una pluralidad de cebadores espedficos a una etiqueta universal que se introdujo como parte de los cebadores directos espedficos diana en la primera ronda. En una realizacion, el metodo puede implicar un planteamiento de PCR totalmente anidado, hemi-anidado, semi-anidado, completamente anidado unilateral, hemi-anidado unilateral, o semi- anidado unilateral. En una realizacion, un metodo de la presente divulgacion se utiliza para enriquecer preferentemente una mezcla de ADN en una pluralidad de loci, el metodo comprende la realizacion de una preamplificacion de dianas seleccionadas para un numero limitado de ciclos, dividiendo el producto en multiples alfcuotas y amplificando subconjuntos de dianas en reacciones individuales, y la agrupacion de productos de reacciones de subconjuntos paralelos. Cabe senalar que este planteamiento podna utilizarse para realizar la amplificacion focalizada de tal manera que dana como resultado niveles bajos de sesgo alelico para 50-500 loci, para 500 a 5.000 loci, para 5.000 a 50.000 loci, o incluso para 50.000 a 500.000 loci. En una realizacion, los cebadores llevan etiquetas compatibles de secuenciacion parciales o completas.
El flujo de trabajo puede implicar (1) la extraccion de ADN como ADN de plasma, (2) la preparacion de la biblioteca de fragmentos con adaptadores universales en ambos extremos de los fragmentos, (3) la amplificacion de la biblioteca utilizando cebadores universales espedficos para los adaptadores, (4) la division de la “biblioteca” de muestras amplificada en multiples alfcuotas, (5) la realizacion de amplificaciones multiplexadas (por ejemplo, unos 100-plex, 1.000, o 10.000-plex con un cebador espedfico diana por diana y un cebador espedfico de etiqueta) en alfcuotas, (6) la agrupacion de alfcuotas de una muestra, (7) la codificacion por medio de codigo de barras de la muestra, (8) la mezcla de las muestras y el ajuste de la concentracion, (9) la secuenciacion de la muestra. El flujo de trabajo puede comprender multiples sub-pasos que contienen uno de los pasos listados (Por ejemplo, el paso (2) de la preparacion del paso de la
5
10
15
20
25
30
35
40
45
50
55
60
biblioteca podna implicar tres pasos enzimaticos (final repentino, factor de cola dA y union de adaptador) y pasos de purificacion). Los pasos del flujo de trabajo se pueden combinar, dividir o realizar en un orden diferente (por ejemplo, codificacion por medio de barras y agrupacion de muestras).
Es importante senalar que la amplificacion de una biblioteca se puede realizar de tal manera que este sesgada para amplificar fragmentos cortos mas eficientemente. De esta manera es posible amplificar preferentemente secuencias mas cortas, por ejemplo, fragmentos de ADN mono-nucleosomal como el ADN fetal libre de celulas (de origen placentario) que se encuentra en la circulacion de la mujer embarazada. Cabe senalar que los ensayos por PCR pueden tener las etiquetas, por ejemplo, etiquetas de secuenciacion, (normalmente una forma truncada de 15-25 bases). Despues del multiplexado, los multiplexados de la PCR de una muestra se agrupan y, a continuacion, se completan las etiquetas (incluida la codificacion por medio de barras) por una PCR espedfica de etiqueta (tambien se podna hacer mediante union). Ademas, las etiquetas de secuenciacion completa se pueden anadir en la misma reaccion que el multiplexado. En los primeros ciclos las dianas se pueden amplificar con los cebadores espedficos diana, posteriormente los cebadores espedficos etiquetados se encargan de completar la secuencia del adaptador SQ. Los cebadores para PCR pueden no llevar etiquetas. Las etiquetas de secuenciacion se pueden anexar a los productos de amplificacion por union.
En una realizacion, la PCR altamente multiplexada seguida de una evaluacion de material amplificado por secuenciacion clonica se puede utilizar para varias aplicaciones como la deteccion de aneuploidfa fetal. Mientras que las PCR multiplexadas tradicionales evaluan hasta cincuenta loci simultaneamente, el enfoque que se describe en el presente documento se puede utilizar para permitir la evaluacion simultanea de mas de 50 loci simultaneamente, mas de 100 loci simultaneamente, mas de 500 loci simultaneamente, mas de 1.000 loci simultaneamente, mas de 5.000 loci simultaneamente, mas de 10.000 loci simultaneamente, mas de 50.000 loci simultaneamente, y mas de 100.000 loci simultaneamente. Los experimentos han demostrado que se pueden evaluar simultaneamente hasta 10.000 loci distintos incluidos e incluso mas, en una sola reaccion, con una eficacia y especificidad suficientemente buenas para hacer diagnosticos de aneuploidfa prenatal no invasivos y/o determinaciones de numero de copia con alta precision. Los ensayos se pueden combinar en una sola reaccion con la totalidad de una muestra como una muestra de ADN libre de celulas aislada del plasma materno, una fraccion de esta, o un derivado todavfa mas procesado de la muestra de ADN libre de celulas. La muestra (por ejemplo, ADN libre de celulas o derivado) tambien se puede dividir en multiples reacciones multiplexadas paralelas. La division de la muestra optima y multiplexada esta determinada por la compensacion de distintas especificaciones de rendimiento. Debido a la cantidad limitada de material, la division de la muestra en multiples fracciones puede introducir ruido en el muestreo, tiempo de manipulacion, y aumentar la posibilidad de error. Por el contrario, un multiplexado mas alto puede dar como resultado una mayor cantidad de amplificacion falsa y una mayor desigualdad en la amplificacion lo que, en ambos casos, puede reducir el rendimiento de la prueba.
Dos consideraciones cruciales relacionadas en la aplicacion de los metodos descritos en el presente documento son la cantidad limitada de la muestra original (por ejemplo, plasma) y el numero de moleculas originales en ese material del que se obtiene la frecuencia aleica u otras mediciones. Si el numero de moleculas originales cae por debajo de un determinado nivel, el ruido del muestreo aleatoria se vuelve significativo, y puede afectar a la precision de la prueba. De forma tfpica, se pueden obtener datos con la calidad suficiente para hacer diagnosticos de aneuploidfa prenatal no invasiva si se hacen mediciones en una muestra que comprende el equivalente de 500-1000 moleculas originales por locus diana. Hay varias maneras de aumentar el numero de mediciones distintas, por ejemplo, aumentar el volumen de la muestra. Cada manipulacion aplicada a la muestra tambien da como resultado potencialmente perdidas de material. Es esencial para caracterizar las perdidas incurridas por varias manipulaciones y evitar o, segun sea necesario, mejorar el rendimiento de determinadas manipulaciones evitar las perdidas que podnan degradar el rendimiento de la prueba.
En una realizacion, es posible mitigar las perdidas potenciales en posteriores pasos amplificando la totalidad o una fraccion de la muestra original (por ejemplo, la muestra de ADN libre de celulas). Estan disponibles varios metodos para amplificar todo el material genetico en una muestra, aumentando la cantidad disponible para procedimientos corriente abajo. En una realizacion, los fragmentos de ADN de la PCR mediada por enlace (LM-PCR) se amplifican por PCR despues de la ligadura de o bien un adaptador distinto, dos adaptadores distintos, o muchos adaptadores distintos. En una realizacion, la amplificacion de desplazamiento multiple (MDA) pi-29 polimerasa se utiliza para amplificar todo el ADN isotermicamente. En DOP-PCR y variaciones, el cebado aleatorio se utiliza para amplificar el ADN del material original. Cada metodo tiene determinadas caractensticas como uniformidad de amplificacion a traves de todas las regiones representadas del genoma, eficiencia de captura y amplificacion del ADN original, y rendimiento de la amplificacion como una funcion de la longitud del fragmento.
En una realizacion LM-PCR se puede utilizar con un adaptador heteroduplexado individual que tiene una tirosina de cebado 3. El adaptador heteroduplexado permite el uso de una molecula de adaptador individual que se puede convertir a dos secuencias distintas en extremos de cebado 5 y de cebado 3 del fragmento de ADN original durante la primera ronda de PCR. En una realizacion, es posible fraccionar la biblioteca amplificada mediante separaciones de tamano, o productos como AMPURE, TASS u otros metodos similares. Antes de la ligadura, el ADN de la muestra puede haber finalizado repentinamente y, a continuacion, una base de adenosina individual se anade al extremo de cebado 3. Antes de la ligadura, el ADN se puede escindir utilizando una enzima de restriccion o cualquier otro metodo de escision. Durante la ligadura la adenosina de cebado 3 de los fragmentos de muestra y la proyeccion de tirosina de cebado 3 complementaria del adaptador pueden mejorar la ligadura de un modo eficaz. El paso de extension de la amplificacion por PCR se puede limitar a partir de un punto de vista temporal para reducir la amplificacion de fragmentos con una
5
10
15
20
25
30
35
40
45
50
55
60
longitud superior a unos 200 bp, unos 300 bp, unos 400 bp, unos 500 bp o unos 1.000 bp. Puesto que el ADN mas largo que se encuentra en el plasma materno es casi exclusivamente materno, esto puede dar como resultado el enriquecimiento del ADN fetal en un 10-50% y la mejora del rendimiento de la prueba. Se ejecutaron una serie de reacciones utilizando condiciones especificadas por los kits disponibles comercialmente; dieron como resultado una ligadura satisfactoria de menos de un 10% de moleculas de ADN de muestra. Una serie de optimizaciones de las condiciones de la reaccion para esto mejoraron la ligadura hasta aproximadamente un 70%.
Mini-PCR
El siguiente metodo de mini-PCR es deseable para muestras que contienen
acidos nucleicos cortos, acidos nucleicos digeridos, o acidos nucleicos fragmentados, como ADN libre de celulas. Los resultados del diseno del ensayo de PCR tradicional dan como resultado perdidas significativas de moleculas fetales distintas, pero las perdidas se pueden reducir en gran medida disenando ensayos de PCR muy cortos, denominados ensayos de mini-PCR. El ADN libre de celulas fetal en suero materno esta altamente fragmentado y los tamanos de fragmento estan distribuidos aproximadamente de un modo gaussiano con una media de 160 bp, una desviacion estandar de 15 bp, un tamano mmimo de unos 100 bp, y un tamano maximo de unos 220 bp. La distribucion de las posiciones de inicio y final del fragmento con respecto a los polimorfismos focalizados, aunque no es necesariamente aleatoria, vana ampliamente entre dianas individuales y entre todas las dianas colectivamente y el punto polimorfico de un locus diana determinado puede ocupar cualquier posicion desde el inicio hasta el final entre los diversos fragmentos que se originan de ese locus. Cabe senalar que el termino Mini-PCR tambien puede referirse a una PCR normal sin restricciones o limitaciones adicionales.
Durante la PCR, la amplificacion solo se producira de una plantilla de fragmentos de ADN que comprenden ambos puntos del cebador directo e inverso. Puesto que los fragmentos de ADN libre de celulas fetal son cortos, la probabilidad de que ambos puntos del cebador esten presentes, la probabilidad de un fragmento fetal de longitud L que comprende tanto el cebador directo como el inverso es el ratio de la longitud del amplicon con respecto a la longitud del fragmento. En condiciones ideales, los ensayos en los que el amplicon es 45, 50, 55, 60, 65, o 70 bp se amplificaran satisfactoriamente a partir de un 72%, 69%, 66%, 63%, 59%, o 56%, respectivamente, de las plantillas de fragmentos de moleculas disponibles. La longitud de amplicon es la distancia entre los extremos de cebado 5 de los puntos de cebado directo e inverso. La longitud de amplicon que es mas corta que la que se utiliza de forma tfpica para el experto en la tecnica puede dar como resultado mediciones mas eficaces de los loci polimorficos deseados al requerir unicamente lecturas de secuencia cortas. En algunas realizaciones, una fraccion sustancial de los amplicones debena ser inferior a 100 pb, inferior a 90 pb, inferior a 80 pb, inferior a 70 pb, inferior a 65 pb, inferior a 60 pb, inferior a 55 pb, inferior a 50 pb, o inferior a 45 pb.
Cabe senalar que en metodos conocidos en la tecnica, los ensayos cortos como los que se describen en el presente documento normalmente se evitan ya que no se requieren e imponen unas restricciones considerables al diseno del cebador al limitar la longitud del cebador, las caractensticas de reformacion termica y la distancia entre el cebador directo y el inverso.
Tambien cabe senalar que existe el potencial para una amplificacion sesgada si el extremo de cebado 3 de cualquiera de los cebadores esta dentro de aproximadamente 1-6 bases del punto polimorfico. Esta diferencia de base individual en el punto de union de polimerasa inicial puede dar como resultado una amplificacion preferencial de un alelo, que puede alterar las frecuencias de alelo observadas y degradar el rendimiento. Todas estas restricciones hacen que sea todo un desaffo identificar los cebadores que amplificaran un locus determinado satisfactoriamente y, ademas, disenar grandes conjuntos de cebadores que sean compatibles en la misma reaccion multiplexada. En una realizacion, el extremo 3' de los cebadores directos e inversos interiores esta disenado para hibridarse a una region del ADN corriente arriba del punto polimorfico, y separada del punto polimorfico por un pequeno numero de bases. De forma ideal, el numero de bases puede estar entre 6
y 10 bases, pero igualmente puede estar entre 4 y 15 bases, entre tres y 20 bases, entre dos y 30 bases, o entre 1 y 60 bases, y conseguir practicamente el mismo fin.
La PCR multiplexada puede implicar una sola ronda de PCR en la que todas las dianas son amplificadas o puede implicar una ronda de PCR seguida de una o mas rondas de PCR anidada o alguna variante de PCR anidada. La PCR anidada se compone de una ronda o rondas posteriores de amplificacion por PCR utilizando uno o mas cebadores nuevos que se unen internamente, por al menos un par de bases, a los cebadores utilizados en una ronda previa. La PCR anidada reduce el numero de dianas de amplificacion falsas al amplificar, en reacciones posteriores, solo aquellos productos de amplificacion de la anterior que tienen la secuencia interna correcta. La reduccion de dianas de amplificacion falsas mejora el numero de mediciones utiles que se pueden obtener, especialmente en la secuenciacion. La PCR anidada de forma tfpica implica el diseno de cebadores completamente internos con respecto a los anteriores puntos de union del cebador, aumentando necesariamente el tamano del segmento de ADN necesario para la amplificacion. Para muestras, por ejemplo, de ADN libre de celulas de plasma materno, en las que el ADN esta altamente fragmentado, el tamano de ensayo mayor reduce el numero de moleculas de ADN libre de celulas distintas de las que se puede obtener una medicion. En una realizacion, para contrarrestar este efecto, se puede utilizar un planteamiento de anidado parcial donde uno o ambos de los cebadores de la segunda ronda se solapen con los primeros puntos de union extendiendo internamente algunos numeros de bases para conseguir una especificidad adicional a la vez que aumentan mmimamente en el tamano del ensayo total.
5
10
15
20
25
30
35
40
45
50
55
60
En una realizacion, un conjunto multiplexado de ensayos por PCR esta disenado para amplificar el SNP potencialmente heterocigotou otros loci polimorficos o no polimorficos en uno o mas cromosomas y estos ensayos se utilizan en una sola reaccion para amplificar ADN. El numero de ensayos por PCR puede estar entre 50 y 200 ensayos por PCR, entre 200 y 1.000 ensayos por PCR, entre 1.000 y 5.000 ensayos por PcR, o entre 5.000 y 20.000 ensayos por PCR (de 50 a 200- plex, de 200 a 1.000-plex, de 1.000 a 5.000-plex, de 5.000 a 20.000-plex, mas de 20.000-plex respectivamente). En una realizacion, un conjunto multiplexado de unos 10.000 ensayos por PCR (10.000-plex) esta disenado para amplificar loci de SNP potencialmente heterocigoticos en los cromosomas X, Y, 13, 18, y 21 y 1 o 2 y estos ensayos se utilizan en una sola reaccion para amplificar ADN libre de celulas obtenido a partir de una muestra de plasma material, muestras de vellosidades corionicas, muestras de amniocentesis, celulas individuales o un pequeno numero de celulas, otros fluidos corporales o tejidos, canceres, u otras materia genetica. Las frecuencias de sNp de cada locus se pueden determinar mediante secuenciacion clonica o cualquier otro metodo de secuenciacion de los amplicones. Los analisis estadfsticos de las distribuciones de la frecuencia aleica o ratios de todos los ensayos se pueden utilizar para determinar si la muestra contiene una trisoirna de uno o mas de los cromosomas incluidos en la prueba. En otra realizacion las muestras de ADN libre de celulas original se dividen en dos muestras y se realizan ensayos de 5.000-plex paralelos. En otra realizacion las muestras de ADN libre de celulas original se dividen en muestras n y se realizan ensayos (~10.000/n)-plex paralelos donde n esta entre 2 y 12, o entre 12 y 24, o entre 24 y 48, o entre 48 y 96. Los datos se recogen y analizan de forma similar a la que ya se ha descrito. Cabe senalar que este metodo tambien se puede aplicar a la deteccion de translocaciones, deleciones, duplicaciones, y otras anomalfas cromosomicas.
En una realizacion, las colas que no tienen homologfa con el genoma diana tambien se pueden anadir al extremo de cebado 3 o al extremo de cebado 5 de cualquiera de los cebadores. Estas colas facilitan las posteriores
manipulaciones, procedimientos, o mediciones. En una realizacion, la secuencia de cola puede ser la misma para los cebadores espedficos diana directos e inversos. En una realizacion, se pueden utilizar diferentes colas para los cebadores espedficos diana directos e inversos. En una realizacion, una pluralidad de colas diferentes se puede utilizar para loci o conjuntos de loci diferentes. Algunas colas se pueden compartir entre todos los loci o entre subconjuntos de loci. Por ejemplo, utilizando colas directas e inversas que correspondan a secuencias directas e inversas requeridas por cualquiera de las plataformas de secuenciacion actuales se puede permitir la secuenciacion directa despues de la amplificacion. En una realizacion, las colas se pueden utilizar como puntos de cebado comunes entre todas las dianas amplificadas que se pueden utilizar para anadir otras secuencias utiles. En algunas realizaciones, los cebadores interiores pueden contener una region que esta disenada para que se hibride o bien corriente arriba o corriente abajo del locus focalizado (por ejemplo, un locus polimorfico). En algunas realizaciones, los cebadores pueden contener un codigo de barras molecular. En algunas realizaciones, el cebador puede contener una secuencia de cebado universal disenada para permitir la amplificacion por PCR.
En una realizacion, se crea un conjunto de ensayo de PCR de 10.000-plex de modo que los cebadores directo e inverso tengan colas que correspondan a las secuencias directas e inversas requeridas por un instrumento de secuenciacion de alto rendimiento como HISEQ, GAIIX, o MYSEQ comercializado por ILLUMINA. Ademas, el cebador incluido en las colas de secuenciacion es una secuencia adicional que se puede utilizar como un punto de cebado en una PCR posterior para anadir secuencias de codigo de barras nucleotido a los amplicones, permitiendo la secuenciacion multiplexada de multiples muestras en una sola lmea del instrumento de secuenciacion de alto rendimiento.
En una realizacion, se crea un conjunto de ensayo de PCR de 10.000-plex de modo que los cebadores inversos tengan colas que correspondan a las secuencias inversas requeridas por un instrumento de secuenciacion de alto rendimiento. Despues de la amplificacion con el primer ensayo de 10.000-plex, se puede realizar una amplificacion por PCR posterior utilizando otro conjunto de 10.000-plex que tenga cebadores directos parcialmente anidados (por ejemplo, 6-bases anidadas) para todas las dianas y un cebador inverso que corresponde a la cola de la secuenciacion inversa incluida en la primera ronda. Esta ronda posterior de amplificacion parcialmente anidada con solo un cebador espedfico diana y un cebador universal limita el tamano requerido del ensayo, reduciendo el ruido del muestreo, aunque reduce en gran medida el numero de amplicones falsos.
Las etiquetas de secuenciacion se pueden anadir a los adaptadores de union anexados y/o como parte de sondas para PCR, de modo que la etiqueta es parte del amplicon final. La fraccion fetal afecta al rendimiento de la prueba. Hay varias maneras de enriquecer la fraccion fetal del ADN que se encuentra en el plasma materno. La fraccion fetal se puede aumentar por el metodo LM-PCR anteriormente descrito y del que tambien ya se ha hablado mediante una extraccion focalizada de fragmentos maternos largos. En una realizacion, antes de la amplificacion por PCR multiplexada de los loci diana, se puede llevar a cabo una reaccion por PCR multiplexada adicional para extraer selectivamente fragmentos largos y en su mayor parte maternos correspondientes a los loci focalizados en la PCR multiplexada posterior. Los cebadores adicionales estan disenados para reformar termicamente un punto a una mayor distancia del polimorfismo que esta previsto que este presente entre fragmentos de ADN fetal libre de celulas. Estos cebadores se pueden utilizar en una reaccion por PCR multiplexada de un ciclo antes de la PCR multiplexada de los loci polimorficos diana. Estos cebadores distales se etiquetan con una molecula o mitad que permite el reconocimiento selectivo de los pedazos de ADN etiquetados. En una realizacion, estas moleculas de ADN pueden modificarse covalentemente con una molecula biotina que permite la extraccion de un ADN de doble cadena formado recientemente que comprende estos cebadores despues de un ciclo de PCR. El ADN de doble cadena formado durante esa primera ronda es probable que sea de origen materno. La extraccion del material tubrido se puede conseguir mediante el uso de perlas de estreptavidina magneticas. Hay otros metodos de etiquetado que pueden funcionar igualmente bien. En una realizacion, se pueden utilizar metodos de seleccion de tamano para enriquecer la muestra para hebras de ADN mas
5
10
15
20
25
30
35
40
45
50
55
60
cortas; por ejemplo, aquellas que sean inferiores a 800 bp, inferiores a unos 500 bp, o inferiores a unos 300 bp. La amplificacion de fragmentos cortos, a continuacion, puede continuar como de costumbre.
El metodo de mini-PCR descrito en esta divulgacion permite la amplificacion altamente multiplexada y el analisis de cientos a miles o incluso millones de loci en una sola reaccion, a partir de una sola muestra. En el mismo, la deteccion del ADN amplificado se puede multiplexar; de decenas a cientos de muestras se pueden multiplexar en una lmea de secuenciacion utilizando la PCR de codigo de barras. Esta deteccion multiplexada se ha probado satisfactoriamente hasta 49-plex, y es posible un grado de multiplexado mucho mas alto. En efecto, esto permite genotipificar cientos de muestras a miles de SNP en una sola secuenciacion. Para estas muestras, el metodo permite la determinacion del genotipo y la tasa de heterocigosidad y simultaneamente la determinacion del numero de copia, ambas pueden ser utilizadas para la deteccion de la aneuploidfa. Este metodo es especialmente util en la deteccion de la aneupioidfa de un feto en gestacion a partir del ADN flotante libre que se encuentra en el plasma materno. Este metodo se puede utilizar como parte de un metodo para determinar el sexo de un feto, y/o predecir la paternidad del feto. Se puede utilizar como parte de un metodo para la dosificacion de mutaciones. Este metodo se puede utilizar para cualquier cantidad de ADN o ARN, y las regiones focalizadas pueden ser SNP, otras regiones polimorficas, regiones no polimorficas, y combinaciones de estas.
En algunas realizaciones, se puede utilizar la amplificacion por PCR universal mediada por union de ADN. La amplificacion por PCR universal mediada por union se puede utilizar para amplificar ADN del plasma que, a continuacion, se puede dividir en multiples reacciones paralelas. Tambien se puede utilizar para amplificar preferentemente fragmentos cortos, por tanto, enriqueciendo la fraccion fetal. En algunas realizaciones la adicion de etiquetas a los fragmentos mediante union puede permitir la deteccion de fragmentos mas cortos, el uso de porciones espedficas de secuencia diana mas cortas de los cebadores y/o la reformacion termica a temperaturas mas altas que reduce las reacciones no especificadas.
Los metodos descritos en la presente memoria se pueden utilizar para una serie de propositos donde hay un conjunto diana de ADN que se mezcla con una cantidad de ADN contaminante. En algunas realizaciones, el ADN diana y el ADN contaminante pueden ser de individuos que estan geneticamente relacionados. Por ejemplo, se pueden detectar anomalfas geneticas en un feto (diana) a partir de plasma materno que contiene ADN fetal (diana) y tambien ADN materno (contaminante); las anomalfas incluyen anomalfas en todo el cromosoma (por ejemplo, aneuploidfa), anomalfas parciales en el cromosoma (por ejemplo, deleciones, duplicaciones, inversiones, translocaciones), polimorfismos polinucleotidos (por ejemplo, sTr), polimorfismos de un solo nucleotido, y/u otras anomalfas geneticas o diferencias. En algunas realizaciones, el ADN contaminante y la diana pueden ser del mismo individuo, pero donde el ADN contaminante y el diana son diferentes por una o mas mutaciones, por ejemplo, en el caso de cancer, (vease por ejemplo, H. Mamon et al. Preferential Amplificacion of Apoptotic ADN from Plasma: Potential for Enhancing Deteccion of Minor ADN Alterations in Circulating ADN. Clinical Chemistry 54:9 (2008). En algunas realizaciones, el ADN se puede encontrar en un sobrenadante (apoptotico) del cultivo celular. En algunas realizaciones, es posible inducir la apoptosis en muestras biologicas (por ejemplo, sangre) para la posterior preparacion, amplificacion y/o secuenciacion de la biblioteca. Un numero de flujos de trabajo y protocolos de apoyo para conseguir este objetivo se presentan en otra parte de esta divulgacion.
En algunas realizaciones, el ADN diana puede originarse a partir de celulas individuales, de muestras de ADN que se componen de menos de una copia del genoma diana, de cantidades bajas de ADN, de ADN de origen mixto (por ejemplo, plasma del embarazo: ADN placentario y materno; plasma de pacientes con cancer y tumores: una mezcla entre ADN sano y con cancer, trasplante, etc), de otros fluidos corporales, de cultivos celulares, de sobrenadantes del cultivo, de muestras forenses de ADN, de muestras antiguas de ADN (por ejemplo, insectos atrapados en ambar), de otras muestras de ADN, y combinaciones de estas.
En algunas realizaciones, se puede utilizar un tamano de amplicon corto. Los tamanos de amplicon corto son especialmente adecuados para ADN fragmentado (vease por ejemplo, A. Sikora, et sl. Detection of increased amounts of cell-free fetal DNA with short PCR amplicons. Clin Chem. 2010 Jan;56(l): 136-8.) El uso de tamanos de amplicon corto puede producir algunas ventajas significativas. Los tamanos de amplicon corto pueden producir una eficacia de la amplificacion optimizada. Los tamanos de amplicon corto de forma tfpica producen productos mas cortos, por tanto, hay una menor probabilidad de un cebado no espedfico. Los productos mas cortos se pueden agrupar mas densamente en celulas de flujo de secuenciacion, ya que las agrupaciones seran mas pequenas. Cabe senalar que los metodos descritos en el presente documento pueden funcionar igualmente bien para amplicones por PCR mas largos. La longitud del amplicon se puede aumentar si es necesario, por ejemplo, cuando se secuencian tramos mas largos. Se realizaron experimentos con amplificacion focalizada de 146-plex con ensayos con una longitud de 100 bp a 200 bp como una primera fase en un protocolo para PCR anidada en celulas individuales y en ADN genomico con resultados positivos.
En algunas realizaciones, los metodos descritos en el presente documento se pueden utilizar para amplificar y/o detectar SNP, numero de copia, metilacion nucleotida, niveles de mRNA, otros tipos de niveles de expresion de ARN, otras caractensticas geneticas y/o epigeneticas. Los metodos de mini-PCR descritos en el presente documento se pueden utilizar junto con la secuenciacion de nueva generacion; se puede utilizar con otros metodos corriente abajo como microarrays, recuento por PCR digital, PCR en tiempo real, analisis por espectrometna de masas, etc.
En alguna realizacion, los metodos de amplificacion por mini-PCR descritos en el presente documento se pueden utilizar como parte de un metodo para la cuantificacion precisa de poblaciones minoritarias. Se puede utilizar para la cuantificacion absoluta utilizando calibradores de patron. Se puede utilizar para la cuantificacion aleica menor /mutacion
5
10
15
20
25
30
35
40
45
50
55
60
a traves de una secuenciacion muy profunda, y se puede ejecutar de una manera altamente multiplexada. Se puede utilizar para pruebas de identidad y paternidad estandar de familiares o antepasados, en humanos, animales, plantas u otras criaturas. Se puede utilizar para pruebas forenses. Se puede utilizar para la determinacion rapida del genotipo y el analisis del numero de copia (CN), en cualquier clase de material, por ejemplo, lfquido amniotico y CVS, esperma, producto de concepcion (POC). Se puede utilizar para el analisis de una sola celula, como determinacion del genotipo en muestras a las que se ha hecho una biopsia de embriones. Se puede utilizar para el analisis rapido del embrion (en menos de un dfa, uno o dos dfas de biopsia) mediante secuenciacion focalizada utilizando min-PCR.
En algunas realizaciones se puede utilizar para el analisis de tumores: las biopsias de tumores a menudo son una mezcla de celulas sanas y celulas con un tumor. El PCR dirigido permite la secuenciacion profunda de SNP y loci con casi ninguna secuencia de fondo. Se puede utilizar para el analisis del numero de copia y la perdida de heterocigosidad en el ADN del tumor. Dicho ADN del tumor puede estar presente en muchos fluidos corporales diferentes o tejidos de pacientes con un tumor. Se puede utilizar para la deteccion de la recurrencia del tumor, y/o el examen del tumor. Se puede utilizar para las pruebas de control de calidad de semillas. Cabe senalar que cualquiera de estos metodos podna utilizarse igualmente para focalizar loci no polimorficos con el fin de realizar una determinacion de ploidfa.
Algunos ejemplos de la bibliograffa que describen alguno de estos metodos fundamentales que subyacen en los metodos divulgados en el presente documento incluyen: (1) Wang HY, Luo M, Tereshchenko IV, Frikker DM, Cui X, Li JY, Hu G, Chu Y, Azaro MA, Lin Y, Shen L, Yang Q, Kambouris ME, Gao R, Shih W, Li H. Genoma Res. 2005 Feb;15(2):276-83. Department of Molecular Genetics, Microbiology and Immunology/The Cancer Institute of New Jersey, Robert Wood Johnson Medical School, New Brunswick, New Jersey 08903, USA. (2) High-throughput genotyping of single nucleotide polymorphisms with high sensitivity. Li H, Wang HY, Cui X, Luo M, Hu G, Greenawalt DM, Tereshchenko IV, Li JY, Chu Y, Gao R. Methods Mol Biol. 2007;396 - PubMed PMID: 18025699. (3) Un metodo que comprende el multiplexado de un promedio de 9 ensayos para secuenciacion se describe en: Nested Patch pCr enables highly multiplexed mutation discovery in candidate genes. Varley KE, Mitra RD. Genoma Res. 18 de noviembre de 2008 (l 1): 1844-50. Epub 10 de octubre de 2008. Cabe senalar que los metodos divulgados en el presente documento permiten el multiplexado de ordenes de magnitud superiores a las referencias anteriores.
Variantes de PCR focalizada - Anidado
Hay muchos flujos de trabajo posibles cuando se lleva a cabo una PCR; se describen algunos flujos de trabajo tfpicos de los metodos divulgados en el presente documento. Los pasos descritos en el presente documento no pretenden excluir otros posibles pasos ni implica que cualquiera de los pasos descritos en el presente documento sean necesarios para que el metodo funcione correctamente. Se conocen una gran cantidad de variaciones de parametros u otras modificaciones en la bibliograffa, y se pueden realizar sin afectar a la esencia de la invencion. Un flujo de trabajo generalizado particular se muestra a continuacion seguido de un numero de posibles variantes. Las variantes de forma tfpica hacen referencia a posibles reacciones de PCR secundarias, por ejemplo, diferentes tipos de anidado que se pueden realizar (paso 3). Es importante senalar que las variantes se pueden realizar en momentos diferentes, o en un orden distinto al que explfcitamente se describe en el presente documento. Los ejemplos ilustrativos que utilizan loci polimorficos se pueden adaptar rapidamente para la amplificacion de loci no polimorficos si se desea.
1. El ADN en la muestra puede tener adaptadores de union, a los que a menudo se hace referencia como etiquetas de biblioteca o etiquetas de adaptador de union (LTs), anexados, donde los adaptadores de union contienen una secuencia de cebado universal, seguida de una amplificacion universal. En una realizacion, esto se puede realizar utilizando un protocolo estandar disenado para crear bibliotecas de secuenciacion despues de la fragmentacion. En una realizacion, la muestra de ADN puede haber finalizado repentinamente y, a continuacion, se puede anadir una A en el extremo 3'. Se puede anadir y unir un adaptador Y con una proyeccion T. En algunas realizaciones, se pueden utilizar otros extremos pegajosos que no sean una proyeccion A o T. En algunas realizaciones, se pueden anadir otros adaptadores, por ejemplo, adaptadores de union de bucle. En algunas realizaciones, los adaptadores pueden tener una etiqueta disenada para la amplificacion por PCR.
2. Amplificacion diana espedfica (STA): La pre-amplificacion de cientos a miles a decenas de miles e incluso de cientos de miles de dianas se pueden multiplexar en un volumen de reaccion. La STA se ejecuta de forma tfpica de 10 a 30 ciclos, aunque tambien se puede ejecutar de 5 a 40 ciclos, de 2 a 50 ciclos, e incluso de 1 a 100 ciclos. Los cebadores pueden tener una cola, por ejemplo, para un flujo de trabajo mas sencillo o para evitar la secuenciacion de una gran proporcion de dfmeros. Cabe senalar que de forma tfpica, los dfmeros de ambos cebadores que llevan la misma etiqueta no se amplificaran o secuenciaran eficientemente. En algunas realizaciones, se pueden llevar a cabo entre 1 y 10 ciclos de PCR; en algunas realizaciones, se pueden llevar a cabo entre 10 y 20 ciclos de PCR; en algunas realizaciones, se pueden llevar a cabo entre 20 y 30 ciclos de PCR; en algunas realizaciones, se pueden llevar a cabo entre 30 y 40 ciclos de PCR; en algunas realizaciones se pueden llevar a cabo mas de 40 ciclos de PCR. La amplificacion puede ser una amplificacion lineal. El numero de ciclos de PCR se puede optimizar para dar como resultado un perfil de profundidad de lectura (DOR) optimo. Perfiles DOR diferentes pueden ser deseables para fines distintos. En algunas realizaciones, es deseable una distribucion mas uniforme de las lecturas entre todos los ensayos; Si el DOR es demasiado pequeno para algunos ensayos, el ruido estocastico tambien puede ser demasiado alto para los datos para ser demasiado util, mientras que si la profundidad de lectura es demasiado alta, la utilidad marginal de cada lectura adicional es relativamente pequena.
Las colas del cebador pueden mejorar la deteccion de ADN fragmentado de bibliotecas etiquetadas universalmente. Si la etiqueta de biblioteca y las colas del cebador contienen una secuencia homologa, se puede mejorar la hibridacion (por
5
10
15
20
25
30
35
40
45
50
55
60
ejemplo, la temperatura de fusion (Tm) baja) y los cebadores se pueden extender si solo una parte de la secuencia diana del cebador esta en el fragmento de ADN de la muestra. En algunas realizaciones, se pueden utilizar 13 o mas pares de bases espedficos diana. En algunas realizaciones, se pueden utilizar de 10 a 12 pares de bases espedficos diana. En algunas realizaciones, se pueden utilizar de 8 a 9 pares de bases espedficos diana. En algunas realizaciones, se pueden utilizar de 6 a 7 pares de bases espedficos diana. En algunas realizaciones, se puede realizar la STA en ADN preamplificado, por ejemplo, MDA, RCA, otras amplificaciones de todo el genoma, o PCR universal mediada por adaptador. En algunas realizaciones, se puede realizar la STA en muestras que estan enriquecidas o desprovistas de determinadas secuencias y poblaciones, por ejemplo, por seleccion de tamano, captura diana, degradacion dirigida.
3. En algunas realizaciones, es posible realizar PCR multiplexadas secundarias o reacciones de extension del cebador para aumentar la especificidad y reducir los productos no deseados. Por ejemplo, el anidado total, el semi-anidado, el hemi-anidado, y/o la subdivision en reacciones paralelas de conjuntos de ensayo mas pequenos son todo tecnicas que se pueden utilizar para aumentar la especificidad. Los experimentos han demostrado que dividir una muestra en tres reacciones de 400-plex dio como resultado un ADN de producto con una mayor especificidad que una reaccion de 1.200-plex con exactamente los mismos cebadores. De forma similar, los experimentos han demostrado que dividir una muestra en cuatro reacciones de 2.400-plex ha dado como resultado un ADN de producto con mayor especificidad que una reaccion de 9.600-plex con exactamente los mismos cebadores. En una realizacion, es posible utilizar cebadores espedficos diana y espedficos de etiqueta de la misma direccionalidad y de una direccionalidad opuesta.
4. En algunas realizaciones, es posible amplificar una muestra de ADN (dilucion, purificada u otra) producida por una reaccion de STA utilizando cebadores espedficos etiquetados y “amplificacion universal”, es decir, amplificar muchas o todas las dianas preamplificadas y etiquetadas. Los cebadores pueden contener secuencias funcionales adicionales, por ejemplo, codigos de barras, o una secuencia de adaptador completa necesaria para la secuenciacion en una plataforma de secuenciacion de alto rendimiento.
Estos metodos se pueden utilizar para el analisis de cualquier muestra de ADN, y son especialmente utiles cuando la muestra de ADN es especialmente pequena, o cuando es una muestra de ADN donde el aDn se origina a partir de mas de un individuo, como en el caso del plasma materno. Estos metodos se pueden utilizar en muestras de aDn como una sola celula o un pequeno numero de ellas, ADN genomico, ADN del plasma, bibliotecas de plasma amplificado, bibliotecas sobrenadantes apoptoticas amplificadas, u otras muestras de ADN mixto. En una realizacion, estos metodos se pueden utilizar en el caso en el que las celulas con una constitucion genetica diferente pueden estar presentes en un solo individuo, como con el cancer o los trasplantes.
Variantes del protocolo (variantes y/o anadidos al flujo de trabajo que se indica mas arriba)
Mini-PCR multiplexada directa: La amplificacion diana espedfica (STA) de una pluralidad de secuencias diana con cebadores con etiquetas que se muestra en la Figura 1,101 denota ADN de doble cadena con un locus polimorfico de interes en X. 102 denota el ADN de doble cadena con adaptadores de union anadidos para amplificacion universal. 103 denota el ADN de una sola cadena que ha sido amplificado universalmente con cebadores para PCR hibridados. 104 denota el producto de la PCR final. En algunas realizaciones, la STA se puede realizar en mas de 100, mas de 200, mas de 500, mas de 1.000, mas de 2.000, mas de 5.000, mas de 10.000, mas de 20.000, mas de 100.0 mas de 100.000 o mas de 200.000 dianas. En una reaccion posterior, los cebadores espedficos etiquetados amplifican todas las secuencias diana y alargan las etiquetas para incluir todas las secuencias necesarias para la secuenciacion, incluyendo los indices de la muestra. En una realizacion, es posible que los cebadores no esten etiquetados o que solo determinados cebadores puedan estar etiquetados. Se pueden anadir adaptadores de secuenciacion mediante la union de adaptador convencional. En una realizacion, los cebadores iniciales pueden llevar las etiquetas.
En una realizacion, los cebadores estan disenados para que la longitud del ADN amplificado sea inesperadamente corta. La tecnica anterior demuestra que los expertos en la tecnica de forma tfpica disenan 100+ bp amplicones. En una realizacion, los amplicones pueden estar disenados para ser inferiores a 80 bp. En una realizacion, los amplicones pueden estar disenados para ser inferiores a 70 bp. En una realizacion, los amplicones pueden estar disenados para ser inferiores a 60 bp. En una realizacion, los amplicones pueden estar disenados para ser inferiores a 50 bp. En una realizacion, los amplicones pueden estar disenados para ser inferiores a 45 bp. En una realizacion, los amplicones pueden estar disenados para ser inferiores a 40 bp. En una realizacion, los amplicones pueden estar disenados para ser inferiores a 35 bp. En una realizacion, los amplicones pueden estar disenados para estar entre 40 y 65 bp.
Se llevo a cabo un experimento utilizando este protocolo utilizando una amplificacion de 1200-plex. Se utilizo tanto ADN genomico como plasma del embarazo; un 70% de lecturas de secuencia correlacionadas con secuencias focalizadas. Se proporcionan detalles en otra parte de este documento. La secuenciacion de un 1042-plex sin diseno y la seleccion de ensayos dio como resultado >99% de secuencias que eran productos de dfmeros de cebadores.
PCR secuencial: Despues de la STA1 se pueden amplificar en paralelo multiples alfcuotas del producto con conjuntos de complejidad reducida con los mismos cebadores. La primera amplificacion puede dar suficiente material para dividir. Este metodo es especialmente bueno para pequenas muestras, por ejemplo, aquellas que tienen unos 6-100 pg, unos 100 pg a 1 ng, de unos 1 ng a 10 ng, o de unos 10 ng a 100 ng. El protocolo se llevo a cabo con 1200-plex en tres 400- plexes. La correspondencia de lecturas de secuenciacion aumento de alrededor de un 60 a un 70 % solo en los 1200- plex hasta mas de un 95%.
Mini-PCR semianidada: (vease la Figura 2) Despues de la STA 1 se realiza una segunda STA que comprende un conjunto multiplexado de cebadores directos anidados internos (103 B, 105 b) y uno (o unos pocos) cebadores inversos
5
10
15
20
25
30
35
40
45
50
55
60
espedficos etiquetados (103 A). 101 denota ADN de doble cadena con un locus polimorfico de interes en X. 102 denota el ADN de doble cadena con adaptadores de union anadidos para amplificacion universal. 103 denota el ADN de una sola cadena que ha sido amplificado universalmente con el cebador directo B y el cebador inverso A hibridados. 104 denota el producto de la PCR de 103. 105 denota el producto de 104 con el cebador directo anidado b hibridado, y la etiqueta inversa A ya parte de la molecula de la PCR que se produjo entre 103 y 104. 106 denota el producto de la PCR final. Con este flujo de trabajo normalmente mas del 95% de secuencias se corresponden con las dianas previstas. El cebador anidado puede solaparse con la secuencia del cebador directo exterior pero introduce bases de extremo 3' adicionales. En algunas realizaciones es posible utilizar entre una y 20 bases 3' adicionales. Los experimented han demostrado que utilizar 9 o mas bases 3' adicionales en un diseno de 1200-plex funciona bien.
Mini-PCR completamente anidada: (vease la Figura 3) Despues del paso 1 de la STA, es posible realizar una segunda PCR multiplexada (o m.p. paralela Las PCR de complejidad reducida) con dos cebadores anidados que llevan etiquetas (A, a, B, b). 101 denota ADN de doble cadena con un locus polimorfico de interes en X. 102 denota el ADN de doble cadena con adaptadores de union anadidos para amplificacion universal. 103 denota el ADN de una sola cadena que ha sido amplificado universalmente con el cebador directo B y el cebador inverso A hibridados. 104 denota el producto de la PCR de 103. 105 denota el producto de 104 con el cebador directo anidado b y el cebador inverso anidado a hibridados. 106 denota el producto de la PCR final. En algunas realizaciones es posible utilizar dos conjuntos completos de cebadores. Los experimentos en los que se utiliza un protocolo de mini-PCR completamente anidada se utilizaron para realizar una amplificacion de 146-plex en una sola celula y en tres celulas sin el paso 102 de anexar adaptadores de union universal y amplificar.
Mini-PCR hemi-anidada: (vease la Figura 4) Es posible utilizar ADN diana que tenga un adaptador en los extremos del fragmento. La STA se realiza comprendiendo un conjunto multiplexado de cebadores directos (B) y uno (o unos pocos) cebadores inversos espedficos etiquetados (A). Se puede realizar una segunda STA utilizando un cebador inverso espedfico etiquetado y un cebador directo espedfico etiquetado universal. 101 denota ADN de doble cadena con un locus polimorfico de interes en X. 102 denota el ADN de doble cadena con adaptadores de union anadidos para amplificacion universal. 103 denota el ADN de una sola cadena que ha sido amplificado universalmente con cebador inverso A hibridado. 104 denota el producto de la PCR de 103 que se amplifico utilizando el cebador inverso A y el cebador de etiqueta del adaptador de union LT. 105 denota el producto de 104 con el cebador directo B hibridado.
100.0 denota el producto de la PCR final. En este flujo de trabajo, los cebadores directos e inversos espedficos diana se utilizan en reacciones separadas, por tanto, reducen la complejidad de la reaccion y evitan la formacion de dfmeros de los cebadores directos e inversos. Cabe senalar que en este ejemplo, los cebadores A y B se pueden considerar como primeros cebadores, y los cebadores 'a' y 'b' se pueden considerar como cebadores interiores. Este metodo supone una gran mejora sobre la PCR directa ya que es tan bueno como la PCR directa pero evita los dfmeros de cebadores. Despues de la primera ronda de protocolo hemi-anidado de forma tfpica se ve un -99% de ADN no focalizado, sin embargo, despues de la segunda ronda, de forma tfpica, hay una gran mejora.
Mini-PCR triplemente hemi-anidada: (vease la Figura 5) Es posible utilizar ADN diana que tenga un adaptador en los extremos del fragmento. La STA se realiza comprendiendo un conjunto multiplexado de cebadores directos (B) y uno (o unos pocos) cebadores inversos espedficos etiquetados (A) y (a). Se puede realizar una segunda STA utilizando un cebador inverso espedfico etiquetado y un cebador directo espedfico etiquetado universal. 101 denota ADN de doble cadena con un locus polimorfico de interes en X. 102 denota el ADN de doble cadena 30 con adaptadores de union anadidos para amplificacion universal. 103 denota el ADN de una sola cadena que ha sido amplificado universalmente con cebador inverso A hibridado. 104 denota el producto de la PCR de 103 que se amplifico utilizando el cebador inverso A y el cebador de etiqueta del adaptador de union LT. 105 denota el producto de 104 con el cebador directo B hibridado. 106 denota el producto de la PCR de 105 que se amplifico utilizando el cebador inverso A y el cebador directo B. 107 denota el producto de 106 con el cebador inverso 'a' hibridado. 108 denota el producto de la PCR final. Cabe senalar que en este ejemplo, los cebadores 'a' y B se pueden considerar como cebadores interiores, y A se puede considerar como un primer cebador. De forma opcional, tanto A como B se pueden considerar como primeros cebadores, y 'a' se puede considerar como un cebador interior. La designacion de cebadores inversos y directos se puede cambiar. En este flujo de trabajo, los cebadores directos e inversos espedficos diana se utilizan en reacciones separadas, por tanto, reducen la complejidad de la reaccion y evitan la formacion de dfmeros de los cebadores directos e inversos. Este metodo supone una gran mejora sobre la PCR directa ya que es tan bueno como la PCR directa pero evita los dfmeros de cebadores. Despues de la primera ronda de protocolo hemi-anidado de forma tfpica se ve un -99% de ADN no focalizado, sin embargo, despues de la segunda ronda, de forma tfpica, hay una gran mejora.
Mini-PCR anidada unilateral: (vease la Figura 6) Es posible utilizar ADN diana que tenga un adaptador en los extremos del fragmento. La STA tambien se puede realizar con un conjunto multiplexado de cebadores directos anidados y utilizando la etiqueta del adaptador de union como el cebador inverso. A continuacion, se puede realizar una segunda STA utilizando un conjunto de cebadores directos anidados y un cebador inverso universal. 101 denota ADN de doble cadena con un locus polimorfico de interes en X. 102 denota el ADN de doble cadena con adaptadores de union anadidos para amplificacion universal. 103 denota el ADN de una sola cadena que ha sido amplificado universalmente con cebador directo A hibridado. 104 denota el producto de la PCR de 103 que se amplifico utilizando el cebador directo A y el cebador inverso de etiqueta del adaptador de union LT. 105 denota el producto de 104 con el cebador directo anidado a hibridado. 106 denota el producto de la PCR final. Este metodo puede detectar secuencias diana mas cortas que la PCR estandar utilizando cebadores que se solapan en el primer y el segundo STA. El metodo se realiza de forma tfpica fuera de una muestra de ADN que ya ha pasado por el paso 1 de la STA indicado anteriormente, el anexado de
5
10
15
20
25
30
35
40
45
50
55
60
etiquetas universales y la amplificacion; los dos cebadores anidados estan solo en un lado, el otro lado utiliza la etiqueta de biblioteca. El metodo se ha realizado en bibliotecas de sobrenadantes apoptoticos y plasma del embarazo. Con este flujo de trabajo un 60% de las secuencias se correspondieron con las dianas previstas. Cabe senalar que las lecturas que conteman la secuencia de adaptador inverso no se han correspondido, de modo que se espera que este numero sea mas alto si esas lecturas que contienen la secuencia de adaptador inverso se corresponden.
Mini-PCR unilateral: Es posible utilizar ADN diana que tenga un adaptador en los extremos del fragmento (vease la Figura 7). La STA se puede realizar con un conjunto multiplexado de cebadores directos y un (o unos pocos) cebadores inversos espedficos etiquetados. 101 denota ADN de doble cadena con un locus polimorfico de interes en X. 102 denota el ADN de doble cadena con adaptadores de union anadidos para amplificacion universal. 103 denota el ADN de una sola cadena con cebador directo A hibridado. 104 denota el producto de la PCR de 103 que se amplifico utilizando el cebador directo A y el cebador inverso de etiqueta del adaptador de union LT, y el cual es el producto de la PCR final. Este metodo puede detectar secuencias diana mas cortas que la PCR estandar. Sin embargo, puede ser relativamente inespedfico, ya que solo se utiliza un cebador espedfico diana. Este protocolo es efectivamente la mitad de la mini PCR unilateral anidada
Mini-PCR semianidada inversa: Es posible utilizar ADN diana que tenga un adaptador en los extremos del fragmento (vease la Figura 8). La STA se puede realizar con un conjunto multiplexado de cebadores directos y un (o unos pocos) cebadores inversos espedficos etiquetados. 101 denota ADN de doble cadena con un locus polimorfico de interes en X.
102 denota el ADN de doble cadena con adaptadores de union anadidos para amplificacion universal. 103 denota el ADN de una sola cadena con cebador inverso B hibridado. 104 denota el producto de la PCR de 103 que se amplifico utilizando el cebador inverso B y el cebador directo de etiqueta del adaptador de union LT. 105 denota el producto de la PCR de 104 con el cebador directo A hibridado y el cebador inverso interior 'b'. 106 denota el producto de la PCR que se ha amplificado de 105 utilizando el cebador directo A y el cebador inverso 'b', y el cual es el producto de la PCR final. Este metodo puede detectar secuencias diana mas cortas que la PCR estandar.
Puede haber mas variantes que son simplemente iteraciones o combinaciones de los metodos anteriores como PCR doblemente anidada, donde se utilizan tres conjuntos de cebadores. Otra variante es una mini-PCR unilateral anidada y media, donde la STA tambien se puede realizar con un conjunto multiplexado de cebadores directos anidados y un (o unos pocos) cebadores inversos espedficos etiquetados.
Cabe senalar que en todas estas variantes, la identidad del cebador directo y el cebador inverso se puede intercambiar. Cabe senalar que en algunas realizaciones, la variante anidada se puede tambien ejecutar sin la preparacion de la biblioteca inicial que comprende anexar las etiquetas del adaptador, y un paso de amplificacion universal. Cabe senalar que en algunas realizaciones, se pueden incluir rondas adicionales de PCR, con pasos de amplificacion y cebadores directos y/o inversos adicionales; estos pasos adicionales pueden ser especialmente utiles si es deseable aumentar todavfa mas el porcentaje de moleculas de ADN que corresponden a los loci focalizados.
Anidado de flujos de trabajo
Hay muchas maneras de realizar la amplificacion, con diferentes grados de anidado, y con diferentes grados de multiplexado. En la Figura 9, se muestra un diagrama de flujo con algunos de los flujos de trabajo posibles. Cabe senalar que el uso de PCR de 10.000-plex solo esta destinado a ser un ejemplo; estos diagramas de flujo funcionanan igualmente bien para otros grados de multiplexado.
Adaptadores de union de bucle
Al anadir adaptadores de etiquetado universal por ejemplo, con el fin de crear una biblioteca para la secuenciacion, hay varias maneras de unir los adaptadores. Una manera es finalizar abruptamente el ADN de muestra, realizando un factor de cola A, y unir con adaptadores que tienen una proyeccion T. Hay otros metodos de unir adaptadores. Hay tambien una serie de adaptadores que se pueden unir. Por ejemplo, se puede utilizar un adaptador Y en el que el adaptador se compone de dos hebras de ADN donde una hebra tiene una region con una doble hebra, y una region especificada por una region de un cebador directo, y donde la otra hebra especificada por una region con una doble hebra que es complementaria de la region con una doble hebra en la primera hebra, y una region con un cebador inverso. La region de doble cadena, cuando se recuece, puede contener una proyeccion T con el proposito de unirse al ADN de doble cadena con una proyeccion A.
En una realizacion, el adaptador puede ser un bucle de ADN donde las regiones terminales son complementarias, y donde la region del bucle contiene una region etiquetada del cebador directo (LFT), una region etiquetada del cebador inverso (LRT), y un punto de escision entre las dos (Vease la Figura 10). 101 se refiere al ADN diana de doble cadena, finalizado repentinamente. 102 se refiere al ADN diana con una cola A.
103 se refiere al adaptador de union de bucle con proyeccion T 'T' y el punto de escision 'Z'. 104 se refiere al ADN diana con adaptadores de union de bucle anexados. 105 se refiere al ADN diana con los adaptadores de union anexados escindidos en el punto de escision. LFT se refiere a la etiqueta directa del adaptador de union, y LRT se refiere a la etiqueta inversa del adaptador de union. La region complementaria puede terminar en una proyeccion T, u otra caractenstica que se pueda utilizar para la union al ADN diana. El punto de escision puede ser una serie de uracilos para escision por UNG, o una secuencia que se puede reconocer y escindir mediante una enzima de restriccion u otro metodo de escision o simplemente una amplificacion basica. Estos adaptadores se pueden utilizar para cualquier preparacion de biblioteca, por ejemplo, para la secuenciacion. Estos adaptadores se pueden utilizar en combinacion con
5
10
15
20
25
30
35
40
45
50
55
60
cualquiera de los otros metodos descritos en el presente documento, por ejemplo, los metodos de amplificacion por mini-PCR.
Cebadores etiquetados internamente
Cuando se utiliza la secuenciacion para determinar el alelo presente en un locus polimorfico determinado, la lectura de secuencia de forma tipica se inicia corriente arriba del punto de union (a) del cebador y, a continuacion, del punto polimorfico (X). Las etiquetas de forma tfpica se configuran como se muestra en la Figura ll, izquierda. 101 se refiere al ADN diana de una sola cadena con el locus polimorfico de interes 'X', y el cebador 'a' con la etiqueta 'b' anexada. Para evitar la hibridacion no espedfica, el punto de union del cebador (region de ADN diana complementaria a 'a') de forma tfpica tiene una longitud de 18 a 30 bp. La etiqueta de secuencia 'b' es, de forma tfpica, de unos 20 bp; en teona estos pueden tener cualquier longitud superior a 15 bp, aunque mucha gente utiliza las secuencias del cebador que comercializa la comparna de la plataforma de secuenciacion. La distancia 'd' entre 'a' y 'X' puede ser al menos 2 bp para evitar el sesgo alelico. Cuando se realiza la amplificacion por PCR multiplexada utilizando los metodos que se divulgan en el presente documento u otros metodos, donde es necesario un cuidadoso diseno de los cebadores para evitar la interaccion excesiva del cebador, la ventana de distancia permitida 'd' entre 'a' y 'X' puede variar un poco: de 2 bp a 10 bp, de 2 bp a 20 bp, de 2 bp a 30 bp, o incluso de 2 bp a mas de 30 bp. Por tanto, cuando se utiliza la configuracion de cebador que se muestra en la Figura 11, izquierda, las lecturas de secuencia deben tener un mmimo de 40 bp para obtener lecturas lo suficientemente largas para medir el locus polimorfico, y dependiendo de las longitudes de 'a' y 'd' las lecturas de secuencia pueden necesitar hasta 60 o 75 bp. Normalmente, cuanto mas largas sean las lecturas de secuencia, mayor sera el coste y el tiempo de secuenciar un numero de lecturas determinado, por tanto, minimizar la longitud de lectura necesaria puede ahorrar tiempo y dinero. Ademas, puesto que, por termino medio, las bases que se han lefdo al principio de la lectura se leen de un modo mas preciso que las que se leen mas tarde en la lectura, disminuir la longitud de lectura de secuencia necesaria puede tambien aumentar la precision de las mediciones de la region polimorfica.
En una realizacion, los cebadores etiquetados denominados internamente, el punto de union del cebador (a) se divide en una pluralidad de segmentos ((a', a”, a'”....), y la etiqueta de secuencia (b) esta en un segmento de ADN que esta en medio de dos de los puntos de union del cebador, como se muestra en la Figura 11, 103. Esta configuracion permite al secuenciador hacer lecturas de secuencia mas cortas. En una realizacion, a' + a” debena ser al menos de unos 18 bp, y puede ser tan largo como 30, 40, 50, 60, 80, 100 o mas de 100 bp. En una realizacion, a” debena ser al menos de unos 6 bp, y en una realizacion esta entre unos 8 y 16 bp. Siendo todos los demas factores iguales, el uso de los cebadores etiquetados internamente puede cortar la longitud de las lecturas de secuencia necesarias al menos 6 bp, tanto como 8 bp, 10 bp, 12 bp, 15 bp,
e incluso hasta 20 o 30 bp. Esto puede dar como resultado una ventaja significativa en cuanto a dinero, tiempo y precision. Un ejemplo de cebadores etiquetados internamente se muestra en la Figura 12.
Cebadores con region de union al adaptador de union
Un problema del ADN fragmentado es que, puesto que su longitud es corta, la posibilidad de que un polimorfismo este cerca del extremo de una hebra de ADN es mas alta que para una hebra larga (por ejemplo, 101, Figura 10). Puesto que la captura por PCR de un polimorfismo requiere un punto de union del cebador con una longitud adecuada en ambos lados del polimorfismo, se perderan un numero significativo de hebras de ADN con el polimorfismo focalizado debido a un solapamiento insuficiente entre el cebador y el punto de union focalizado. En una realizacion, el ADN diana 101 puede tener adaptadores de union anexados 102, y el cebador diana 103 puede tener una region (cr) que es complementaria de la etiqueta del adaptador de union (It) anexada corriente arriba de la region de union designada (a) (vease la Figura 13); por tanto, en los casos donde la region de union (region de 101 que es complementaria a a) es mas corta que los 18 bp que de forma tfpica son necesarios para la hibridacion, la region (cr) en el cebador que es complementaria a la etiqueta de biblioteca puede aumentar la energfa de union hasta un punto donde la PCR puede proseguir. Cabe senalar que cualquier especificidad que se pierda debido a una region de union mas corta se puede compensar con otros cebadores para PCR con regiones de union diana convenientemente largas. Cabe senalar que esta realizacion se puede utilizar en combinacion con la PCR directa, o cualquiera de los otros metodos descritos en el presente documento, como PCR anidada, semi PCR anidada, hemi PCR anidada, unilateral anidada o semi o hemi PCR anidada, u otros protocolos de PCR.
Cuando se utilizan los datos de secuenciacion para determinar ploidfa en combinacion con un metodo analttico que implica la comparacion de los datos de alelos observados con las distribuciones alelicas previstas para distintas hipotesis, cada lectura adicional de los alelos con una profundidad de lectura baja producira mas informacion que una lectura de un alelo con una profundidad de lectura alta. Por tanto, en el mejor de los casos, se deseana ver una profundidad de lectura (DOR) uniforme donde cada locus tenga un numero similar de lecturas de secuencia representativas. Por tanto, es deseable minimizar la varianza de DOR. En una realizacion, es posible disminuir el coeficiente de varianza de DOR (este se puede definir como la desviacion estandar de la DOR / la DOR media) aumentando los tiempos de reformacion termica. En algunas realizaciones las temperaturas de reformacion termica pueden durar mas de 2 minutos, mas de 4 minutos, mas de diez minutos, mas de 30 minutos, y mas de una hora, o incluso mas. Puesto que la reformacion termica es un proceso de equilibrio, no hay ningun lfmite para la mejora de varianza de DOR con el aumento de los tiempos de reformacion termica. En una realizacion, aumentar la concentracion del cebador puede disminuir la varianza de DOR.
5
10
15
20
25
30
35
40
45
50
55
60
Ejemplos de metodos de amplificacion de todo el genoma
En algunas realizaciones, un metodo de la presente divulgacion puede implicar amplificar ADN, como el uso de la aplicacion de todo el genoma para amplificar una muestra de acido nucleico antes de amplificar solo los loci diana. La amplificacion del ADN, un proceso que transforma una pequena cantidad de material genetico en una gran cantidad de material genetico que comprende un conjunto similar de datos geneticos, se puede realizar mediante una amplia variedad de metodos, incluyendo, aunque sin limitarse a ello, la reaccion en cadena de polimerasa (PCR). Un metodo de amplificar ADN es la amplificacion de todo el genoma (WGA). Hay una serie de metodos disponibles para WGA: PCR mediada por union (LM-PCR), PCR de cebador oligonucleotido degenerado (DOP-PCR), y amplificacion de desplazamiento multiple (MDA). En LM-PCR, las secuencias de ADN cortas denominadas adaptadores estan unidas a finales abruptos de ADN. Estos adaptadores contienen secuencias de amplificacion universal, que se utilizan para amplificar el ADN por PCR. En DOP-PCR, los cebadores aleatorios que tambien contienen secuencias de amplificacion universal se utilizan en una primera ronda de reformacion termica y PCR. A continuacion, se utiliza una segunda ronda de PCR para amplificar las secuencias todavfa mas con las secuencias del cebador universal. MDA utiliza la pi-29 polimerasa, que es una enzima altamente procesiva y no espedfica que replica ADN y que se ha utilizado para el analisis de celulas individuales. Las principales limitaciones a la amplificacion de material a partir de una sola celula son (1) la necesidad de utilizar concentraciones de ADN extremadamente diluidas o un volumen extremadamente pequeno de la mezcla de reaccion, y (2) la dificultad de disociar de un modo fiable el ADN de protemas en todo el genoma. No obstante, la amplificacion de todo el genoma de una sola celula se ha utilizado satisfactoriamente para una variedad de aplicaciones durante varios anos. Hay otros metodos de amplificar ADN de una muestra de ADN. La amplificacion de ADN transforma la muestra de ADN inicial en una muestra de ADN que es similar en el conjunto de secuencias, pero con una cantidad mucho mayor. En algunos casos, la amplificacion puede que no sea necesaria.
En algunas realizaciones, el ADN se puede amplificar utilizando una amplificacion universal, como WGA o MDA. En algunas realizaciones, el ADN se puede amplificar mediante amplificacion focalizada, por ejemplo, utilizando PCR focalizada, o sondas circularizantes. En algunas realizaciones, el ADN se puede enriquecer preferentemente utilizando un metodo de amplificacion focalizada, o un metodo que de como resultado la separacion total o parcial de ADN deseado del no deseado, como planteamientos de captura por hibridacion. En algunas realizaciones, el ADN se puede amplificar utilizando una combinacion de un metodo de amplificacion universal y un metodo de enriquecimiento preferencial. Una descripcion mas completa de algunos de estos metodos se puede encontrar en otra parte de este documento.
Ejemplos de metodos de enriquecimiento y secuenciacion
En una realizacion, un metodo descrito en el presente documento utiliza tecnicas de enriquecimiento selectivo que preservan las frecuencias alelicas relativas que estan presentes en la muestra original de ADN en cada loci diana (por ejemplo, cada locus polimorfico) de un conjunto de loci diana (por ejemplo, loci polimorficos).
Aunque el enriquecimiento es especialmente beneficioso para los metodos para analizar loci polimorficos, estos metodos de enriquecimiento se pueden adaptar rapidamente para loci no polimorficos si se desea. En algunas realizaciones, la tecnica de amplificacion y/o enriquecimiento selectivo puede implicar una PCR, como una PCR mediada por union, captura de un fragmento mediante hibridacion, sondas de inversion molecular u otras sondas de circularizacion. En algunas realizaciones, los metodos para la amplificacion o el enriquecimiento selectivo pueden implicar el uso de sondas, donde, tras la correcta hibridacion con la secuencia diana, el extremo 3' o el extremo 5' de una sonda de nucleotidos esta separado del sitio polimorfico del alelo por un pequeno numero de nucleotidos. Esta separacion reduce la amplificacion preferente de un alelo, lo que se denomina sesgo alelico. Esto supone una mejora respecto de los metodos que implican el uso de sondas en las que el extremo '3 y el extremo 5' de una sonda correctamente hibridada se encuentran directamente adyacentes o muy cerca del sitio polimorfico de un alelo. En una realizacion, las sondas en las que la region de hibridacion pueden contener o contienen un sitio polimorfico son excluidas. Los sitios polimorficos del sitio de hibridacion pueden causar una hibridacion desigual o inhibir directamente la hibridacion en algunos alelos, lo que resulta en una amplificacion preferente de determinados alelos. Estas realizaciones implican mejoras con respecto a otros metodos que conllevan una amplificacion focalizada y/o un enriquecimiento selectivo, en el sentido de que preservan mejor las frecuencias alelicas originales de la muestra en cada locus polimorfico, cuando la muestra es una muestra genomica pura de un unico individuo o una mezcla de individuos.
El uso de una tecnica para enriquecer una muestra de ADN en un conjunto de loci diana seguida de una secuenciacion como parte de un metodo para la determinacion de alelos prenatal no invasiva o determinacion de ploidfa puede conferir un numero de ventajas inesperadas. En algunas realizaciones de la presente divulgacion, el metodo implica la medicion de datos geneticos para su uso con un metodo basado en informatica, como PARENTAL SUPPORT™ (PS). El resultado final de algunas de las realizaciones son los datos geneticos factibles de un embrion o un feto. Hay muchos metodos que se pueden utilizar para medir los datos geneticos del individuo y/o los individuos relacionados como parte de los metodos incorporados. En una realizacion, se describe en el presente documento un metodo para enriquecer la concentracion de un conjunto de alelos focalizados, el metodo comprende uno o mas de los pasos siguientes: amplificacion focalizada de material genetico, adicion de sondas oligonucleotidas espedficas de los loci, union de hebras especificadas de ADN, aislamiento de conjuntos de ADN deseado, extraccion de componentes no deseados de una reaccion, deteccion de determinadas secuencias de ADN por hibridacion, y deteccion de la secuencia de una o de una pluralidad de hebras de ADN mediante metodos de secuenciacion de ADN. En algunos casos las hebras de ADN pueden referirse a material genetico diana, en algunos casos pueden referirse a cebadores, en algunos casos pueden
5
10
15
20
25
30
35
40
45
50
55
60
referirse a secuencias sintetizadas, o una combinacion de estas. Estos pasos se pueden llevar a cabo en una serie de ordenes diferentes.
Por ejemplo, un paso de amplificacion universal del ADN antes de la amplificacion focalizada puede conferir varias ventajas, como la eliminacion del riesgo de cuello de botella y la reduccion del sesgo alelico. El ADN se puede mezclar con una sonda oligonucleotida que se puede hibridar con dos regiones colindantes de la secuencia diana, una a cada lado. Despues de la hibridacion, los extremos de la sonda se pueden conectar anadiendo una polimerasa, un medio de union, y cualquier reactivo necesario para permitir la circularizacion de la sonda. Despues de la circularizacion, se puede anadir una exonucleasa para digerir el material genetico no circularizado, seguido de la deteccion de la sonda circularizada. El ADN se puede mezclar con cebadores para PCR que se pueden hibridar con dos regiones colindantes de la secuencia diana, una a cada lado. Despues de la hibridacion, los extremos de la sonda se pueden conectar anadiendo una polimerasa, un medio de union, y cualquier reactivo necesario para completar la amplificacion por PCR. El ADN amplificado y no amplificado se puede focalizar mediante sondas de captura fubridas que focalizan un conjunto de loci; despues de la hibridacion, la sonda se puede localizar y separar de la mezcla para proporcionar una mezcla de ADN que esta enriquecida en secuencias diana.
El uso de un metodo para focalizar determinados loci seguido de una secuenciacion como parte de un metodo para la determinacion de alelos o determinacion de ploidfa puede conferir un numero de ventajas inesperadas. Algunos metodos mediante los cuales se puede focalizar el ADN, o enriquecerse preferentemente, incluyen el uso de sondas circularizantes, sondas invertidas vinculadas (LIPs, MIPS), la captura por metodos de hibridacion como SURESELECT, y estrategias de amplificacion por PCR mediada por union o por PCR focalizada.
En algunas realizaciones, un metodo de la presente divulgacion implica la medicion de datos geneticos para su uso con un metodo basado en informatica, como PARENTAL SUPPORT™ (PS), que se describe mas adelante en el presente documento. PARENTAL SUPPORT™ es un planteamiento basado en informatica para manipular datos geneticos, aspectos del cual se describen en el presente documento. El resultado final de algunas de las realizaciones son los datos geneticos factibles de un embrion o un feto seguido de una decision clmica basada en los datos factibles. Los algoritmos tras el metodo PS toman los datos geneticos medidos del individuo diana, a menudo un embrion o feto, y los datos geneticos medidos de individuos relacionados, y son capaces de aumentar la precision con la que el estado genetico del individuo diana es conocido. En una realizacion, los datos geneticos medidos se utilizan en el contexto de realizar determinaciones de ploidfa durante la diagnosis genetica prenatal. En una realizacion, los datos geneticos medidos se utilizan en el contexto de realizar determinaciones de ploidfa o determinaciones de alelos en embriones durante la fertilizacion in vitro. Hay muchos metodos que se pueden utilizar para medir los datos geneticos del individuo y/o los individuos relacionados en los contextos mencionados anteriormente. Los diferentes metodos comprenden una serie de pasos, estos pasos a menudo implican la amplificacion de material genetico, la adicion de sondas oligonucleotidas, la union de hebras especificadas de ADN, el aislamiento de conjuntos de ADN deseado, la extraccion de componentes no deseados de una reaccion, la deteccion de determinadas secuencias de ADN por hibridacion, la deteccion de la secuencia de una o de una pluralidad de hebras de ADN mediante metodos de secuenciacion de ADN. En algunos casos las hebras de ADN pueden referirse a material genetico diana, en algunos casos pueden referirse a cebadores, en algunos casos pueden referirse a secuencias sintetizadas, o una combinacion de los mismos. Estos pasos se pueden llevar a cabo en una serie de ordenes diferentes.
Cabe senalar que en teona es posible focalizar cualquier numero de loci en el genoma, desde un loci hasta mas de un millon de loci. Si una muestra de ADN se somete a focalizacion y, a continuacion, se secuencia, el porcentaje de los alelos que son lefdos por el secuenciador se enriquecera con respecto a su abundancia natural en la muestra. El grado de enriquecimiento puede estar entre uno por ciento (o incluso menos) a multiplicarse por diez, multiplicarse por cien, multiplicarse por mil o incluso multiplicarse por muchos millones. En el genoma humano hay aproximadamente 3 mil millones de pares de bases, y nucleotidos, que comprenden aproximadamente 75 millones de loci polimorficos. Cuantos mas loci se focalizan, menor es el grado de enriquecimiento posible. Cuanto menor es el numero de loci que se focalizan, mayor es el grado de enriquecimiento posible, y mayor la profundidad de lectura que se puede conseguir en estos loci para un numero determinado de lecturas de secuencia.
En una realizacion de la presente divulgacion la focalizacion o preferencial puede centrarse completamente en SNP. En una realizacion, la focalizacion o preferencial puede centrarse en un punto polimorfico. Un numero de productos de focalizacion comercial estan disponibles para enriquecer exones. Sorprendentemente, focalizar exclusivamente SNPs, o exclusivamente loci polimorficos, es especialmente beneficioso cuando se utiliza un metodo para el NPD que se basa en distribuciones alelicas. Tambien hay publicados metodos para el NPD utilizando la secuenciacion, por ejemplo, la patente USA 7.888.017, implica un analisis de recuento de lecturas donde el recuento de lecturas se centra en contar el numero de lecturas que corresponden a un cromosoma determinado, donde las lecturas de secuencia analizadas no se centran en regiones del genoma que son polimorficas. Estos tipos de metodologfa que no se centran en alelos polimorficos no se beneficianan tanto de la focalizacion o enriquecimiento preferente de un conjunto de alelos.
En una realizacion de la presente divulgacion, es posible utilizar un metodo de focalizacion que se centra en las SNP para enriquecer una muestra genetica en regiones polimorficas del genoma. En una realizacion, es posible concentrarse en un pequeno numero de SNP, por ejemplo, entre 1 y 100 SNP, o un numero mayor, por ejemplo, entre 100 y 1.000, entre 1.000 y 10.000, entre 10.000 y 100.000 o mas de 100.000 SNP. En una realizacion, es posible concentrarse en un cromosoma o en un pequeno numero de los cromosomas que estan correlacionados con nacimientos trisomicos vivos, por ejemplo, los cromosomas 13, 18, 21, X y Y, o alguna combinacion de estos.
5
10
15
20
25
30
35
40
45
50
55
60
En una realizacion, es posible enriquecer los SNP focalizados por un factor pequeno, por ejemplo, entre multiplicarse por 1,01 y multiplicarse por 100, o por un factor mayor, por ejemplo, entre multiplicarse por 100 y multiplicarse por 1.000.000, o incluso multiplicarse por mas de 1.000.000. En una realizacion de la presente divulgacion, es posible utilizar un metodo de focalizacion para crear una muestra de ADN que esta preferentemente enriquecida en regiones polimorficas del genoma. En una realizacion, es posible utilizar este metodo para crear una mezcla de ADN con cualquiera de estas caractensticas donde la mezcla de ADN contiene ADN materno y tambien ADN fetal flotante libre. En una realizacion, es posible utilizar este metodo para crear una mezcla de ADN que tiene cualquier combinacion de estos factores. Por ejemplo, el metodo descrito en el presente documento se puede utilizar para producir una mezcla de ADN que comprende ADN materno y ADN fetal, y que esta preferentemente enriquecido con ADN que corresponde a 200 SNP, todos los cuales estan ubicados en el cromosoma 18 o 21, y los cuales estan enriquecidos una media multiplicada por 1000. En otro ejemplo, es posible utilizar el metodo para crear una mezcla de ADN que esta preferentemente enriquecida en 10.000 SNP que estan todos o la mayona ubicados en los cromosomas 13, 18, 21, X y Y, y el promedio de enriquecimiento por loci es mayor que multiplicado por 500. Cualquiera de los metodos de focalizacion descritos en el presente documento se puede utilizar para crear mezclas de aDn que estan enriquecidas preferentemente en determinados loci.
En algunas realizaciones, un metodo de la presente divulgacion incluye ademas la medicion del ADN en la fraccion mixta utilizando un secuenciador de ADN de alto rendimiento, donde el ADN en la fraccion mixta contiene un numero desproporcionado de secuencias de uno o mas cromosomas, donde uno o mas cromosomas se toman del grupo que comprende el cromosoma 13, el cromosoma 18, el cromosoma 21, el cromosoma X, el cromosoma Y y combinaciones de estos.
En este documento se describen tres metodos: PCR multiplexada, captura focalizada por hibridacion, y sondas invertidas vinculadas (LIPs), que se pueden utilizar para obtener y analizar mediciones de un numero suficiente de loci polimorficos a partir de una muestra de plasma materno para detectar aneuploidfa fetal; esto no pretende excluir otros metodos de enriquecimiento selectivo de loci focalizados. Se pueden utilizar tambien otros metodos sin cambiar la esencia del metodo. En cada caso, el polimorfismo al que se ha realizado el ensayo puede incluir polimorfismos de un solo nucleotido (SNPs), pequenas indels, o STRs. Un metodo preferido implica el uso de SNPs. Cada planteamiento produces datos de frecuencia aleica; los datos de frecuencia aleica para cada locus focalizado y/o las distribuciones de frecuencia alelica conjunta de estos loci se pueden analizar para determinar la ploidfa del feto. Cada planteamiento tiene sus propias consideraciones debido al material de origen limitado y al hecho de que el plasma materno se compone de una mezcla de ADN materno y fetal. Este metodo se puede combinar con otros planteamientos para proporcionar una determinacion mas precisa. En una realizacion, este metodo se puede combinar con un enfoque de recuento de secuencia como, por ejemplo, el que se describe en la patente USA 7.888.017. Los planteamientos descritos podnan tambien ser utilizados para detectar la paternidad fetal de un modo no invasivo a partir de muestras de plasma materno. Ademas, cada planteamiento se puede aplicar a otras mezclas de ADN o muestras de ADN puro para detectar la presencia o ausencia de cromosomas aneuploides, genotipificar una gran cantidad de SNP de muestras de ADN degradadas, detectar variaciones de numero de copias segmentarias (CNVs), detectar otros estados genotfpicos de interes, o alguna combinacion de estos.
Medicion precisa de las distribuciones alelicas en una muestra
Se pueden utilizar planteamientos de secuenciacion actuales para estimar la distribucion de alelos en una muestra. Uno de estos metodos implica secuencias de muestreo aleatorias de un conjunto de ADN, denominado secuenciacion por fuerza bruta o "shotgun". La proporcion de un alelo determinado en los datos de secuenciacion es de forma tfpica muy baja y se puede determinar por simple estadfstica. El genoma humano contiene aproximadamente 3 mil millones de pares de bases. De modo que, si el metodo de secuenciacion utilizado hace 100 bp lecturas, un alelo determinado se medira aproximadamente una vez cada 30 millones de lecturas de secuencia.
En una realizacion, un metodo de la presente divulgacion se utiliza para determinar la presencia o ausencia de dos o mas haplotipos diferentes que contienen el mismo conjunto de loci en una muestra de aDn de las distribuciones alelicas medidas de loci de ese cromosoma. Los diferentes haplotipos podnan representar dos cromosomas homologos diferentes de un individuo, tres cromosomas homologos diferentes de un individuo trisomico, tres haplotipos homologos diferentes de una madre y un feto, donde uno de los haplotipos es compartido entre la madre y el feto, tres o cuatro haplotipos de una madre y un feto, donde uno o dos de los haplotipos son compartidos entre la madre y el feto, u otras combinaciones. Los alelos que son polimorficos entre los haplotipos tienden a ser mas informativos; sin embargo, cualquier alelo en el que la madre y el padre no sean ambos homocigotos para el mismo alelo producira informacion util a traves de las distribuciones de alelos medidas, ademas de la informacion disponible de un simple analisis del recuento de las lecturas.
Sin embargo, la secuenciacion por fuerza bruta de esta muestra resulta extremadamente ineficiente, dado que resulta en multiples secuencias para regiones que no son polimorficas entre los diferentes haplotipos de la muestra, o corresponden a cromosomas que no son de interes, y por tanto no revelan ninguna informacion acerca de la proporcion de los haplotipos diana. En el presente documento se describen metodos que se dirigen de forma espedfica y/o enriquecen preferentemente segmentos de ADN de la muestra que es mas probable que sean polimorficos en el genoma, para aumentar la produccion de informacion alelica obtenida a traves de la secuenciacion. Cabe senalar que para que las distribuciones alelicas medidas en una muestra enriquecida sean realmente representativas de las cantidades reales presentes en el individuo diana, resulta fundamental que el enriquecimiento preferente de un alelo en
5
10
15
20
25
30
35
40
45
50
55
60
comparacion con otro alelo de un loci determinado de los segmentos focalizados sea escaso o nulo. Los metodos actuales conocidos en la tecnica para focalizar alelos polimorficos estan disenados para garantizar que se detecten al menos algunos de los alelos presentes. Sin embargo, estos metodos no han sido disenados con el fin de medir distribuciones alelicas no sesgadas de los alelos polimorficos presentes en la mezcla original. No esta claro que ningun metodo concreto de enriquecimiento de la diana sea capaz de producir una muestra enriquecida en la que las distribuciones alelicas medidas representen de forma precisa las distribuciones alelicas presentes en la muestra original no amplificada mejor que cualquier otro metodo. Aunque cabe esperar multiples metodos de enriquecimiento, en teona, para lograr este objetivo, un experto en la tecnica sabra que existe un importante sesgo estocastico y determimstico en la amplificacion, la focalizacion y otros metodos de enriquecimiento preferente actuales. Una realizacion de un metodo descrito en el presente documento permite una pluralidad de alelos que se encuentran en una mezcla de ADN que corresponde a un locus determinado en el genoma para que se amplifique, o se enriquezca preferentemente de una manera que el grado de enriquecimiento de cada uno de los alelos es casi el mismo. Otra manera de decirlo es que el metodo permite aumentar la cantidad relativa de los alelos presente en la mezcla en conjunto, mientras que el ratio entre los alelos que corresponden a cada locus se mantiene basicamente igual que cuando estaban en la mezcla original de ADN. Para algunos metodos documentados, el enriquecimiento preferente de loci puede dar como resultado sesgos alelicos de mas del 1%, mas del 2%, mas del 5% e incluso mas del 10%. El enriquecimiento preferente se puede deber a un sesgo de captura cuando se utiliza un planteamiento de captura por hibridacion, o a un sesgo de amplificacion que puede ser pequeno para cada ciclo, pero puede ser grande cuando se acumula durante 20, 30 o 40 ciclos. A efectos de la presente divulgacion, para que el ratio se mantenga basicamente sin cambios es necesario que el ratio de los alelos de la mezcla original dividido por el ratio de los alelos de la mezcla resultante se situe entre 0,95 y 1,05, entre 0,98 y 1,02, entre 0,99 y 1,01, entre 0,995 y 1,005, entre 0,998 y 1,002, entre 0,999 y 1,001, o entre 0,9999 y 1,0001. Cabe senalar que el calculo de los ratios de alelos presentado en el presente documento no se puede utilizar en la determinacion del estado de ploidfa del individuo diana y que es solo una metrica utilizada para medir el sesgo alelico.
En una realizacion, una vez que una mezcla se ha enriquecido preferentemente en el conjunto de loci diana, se puede secuenciar utilizando cualquiera de los instrumentos de secuenciacion anteriores, actuales o de nueva generacion que secuencian una muestra clonica (una muestra generada a partir de una unica molecula; algunos ejemplos incluyen ILLUMINA GAIIx, ILLUMINA HiSeq, LIFE TECHNOLOGIES SOLiD, 5500XL). Los ratios se pueden evaluar mediante secuenciacion a traves de los alelos espedficos de la region diana. Las lecturas de esta secuenciacion se pueden analizar y recontar en funcion del tipo de alelo y de los ratios de los diferentes alelos determinados en consecuencia. Para las variaciones que tienen entre una y unas cuantas bases de longitud, la deteccion de los alelos se realizara mediante secuenciacion y es fundamental que la lectura de la secuenciacion abarque el alelo en cuestion para evaluar la composicion alelica de esa molecula capturada. El numero total de moleculas capturadas sometidas a ensayo para el genotipo se puede aumentar incrementando la longitud de la lectura de secuenciacion. La secuenciacion completa de todas las moleculas garantizana la recopilacion de la cantidad maxima de datos disponibles en el conjunto enriquecido. Sin embargo, actualmente la secuenciacion resulta cara y un metodo que puede medir distribuciones alelicas utilizando un numero menor de lecturas de secuencia tendra un gran valor. Ademas, existen limitaciones tecnicas para la longitud maxima posible de lectura, asf como limitaciones de precision a medida que aumentan las longitudes de la lectura. Los alelos de maxima tendran entre una y unas pocas bases de longitud, aunque teoricamente se puede utilizar cualquier alelo mas corto que la longitud de la lectura de secuenciacion. A pesar de que las variaciones alelicas se presentan en todos los tipos, los ejemplos proporcionados en el presente documento se centran en los SNP o en las variantes que se encuentran a tan solo algunos pares de bases de distancia. Las variantes mas largas como las variantes del numero de copias segmentarias se pueden detectar mediante la adicion de estas variaciones mas pequenas en muchos casos, dado que las recopilaciones completas del SNP interno del segmento estan duplicadas. Las variantes mas largas que unas cuantas bases, como las STR, requieren una consideracion especial y algunos planteamientos de focalizacion funcionan y otros no.
Existen multiples planteamientos de focalizacion que se pueden utilizar para aislar de forma espedfica y enriquecer uno o una pluralidad de posiciones variables en el genoma. Tfpicamente, estas se basan en aprovechar la secuencia invariable que flanquea a la secuencia variable. Hay informes de otros relacionados con la focalizacion en el contexto de la secuenciacion donde el sustrato es plasma materno (vease, por ejemplo, Liao et al., Clin. Chem. 2011; 57(1): pp. 92101). Sin embargo, estos planteamientos utilizan sondas de focalizacion dirigidas a exones y no se centran en focalizar regiones polimorficas del genoma. En una realizacion, un metodo de la presente divulgacion implica el uso de sondas de focalizacion que se centran de forma exclusiva o de forma casi exclusiva en regiones polimorficas. En una realizacion, un metodo de la presente divulgacion implica el uso de sondas de focalizacion que se centran de forma exclusiva o de forma casi exclusiva en los SNP. En algunas realizaciones de la presente divulgacion, los puntos polimorficos focalizados se componen de al menos un 10% de SNP, al menos un 20% de SNP, al menos un 30% de SNP, al menos un 40% de SNP, al menos un 50% de SNP, al menos un 60% de SNP, al menos un 70% de SNP, al menos un 80% de SNP, al menos un 90% de SNP, al menos un 95% de SNP, al menos un 98% de SNP, al menos un 99% de SNP, al menos un 99,9% de SNP, o exclusivamente SNP.
En una realizacion, se puede utilizar un metodo de la presente divulgacion para determinar genotipos (composicion de bases del ADN en un loci espedfico) y las proporciones relativas de estos genotipos a partir de una mezcla de moleculas de ADN, donde dichas moleculas de ADN pueden haberse originado a partir de uno o de varios individuos geneticamente distintos. En una realizacion, se puede utilizar un metodo de la presente divulgacion para determinar los genotipos de un conjunto de loci polimorficos y los ratios relativos de la cantidad de alelos diferentes presentes en esos loci. En una realizacion, los loci polimorficos pueden estar compuestos completamente por SNP. En una realizacion, los
5
10
15
20
25
30
35
40
45
50
55
60
loci polimorficos pueden comprender SNP, repeticiones en tandem simples y otros polimorfismos. En una realizacion, se puede utilizar un metodo de la presente divulgacion para determinar las distribuciones relativas de alelos en un conjunto de loci polimorficos en una mezcla de ADN, donde la mezcla de ADN comprende ADN procedente de la madre y ADN procedente del feto. En una realizacion, las distribuciones alelicas conjuntas se pueden determinar en una muestra de ADN aislado de sangre de una mujer embarazada. En una realizacion, las distribuciones alelicas en un conjunto de loci se pueden utilizar para determinar el estado de ploidfa de uno o mas cromosomas de un feto en gestacion.
En una realizacion, la mezcla de moleculas de ADN se podna obtener de ADN extrafdo de multiples celulas de un individuo. En una realizacion, la recopilacion original de celulas de las que se obtiene el ADN puede comprender una mezcla de celulas diploides o haploides del mismo o de diferentes genotipos, si ese individuo presenta mosaicismo (germinal o somatico). En una realizacion, la mezcla de moleculas de ADN tambien se podna obtener de ADN extrafdo de celulas unicas. En una realizacion, la mezcla de moleculas de ADN tambien se podna obtener de ADN extrafdo de una mezcla de dos o mas celulas del mismo individuo o de diferentes individuos. En una realizacion, la mezcla de moleculas de ADN se podna obtener de ADN aislado de material biologico que ya ha sido liberado por celulas como el plasma sangumeo, que se sabe que contienen ADN libre de celulas. En una realizacion, este material biologico puede ser una mezcla de ADN de uno o mas individuos, como sucede durante el embarazo, donde se ha demostrado que el ADN fetal esta presente en la mezcla. En una realizacion, el material biologico podna proceder de una mezcla de celulas que se encuentran en la sangre materna, donde algunas de las celulas son de origen fetal. En una realizacion, el material biologico podnan ser celulas de la sangre de una embarazada que han sido enriquecidas en celulas fetales.
Sondas circularizantes
Algunas realizaciones de la presente divulgacion implican el uso de "sondas invertidas enlazadas" (LIP), que han sido anteriormente descritas en la bibliograffa, para amplificar los loci diana antes o despues de la amplificacion utilizando cebadores que no son LIP en los metodos de PCR multiplexada de la invencion. LIP es un termino generico que pretende abarcar tecnologfas que implican la creacion de una molecula circular de ADN, donde las sondas estan disenadas para hibridarse con una region focalizada de ADN a uno de los lados de un alelo focalizado, de forma que la adicion de las polimerasas y/o ligasas adecuadas, y las condiciones, tampones y otros reactivos adecuados, completara la region invertida complementaria del ADN del alelo focalizado para crear un bucle circular de ADN que captura la informacion que se encuentra en el alelo focalizado. Las LIP tambien se pueden denominar sondas precircularizadas, sondas de precircularizacion o sondas de circularizacion. Las LIP pueden ser una molecula de ADN lineal de entre 50 y 500 nucleotidos de longitud, y en una realizacion de entre 70 y 100 nucleotidos de longitud; en algunas realizaciones, puede ser mas larga o mas corta de lo que se describe en el presente documento. Otras realizaciones de la presente divulgacion implican diferentes encarnaciones de la tecnologfa de las LIP, tales como sondas candado y sondas de inversion molecular (MIP).
Un metodo para focalizar ubicaciones espedficas para la secuenciacion consiste en sintetizar sondas en las que los extremos 3' y 5' de las sondas se reforman termicamente con ADN diana en ubicaciones adyacentes a cualquiera de los lados de la region focalizada, de manera invertida, de forma que la adicion de ADN polimerasa y ADN ligasa resulta en la extension desde el extremo 3', anadiendo bases a la sonda de cadena unica que son complementarias de la molecula diana (relleno de huecos), seguida de la union del nuevo extremo 3' al extremo 5' de la sonda original, lo que resulta en una molecula de ADN circular que posteriormente se puede aislar del ADN de fondo. Los extremos de la sonda estan disenados para flanquear la region de interes focalizada. Un aspecto de este planteamiento se denomina habitualmente MIPS y se ha utilizado conjuntamente con tecnologfas de array para determinar la naturaleza de la secuencia rellenada. Una desventaja del uso de MIP en el contexto de la medicion de los ratios de alelos es que los pasos de hibridacion, circularizacion y amplificacion no se producen a los mismos ratios para los diferentes alelos de los mismos loci. Esto da como resultado unos ratios de alelos medidos que no son representativos de los ratios de alelos reales presentes en la mezcla original.
En una realizacion, las sondas circularizantes se construyen de tal modo que la region de la sonda que esta disenada para que se hibride corriente arriba del locus polimorfico focalizado y la region de la sonda que esta disenada para que se hibride corriente abajo del locus polimorfico focalizado estan conectadas covalentemente a traves de la estructura central de acido no nucleico. Esta estructura central puede ser cualquier molecula biocompatible o combinacion de moleculas biocompatibles. Algunos ejemplos de posibles moleculas biocompatibles son poli (etilen glicol), policarbonatos, poliuretanos, polietilenos, polipropilenos, polfmeros sulfonados, silicona, celulosa, fluoropolfmeros, compuestos acnlicos, copolfmeros de bloque estirenicos y otros copolfmeros de bloque.
En una realizacion de la presente divulgacion, este planteamiento ha sido modificado para que se pueda utilizar facilmente para la secuenciacion como medio de cuestionar la secuencia rellenada. Con el fin de conservar las proporciones alelicas originales de la muestra original, se debe tener en cuenta al menos una consideracion clave. Las posiciones variables entre diferentes alelos en la region de relleno de huecos no deben estar demasiado cerca de los puntos de union de la sonda, dado que puede darse un sesgo de iniciacion del ADN polimerasa que de como resultado un diferencial de las variantes. Otra consideracion es que puede haber otras variantes presentes en los puntos de union de la sonda que estan correlacionadas con las variantes de la region de relleno de huecos, lo que puede producir una amplificacion desigual de los diferentes alelos. En una realizacion de la presente divulgacion, los extremos 3' y los extremos 5' de la sonda precircularizada estan disenados para hibridarse a bases que se encuentran a una o unas cuantas posiciones de distancia de las posiciones variables (puntos polimorficos) del alelo focalizado. El numero de bases entre el punto polimorfico (SNP u otro) y la base a cuyo extremo 3' o 5' se hibridara la sonda precircularizada
5
10
15
20
25
30
35
40
45
50
55
60
puede ser de una base, puede ser de dos bases, puede ser de tres bases, puede ser de cuatro bases, puede ser de cinco bases, puede ser de seis bases, puede ser de siete a diez bases, puede ser de once a quince bases, o puede ser de dieciseis a veinte bases, de veinte a treinta bases, o de treinta a sesenta bases. Los cebadores directos e inversos pueden estar disenados para hibridarse a un numero de bases de distancia del punto polimorfico Las sondas circularizantes se pueden generar en grandes cantidades con la tecnologfa de smtesis del ADN actual lo que permite que se generen una gran cantidad de sondas y se agrupen potencialmente, lo que permite la interrogacion de muchos loci simultaneamente. Se ha documentado que funciona con mas de 300.000 sondas. Dos documentos que exponen un metodo que implica sondas de circularizacion que se pueden utilizar para medir los datos genomicos del individuo diana incluyen: Porreca et al., Nature Methods, 2007 4(11), pp. 931-936.; y tambien Turner et al., Nature Methods, 2009, 6(5), pp. 315-316. Los metodos descritos en estos documentos se pueden utilizar en combinacion con otros metodos descritos en el presente documento. Determinados pasos del metodo de estos dos documentos se pueden utilizar en combinacion con otros pasos de otros metodos que se describen en el presente documento. En algunas realizaciones de los metodos divulgados en el presente documento, el material genetico del individuo diana es opcionalmente amplificado, seguido de una hibridacion de las sondas precircularizadas, realizando un relleno de huecos para rellenar las bases entre los dos extremos de las sondas hibridadas, uniendo los dos extremos para formar una sonda circularizada, y amplificando la sonda circularizada, por ejemplo, mediante amplificacion por drculo rodante. Una vez que se ha capturado la informacion genetica de los alelos diana deseados mediante la circularizacion de las sondas de oligonucleotidos convenientemente disenadas, como en el sistema LIP, la secuencia genetica de las sondas circularizadas puede ser medida para obtener los datos de la secuencia deseados. En una realizacion, las sondas de oligonucleotidos convenientemente disenadas pueden ser circularizadas directamente en el material genetico no amplificado del individuo diana y amplificarse posteriormente. Cabe senalar que se pueden utilizar diversos procedimientos de amplificacion para amplificar el material genetico original, o las LIP circularizadas, incluyendo la amplificacion por drculo rodante, la MDA u otros protocolos de amplificacion. Se pueden utilizar diferentes metodos para medir la informacion genetica del genoma diana, por ejemplo, utilizando una secuenciacion de alto rendimiento, secuenciacion de Sanger, otros metodos de secuenciacion, captura por hibridacion, captura por circularizacion, PCR multiplexada, otros metodos de hibridacion y combinaciones de estos.
Una vez que el material genetico del individuo se ha medido utilizando uno de los metodos anteriores o una combinacion de estos, se puede utilizar un metodo informatico, como el metodo PARENTAL SUPPORT™, junto con las mediciones geneticas correspondientes, para la determinacion del estado de ploidfa de uno o mas cromosomas del individuo, y/o el estado genetico de uno o un conjunto de alelos, concretamente de aquellos alelos que estan correlacionados con una enfermedad o estado genetico de interes. Cabe senalar que el uso de LIP ha sido documentado para la captura multiplexada de secuencias geneticas, seguida de la determinacion del genotipo mediante secuenciacion. Sin embargo, los datos de secuenciacion resultantes de una estrategia basada en LIP para la amplificacion del material genetico que se encuentra en una unica celula, una pequena cantidad de celulas o ADN extracelular, no han sido utilizados al objeto de determinar el estado de ploidfa de un individuo diana.
La aplicacion de un metodo basado en la informatica para determinar el estado de ploidfa de un individuo a partir de los datos geneticos medidos mediante arrays de hibridacion, como el array ILLUMlNA INFINIUM o el chip genetico AFFYMETRIX, ha sido descrita en documentos a los que se hace referencia en otros apartados del presente documento. Sin embargo, el metodo descrito en el presente documento muestra mejoras respecto de los metodos anteriormente descritos en la bibliograffa. Por ejemplo, el planteamiento basado en LIP seguido de una secuenciacion de alto rendimiento proporciona sorprendentemente unos mejores datos genotfpicos debido a que el planteamiento tiene una mayor capacidad de multiplexado, una mejor especificidad de captura, una mejor uniformidad y un menor sesgo alelico. La mayor capacidad de multiplexado permite focalizar un mayor numero de alelos, dando unos resultados mas precisos.
La mejora de la uniformidad permite la medicion de un mayor numero de los alelos focalizados, dando unos resultados mas precisos. Los bajos indices de sesgo alelico permiten unas tasas mas reducidas de errores en la determinacion, dando unos resultados mas precisos. Unos resultados mas precisos suponen una mejora de los resultados clmicos y una mejor atencion medica.
Es importante senalar que las LIP se pueden utilizar como metodo para focalizar loci espedficos en una muestra de ADN para la determinacion del genotipo a traves de metodos distintos de la secuenciacion. Por ejemplo, se pueden utilizar LIP con el ADN diana para determinar el genotipo utilizando arrays de SNP u otros microarrays basados en ADN o ARN.
PCR mediada por union
La PCR mediada por union se puede utilizar para amplificar los loci diana antes o despues de la amplificacion por PCR utilizando cebadores que no estan unidos. La PCR mediada por union es un metodo de PCR utilizado para enriquecer preferentemente una muestra de ADN amplificando uno o una pluralidad de loci en una mezcla de ADN, donde el metodo consiste en lo siguiente: obtener un conjunto de pares de cebadores, donde cada cebador del par contiene una secuencia espedfica diana y una secuencia no diana, donde la secuencia espedfica diana esta preferiblemente disenada para hibridarse con una region diana, una corriente arriba y una corriente abajo del punto polimorfico, y que puede estar separada del punto polimorfico por 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11-20, 21-30, 31-40, 41-50, 51-100, o mas de 100; la polimerizacion del aDn desde el extremo 3' del cebador corriente arriba para rellenar la region de cadena simple entre este y el extremo 5' de cebado del cebador corriente abajo con nucleotidos complementarios de la molecula
5
10
15
20
25
30
35
40
45
50
55
60
diana; la union de la ultima base polimerizada del cebador corriente arriba a la base del extremo 5' de cebado adyacente del cebador corriente abajo; y amplificacion solo de las moleculas polimerizadas y unidas utilizando las secuencias no diana contenidas en el extremo 5' de cebado del cebador corriente arriba y el extremo 3' de cebado del cebador corriente abajo. Los pares de cebadores para las distintas dianas pueden estar mezclados en la misma reaccion. Las secuencias no diana sirven como secuencias universales de forma que todos los pares de cebadores que han sido polimerizados y unidos con exito se pueden amplificar con un unico par de cebadores de amplificacion.
Captura mediante hibridacion
En algunas realizaciones, un metodo de la presente divulgacion puede implicar utilizar cualquiera de los siguientes metodos de captura mediante hibridacion ademas de utilizar PCR multiplexada para amplificar los loci diana. El enriquecimiento preferente de un conjunto espedfico de secuencias en un genoma diana se puede realizar de multiples maneras. En otro apartado de este documento se recoge una descripcion de como se pueden utilizar las LIP para focalizar un conjunto espedfico de secuencias, pero en todas esas aplicaciones se pueden utilizar otros metodos de focalizacion y/o enriquecimiento preferente igualmente bien para los mismos fines. Un ejemplo de otro metodo de focalizacion es la captura mediante un planteamiento de hibridacion. Algunos ejemplos de tecnologfas de captura mediante hibridacion disponibles en el mercado incluyen AGILENT's SURE SELECT y TruSeq de ILLUMINA. En la captura mediante hibridacion, se permite que se hibride un conjunto de oligonucleotidos que es complementario o en gran medida complementario de las secuencias focalizadas deseadas con una mezcla de ADN y, a continuacion, se separa ffsicamente de la muestra. Una vez que las secuencias deseadas se han hibridado con los oligonucleotidos de focalizacion, el efecto de separar ffsicamente los oligonucleotidos de focalizacion incluye tambien la eliminacion de las secuencias focalizadas Una vez que se han retirado los oligonucleotidos hibridados, pueden ser calentados por encima de su temperatura de fusion y amplificados. Algunas maneras de eliminar ffsicamente los oligonucleotidos de focalizacion consisten en enlazar covalentemente los oligonucleotidos de focalizacion con un soporte solido, por ejemplo, una perla magnetica o un chip. Otra forma de eliminar ffsicamente los oligonucleotidos de focalizacion consiste en enlazarlos covalentemente con una fraccion molecular con una fuerte afinidad por otra fraccion molecular. Un ejemplo de este par de moleculas es biotina y estreptavidina, como el que se utiliza en SURE SELECT. De esta forma, las secuencias focalizadas se podffan unir covalentemente a una molecula de biotina y, despues de la hibridacion, utilizar un soporte solido con estreptavidina para hacer bajar los oligonucleotidos biotinilados, a los que se hibridan las secuencias focalizadas.
La captura hffbrida implica la hibridacion de sondas que son complementarias de las dianas de interes de las moleculas diana. Las sondas de captura tffbrida fueron originalmente desarrolladas para focalizar y enriquecer fracciones grandes del genoma con una uniformidad relativa entre dianas. En esa aplicacion, era importante que todas las dianas se amplificasen con una uniformidad suficiente para que todas las regiones se pudiesen detectar mediante secuenciacion, aunque no se presto atencion a conservar la proporcion de alelos de la muestra original. Tras la captura, los alelos presentes en la muestra se pueden determinar mediante secuenciacion directa de las moleculas capturadas. Estas lecturas de secuenciacion se pueden analizar y recontar en funcion del tipo de alelos. Sin embargo, utilizando la tecnologfa actual, las distribuciones alelicas medidas de las secuencias capturadas ffpicamente no son representativas de las distribuciones alelicas originales.
En una realizacion, la deteccion de los alelos se realiza mediante secuenciacion. A fin de capturar la identidad alelica del punto polimorfico, es esencial que la lectura de secuenciacion abarque el alelo en cuestion para evaluar la composicion alelica de esa molecula capturada. Dado que las moleculas capturadas suelen tener una longitud variable tras la secuenciacion no se puede garantizar que solapen las posiciones variables a menos que se secuencie la molecula entera. Sin embargo, las consideraciones de costes y las limitaciones tecnicas asociadas a la maxima longitud posible y a la precision de las lecturas de secuenciacion hacen que la secuenciacion de la molecula entera resulte inviable. En una realizacion, la longitud de la lectura se puede aumentar desde unas 30 hasta unas 50 o unas 70 bases y puede aumentar en gran medida el numero de lecturas que solapan las posiciones variables dentro de las secuencias focalizadas.
Otra forma de aumentar el numero de lecturas que cuestionan la posicion de interes consiste en disminuir la longitud de la sonda, de forma que no resulte en un sesgo en los alelos enriquecidos subyacentes. La longitud de la sonda sintetizada debeffa ser lo suficientemente larga para que dos sondas disenadas para que se hibriden a dos alelos diferentes hallados en un locus se hibriden con casi igual afinidad a los diversos alelos en la muestra original. En la actualidad, los metodos conocidos en la tecnica describen sondas que tienen ffpicamente mas de 120 bases de largo. En una realizacion actual, si el alelo tiene entre una y unas pocas bases entonces las sondas de captura pueden tener menos de unas 110 bases, menos de unas 100 bases, menos de unas 90 bases, menos de unas 80 bases, menos de unas 70 bases, menos de unas 60 bases, menos de unas 50 bases, menos de unas 40 bases, menos de unas 30 bases y menos de unas 25 bases, y esto es suficiente para garantizar un enriquecimiento homogeneo de todos los alelos. Cuando la mezcla de ADN que se va a enriquecer utilizando la tecnologfa de captura tffbrida es una mezcla que comprende ADN flotante libre aislado de una muestra de sangre, por ejemplo, de sangre materna, la longitud media del ADN es bastante corta, ffpicamente menos de 200 bases. El uso de sondas mas cortas resulta en una mayor probabilidad de que las sondas de captura hffbrida capturen los fragmentos de ADN deseados. Las variaciones mas largas pueden requerir sondas mas largas. En una realizacion, las variaciones de interes tienen entre una (un SNP) y unas pocas bases de longitud. En una realizacion, las regiones focalizadas del genoma se pueden enriquecer preferentemente utilizando sondas de captura hffbrida donde las sondas de captura hffbrida tienen una longitud inferior a 90 bases y pueden tener menos de 80 bases, menos de 70 bases, menos de 60 bases, menos de 50 bases, menos de
5
10
15
20
25
30
35
40
45
50
55
60
40 bases, menos de 30 bases o menos de 25 bases. En una realizacion, para aumentar la probabilidad de que el alelo deseado sea secuenciado, la longitud de la sonda disenada para hibridarse con las regiones que flanquean la ubicacion del alelo polimorfico se puede disminuir desde mas de 90 bases hasta unas 80 bases, o hasta unas 70 bases, o hasta unas 60 bases, o hasta unas 50 bases, o hasta unas 40 bases, o hasta unas 30 bases o hasta unas 25 bases.
Existe un solapamiento mmimo entre la sonda sintetizada y la molecula diana para permitir la captura. Esta sonda sintetizada se puede hacer tan corta como sea posible, mientras siga siendo mas larga que este solapamiento mmimo requerido. El efecto de utilizar una longitud de sonda mas corta para focalizar una region polimorfica es que habra mas moleculas que solapen la region alelica diana. El estado de fragmentacion de las moleculas de ADN originales tambien afecta al numero de lecturas que solaparan los alelos focalizados. Algunas muestras de ADN, como muestras de plasma, ya estan fragmentadas debido a procesos biologicos que se producen in vivo. Sin embargo, las muestras con fragmentos mas largos pueden beneficiarse de una fragmentacion previa a la secuenciacion de la preparacion y el enriquecimiento de la biblioteca. Cuando tanto las sondas como los fragmentos son cortos (unas 60-80 pares de bases), se puede conseguir una especificidad maxima, dado que un numero relativamente pequeno de lecturas de secuencia no solapan la region cntica de interes.
En una realizacion, las condiciones de hibridacion se pueden ajustar para maximizar la uniformidad en la captura de diferentes alelos presentes en la muestra original. En una realizacion, las temperaturas de hibridacion se reducen para minimizar las diferencias en el sesgo de hibridacion entre alelos. Los metodos conocidos en la tecnica evitan utilizar temperaturas inferiores para la hibridacion, porque la bajada de la temperatura tiene el efecto de aumentar la hibridacion de las sondas con dianas no deseadas. Sin embargo, cuando el objetivo consiste en preservar los ratios de alelos con la maxima fidelidad, el planteamiento de utilizar bajas temperaturas de hibridacion proporciona unos ratios de alelos optimamente precisos, a pesar del hecho de que la tecnica actual no recomienda este planteamiento. La temperatura de hibridacion tambien se puede aumentar para exigir un mayor solapamiento entre la diana y la sonda sintetizada, de forma que solo se capturan las dianas con un solapamiento sustancial de la region focalizada. En algunas realizaciones de la presente divulgacion, la temperatura de hibridacion se reduce desde la temperatura de hibridacion normal hasta unos 40°C, hasta unos 45°C, hasta unos 50°C, hasta unos 55°C, hasta unas 60°C, hasta unos 65°C o hasta unos 70°C.
En una realizacion, las sondas de captura hnbrida pueden estar disenadas de forma que la region de la sonda de captura con el ADN que sea complementario al ADN que se encuentra en las regiones que flanquean el alelo polimorfico no se encuentra inmediatamente adyacente al punto polimorfico. En vez de esto, la sonda de captura puede estar disenada de forma que la region de la sonda de captura que esta disenada para hibridarse con el ADN que flanquea el punto polimorfico de la diana esta separado de la parte de la sonda de captura que se pondra en contacto conforme a las fuerzas de van der Waals con el punto polimorfico por una pequena distancia que tiene una longitud equivalente a una o un pequeno numero de bases. En una realizacion, la sonda de captura tnbrida esta disenada para hibridarse con una region que flanquea el alelo polimorfico pero no lo cruza; esto se puede denominar sonda de captura de flanqueo. La longitud de la sonda de captura de flanqueo es posible que tenga menos de unas 120 bases, menos de unas 110 bases, menos de unas 100 bases, menos de unas 90 bases, y puede tener menos de unas 80 bases, menos de unas 70 bases, menos de unas 60 bases, menos de unas 50 bases, menos de unas 40 bases, menos de unas 30 bases o menos de unas 25 bases. La region del genoma que la sonda de captura de flanqueo focaliza se puede separar mediante el locus polimorfico por 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11-20, o mas de 20 pares de bases.
Descripcion de una prueba de deteccion de una enfermedad basada en la captura focalizada utilizando una captura de secuencia focalizada. Captura de secuencia focalizada personalizada, como las que ofrecen actualmente AGILENT (SURE SELECT), ROCHE-NIMBLEGEN, o ILLUMInA. Las sondas de captura podnan disenarse de forma personalizada para garantizar la captura de diversos tipos de mutaciones. Para las mutaciones puntuales, una o mas sondas que solapan la mutacion puntual debenan ser suficientes para capturar y secuenciar la mutacion.
Para las pequenas inserciones o deleciones, una o mas sondas que solapan la mutacion pueden ser suficientes para capturar y secuenciar los fragmentos que comprenden la mutacion. La hibridacion puede ser menos eficaz por lo que respecta a la eficacia de captura con limitacion de sonda, tfpicamente disenada para la secuencia del genoma de referencia. Para garantizar la captura de fragmentos que comprenden la mutacion, se podnan disenar dos sondas, una correspondientes al alelo normal y otra correspondiente al alelo mutante. Una sonda mas larga puede mejorar la hibridacion. Multiples sondas con solapamiento pueden mejorar la captura. Por ultimo, la colocacion de una sonda inmediatamente adyacente a la mutacion, pero sin solapamiento, puede permitir una eficacia de captura relativamente similar de los alelos normales y mutantes.
En el caso de las repeticiones en tandem simples (STR), es poco probable que una sonda que solapa estos puntos altamente variables capture bien el fragmento. Para mejorar la captura se podna colocar una sonda adyacente al punto variable, aunque sin solapamiento. A continuacion, se podna secuenciar el fragmento con normalidad para revelar la longitud y la composicion de la STR.
En el caso de grandes deleciones, puede funcionar el uso de una serie de sondas de solapamiento, un planteamiento habitual que se utiliza actualmente en los sistemas de captura de exones. Sin embargo, con este planteamiento puede ser diffcil determinar si un individuo es heterocigotoo no. La focalizacion y evaluacion de los SNP dentro de la region capturada podnan potencialmente revelar la perdida de heterocigosidad en la region, indicando que el individuo es portador. En una realizacion, es posible colocar sondas sin solapamiento o sondas unicas en la region potencialmente suprimida y utilizar el numero de fragmentos capturados como medida de la heterocigosidad. En el caso en el que un individuo lleva una gran delecion, se espera que la mitad del numero de fragmentos este disponible para la captura en
5
10
15
20
25
30
35
40
45
50
55
60
relacion a un locus de referencia (diploide) no suprimido. Por consiguiente, el numero de lecturas obtenidas de las regiones suprimidas debena ser aproximadamente la mitad del obtenido de un locus diploide normal. La agrupacion y la determinacion de la media de la profundidad de las lecturas de secuenciacion de multiples sondas unicas en una region potencialmente suprimida pueden mejorar la senal y la certeza del diagnostico. Tambien se puede combinar los dos planteamientos, la focalizacion de SNP para identificar la perdida de heterocigosidad y la utilizacion de multiples sondas unicas para obtener una medida cuantitativa de la cantidad de fragmentos subyacentes de ese locus. Cualquiera de estas estrategias o ambas se pueden combinar con otras estrategias para obtener mejor el mismo fin.
Si durante las pruebas del ADN libre de celulas, la deteccion de un feto varon, indicado por la presencia de los fragmentos del cromosoma Y, capturados y secuenciados en la misma prueba, y una mutacion dominante vinculada a X donde la madre y el padre no se ven afectados, o una mutacion dominante donde la madre no se ve afectada, indicana un mayor riesgo para el feto. La deteccion de dos alelos recesivos mutantes dentro del mismo gen de una madre no afectada implicana que el feto ha heredado un alelo mutante del padre y potencialmente un segundo alelo mutante de la madre. En todos los casos, se puede indicar la realizacion de pruebas de seguimiento mediante amniocentesis o muestreo de las vellosidades corionicas.
Una prueba de deteccion de una enfermedad basada en la captura focalizada se podna combinar con una prueba de diagnostico prenatal no invasiva basada en la captura focalizada para determinar la aneuploidfa.
Existen diversas formas de reducir la variabilidad de la profundidad de lectura (DOR): por ejemplo, se podnan aumentar las concentraciones del cebador, se podnan utilizar sondas de amplificacion focalizadas mas largas, o se podnan ejecutar mas ciclos STA (como mas de 25, mas de 30, mas de 35 o incluso mas de 40).
Ejemplos de metodos de determinacion del numero de moleculas de ADN en una muestra
En el presente documento se describe un metodo para determinar el numero de moleculas de ADN en una muestra generando una molecula exclusivamente identificada para cada molecula de ADN original de la muestra durante la primera ronda de amplificacion del ADN. En el presente documento se describe un procedimiento para conseguir este fin seguido de un metodo de secuenciacion de una unica molecula o clonico.
El planteamiento conlleva la focalizacion de uno o mas loci espedficos y la generacion de una copia etiquetada de las moleculas originales de tal manera que la mayona o todas las moleculas etiquetadas de cada locus focalizado tendran una etiqueta unica y se pueden distinguir entre sf tras la secuenciacion de este codigo de barras utilizando la secuenciacion clonica o de una unica molecula. Cada codigo de barras unico secuenciado representa una unica molecula en la muestra original. Simultaneamente, los datos de secuenciacion se utilizan para determinar el locus del que se origina la molecula. Utilizando esta informacion se puede determinar el numero de moleculas unicas en la muestra original para cada locus.
Este metodo se puede utilizar para cualquier aplicacion en la que se requiere la evaluacion cuantitativa del numero de moleculas de una muestra original. Ademas, el numero de moleculas unicas de una o mas dianas se puede relacionar con el numero de moleculas unicas de una o mas dianas diferentes para determinar el numero de copias, la distribucion de los alelos o el ratio alelico relativos. Alternativamente, se puede establecer un modelo del numero de copias detectadas de las diversas dianas mediante una distribucion, con el fin de identificar el numero de copias mas probable de las dianas originales. Las aplicaciones incluyen, entre otras, la deteccion de inserciones y deleciones como las que se encuentran en los portadores de la distrofia muscular de Duchenne; la cuantificacion de deleciones o duplicaciones de segmentos de cromosomas como las que se observan en variantes del numero de copias; el numero de copias del cromosoma de las muestras de individuos nacidos; el numero de copias del cromosoma de las muestras de individuos no nacidos como embriones o fetos.
El metodo se puede combinar con la evaluacion simultanea de variaciones contenidas en la secuencia focalizada. Esto se puede utilizar para determinar el numero de moleculas que representan cada alelo en la muestra original. Este metodo del numero de copias se puede combinar con la evaluacion de los SNP u otras variaciones de secuencia para determinar el numero de copias del cromosoma de los individuos nacidos y no nacidos; la discriminacion y cuantificacion de las copias de los loci que tienen variaciones de secuencias cortas, pero en las que la PCR puede amplificar a partir de multiples regiones diana como en la deteccion de un portador de la atrofia muscular espinal; determinacion del numero de copias de diferentes fuentes de moleculas de muestras que se componen de mezclas de diferentes individuos como en la deteccion de la aneuploidfa fetal a partir del ADN flotante libre obtenido del plasma materno.
En una realizacion, el metodo ya que pertenece a un locus diana individual puede comprender uno o mas de los siguientes pasos: (1) El diseno de un par de oligomeros estandar para la amplificacion por PCR de un locus espedfico. (2) La adicion, durante la smtesis, de una secuencia de bases especificadas sin complementariedad o con una complementariedad minima al locus diana o genoma al extremo 5' de uno de los oligomeros espedficos diana. Esta secuencia, denominada cola, es una secuencia conocida, que se utilizara para la amplificacion posterior, seguida por una secuencia de nucleotidos aleatorios. Estos nucleotidos aleatorios comprenden la region aleatoria. La region aleatoria comprende una secuencia generada aleatoriamente de acidos nucleicos que probabilfsticamente difieren entre cada molecula de la sonda. Por consiguiente, tras la smtesis, el grupo de oligomeros con cola se compondra de una coleccion de oligomeros que comienzan con una secuencia conocida seguida de una secuencia desconocida que difiere entre moleculas, seguida de la secuencia espedfica diana. (3) Realizacion de una ronda de amplificacion (desnaturalizacion, reformacion termica, ampliacion) utilizando solo el oligomero con cola. (4) Adicion de exonucleasa a la reaccion, detencion efectiva de la reaccion por PCR e incubacion de la reaccion a la temperatura apropiada para
5
10
15
20
25
30
35
40
45
50
55
60
eliminar los oligomeros de cadena simple directos que no se han reformado termicamente con respecto a la plantilla y ampliar para formar un producto de doble cadena. (5) Incubacion de la reaccion a una temperatura elevada para desnaturalizar la exonucleasa y eliminar su actividad. (6) Adicion a la reaccion de un nuevo oligonucleotido que es complementary a la cola del oligomero utilizado en la primera reaccion junto con el otro oligomero espedfico diana para permitir la amplificacion por PCR del producto generado en la primera ronda de la PCR. (7) Continuar la amplificacion para generar suficiente producto para la secuenciacion clonica corriente abajo. (8) Medicion del producto de la PCR amplificado a traves de multiples metodos, por ejemplo, secuenciacion clonica, a un numero suficiente de bases para prolongar la secuencia.
En una realizacion, un metodo de la presente divulgacion implica la focalizacion de multiples loci en paralelo o de otro modo. Se pueden generar cebadores para diferentes loci diana independientemente y mezclados para crear grupos para la PCR multiplexada. En una realizacion, las muestras originales se pueden dividir en subconjuntos y se pueden focalizar diferentes loci en cada subconjunto antes de su recombinacion y secuenciacion. En una realizacion, el paso de etiquetado y un numero de ciclos de amplificacion se pueden realizar antes de subdividir el conjunto, con el fin de garantizar un etiquetado eficaz de todas las dianas antes de la division y mejorar la amplificacion posterior continuando la amplificacion utilizando conjuntos mas pequenos de cebadores en grupos subdivididos.
Un ejemplo de una aplicacion donde esta tecnologfa sena especialmente util es en el diagnostico de la aneuploidfa prenatal no invasiva donde se puede utilizar el ratio de alelos en un locus determinado o una distribucion de alelos en un numero de loci para ayudar a determinar el numero de copias de un cromosoma presente en un feto. En este contexto, resulta recomendable amplificar el ADN presente en la muestra inicial al tiempo que se mantienen las cantidades relativas de los diversos alelos. En algunas circunstancias, especialmente en los casos en los que hay una cantidad muy pequena de ADN, por ejemplo, menos de 5000 copias del genoma, menos de 1000 copias del genoma, menos de 500 copias del genoma y menos de 100 copias del genoma, se puede producir un cuello de botella. Esto ocurre cuando hay un pequeno numero de copias de cualquier alelo dado en la muestra inicial y los sesgos de amplificacion pueden dar como resultado el conjunto amplificado de ADN que tiene unos ratios significativamente diferentes de los alelos que se encuentran en la mezcla inicial de ADN. Aplicando un conjunto de codigos de barras unicos o practicamente unicos a cada cadena de ADN antes de la amplificacion por PCR estandar, se pueden excluir n-1 copias de ADN de un conjunto de n moleculas identicas del ADN secuenciado que procedfa de la misma molecula original.
Por ejemplo, supongamos un SNP heterocigotoen el genoma de un individuo y una mezcla de ADN del individuo donde 10 moleculas de cada alelo se encuentran presentes en la muestra original de ADN. Despues de la amplificacion puede haber 100.000 moleculas de ADN que corresponden a ese locus. Debido a los procesos estocasticos, el ratio de ADN podna ser cualquiera entre 1:2 y 2:1; sin embargo, dado que cada una de las moleculas originales se ha etiquetado con una etiqueta unica, se podna determinar que el ADN del grupo amplificado procedfa exactamente de 10 moleculas de ADN de cada alelo. Por tanto, este metodo proporcionana una medicion mas precisa de las cantidades relativas de cada alelo que un metodo que no utilice este planteamiento. Para los metodos en los que resulta deseable que la cantidad relativa de sesgo alelico sea minimizada, este metodo proporcionara datos mas precisos.
La asociacion del fragmento secuenciado al locus diana se puede lograr de varias maneras. En una realizacion, una secuencia de longitud suficiente se obtiene del fragmento focalizado para que abarque el codigo de barras de la molecula, asf como un numero suficiente de bases unicas que corresponden a la secuencia diana para permitir la identificacion sin ambiguedad del locus diana. En otra realizacion, el cebador con el codigo de barras molecular que contiene el codigo de barras molecular generado aleatoriamente puede tambien contener un codigo de barras espedfico del locus (codigo de barras del locus) que identifica la diana a la que se va a asociar. Este codigo de barras del locus sena identico entre todos los cebadores con codigo de barras molecular para cada diana individual y, por tanto, todos los amplicones resultantes, pero diferente de todas las otras dianas. En una realizacion, el metodo de etiquetado que se describe en el presente documento se puede combinar con un protocolo de anidado unilateral.
En una realizacion, el diseno y la generacion de cebadores del codigo de barras molecular se puede reducir en la practica a lo siguiente: los cebadores de codigos de barras moleculares se pueden componer de una secuencia que no es complementaria de la secuencia diana, seguida de una region de codigo de barras molecular aleatoria, seguida de una secuencia espedfica diana. La secuencia 5' del codigo de barras molecular se puede utilizar para la amplificacion por PCR de la subsecuencia y se puede componer de secuencias utiles para la conversion del amplicon en una biblioteca para la secuenciacion. La secuencia del codigo de barras molecular aleatoria se podna generar de multiples maneras. El metodo preferible sintetiza el cebador de etiquetado de la molecula de tal forma que incluye las cuatro bases para la reaccion durante la smtesis de la region del codigo de barras. Todas o varias combinaciones de bases se pueden especificar utilizando los codigos de ambiguedad de ADN IUPAC. De esta manera la coleccion sintetizada de moleculas contendra una mezcla aleatoria de secuencias en la region del codigo de barras molecular. La longitud de la region del codigo de barras determinara cuantos cebadores contendran codigos de barras unicos. El numero de secuencias unicas esta relacionado con la longitud de la region del codigo de barras como Nu donde N es el numero de bases, tfpicamente 4, y L es la longitud del codigo de barras. Un codigo de barras de cinco bases puede producir hasta 1024 secuencias unicas; un codigo de barras de ocho bases puede producir 65536 secuencias unicas. En una realizacion, el ADN se puede medir mediante un metodo de secuenciacion, donde los datos de secuencia representan la secuencia de una unica molecula. Esto puede incluir metodos en los que las moleculas unicas son secuenciadas directamente o metodos en los que las moleculas unicas son amplificadas para formar clones detectables mediante el instrumento de la secuencia, pero que aun asf representan moleculas unicas denominadas en el presente documento secuenciacion clonica.
5
10
15
20
25
30
35
40
45
50
55
60
Ejemplos de metodos y reactivos para la cuantificacion de los productos de la amplificacion
La cuantificacion de secuencias espedficas de acido nucleico de interes se realiza de forma tipica mediante tecnicas de PCR en tiempo real cuantitativas como TAQMAN (LIFE TECHNOLOGIES), sondas INVADER (THIRD WAVE TECHNOLOGIES), y similares. Dichas tecnicas sufren de numerosas deficiencias como una capacidad limitada de conseguir el analisis simultaneo de multiples secuencias en paralelo (multiplexacion) y la capacidad de proporcionar datos cuantitativos precisos para solo un estrecho rango de ciclos de amplificacion posibles (por ejemplo, cuando el logaritmo de la cantidad de produccion de la amplificacion por PCR frente al numero de ciclos esta en un rango lineal). Las tecnicas de secuenciacion del ADN, especialmente las tecnicas de secuenciacion de nueva generacion de alto rendimiento (a menudo denominadas tecnicas de secuenciacion masivamente paralelas) como las empleadas en MYSEQ (ILLUMINA), HISEQ (ILLUMINA), ION TORRENT (LIFE TECHNOLOGIES), GENOME ANALYZER ILX (ILLUMINA), GS FLEX+ (ROCHE 454) etc., se pueden utilizar para mediciones cuantitativas del numero de copias de secuencia de interes presente en la muestra, proporcionando asf informacion cuantitativa sobre los materiales de inicio, por ejemplo, numero de copia o niveles de transcripcion. Los secuenciadores geneticos de alto rendimiento son susceptibles de utilizar la codificacion por medio de barras (es decir, etiquetado de la muestra con secuencias de acido nucleico distintivas) para identificar muestras espedficas de individuos permitiendo asf el analisis simultaneo de multiples
muestras en una sola ejecucion del secuenciador de ADN. El numero de veces que una region determinada del genoma en una preparacion de la biblioteca (u otra preparacion nucleica de interes) se secuencia (numero de lecturas) sera proporcional al numero de copias de esa secuencia en el genoma de interes (o nivel de expresion en el caso de cDNA que contiene preparaciones). Sin embargo, la preparacion y secuenciacion de bibliotecas geneticas (y preparaciones derivadas de genoma similares) puede presentar numerosos sesgos que interfieren con la obtencion de una lectura cuantitativa precisa para la secuencia de acido nucleico de interes. Por ejemplo, secuencias de acido nucleico diferentes se pueden amplificar con eficacias diferentes durante los pasos de amplificacion nucleica que se producen durante la preparacion de la biblioteca genetica o la preparacion de la muestra.
El problema con la eficacia de amplificacion diferenciales se puede mitigar utilizando determinadas realizaciones de la invencion sujeto. La invencion objeto incluye distintas metodos y composiciones que estan relacionados con el uso de estandares para su inclusion en procesos de amplificacion que se pueden utilizar para mejorar la precision de cuantificacion. La invencion se utiliza, entre otras areas, en la deteccion de aneuploidfa en un feto mediante el analisis del ADN fetal flotante libre en la sangre materna, como se describe en el presente documento y como se describe, entre otros lugares, en la Patente USA n°. 8.008.018; la Patente USA n°. 7.332.277; Solicitud publicada PCT WO 2012/078792A2; y la Solicitud publicada PCT WO 2011/146632 Al. Las realizaciones de la invencion tambien se utilizan en la deteccion de aneuploidfa en embriones generados in vitro. Entre las aneuploidfas comercialmente significativas que se pueden detectar se incluye la aneuploidfa de los cromosomas humanos 13, 18, 21, 20 X e Y. Las realizaciones de la divulgacion se pueden utilizar con acidos nucleicos humanos o no humanos, y se puede aplicar a acidos nucleicos derivados de animales y plantas. Las realizaciones de la invencion tambien se pueden utilizar para detectar y/o cuantificar alelos para otros trastornos geneticos caracterizados por deleciones o inserciones. Los alelos que contienen deleciones se pueden detectar en presuntos portadores del alelo de interes.
Una realizacion de la invencion sujeto incluye estandares que estan presentes en una cantidad conocida (relativa o absoluta). Por ejemplo, considere una biblioteca genetica realizada a partir de un origen genetico que es diploide para el cromosoma 8 (que contiene el locus A) y triploide para el cromosoma 21 (que contiene el locus B). Se puede producir una biblioteca genetica de esta muestra que contendra secuencias en cantidades que son una funcion del numero de los cromosomas presentes en la muestra, por ejemplo, 200 copias del locus A y 300 copias del locus B. Sin embargo, si el locus A amplifica de un modo mucho mas eficaz que el locus B, despues de la PCR puede haber 60.000 copias del amplicon A y 30.000 copias del amplicon B, oscureciendo asf el verdadero numero de copia cromosomica de la muestra genomica inicial cuando se realiza el analisis mediante secuenciacion del ADN de alto rendimiento (u otras tecnicas de deteccion de acido nucleico cuantitativas). Para mitigar este problema se emplea una secuencia estandar para el locus A, en la que la secuencia estandar se amplifica con basicamente la misma eficacia que el locus A. De forma similar, se crea una secuencia estandar para el locus B, donde la secuencia estandar se amplifica con basicamente la misma eficacia que el locus B. Una secuencia estandar de locus A y una secuencia estandar para el locus B se anaden a la mezcla antes de la PCR (u otras tecnicas de amplificacion). Estas secuencias estandar estan presentes en cantidades conocidas, o bien cantidades relativas o cantidades absolutas. De este modo, si se anadiera una mezcla 1:1 de secuencia estandar A y secuencia estandar B (antes de la amplificacion) a la mezcla del ejemplo anterior, se producinan 3000 copias del amplicon A estandar y se producinan 1000 copias del amplicon B estandar, que mostranan que el locus A se ha amplificado 3 veces mas eficientemente que el locus B, bajo la misma serie de condiciones.
En varias realizaciones una o mas regiones seleccionadas de un genoma que contiene un SNP (u otro polimorfismo) de interes se puede amplificar espedficamente y secuenciar posteriormente. Esta amplificacion espedfica diana puede producirse durante la formacion de una biblioteca genetica para la secuenciacion. La biblioteca puede contener numerosas regiones focalizadas para la amplificacion. En algunas realizaciones al menos 10; 100, 500; 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 regiones de interes. Ejemplos de dichas bibliotecas se describen en el presente documento y se pueden encontrar en la patente USA con el numero 13/300.235 (publicada como US2012/0270212), presentada el 18 de noviembre de 2011.
5
10
15
20
25
30
35
40
45
50
55
60
Muchas tecnicas de secuenciacion del ADN de alto rendimiento requieren la modificacion del material de inicio genetico, por ejemplo, la union de puntos de cebado universal y/o codigos de barras, para formar bibliotecas con el fin de facilitar la amplificacion clonica de fragmentos pequenos de acido nucleico antes de realizar las reacciones de secuenciacion posteriores. En algunas realizaciones, se anaden una o mas secuencias estandar durante la formacion de la biblioteca genetica o se anaden a un componente precursor de una biblioteca genetica antes de la amplificacion de la biblioteca. Las secuencias estandar se pueden seleccionar para imitar (pero aun asf pudiendo distinguirse en base a una secuencia base nucleotida) fragmentos genomicos diana para prepararse para la secuenciacion mediante una tecnica de secuenciacion genetica de alto rendimiento. En una realizacion, la secuencia estandar puede ser identica al fragmento genomico diana exceptuando uno, dos, tres, de cuatro a diez, o de once a veinte nucleotidos. En algunas realizaciones, cuando la secuencia genetica diana contiene un SNP, la secuencia estandar puede ser identica al SNP exceptuando el nucleotido en la base polimorfica, que se puede elegir que sea uno de los cuatro nucleotidos que no se observa en esa ubicacion de forma natural. Las secuencias estandar se pueden utilizar en un analisis altamente multiplexado de multiples loci diana (como loci polimorficos). Se pueden anadir secuencias estandar durante el proceso de formacion de la biblioteca (antes de la amplificacion) en cantidades conocidas (relativas o absolutas) con el fin de proporcionar una metrica estandar para obtener una mayor precision en la determinacion de la cantidad de secuencia diana de interes en la muestra de analisis. La combinacion del conocimiento de las cantidades conocidas de las secuencias estandar utilizadas conjuntamente con el conocimiento de la formacion del nivel de ploidfa de la biblioteca para la secuenciacion formado a partir de un genoma del nivel de ploidfa caracterizado anteriormente, por ejemplo, conocido por ser diploide para todos los cromosomas autosomicos, se puede utilizar para calibrar las propiedades de amplificacion de cada secuencia estandar con respecto a su secuencia diana correspondiente y explicar las variaciones entre lotes de mezclas que comprenden multiples secuencias estandar. Dado que a menudo es necesario analizar simultaneamente un gran numero de loci, es util producir una mezcla que comprenda un amplio conjunto de secuencias estandar. Las realizaciones de la divulgacion incluyen mezclas que comprenden multiples secuencias estandar. Idealmente, la cantidad de cada secuencia estandar en la mezcla se conoce con una alta precision. Sin embargo, es extremadamente diffcil conseguir este ideal ya que en la practica hay una cantidad significativa de variacion en la cantidad de cada secuencia estandar en la mezcla, especialmente para mezclas que comprenden un gran numero de oligonucleotidos sinteticos diferentes. Esta variacion tiene numerosas fuentes, por ejemplo, las variaciones en las eficacias de la reaccion de smtesis oligonucleotida in vitro entre lote, inexactitudes en la medicion del volumen, variaciones en el pipeteo. Ademas, esta variacion puede producirse entre lotes diferentes de aquellos que teoricamente contienen el mismo conjunto exacto de secuencias estandar en las mismas cantidades exactas. Por tanto, es interesante calibrar cada lote de secuencias estandar independientemente. Los lotes de secuencias estandar se pueden calibrar frente a los genomas de referencia de la composicion cromosomica conocida. La agrupacion de lotes de secuencias estandar se puede calibrar mediante la secuenciacion del lote de secuencias estandar con pasos de amplificacion mmimos o sin pasos de amplificacion en el protocolo de secuenciacion. Las realizaciones de la divulgacion incluyen mezclas calibradas de secuencias estandar diferentes. Otras realizaciones de la divulgacion incluyen metodos de calibracion de mezclas de secuencias estandar diferentes y mezclas calibradas de secuencias estandar diferentes realizadas por los metodos sujeto.
Distintas realizaciones de las mezclas sujeto de secuencias estandar y de los metodos para utilizarlas pueden comprender al menos 10; 100, 500; 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 o mas secuencias estandar, asf como varias cantidades intermedias. El numero de secuencias estandar puede ser el mismo que el numero de secuencias diana seleccionado para el analisis durante la generacion de una biblioteca focalizada para la secuenciacion del ADN. Sin embargo, en algunas realizaciones, puede ser beneficioso utilizar un numero inferior de secuencias estandar que el numero de regiones focalizadas en la biblioteca que se esta construyendo. Puede ser beneficioso utilizar el numero mas bajo para evitar hacer frente a los lfmites de la capacidad de secuenciacion del secuenciador de ADN de alto rendimiento que se esta utilizando. El numero de secuencias estandar puede ser 50% o inferior al numero de regiones focalizadas, 40% o inferior al numero de regiones focalizadas, puede ser un 30% o inferior al numero de regiones focalizadas, 20%> o inferior al numero de regiones focalizadas, puede ser un 10%> o inferior al numero de regiones focalizadas, 5% o inferior al numero de regiones focalizadas, 1% o inferior al numero de regiones focalizadas, asf como distintos valores intermedios. Por ejemplo, si se crea una biblioteca genetica utilizando 15.000 pares de cebadores focalizados a SNP espedficos que contienen loci, una mezcla adecuada que contiene 1500 secuencias estandar correspondientes a 1500 de los 15.000 loci focalizados se pueden anadir antes del paso de amplificacion de las construcciones de la biblioteca.
La cantidad de secuencias estandar que se anaden durante la construccion de la biblioteca puede variar considerablemente entre diferentes realizaciones. En algunas realizaciones, la cantidad de cada secuencia estandar puede ser aproximadamente la misma que la cantidad prevista de la secuencia diana presente en la muestra de material genomico que se utiliza para la preparacion de la biblioteca. En otras realizaciones, la cantidad de cada secuencia estandar puede ser superior o inferior que la cantidad prevista de la secuencia diana presente en la muestra de material genomico que se utiliza para la preparacion de la biblioteca. Mientras que las cantidades relativas iniciales de la secuencia diana y la secuencia estandar no son cnticas para la funcion del metodo, es preferible que la cantidad este dentro del rango 100 veces superior que 100 veces inferior a la cantidad de la secuencia diana presente en la muestra de material genomico que se utiliza para la preparacion de la biblioteca. Cantidades excesivas de estandar pueden utilizar demasiada capacidad de secuenciacion del secuenciador de ADN en una ejecucion determinada del instrumento. Si se utiliza una cantidad demasiado baja de secuencias estandar se produciran datos insuficientes para ayudar en el analisis de la variacion en la eficiencia de la amplificacion.
5
10
15
20
25
30
35
40
45
50
55
60
Las secuencias estandar se pueden seleccionar para que sean muy similares en la secuencia base nucleotida a las regiones amplificadas de interes; preferiblemente la secuencia estandar tiene los mismos puntos exactos de union del cebador que la region genomica analizada, es decir, la “secuencia diana.” La secuencia estandar se debe poder distinguir de la secuencia diana correspondiente en un locus determinado. Por comodidad, esta region que se puede distinguir de la secuencia estandar se la denominara “secuencia de marcador.” En algunas realizaciones, la region de la secuencia de marcador de las secuencias diana contiene la region polimorfica, por ejemplo, un SNP, y se puede flanquear a ambos lados por regiones de union del cebador. La secuencia estandar se puede seleccionar para que se corresponda estrechamente con el contenido de GC de la secuencia diana correspondiente. En algunas realizaciones, las regiones de union del cebador de la secuencia estandar estan flanqueadas por puntos de cebado universal. Estos puntos de cebado universal se seleccionan para que coincidan con los puntos de cebado universal que se utilizan en una biblioteca genomica para analisis. En otras realizaciones, las secuencias estandar no tienen puntos de cebado universal y los puntos de cebado universal se anaden durante la creacion de una biblioteca. Las secuencias estandar de forma tfpica se proporcionan en forma de una sola cadena. Una secuencia estandar se define con respecto a una secuencia diana correspondiente y los reactivos espedficos de la secuencia que se utilizan para amplificar la secuencia diana. En algunas realizaciones, la secuencia diana contiene el polimorfismo de interes, por ejemplo, un SNP, una delecion o insercion, presente en la muestra de acido nucleico para analisis. La secuencia estandar es un polinucleotido sintetico que es similar en la secuencia base nucleotida a la secuencia diana, pero que, sin embargo, se puede distinguir de la secuencia diana en virtud de al menos una diferencia base nucleotida, proporcionando asf un mecanismo para distinguir las secuencias de amplicones derivadas de la secuencia estandar de las secuencias de amplicones derivadas de la secuencia diana. Las secuencias estandar se seleccionan de modo que tengan basicamente las mismas propiedades de amplificacion que la secuencia diana correspondiente cuando se amplifican con el mismo conjunto de reactivos de amplificacion, por ejemplo, cebadores para PCR. En algunas realizaciones, las secuencias estandar pueden tener los mismos puntos de union de secuencia del cebador que las secuencias diana correspondientes. En otras realizaciones, las secuencias estandar pueden tener puntos de union de secuencia del cebador diferentes que las secuencias diana correspondientes. En algunas realizaciones, las secuencias estandar se pueden seleccionar para producir amplicones que tienen la misma longitud que la longitud de los amplicones producidos a partir de las secuencias diana correspondientes. En otras realizaciones, las secuencias estandar se pueden seleccionar para producir amplicones que tienen longitudes ligeramente diferentes que la longitud de los amplicones producidos a partir de las secuencias diana correspondientes.
Despues de que se han completado las reacciones de amplificacion, la biblioteca se secuencia en un secuenciador de ADN de alto rendimiento donde la molecula individual se amplifica clonicamente y se secuencia. Se cuenta el numero de lecturas de secuencia para cada alelo de la secuencia diana, tambien se cuenta el numero de lecturas de secuencia para la secuencia estandar que corresponde a la secuencia diana. El proceso tambien se lleva a cabo para al menos otro par de secuencias diana y las secuencias estandar correspondientes. Considere, por ejemplo, que se producen lecturas del locus A, Xai para el alelo 1 del locus A; se producen lecturas Xa2 para el alelo 2 del locus A, y se producen lecturas Xac para la secuencia estandar A. El ratio de (Xai mas Xa2) a Xac se determina para cada locus de interes. Como se ha descrito anteriormente, el proceso se puede realizar en un genoma de referencia, por ejemplo, un genoma que se conoce que es diploide para todos los cromosomas. El proceso se puede repetir muchas veces para proporcionar un gran numero de valores de lectura con el fin de determinar un numero promedio de lecturas y la desviacion estandar en el numero de lecturas. El proceso se realiza con una mezcla que comprende un gran numero de secuencias estandar diferentes que corresponden a loci diferentes. Al asumir que (1) Xai mas Xa2 corresponde al numero conocido de cromosoma, por ejemplo, 2 para el genoma femenino humano normal y (2) las secuencias estandar tienen propiedades de amplificacion (y deteccion) similares a las de sus loci naturales correspondientes, se pueden determinar las cantidades relativas de las secuencias estandar diferentes en la mezcla estandar multiplexada. La mezcla de la secuencia estandar multiplexada calibrada puede utilizarse, a continuacion, para ajustarse para la variabilidad en la eficacia de la amplificacion entre los loci diferentes en una reaccion de amplificacion multiplexada.
Otras realizaciones de la divulgacion incluyen metodos y composiciones para medir el numero de copia de genes espedficos de interes, incluyendo duplicaciones y genes mutantes caracterizados por grandes deleciones que interferinan con la cuantificacion por secuenciacion. La secuenciacion tendna problemas para detectar alelos con estas deleciones. Las secuencias estandar incluidas en el proceso de amplificacion se pueden utilizar para reducir este problema.
En una realizacion de la divulgacion la secuencia diana para analisis es un gen que tiene un tipo salvaje (es decir, funcional) y una forma mutante caracterizada por una delecion. Un ejemplo de dichos genes es SMN1, un alelo que tiene una delecion responsable de la enfermedad genetica SMA (atrofia muscular espinal). Es interesante detectar un individuo portador de la forma mutante del gen mediante tecnicas de secuenciacion geneticas de alto rendimiento. La aplicacion de dichas tecnicas a la deteccion de mutaciones de delecion puede ser problematica, entre otras razones, por la ausencia de secuencias observadas en la secuenciacion (en oposicion a detectar una simple mutacion puntual o SNP). Dichas realizaciones emplean (1) un par de cebadores de amplificacion espedficos para el gen de interes, donde en los cebadores de amplificacion amplificaran el gen de interes (o una porcion de este) y no amplificaran significativamente el alelo mutante, (2) una secuencia estandar correspondiente al alelo de tipo salvaje del gen de interes (es decir, una secuencia diana), pero que se diferencie en al menos una base nucleotida detectable, (3) un par de cebadores de amplificacion espedficos para una segunda secuencia diana que sirva como secuencia de referencia, y (4) una secuencia estandar que corresponda a la secuencia de referencia.
5
10
15
20
25
30
35
40
45
50
55
60
En una realizacion de la divulgacion se proporciona un metodo para medir el numero de copias del gen de interes, en donde el gen de interes tiene un alelo promedio que comprende una delecion. El metodo puede emplear un reactivo de amplificacion espedfico para el gen de interes, por ejemplo, cebadores para PCR, que son espedficos para el gen de interes al amplificar al menos una porcion del gen de interes, o todo el gen de interes, o una region adyacente al gen de interes, aunque no amplificando la delecion que comprende el alelo del gen de interes. De forma adicional, el metodo sujeto emplea una secuencia estandar que corresponde al gen de interes, donde la secuencia estandar difiere en al menos una base nucleotida del gen de interes (de modo que la secuencia de la secuencia estandar se puede distinguir rapidamente del gen de interes que se produce naturalmente). De forma tfpica, la secuencia estandar contendra los mismos puntos de union del cebador que el gen de interes con el fin de minimizar cualquier discriminacion de la amplificacion entre el gen de interes y la secuencia estandar que corresponde al gen de interes. La reaccion tambien comprendera reactivos de amplificacion espedficos para una secuencia de referencia. La secuencia de referencia es una secuencia de un numero de copia conocido (o al menos que se presupone que es conocido) en el genoma que se va a analizar. La reaccion ademas comprende una secuencia estandar que corresponde a la secuencia de referencia. De forma tfpica, la secuencia estandar que corresponde a la secuencia de referencia contendra los mismos puntos de union del cebador que la secuencia de referencia con el fin de minimizar cualquier discriminacion de la amplificacion entre la secuencia de referencia y la secuencia estandar que corresponde a la secuencia de referencia.
Ejemplos de muestras de acido nucleico
En algunas realizaciones, la muestra genetica puede estar preparada y/o purificada. Hay una serie de procedimientos estandar conocidos en la tecnica para llegar a tal fin. En algunas realizaciones, la muestra puede ser centrifugada para separar diversas capas. En algunas realizaciones, el ADN puede ser aislado utilizando filtracion. En algunas realizaciones, la preparacion de ADN puede implicar amplificacion, separacion, purificacion mediante cromatograffa, separacion lfquido-lfquido, aislamiento, enriquecimiento preferente, amplificacion preferente, amplificacion focalizada o cualquiera de una serie de otras tecnicas conocidas en la tecnica o descritas en el presente documento.
En algunas realizaciones, se podna utilizar un metodo divulgado en el presente documento en situaciones en las que hay una cantidad muy reducida de ADN presente, como en la fertilizacion in vitro o en situaciones forenses, cuando se dispone de una o muy pocas celulas (normalmente menos de 10 celulas, menos de 20 celulas o menos de 40 celulas). En estas realizaciones, un metodo divulgado en el presente documento sirve para realizar determinaciones del estado de ploidfa a partir de una pequena cantidad de ADN que no esta contaminado con otro ADN, pero en las que la determinacion del estado de ploidfa resulta muy diffcil dada la reducida cantidad de ADN. En algunas realizaciones, un metodo divulgado en el presente documento se podna utilizar en situaciones en las que el ADN diana esta contaminado con ADN de otro individuo, por ejemplo, en la sangre materna en el contexto del diagnostico prenatal, las pruebas de paternidad o productos de pruebas de concepcion. Algunas otras situaciones en los que estos metodos resultanan particularmente ventajosos senan en las pruebas del cancer cuando solamente hay una o un pequeno numero de celulas presente entre una mayor cantidad de celulas normales. Las mediciones geneticas utilizadas como parte de estos metodos se podnan realizar en cualquier muestra que comprenda ADN o ARN, por ejemplo, a tftulo meramente enunciativo: sangre, plasma, fluidos corporales, orina, cabello, lagrimas, saliva, tejido, piel, unas, blastomeros, embriones, lfquido amniotico, muestras de vello corionico, heces, bilis, linfa, moco cervical, semen u otras celulas o materiales que comprenden acidos nucleicos. En una realizacion, un metodo divulgado en el presente documento se podna realizar con metodos de deteccion de acido nucleico, como la secuenciacion, microarrays, qPCR, PCR digital u otros metodos utilizados para medir acidos nucleicos. Si por alguna razon se considerase deseable, los ratios de las probabilidades del recuento de alelos en un locus se podnan calcular y los ratios de alelos se podnan utilizar para determinar el estado de ploidfa en combinacion con algunos de los metodos descritos en el presente documento, siempre que los metodos sean compatibles. En algunas realizaciones, un metodo divulgado en el presente documento implica el calculo, en un ordenador, de ratios de alelos en la pluralidad de loci polimorficos de las mediciones de ADN realizadas con las muestras procesadas. En algunas realizaciones, un metodo divulgado en el presente documento implica el calculo, en un ordenador, de ratios de alelos en la pluralidad de loci polimorficos de las mediciones de ADN realizadas con las muestras procesadas junto con cualquier combinacion de otras mejoras descritas en esta divulgacion.
En algunas realizaciones, este metodo se puede utilizar para determinar el genotipo de una sola celula, un pequeno numero de celulas, de dos a cinco celulas, de seis a diez celulas, de diez a veinte celulas, de veinte a cincuenta celulas, de cincuenta a cien celulas, de cien a mil celulas, o una pequena cantidad de ADN extracelular, por ejemplo, de uno a diez picogramos, de diez a cien pictogramas, de cien pictogramas a un nanogramo, de uno a diez nanogramos, de diez a cien nanogramos o de cien nanogramos a un microgramo.
Ejemplos de estudios de expresion de ARN
Los metodos de PCR multiplexada de la invencion se pueden utilizar para aumentar el numero de loci diana que se pueden evaluar durante los experimentos de perfilado de expresion del gen. Por ejemplo, los niveles de expresion de miles de genes se pueden supervisar simultaneamente para determinar si una persona tiene una secuencia (como un polimorfismo u otra mutacion) asociada a una enfermedad (como cancer) o un mayor riesgo de una enfermedad. Estos metodos se pueden utilizar para identificar secuencias (como polimorfismos u otras mutaciones) asociados con un mayor o menor riesgo para una enfermedad como cancer comparando la expresion del gen (como la expresion de alelos mRNA determinados) en muestras de pacientes con y sin la enfermedad. Ademas, se puede determinar el efecto de tratamientos, enfermedades, o etapas de desarrollo espedficos en la expresion del gen. De forma similar, estos metodos se pueden utilizar para identificar genes cuya expresion cambia en respuesta a patogenos u otros organismos
5
10
15
20
25
30
35
40
45
50
55
60
mediante la comparacion de la expresion del gen en tejidos o celulas infectados y no infectados. En estos metodos el numero de lecturas de secuenciacion se pueden ajustar en base a la frecuencia de los polimorfismos que se estan analizando de modo que se realizan suficientes lecturas para que se detecten los polimorfismos si estan presentes.
En algunas realizaciones, una muestra que contiene ARN (como mRNA) se amplifica utilizando una transcriptasa inversa (RT) y el ADN resultante (como, por ejemplo, cDNA) se amplifica, a continuacion, utilizando un ADN polimerasa (PCR). Las etapas de RT y PCR se pueden llevar a cabo de forma secuencial en el mismo volumen de reaccion o por separado. Cualquiera de las bibliotecas de cebadores de la invencion se puede utilizar en este metodo de reaccion en cadena de polimerasa de transcripcion inversa (RT-PCR). En varias realizaciones, se realiza la transcripcion inversa utilizando oligo-dT, cebadores aleatorios, una mezcla de oligo-dT y cebadores aleatorios, o cebadores espedficos a los loci diana. Para evitar la amplificacion de ADN genomico contaminante, los cebadores para RT-PCR pueden estar disenados de modo que parte de un cebador se hibride con el extremo 3' de un exon y la otra parte del cebador se hibride con el extremo 5' del exon adyacente. Dichos cebadores se reforman termicamente con el cDNA sintetizado a partir de mRNAs ensamblados, pero no a ADN genomico. Para detectar la amplificacion del ADN contaminante, se pueden disenar pares de cebador RT-PCR para flanquear una region que contiene al menos un intron. Los productos amplificados de cDNA (que no son intrones) son mas pequenos que los que estan amplificados a partir de ADN genomico (que contiene intrones). La diferencia de tamano en los productos se utiliza para detectar la presencia de ADN contaminante. En algunas realizaciones cuando solo se conoce la secuencia mRNA, se eligen puntos de reformacion termica del cebador que estan separados por al menos 300-400 pares de bases ya que es probable que los fragmentos de este tamano de ADN eucariotico contengan zonas de union exon-intron. De forma alternativa, la muestra se puede tratar con DNase para degradar el ADN contaminante.
Ejemplos de metodos para pruebas de paternidad
Los metodos de PCR multiplexada de la invencion se pueden utilizar para mejorar la precision de las pruebas de paternidad ya que muchos loci diana se pueden analizar inmediatamente (vease, por ejemplo, la publicacion USA con el numero 2012/0122701, presentada el 22 de diciembre de 2011. Por ejemplo, el metodo de pCr multiplexada puede permitir analizar miles de loci polimorficos (como SNPs) para ser utilizados en el algoritmo PARENTAL SUPPORT que se describe en el presente documento para determinar si un presunto padre es el padre biologico de un feto. En algunas realizaciones, el metodo consiste en (i) amplificar simultaneamente una pluralidad de loci polimorficos que incluye al menos 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 loci polimorficos diferentes en material genetico del presunto padre para producir un primer conjunto de productos amplificados; (ii) amplificar simultaneamente la pluralidad de loci polimorficos correspondiente en una muestra mezclada de ADN que se origina de una muestra de sangre de una madre embarazada para producir un segundo conjunto de productos amplificados; en donde la muestra mezclada de ADN comprende ADN fetal y ADN materno; (iii) determinar en un ordenador la probabilidad de que el presunto padre sea el padre biologico del feto utilizando mediciones genotfpicas en base al primer y segundo conjuntos de productos amplificados; y (iv) establecer si el presunto padre es el padre biologico del feto utilizando la probabilidad determinada de que el presunto padre es el padre biologico del feto. En varias realizaciones, el metodo incluye ademas amplificar simultaneamente la pluralidad de loci polimorficos correspondiente en material genetico de la madre para producir un tercer conjunto de productos amplificados; en donde la probabilidad de que el presunto padre sea el padre biologico del feto se determina utilizando mediciones genotfpicas en base al primer, segundo y tercer conjuntos de productos amplificados.
Ejemplos de metodos para la seleccion y caracterizacion del embrion
Los metodos de PCR multiplexada de la invencion se pueden utilizar para mejorar la seleccion de los embriones para la fertilizacion in vitro permitiendo analizar miles de loci diana inmediatamente (vease, por ejemplo, la pub. USA numero 2011/0092763, presentada el 27 de mayo de 2008, presentada el 22 de diciembre de 2011). Por ejemplo, el metodo de PCR multiplexada puede permitir analizar miles de loci polimorficos (como SNPs) para ser utilizados en el algoritmo PARENTAL SUPPORT que se describe en el presente documento para seleccionar un embrion de un conjunto de embriones para la fertilizacion in vitro. En algunas realizaciones, la divulgacion proporciona metodos de estimar las probabilidades relativas de que cada embrion de un conjunto de embriones se desarrollara como se desea. En algunas realizaciones, el metodo consiste en poner en contacto una muestra de cada embrion con una biblioteca de cebadores que se hibridan simultaneamente a al menos 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 loci diana diferentes para producir una mezcla de reaccion para cada embrion, en donde cada una de las muestras se deriva de una o mas celulas de un embrion. En algunas realizaciones, cada mezcla de reaccion se somete a condiciones de reaccion de extension del cebador para producir productos amplificados. En algunas realizaciones, el metodo incluye determinar en un ordenador una o mas caractensticas de al menos una celula de cada embrion en base a los productos amplificados; y estimar en un ordenador las probabilidades relativas de que cada embrion se desarrollara segun se desee, en base a una o mas caractensticas de al menos una celula para cada embrion. En algunas realizaciones, el metodo incluye el uso de un metodo basado en informatica para determinar al menos una caractenstica, como el algoritmo PARENTAL SUPPORT que se describe en el presente documento. En algunas realizaciones, la caractenstica incluye un estado de ploidfa.
En algunas realizaciones, la caractenstica se selecciona del grupo que se compone de aneuploide, euploide, mosaicismo, nulisomfa, monosoirna, disomfa uniparental, trisoirna, tetrasoirna, un tipo de aneuploidfa, trisoirna por error en la copia no emparejada, trisoirna por error en la copia emparejada, origen materno de la aneuploidfa, origen paterno de la aneuploidfa, una presencia o ausencia de un gen vinculado a una enfermedad, una identidad cromosomica de
5
10
15
20
25
30
35
40
45
50
55
60
cualquier cromosoma aneuploide, una condicion genetica anomala, una delecion o duplicacion, una probabilidad de una caractenstica, y combinaciones de estas. La caractenstica puede estar asociada con un cromosoma tornado del grupo compuesto por el cromosoma uno, cromosoma dos, cromosoma tres, cromosoma cuatro, cromosoma cinco, cromosoma seis, cromosoma siete, cromosoma ocho, cromosoma nueve, cromosoma diez, cromosoma once, cromosoma doce, cromosoma trece, cromosoma catorce, cromosoma quince, cromosoma dieciseis, cromosoma diecisiete, cromosoma dieciocho, cromosoma diecinueve, cromosoma veinte, cromosoma veintiuno, cromosoma veintidos, cromosoma X o cromosoma Y, y combinaciones de estos.
Ejemplos de metodos de diagnostico prenatal
Los metodos de PCR multiplexada de la presente invencion se pueden utilizar para mejorar los metodos de diagnostico prenatal, como la determinacion del estado de ploidfa de los cromosomas fetales. Dado el gran numero de loci diana que se pueden amplificar simultaneamente, se pueden realizar determinaciones mas precisas.
En una realizacion, la presente divulgacion proporciona metodos ex vivo para determinar el estado de ploidfa en un cromosoma de un feto en gestacion a partir de los datos genotipicos medidos de una muestra mezclada de ADN (es decir, ADN de la madre del feto y ADN del feto) y opcionalmente de los datos genotfpicos medidos de una muestra de material genetico de la madre y posiblemente tambien del padre, donde la determinacion se realiza utilizando un modelo de distribucion conjunto para crear un conjunto de distribuciones de alelos previstas para diferentes estados de ploidfa fetal posibles dados los datos genotipicos parentales, y comparando las distribuciones alelicas previstas con las distribuciones alelicas reales medidas en la muestra mezclada, y seleccionando el estado de ploidfa cuyo patron de distribucion alelica prevista mas se aproxime al patron de distribucion alelica observada. En una realizacion, la muestra mezclada se obtiene de sangre materna, plasma o suero materno. En una realizacion, la muestra mezclada de ADN puede ser enriquecida preferentemente en un loci diana (por ejemplo, una pluralidad de loci polimorficos). En una realizacion, el enriquecimiento preferente se realiza de forma que se minimiza el sesgo alelico. En una realizacion, la presente divulgacion se refiere a una composicion de ADN que ha sido preferentemente enriquecido en una pluralidad de loci de forma que el sesgo alelico es reducido. En una realizacion, la distribucion o distribuciones alelicas se miden secuenciando el ADN de la muestra mezclada. En una realizacion, el modelo de distribucion conjunto asume que los alelos se distribuiran de forma binomial. En una realizacion, la serie de distribuciones alelicas conjuntas previstas se crean para loci geneticamente vinculados, al tiempo que se tienen en cuenta las frecuencias de recombinacion existentes de diversas fuentes, por ejemplo, utilizando datos del International HapMap Consortium.
En una realizacion, la presente divulgacion proporciona metodos para el diagnostico prenatal no invasivo (NPD), en particular determinando el estado de aneuploidfa de un feto mediante la observacion de las mediciones alelicas en una pluralidad de loci polimorficos de los datos genotfpicos medidos en las mezclas de ADN, donde determinadas mediciones alelicas son indicativas de un feto aneuploide, mientras que otras mediciones alelicas son indicativas de un feto euploide. En una realizacion, los datos genotfpicos se miden secuenciando mezclas de ADN obtenidas de plasma materno. En una realizacion, la muestra de ADN puede ser preferiblemente enriquecida con moleculas de ADN que corresponden a la pluralidad de loci cuyas distribuciones alelicas se estan calculando. En una realizacion, una muestra de ADN que comprende solo o practicamente solo material genetico de la madre y posiblemente tambien una muestra de ADN que comprende solo o practicamente solo material genetico del padre se someten a medicion. En una realizacion, las mediciones geneticas de uno o los dos progenitores junto con la fraccion fetal estimada se utilizan para crear una pluralidad de distribuciones alelicas previstas correspondientes a diferentes estados geneticos subyacentes posibles del feto; las distribuciones alelicas previstas se pueden denominar hipotesis. En una realizacion, los datos geneticos maternos no se determinan midiendo el material genetico que pertenece exclusiva o casi exclusivamente a la madre, sino que se estiman a partir de las mediciones geneticas realizadas con el plasma materno que comprende una mezcla de aDn materno y fetal. En algunas realizaciones, las hipotesis pueden comprender la ploidfa del feto en uno o mas cromosomas, donde los segmentos de dichos cromosomas del feto fueron heredados de los progenitores, y combinaciones de estos. En algunas realizaciones, el estado de ploidfa del feto se determina comparando las mediciones alelicas observadas con las diferentes hipotesis, donde al menos algunas de las hipotesis corresponden a diferentes estados de ploidfa, y seleccionando el estado de ploidfa que corresponde a la hipotesis que es mas probable que sea cierta dadas las mediciones alelicas observadas. En una realizacion, este metodo implica el uso de datos de mediciones alelicas de algunos o todos los SNP medidos, con independencia de que los loci sean homocigoticos o heterocigoticos, y por tanto no implica el uso de alelos en loci que son unicamente heterocigoticos. Este metodo puede no resultar apropiado para situaciones en las que los datos geneticos pertenecen solo a un locus polimorfico. Este metodo resulta particularmente ventajoso cuando los datos geneticos comprenden datos para mas de 10 loci polimorficos de un cromosoma diana o mas de 20 loci polimorficos. Este metodo resulta especialmente ventajoso cuando los datos geneticos comprenden datos para mas de 50 loci polimorficos para un cromosoma diana, mas de 100 loci polimorficos o mas de 200 loci polimorficos para un cromosoma diana. En algunas realizaciones, los datos geneticos pueden comprender datos para mas de 500 loci polimorficos de un cromosoma diana, mas de 1000 loci polimorficos, mas de 2000 loci polimorficos o mas de 5000 loci polimorficos para un cromosoma diana.
En una realizacion, un metodo divulgado en el presente documento produce una medicion cuantitativa del numero de observaciones independientes de cada alelo en un locus polimorfico. Esto contrasta con la mayona de los metodos, como la PCR cualitativa o de microarrays, que proporcionan informacion sobre el ratio de dos alelos, pero no cuantifican el numero de observaciones independientes de ninguno de los alelos. Con los metodos que proporcionan informacion cuantitativa sobre el numero de observaciones independientes, en los calculos de la ploidfa solo se utiliza el ratio, mientras que la informacion cuantitativa en sf no resulta util. Para ilustrar la importancia de retener informacion sobre el
5
10
15
20
25
30
35
40
45
50
55
60
numero de observaciones independientes, tendremos en cuenta el locus de la muestra con dos alelos, A y B. En un primer experimento se observan 20 alelos A y 20 alelos B, y en un segundo experimento se observan 200 alelos A y 200 alelos B. En ambos experimented el ratio (A/(A+B)) es igual a 0,5; sin embargo, el segundo experimento proporciona mas informacion que el primero acerca de la certidumbre de la frecuencia del alelo A o B. Algunos metodos de otros implican determinar la media o sumar los ratios de alelos (ratios del canal) (es decir, xi/yi;) del alelo individual y analizar este ratio, o bien comparandolo con un cromosoma de referencia o utilizando una regla que pertenece a como se espera que este ratio se comporte en situaciones concretas. Estos metodos no implican ninguna ponderacion de los alelos y asumen que se puede garantizar aproximadamente la misma cantidad de producto de la PCR para cada alelo y que todos los alelos se debenan comportar del mismo modo. Este metodo presenta una serie de desventajas y, lo que es mas importante, impide el uso de una serie de mejoras que se describen en la presente divulgacion.
En una realizacion, un metodo divulgado en el presente documento establece un modelo explteitamente de las distribuciones de la frecuencia alelica prevista en la disomia, asf como una pluralidad de distribuciones de la frecuencia alelica que se pueden esperar en caso de trisoirna resultante de la ausencia de disyuncion durante la meiosis I, la ausencia de disyuncion durante la meiosis II, y/o la ausencia de disyuncion durante la mitosis temprana en el desarrollo fetal. Para ilustrar por que esto es importante, podemos poner como ejemplo un caso en el que no se produjeron cruces: la ausencia de disyuncion durante la meiosis I resultana en una trisomfa en la que dos homologos diferentes se heredaron de un progenitor; por el contrario, la ausencia de disyuncion durante la meiosis II o durante la mitosis temprana en el desarrollo fetal resultana en dos copias del mismo homologo de un progenitor. Cada escenario dana como resultado unas frecuencias alelicas previstas diferentes en cada locus polimorfico y tambien en todos los loci considerados conjuntamente, debido a la union genetica. Los cruces, que provocan el intercambio de material genetico entre homologos, hacen que el patron de herencia sea mas complejo; en una realizacion, el metodo instantaneo tiene esto en cuenta utilizando informacion sobre la tasa de recombinacion ademas de la distancia ffsica entre loci. En una realizacion, para permitir una distincion mejorada entre la ausencia de disyuncion de la meiosis I y la ausencia de disyuncion de la meiosis II o la ausencia de disyuncion de la mitosis, el metodo instantaneo incorpora en el modelo una probabilidad creciente de cruce dado que la distancia desde el centromero aumenta. La ausencia de disyuncion de la meiosis II y la mitosis se puede distinguir por el hecho de que la ausencia de disyuncion mitotica tfpicamente resulta en copias identicas o practicamente identicas de un homologo, mientras que los dos homologos presentes tras un evento de ausencia de disyuncion de la meiosis II a menudo difieren debido a uno o mas cruces durante la gametogenesis.
En algunas realizaciones, un metodo divulgado en el presente documento implica la comparacion de las mediciones alelicas observadas con las hipotesis teoricas correspondientes a una posible aneuploidfa genetica fetal, y no implica un paso de cuantificacion del ratio de alelos en un locus heterocigotico. Cuando el numero de loci es inferior a unos 20, la determinacion de la ploidfa realizada utilizando un metodo que comprende la cuantificacion de un ratio de alelos en un locus heterocigotoy una determinacion de la ploidfa realizada utilizando un metodo consistente en comparar las mediciones alelicas observadas con las hipotesis de distribucion alelica teoricas correspondientes a posibles estados geneticos fetales pueden dar un resultado similar. Sin embargo, cuando el numero de loci es superior a 50, es probable que estos dos metodos proporcionen resultados muy diferentes; cuando el numero de loci es superior a 400, superior a 1000, o superior a 2000, es muy probable que estos dos metodos den resultados con unas diferencias cada vez mas significativas. Estas diferencias se deben al hecho de que un metodo que comprende la cuantificacion de un ratio de alelos en un locus heterocigotosin medir la magnitud de cada alelo independientemente y agregar o determinar la media de los ratios impide el uso de tecnicas como el uso de un modelo de distribucion conjunto, realizar un analisis de enlaces, utilizar un modelo de distribucion binomial, y/u otras tecnicas estadfsticas avanzadas, mientras que el uso de un metodo que comprende la comparacion de las mediciones alelicas observadas con hipotesis de distribucion alelica teoricas correspondientes a posibles estados geneticos fetales permite utilizar estas tecnicas que pueden aumentar de forma significativa la precision de la determinacion.
En una realizacion, un metodo divulgado en el presente documento implica la determinacion de si la distribucion de mediciones alelicas observadas es indicativa de un feto euploide o aneuploide utilizando un modelo de distribucion conjunto. El uso de un modelo de distribucion conjunto es diferente y representa una mejora significativa respecto de los metodos que determinan las tasas de heterocigosidad tratando los loci polimorficos de forma independiente, y las determinaciones resultantes son significativamente mas precisas. Sin animo de vincularse a ninguna teona concreta, se cree que una razon por la que tienen una mayor precision es que el modelo de distribucion conjunto tiene en cuenta el enlace entre SNP, y la probabilidad de que se hayan producido cruces durante la meiosis que dio lugar a los gametos que formaron el embrion que crecio hasta convertirse en feto. El proposito de utilizar el concepto de enlace a la hora de crear la distribucion prevista de las mediciones alelicas para una o mas hipotesis es que permite la creacion de distribuciones de las mediciones alelicas previstas que se corresponden con la realidad considerablemente mejor que cuando no se utiliza el enlace. Por ejemplo, imaginemos que hay dos SNP, 1 y 2, cercanos entre sf, y la madre es A en el SNP 1 y A en el SNP 2 de un homologo, y B en SN1 y B en SNP 2 del homologo dos. Si el padre es A en los dos SNP de los dos homologos, y se mide una B para el SNP1 del feto, esto indica que el homologo dos ha sido heredado por el feto y, por tanto, tiene muchas mas probabilidades de que B este presente en el feto en SNP 2. Un modelo que tiene en cuenta el enlace prevena esto, mientras que un modelo que no lo tiene en cuenta no.
Alternativamente, si una madre era AB en SNAP 1 y AB en SNP 2 cercano, entonces se podnan utilizar dos hipotesis correspondientes a la trisomfa materna en ese lugar, una que implicana un error en la copia coincidente (ausencia de disyuncion en la meiosis II o mitosis en el desarrollo fetal temprano) y una que implicana un error en la copia no coincidente (ausencia de disyuncion en la meiosis I). En el caso de la trisomfa por error en la copia coincidente, si el feto
5
10
15
20
25
30
35
40
45
50
55
60
heredase AA de la madre en SNP 1, entonces el feto tendna muchas mas posibilidades de heredar AA o BB de la madre en SNP 2, pero no AB. En el caso del error en la copia no coincidente, el feto heredana AB de la madre en los dos SNP. Las hipotesis de distribucion alelica realizadas con un metodo de determinacion del estado de ploidfa que tiene en cuenta el enlace hana estas predicciones y, por tanto, se corresponde con las mediciones alelicas reales en una medida mucho mayor que en el caso de un metodo de determinacion del estado de ploidfa que no tiene en cuenta el enlace. Cabe senalar que el planteamiento del enlace no resulta posible cuando se utiliza un metodo que depende del calculo de los ratios de alelos y en la suma de dichos ratios de alelos.
Una razon por la que se cree que las determinaciones del estado de ploidfa que utilizan un metodo que comprende la comparacion de las mediciones alelicas observadas con las hipotesis teoricas correspondientes a posibles estados geneticos fetales ofrecen una mayor precision es que cuando se utiliza la secuenciacion para medir los alelos este metodo puede averiguar mas informacion, con respecto a otros metodos, de los datos de los alelos cuando el numero total de lecturas es bajo; por ejemplo, un metodo que depende del calculo y la suma de los ratios de alelos producina un ruido estocastico desproporcionadamente ponderado. Por ejemplo, imaginemos un caso que implicase la medicion de los alelos utilizando secuenciacion y en el que hubiese un conjunto de loci en el que solo se detectasen cinco lecturas de secuencias para cada locus. En una realizacion, para cada uno de los alelos, los datos se pueden comparar con las hipotesis de distribucion alelica, y ponderarse en funcion del numero de lecturas de secuencias; por tanto, los datos de estas mediciones senan convenientemente ponderados e incorporados a la determinacion total. Esto contrasta con un metodo que implica la cuantificacion de un ratio de alelos en un locus heterocigotico, dado que este metodo solo podna calcular ratios de 0%, 20%, 40%, 60%, 80% o 100% como ratios de alelos posibles; ninguno de estos puede acercarse a los ratios de alelos previstos. En este ultimo caso, los ratios de alelos calculados tendnan que ser descartados debido a lecturas insuficientes o tendnan una ponderacion desproporcionada e introducinan un ruido estocastico en la determinacion, reduciendo asf su precision. En una realizacion, las mediciones alelicas individuales pueden ser tratadas como mediciones independientes, donde la relacion entre las mediciones realizadas en alelos del mismo locus no es diferente de la relacion entre las mediciones realizadas en alelos de diferentes loci.
En una realizacion, un metodo divulgado en el presente documento implica la determinacion de si la distribucion de las mediciones alelicas observadas es indicativa de un feto euploide o aneuploide sin comparar ninguna metrica con las mediciones alelicas observadas en un cromosoma de referencia que se espera que sea disomico (denominado metodo RC). Esto supone una mejora significativa respecto de otros metodos, como los metodos que utilizan una secuenciacion por fuerza bruta que detectan la aneuploidfa evaluando la proporcion de fragmentos secuenciados aleatoriamente de un cromosoma sospechoso con respecto a uno o mas cromosomas de referencia que se suponen disomicos. Este metodo RC produce resultados incorrectos si el cromosoma de referencia supuestamente disomico no lo es en realidad. Esto puede ocurrir en casos en los que la aneuploidfa es mas sustancial que la trisoirna de un unico cromosoma o cuando el feto es triploide y todos los autosomas son trisomicos. En el caso de un feto triploide femenino (69, XXX) en efecto no existen cromosomas disomicos en absoluto. El metodo descrito en el presente documento no requiere un cromosoma de referencia y podna identificar correctamente cromosomas trisomicos en fetos triploides femeninos. Para cada cromosoma, hipotesis, fraccion del nino y nivel de ruido, se puede adaptar un modelo de distribucion conjunto, sin datos de un cromosoma de referencia, sin una estimacion total de la fraccion del nino y sin una hipotesis de referencia fija.
En una realizacion, un metodo divulgado en el presente documento demuestra como la observacion de distribuciones alelicas en loci polimorficos se puede utilizar para determinar el estado de ploidfa de un feto con una mayor precision que los metodos existentes en la tecnica. En una realizacion, el metodo utiliza la secuenciacion focalizada para obtener genotipos materno-fetales mixtos y opcionalmente genotipos de la madre y/o del padre en una pluralidad de SNP para establecer primero las diversas distribuciones de la frecuencia alelica previstas bajo las diferentes hipotesis y, a continuacion, observar la informacion alelica cuantitativa obtenida sobre la mezcla materno-fetal y evaluar que hipotesis se ajusta mejor a los datos, donde el estado genetico correspondiente a la hipotesis que mas se ajusta a los datos se denomina el estado genetico correcto. En una realizacion, un metodo divulgado en el presente documento tambien utiliza el grado de adecuacion para generar una certeza en que el estado genetico determinado es el estado genetico correcto. En una realizacion, un metodo divulgado en el presente documento implica el uso de algoritmos que analizan la distribucion de alelos encontrados para los loci que tienen distintos contextos parentales y la comparacion de las distribuciones alelicas observadas con las distribuciones alelicas previstas para los diferentes estados de ploidfa para los diferentes contextos parentales (diferentes patrones genotfpicos parentales). Esto difiere y supone una mejora respecto de los metodos que no permiten la estimacion del numero de casos independientes de cada alelo en cada locus en una muestra materno-fetal mezclada. En una realizacion, un metodo divulgado en el presente documento implica la determinacion de si la distribucion de mediciones alelicas observadas es indicativa de un feto euploide o aneuploide utilizando distribuciones alelicas observadas medidas en loci donde la madre es heterocigotica. Esto difiere y supone una mejora respecto de los metodos que no utilizan las distribuciones alelicas observadas en loci donde la madre es heterocigotica porque, en los casos en los que el ADN no es preferentemente enriquecido o es preferentemente enriquecido para loci que se sabe que son altamente informativos para ese individuo diana concreto, permite el uso de aproximadamente el doble de datos de medicion genetica de un conjunto de datos de secuencia en la determinacion de la ploidfa, lo que da como resultado una determinacion mas precisa.
En una realizacion, un metodo divulgado en el presente documento utiliza un modelo de distribucion conjunto que asume que las frecuencias alelicas en cada locus son multinominales (y por tanto binomiales cuando los SNP son bialelicos). En algunas realizaciones el modelo de distribucion conjunto utiliza distribuciones beta-binomiales. Cuando el uso de una tecnica de medicion, como la secuenciacion, proporciona una medida cuantitativa para cada alelo presente
5
10
15
20
25
30
35
40
45
50
55
60
en cada locus, el modelo binomial se puede aplicar a cada locus y se puede averiguar el grado de las frecuencias alelicas subyacentes y la certeza en dicha frecuencia. Con los metodos conocidos en la tecnica que generan determinaciones del estado de ploid^a a partir de ratios de alelos o los metodos en los que la informacion cuantitativa de los alelos es desechada, no es posible averiguar la certidumbre del ratio observado. El metodo instantaneo es diferente y supone una mejora respecto de los metodos que calculan ratios de alelos y suman estos ratios para realizar una determinacion del estado de ploidfa, puesto que cualquier metodo que implica el calculo de un ratio de alelos en un locus determinado y la suma de dichos ratios necesariamente asume que las intensidades o los recuentos medidos que son indicativos de la cantidad de ADN de cualquier alelo o locus concreto se distribuiran de forma gaussiana. El metodo divulgado en el presente documento no implica el calculo de ratios de alelos. En algunas realizaciones, un metodo divulgado en el presente documento puede implicar la incorporacion del numero de observaciones de cada alelo de una pluralidad de loci en un modelo. En algunas realizaciones, un metodo divulgado en el presente documento puede implicar el calculo de las propias distribuciones previstas, permitiendo el uso de un modelo de distribucion binomial conjunto que puede ser mas preciso que cualquier modelo que asuma una distribucion gaussiana de las mediciones alelicas. La probabilidad de que el modelo de distribucion binomial sea significativamente mas preciso que la distribucion gaussiana se incrementa a medida que aumenta el numero de loci. Por ejemplo, cuando se analizan menos de 20 loci, la probabilidad de que el modelo de distribucion binomial sea significativamente mejor es baja. Sin embargo, cuando se utilizan mas de 100, o especialmente mas de 400, o especialmente mas de 1000, o especialmente mas de 2000 loci, el modelo de distribucion binominal tiene una probabilidad muy elevada de ser significativamente mas preciso que el modelo de distribucion gaussiana, lo que resulta en una determinacion del estado de ploidfa mas preciso. La probabilidad de que el modelo de distribucion binomial sea significativamente mas preciso que la distribucion gaussiana tambien se incrementa a medida que aumenta el numero de observaciones en cada locus. Por ejemplo, cuando se observan menos de 10 secuencias distintas en cada locus, la probabilidad de que el modelo de distribucion binomial sea significativamente mejor es baja. Sin embargo, cuando se utilizan mas de 50 lecturas de secuencias, o especialmente mas de 100 lecturas de secuencias, o especialmente mas de 200 lecturas de secuencias, o especialmente mas de 300 lecturas de secuencias, el modelo de distribucion binominal tiene una probabilidad muy elevada de ser significativamente mas preciso que el modelo de distribucion gaussiana, lo que da como resultado una determinacion del estado de ploidfa mas precisa.
En una realizacion, un metodo divulgado en el presente documento utiliza la secuenciacion para medir el numero de casos de cada alelo en cada locus de una muestra de ADN. Cada lectura de secuenciacion se puede correlacionar con un locus concreto y tratarse como una lectura de secuencia binaria; alternativamente, la probabilidad de la identidad de la lectura y/o correlacion se puede incorporar como parte de la lectura de la secuencia, resultando en una lectura de la secuencia probabilfstica que es el numero entero o la fraccion probable de lecturas de la secuencia que se correlaciona con unos determinados loci. Utilizando recuentos binarios o probabilidad de recuentos se puede utilizar una distribucion binomial para cada conjunto de mediciones, lo que permite calcular un intervalo de certeza alrededor del numero de recuentos. Esta capacidad de utilizar la distribucion binomial permite realizar estimaciones de la ploidfa mas precisas y calcular intervalos de certeza mas precisos. Esto difiere y supone una mejora respecto de otros metodos que utilizan intensidades para medir la cantidad de un alelo presente, como, por ejemplo, los metodos que utilizan microarrays o los metodos que realizan mediciones utilizando lectores de fluorescencia para medir la intensidad de
ADN con etiquetas fluorescentes en bandas electroforeticas.
En una realizacion, un metodo divulgado en el presente documento utiliza aspectos del conjunto de datos presentes para determinar parametros para la distribucion de la frecuencia alelica estimada para ese conjunto de datos. Esto supone una mejora respecto a los metodos que utilizan conjuntos de datos de formacion o conjuntos de datos previos para establecer parametros para determinar las distribuciones de la frecuencia alelica prevista presente o los ratios de alelos posiblemente previstos. Esto se debe a que hay diferentes conjuntos de condiciones implicados en la recogida y medicion de cada muestra genetica y, por tanto, un metodo que utiliza datos del conjunto de datos instantaneo para determinar los parametros para el modelo de distribucion conjunto que se utilizara en la determinacion del estado de ploidfa para esa muestra tendera a ser mas preciso.
En una realizacion, un metodo divulgado en el presente documento implica la determinacion de si la distribucion de mediciones alelicas observadas es indicativa de un feto euploide o aneuploide utilizando una tecnica de probabilidad maxima. El uso de la tecnica de la probabilidad maxima es diferente y supone una mejora significativa respecto de los metodos que utilizan la tecnica de rechazo por hipotesis unica en el sentido de que las determinaciones resultantes se realizaran con una precision significativamente mayor. Un motivo de ello es que las tecnicas de rechazo por hipotesis unica establecen umbrales de corte basados en una unica distribucion de la medicion y no en dos, lo que significa que normalmente los umbrales no son optimos. Otra razon es que la tecnica de probabilidad maxima permite la optimizacion del umbral de corte para cada muestra individual en lugar determinar un umbral de corte que se utilizara para todas las muestras con independencia de las caractensticas concretas de cada muestra individual. Otra razon es que el uso de la tecnica de probabilidad maxima permite el calculo de una certeza para cada determinacion del estado de ploidfa. La capacidad para realizar un calculo de certeza para cada determinacion permite a un medico saber que determinaciones resultan precisas y cuales son mas probables que sean erroneas. En algunas realizaciones, se puede combinar una amplia variedad de metodos con una tecnica de estimacion de la probabilidad maxima para mejorar la precision de las determinaciones del estado de ploidfa. En una realizacion, la tecnica de probabilidad maxima se puede utilizar en combinacion con el metodo descrito en la Patente USA 7.888.017. En una realizacion, la tecnica de la probabilidad maxima se puede utilizar en combinacion con el metodo de utilizar la amplificacion por PCR focalizada para amplificar el
5
10
15
20
25
30
35
40
45
50
55
60
ADN en la muestra mezclada seguida por la secuenciacion y el analisis utilizando un metodo de recuento de lecturas como el utilizado por TANDEM DIAGNOSCS, presentado en el Congreso Internacional de Genetica Humana celebrado en Montreal en octubre de 2011. En una realizacion, un metodo divulgado en el presente documento implica la estimacion de la fraccion fetal de ADN en la muestra mezclada y la utilizacion de dicha estimacion para calcular tanto la determinacion del estado de ploid^a como la certeza de la determinacion del estado de ploid^a. Cabe senalar que esto es diferente y distinto de los metodos que utilizan la fraccion fetal estimada como filtro para determinar la fraccion fetal suficiente, seguida de una determinacion del estado de ploidfa realizada utilizando la tecnica de rechazo por hipotesis unica que no tiene en cuenta la fraccion fetal ni produce un calculo de la certeza para la determinacion.
En una realizacion, un metodo divulgado en el presente documento tiene en cuenta la tendencia de los datos a ser ruidosos y a contener errores asignando una probabilidad a cada medicion. El uso de tecnicas de probabilidad maxima para seleccionar la hipotesis correcta del conjunto de hipotesis que se realizaron utilizando los datos de medicion con estimaciones probabilfsticas asignadas hace que sea mas probable que se descuenten las mediciones incorrectas y que se utilicen las mediciones correctas en los calculos que conducen a la determinacion de la ploidfa. Para ser mas precisos, este metodo reduce de forma sistematica la influencia de los datos que son medidos incorrectamente sobre la determinacion del estado de ploidfa. Esto representa una mejora respecto de los metodos en los que se asume que todos los datos son igualmente correctos o de los metodos en los que los datos perifericos son excluidos de forma arbitraria de los calculos que conducen a la determinacion del estado de ploidfa. Los metodos existentes que utilizan mediciones del ratio del canal afirman ampliar el metodo a los SNP multiples estableciendo una media de los ratios del canal de los SNP individuales. El hecho de no ponderar los SNP individuales por la varianza de la medicion prevista basada en la calidad del SNP y en la profundidad observada de la lectura reduce la precision de la estadfstica resultante, lo que provoca una reduccion significativa de la precision de la determinacion del estado de ploidfa, en particular en los casos lfmite.
En una realizacion, un metodo divulgado en el presente documento no presupone el conocimiento de cuales SNP u otros loci polimorficos son heterocigotos en el feto. Este metodo permite realizar una determinacion del estado de ploidfa en los casos en los que no se dispone de informacion genotfpica paterna. Esto supone una mejora respecto de los metodos en los que es necesario conocer cuales de los SNP son heterocigotos de antemano para seleccionar convenientemente los loci diana o para interpretar las mediciones geneticas realizadas sobre la muestra de ADN fetal/materno mezclada.
Los metodos descritos en el presente documento resultan particularmente ventajosos cuando se utilizan con muestras en las que hay una pequena cantidad de ADN disponible o cuando el porcentaje de ADN fetal es bajo. Esto se debe a la correspondiente tasa de perdida de alelos mas elevada que se produce cuando solo hay una pequena cantidad de ADN disponible y/o la correspondiente tasa de perdida de alelos fetales mas elevada que se produce cuando el porcentaje de ADN fetal es bajo en una muestra mezclada de ADN fetal y materno. Una tasa de perdida de alelos elevada, lo que significa que un importante porcentaje de los alelos no se han medido para el individuo diana, resulta en unos calculos de las fracciones fetales poco precisos y en unas determinaciones del estado de ploidfa poco precisas. Dado que los metodos divulgados en el presente documento pueden utilizar un modelo de distribucion conjunto que tiene en cuenta el enlace en los patrones de herencia entre SNP, se pueden realizar determinaciones del estado de ploidfa significativamente mas precisas. Los metodos descritos en el presente documento permiten realizar una determinacion precisa del estado de ploidfa cuando el porcentaje de moleculas de ADN que son fetales en la mezcla es inferior al 40%, inferior al 30%, inferior al 20%, inferior al 10%, inferior al 8% e incluso inferior al 6%.
En una realizacion, resulta posible determinar el estado de ploidfa de un individuo basandose en las mediciones, cuando el ADN de dicho individuo esta mezclado con ADN de un individuo relacionado. En una realizacion, la mezcla de ADN es el ADN flotante libre que se encuentra en el plasma materno, que puede incluir ADN de la madre, con un cariotipo conocido y un genotipo conocido, y que puede estar mezclado con ADN del feto, con cariotipo desconocido y genotipo desconocido. Resulta posible utilizar la informacion genotfpica conocida de uno o los dos progenitores para predecir una pluralidad de potenciales estados geneticos del ADN de la muestra mezclada para diferentes estados de ploidfa, diferentes contribuciones cromosomicas de cada uno de los progenitores al feto y, opcionalmente, diferentes fracciones de ADN fetal en la mezcla. Cada composicion potencial se puede denominar una hipotesis. El estado de ploidfa del feto se puede determinar a continuacion analizando las mediciones reales y determinando que composiciones potenciales resultan mas probables dados los datos observados.
En otra parte de este documento se recoge una exposicion mas detallada de los anteriores puntos.
Diagnostico prenatal no invasivo (NPD)
El proceso de diagnostico prenatal no invasivo implica una serie de pasos. Algunos de los pasos pueden incluir: (1) obtencion de material genetico del feto; (2) enriquecimiento del material genetico del feto que puede estar en una muestra mezclada, ex vivo; (3) amplificacion del material genetico, ex vivo; (4) enriquecimiento preferente de loci espedficos en el material genetico, ex vivo; (5) medicion del material genetico, ex vivo; y (6) analisis de los datos genotfpicos, en un ordenador y ex vivo. Los metodos para reducir la practica de estos seis pasos y otros relevantes se describen en el presente documento. Al menos algunos de los pasos del metodo no se aplican directamente sobre el organismo. En una realizacion, la presente divulgacion se refiere a metodos de tratamiento y diagnostico aplicados al tejido y otros materiales biologicos aislados y separados del organismo. Al menos algunos de los pasos del metodo se ejecutan en un ordenador.
5
10
15
20
25
30
35
40
45
50
55
60
Algunas realizaciones de la presente divulgacion permiten a un medico determinar el estado genetico de un feto que se esta gestando en una madre de forma no invasiva, de modo que la salud del bebe no se pone en peligro por la recogida del material genetico del feto y que la madre no se tiene que someter a un procedimiento invasivo. Por otra parte, en determinados aspectos, la presente divulgacion permite determinar el estado genetico fetal con una elevada precision, una precision significativamente mayor que, por ejemplo, las pruebas basadas en el analito del suero materno no invasivas, como la prueba triple, que se utilizan generalmente en la atencion prenatal.
La alta precision de los metodos divulgados en el presente documento es resultado de un planteamiento informatico para el analisis de los datos del genotipo, tal y como se describe en el presente documento. Los avances tecnologicos recientes han permitido medir grandes cantidades de informacion genetica a partir de una muestra genetica utilizando metodos como la secuenciacion de alto rendimiento y los arrays para la determinacion del genotipo. Los metodos divulgados en el presente documento permiten a un medico sacar mayor partido de las grandes cantidades de datos disponibles y realizar un diagnostico mas preciso del estado genetico fetal. Los detalles de una serie de realizaciones se proporcionan a continuacion. Las diferentes realizaciones pueden implicar diferentes combinaciones de los mencionados pasos. Se pueden utilizar de forma intercambiable diversas combinaciones de las diferentes realizaciones de los distintos pasos.
En una realizacion, se toma una muestra de sangre de una madre embarazada, y el ADN flotante libre en el plasma de la sangre de la madre, que contiene una mezcla de ADN de origen materno y ADN de origen fetal, que es aislado y utilizado para determinar el estado de ploidfa del feto. En una realizacion, un metodo divulgado en el presente documento implica el enriquecimiento preferente de las secuencias de ADN en una mezcla de ADN que corresponden a los alelos polimorficos de forma que los ratios de alelos y/o las distribuciones de alelos se mantienen fundamentalmente constantes tras el enriquecimiento. En una realizacion, un metodo divulgado en el presente documento implica la amplificacion basada en la PCR focalizada de alta eficiencia de forma que un porcentaje muy elevado de las moleculas resultantes corresponden a los loci diana. En una realizacion, un metodo divulgado en el presente documento implica la secuenciacion de una mezcla de ADN que contiene tanto ADN de origen materno como ADN de origen fetal. En una realizacion, un metodo divulgado en el presente documento implica el uso de distribuciones de alelos medidas para determinar el estado de ploidfa de un feto que se esta gestando en una madre. En una realizacion, un metodo divulgado en el presente documento implica la comunicacion del estado de ploidfa determinado a un medico. En una realizacion, un metodo divulgado en el presente documento implica emprender una accion clmica, por ejemplo, realizar pruebas de seguimiento invasivas como una amniocentesis o muestreo de vello corionico, prepararse para el nacimiento de un individuo trisomico o la terminacion electiva de un feto trisomico.
Este aplicacion hace referencia a la Solicitud de patente USA con el numero de serie 11/603.406, presentada el 28 de noviembre de 2006 (Publicacion USA con el numero: 20070184467); La Solicitud de patente USA con el numero de serie 12/076.348, presentada el 17 de marzo de 2008 (Publicacion USA con el numero: 20080243398); Solicitud PCT con el numero de serie PCT/US09/52730, presentada el 4 de agosto de 2009 (Publicacion PCT con el numero: W0/2010/017214); Solicitud PCT con el numero de serie PCT/US10/050824, presentada el 30 de septiembre de 2010 (Publicacion PCT con el numero: W0/2011/041485), Solicitud de patente uSa con el numero de serie 13/110.685, presentada el 18 de mayo de 2011 (Publicacion USA con el numero: 20110288780), y la Solicitud PCT con el numero de serie PCT/12/58578, presentada el 3 de octubre de 2012 (Publicacion PCT con el numero: W0/2013/052557). Parte del vocabulario utilizado en este documento puede tener sus antecedentes en estas referencias. Parte de los conceptos descritos en el presente documento se pueden entender mejor a la luz de los conceptos que se encuentran en estas referencias.
Analisis de sangre materna que contiene ADN fetal flotante libre
Los metodos empleados en el presente documento se pueden utilizar para ayudar a determinar el genotipo de un nino, feto u otro individuo diana cuando el material genetico de la diana se encuentra en presencia de una cantidad de otro material genetico. En algunas realizaciones, el genotipo se puede referir al estado de ploidfa de uno o una pluralidad de cromosomas, se puede referir a uno o una pluralidad de alelos vinculados a una enfermedad o alguna combinacion de estos. En la presente divulgacion, el debate se centra en determinar el estado genetico de un feto cuando el ADN fetal se encuentra en la sangre materna, pero este ejemplo no pretende limitar los posibles contextos en los que se puede aplicar este metodo. Por otra parte, el metodo puede resultar aplicable en casos en los que la cantidad de ADN diana se encuentra en cualquier proporcion con el aDn no diana; por ejemplo, el ADN diana podna representar cualquier proporcion entre el 0,000001 y el 99,999999% del ADN presente. Asimismo, el ADN no diana no tiene por que ser necesariamente de un individuo, o incluso de un individuo relacionado, siempre que los datos geneticos de alguno o todos los individuos no diana relevantes sean conocidos. En una realizacion, un metodo divulgado en el presente documento se puede utilizar para determinar los datos genotfpicos de un feto a partir de la sangre materna que contiene ADN fetal. Tambien se puede utilizar en un caso en el que hay multiples fetos en el utero de una mujer embarazada o cuando pueda haber otro ADN contaminante en la muestra, por ejemplo, de otros hermanos ya nacidos.
Esta tecnica puede hacer uso del fenomeno de las celulas de la sangre fetal consiguiendo acceder a la circulacion materna a traves del vello de la placenta. Normalmente solo un pequeno numero de celulas fetales entra en la circulacion materna de esta forma (no suficiente para producir una prueba de Kleihauer-Betke para la hemorragia fetal- materna). Las celulas fetales se pueden clasificar y analizar a traves de diversas tecnicas para buscar secuencias de ADN concretas, pero sin los riesgos que implican inherentemente los procedimientos invasivos. Esta tecnica tambien puede hacer uso del fenomeno del aDn fetal flotante libre obteniendo acceso a la circulacion materna a traves de la
5
10
15
20
25
30
35
40
45
50
55
60
liberacion de ADN tras la apoptosis de tejido placentario cuando el tejido placentario en cuestion contiene ADN del mismo genotipo que el feto. Se ha demostrado que el ADN flotante libre que se encuentra en el plasma materno contiene ADN fetal en proporciones de hasta el 30-40% de ADN fetal.
En una realizacion, se puede extraer sangre a una mujer embarazada. La investigacion ha demostrado que la sangre materna puede contener una pequena cantidad de ADN flotante libre del feto, ademas de ADN flotante libre de origen materno. Por otra parte, tambien puede haber celulas sangumeas fetales enucleadas que contienen ADN de origen fetal, ademas de multiples celulas sangumeas de origen materno, que tipicamente no contienen ADN nuclear. Existen metodos conocidos en la tecnica para aislar ADN fetal o crear fracciones enriquecidas en ADN fetal. Por ejemplo, se ha demostrado que la cromatograffa crea determinadas fracciones enriquecidas en ADN fetal.
Una vez que se dispone de la muestra de sangre, plasma u otro fluido materno, extrafdo de manera relativamente no invasiva y que contiene una cantidad de ADN fetal, sea celular o flotante libre, enriquecido en su proporcion respecto del ADN materno o en su proporcion original, se puede determinar el genotipo del aDn encontrado en dicha muestra. En algunas realizaciones, la sangre se puede extraer utilizando una aguja para extraer sangre de una vena, por ejemplo, la vena basilica. El metodo descrito en el presente documento se puede utilizar para determinar los datos genotfpicos del feto. Por ejemplo, se pueden utilizar para determinar el estado de ploidfa de uno o mas cromosomas, se pueden utilizar para determinar la identidad de uno o un conjunto de SNP, incluyendo inserciones, deleciones y translocaciones. Se pueden utilizar para determinar uno o mas haplotipos, incluyendo el progenitor de origen de una o mas caractensticas genotfpicas.
Cabe senalar que este metodo funcionara con cualquiera de los acidos nucleicos que se pueden utilizar para cualesquiera metodos de secuenciacion o determinacion del genotipo, como la plataforma ILLUMINA INFINIUM ARRAY, AFFYMETRIX GENECHIP, ILLUMINA GENOME ANALYZER, o LIFE TECHNOLOGIES' SOLID SYSTEM. Este incluye ADN flotante libre extrafdo del plasma o amplificaciones (por ejemplo, amplificacion de todo el genoma, PCR) de este; ADN genomico de otros tipos de celula (por ejemplo, linfocitos humanos de toda la sangre) o amplificaciones de este. Para la preparacion del aDn, tambien funcionara cualquier extraccion o metodo de purificacion que genere ADN genomico adecuado para una de estas plataformas. Este metodo podna funcionar igualmente bien con muestras de ARN. En una realizacion, el almacenamiento de muestras se puede realizar de forma que se minimice la degradacion (por ejemplo, mediante congelacion a unos -20 °C o a una temperatura inferior).
Algunas realizaciones se pueden utilizar en combinacion con el metodo PARENTAL SUPPORT™ (PS), cuyas realizaciones se describen en la Solicitud USA con el numero 11/603.406 (Publicacion USA con el numero: 20070184467), Solicitud USA con el numero 12/076.348 (Publicacion USA con el numero: 20080243398), Solicitud USA 13/110.685 (Publicacion USA con el numero: 20110288780), Solicitud PCT PCT/US09/52730 (Publicacion PCT con el numero: W0/2010/017214), y Solicitud PCT con el numero PCT/US10/050824 (Publicacion PCT con el numero: WO/2011/041485). PARENtAl SUPPORT™ es un planteamiento basado en la informatica que se puede utilizar para analizar datos geneticos. En algunas realizaciones, los metodos divulgados en el presente documento se pueden considerar parte del metodo PARENTAL SUPPORT™. En algunas realizaciones, el metodo PARENTAL SUPPORT ™ es un conjunto de metodos que pueden ser utilizados para determinar los datos geneticos del individuo diana, con alta precision, de una celula o un numero reducido de celulas de ese individuo, o una mezcla de ADN compuesto por ADN del individuo diana y ADN de uno o una pluralidad de otros individuos, espedficamente para determinar alelos vinculados a una enfermedad, otros alelos de interes, y/o el estado de ploidfa de uno o una pluralidad de cromosomas en el individuo diana. PARENTAL SUPPORT™ se puede referir a cualquiera de estos metodos. PARENTAL SUPPORT™ es un ejemplo de metodo basado en la informatica. Ejemplos de realizaciones del metodo PARENTAL SUPPORT™ se muestran en las Figuras 29-31G y se describen en el Experimento 19.
El metodo PARENTAL SUPPORT™ utiliza datos geneticos parentales conocidos, es decir, datos geneticos haplotfpicos y/o diploides de la madre y/o el padre, junto con el conocimiento del mecanismo de la meiosis y la medicion imperfecta del ADN diana, y posiblemente de uno o mas individuos relacionados, junto con frecuencias de cruce basadas en la poblacion, para reconstruir, in silico, el genotipo de una pluralidad de alelos, y/o el estado de ploidfa de un embrion o de cualquier celula o celulas diana, y el ADN diana en la ubicacion de loci clave con un alto grado de certeza. El metodo PARENTAL SUPPORT™ puede reconstruir no solamente polimorfismos de un solo nucleotido (SNP) que se midieron deficientemente, sino tambien inserciones y deleciones, y SNP o regiones completas de ADN que no se midieron en absoluto. Ademas, el metodo PARENTAL SUPPORT™ puede medir multiples loci vinculados a una enfermedad, y tambien realizar un cribado de aneuploidfa, partiendo de una sola celula. En algunas realizaciones, el metodo PARENTAL SUPPORT™ puede ser utilizado para caracterizar una o mas celulas de embriones a los que se ha realizado una biopsia durante un ciclo de IVF para determinar la condicion genetica de la o las celulas.
El metodo PARENTALSUPPORT™ permite limpiar datos geneticos ruidosos. Esto puede hacerse deduciendo los correctos alelos geneticos en el genoma diana (embrion) utilizando el genotipo de individuos relacionados (padres) como referencia. PARENTAL SUPPORT™ puede ser especialmente relevante cuando se dispone solamente de una pequena cantidad de material genetico (por ejemplo, pGd) y donde las mediciones directas de los genotipos son inherentemente ruidosas, debido a las limitadas cantidades de material genetico. PARENTAL SUPPORT™ puede ser especialmente relevante cuando solamente una pequena fraccion del material genetico disponible procede del individuo diana (por ejemplo, NPD) y donde las mediciones directas de los genotipos son inherentemente ruidosas, debido a la senal del aDn contaminante de otro individuo El metodo PARENTAL SUPPORT™ puede reconstruir secuencias de alelos diploides ordenadas con alta precision en el embrion, junto con el numero de copias de segmentos de
5
10
15
20
25
30
35
40
45
50
55
60
cromosomas, aunque las mediciones diploides convencionales no ordenadas pueden caracterizarse por elevadas tasas de perdidas de alelos, inclusiones, sesgos de amplificacion variable y otros errores. El metodo puede emplear un modelo genetico subyacente, y un modelo subyacente de medicion de error. El modelo genetico puede determinar probabilidades de alelos en cada SNP y probabilidades de cruce entre SNP. Las probabilidades de los alelos pueden ser modeladas en cada SNP en base a datos obtenidos de los padres, y modelar probabilidades de cruce entre SNP en base a datos obtenidos de la base de datos HapMap, desarrollada por el International HapMap Project. Con el modelo genetico subyacente y el modelo de error de medicion, puede utilizarse una estimacion maxima a posteriori (MAP), con modificaciones para eficiencia informatica, para calcular los valores de alelos ordenados correctos en cada SNP en el embrion.
En algunos casos las tecnicas anteriormente mencionadas pueden determinar el genotipo de un individuo con una cantidad muy pequena de ADN procedente de ese individuo. Este podna ser ADN de una o de un pequeno numero de celulas o podna proceder de la pequena cantidad de ADN fetal que se encuentra en la sangre materna.
Hipotesis
En el contexto de esta divulgacion, una hipotesis se refiere a un posible estado genetico. Puede referirse a un posible estado de ploidfa. Puede referirse a un posible estado alelico. Un conjunto de hipotesis se puede referir a un conjunto de posibles estados geneticos, un conjunto de posibles estados de ploidfa o combinaciones de estos. En algunas realizaciones, se puede disenar un conjunto de hipotesis de forma que una de las hipotesis del conjunto corresponda al estado genetico real de un individuo determinado. En algunas realizaciones, se puede disenar un conjunto de hipotesis de forma que todo posible estado genetico pueda ser descrito por lo menos por una hipotesis del conjunto. En algunas realizaciones de la presente divulgacion, un aspecto del metodo consiste en determinar que hipotesis corresponde al estado genetico real del individuo en cuestion.
En otra realizacion de la presente divulgacion, un paso incluye la creacion de una hipotesis. En algunas realizaciones puede ser una hipotesis del numero de copias. En algunas realizaciones puede incluir una hipotesis sobre que segmentos de un cromosoma de cada uno de los individuos relacionados corresponde geneticamente a que segmentos, de haberlos, de los otros individuos relacionados. Crear una hipotesis puede referirse al hecho de establecer los lfmites de las variables, de forma que la totalidad del conjunto de posibles estados geneticos que estan siendo considerados esten comprendidos en esas variables.
Una “hipotesis de numero de copias”, denominada tambien una “hipotesis de ploidfa”, o una “hipotesis de estado de ploidfa”, puede referirse a una hipotesis relacionada con un posible estado de ploidfa para un cromosoma determinado, un tipo de cromosoma, o seccion de un cromosoma, en el individuo diana. Puede referirse tambien al estado de ploidfa en mas de uno de los tipos de cromosomas del individuo.
Un conjunto de hipotesis de numero de copias puede referirse a un conjunto de hipotesis donde cada hipotesis corresponde a un posible estado de ploidfa distinto en un individuo. Un conjunto de hipotesis se puede referir a un conjunto de posibles estados de ploidfa, un conjunto de posibles contribuciones de haplotipos parentales, un conjunto de posibles porcentajes de ADN fetal en la muestra mezclada o combinaciones de estos.
Un individuo normal contiene uno de cada tipo de cromosoma de cada progenitor. No obstante, debido a errores en meiosis y mitosis, es posible que un individuo tenga 0, 1,2, o mas de un tipo de cromosoma determinado de cada progenitor. En la practica, es poco frecuente ver mas de dos de un cromosoma determinado de un progenitor. En esta divulgacion, algunas realizaciones solo consideran las hipotesis posibles en las que 0, 1, o 2 copias de un cromosoma determinado proceden de un progenitor; es una extension trivial considerar mas o menos copias posibles procedentes de un progenitor. En algunas realizaciones, para un cromosoma determinado hay nueve posibles hipotesis: las tres hipotesis posibles referentes a 0, 1, o 2 cromosomas de origen materno, multiplicado por las tres hipotesis posibles sobre 0, 1, o 2 cromosomas de origen paterno. Consideremos que (m, f) se refiere a la hipotesis en la que m es el numero de un cromosoma determinado heredado de la madre, y f es el numero de un cromosoma determinado heredado del padre. En consecuencia, las nueve hipotesis son (0,0), (0,1), (0,2), (1,0), (1,1), (1,2), (2,0), (2,1), y (2,2). Estas tambien se pueden escribir como H00, H01, H02, H10, H12, H20, H21, y H22. Las distintas hipotesis corresponden a diferentes estados de ploidfa. Por ejemplo, (1,1) se refiere a un cromosoma disomico normal; (2,1) se refiere a una trisoirna materna, y (0,1) se refiere a una monosoirna paterna. En algunas realizaciones, el caso en el que dos cromosomas son heredados de un progenitor y un cromosoma del otro puede diferenciarse ademas en dos casos: uno en el que los dos cromosomas son identicos (error de copias emparejadas), y uno en el que los dos cromosomas son homologos pero no identicos (error de copias no emparejadas). En estas realizaciones, hay dieciseis hipotesis posibles. Cabe senalar que se pueden utilizar otros conjuntos de hipotesis y un numero diferente de hipotesis.
En algunas realizaciones de la presente divulgacion, la hipotesis de la ploidfa puede referirse a una hipotesis sobre que cromosoma de otros individuos relacionados corresponde a un cromosoma hallado en el genoma del individuo diana. En algunas realizaciones, una clave del metodo es el hecho de que cabe esperar que individuos relacionados compartan bloques haplotfpicos, y utilizando datos geneticos medidos de individuos relacionados, junto con el conocimiento de que bloques haplotfpicos coinciden entre el individuo diana y el individuo relacionado, es posible inferir los datos geneticos correctos de un individuo diana con mayor certeza que utilizando solamente las mediciones geneticas del individuo diana. Como tal, en algunas realizaciones la hipotesis de ploidfa puede referirse no solamente al numero de cromosomas, sino tambien a que cromosomas en individuos relacionados son identicos, o casi identicos, a uno o mas cromosomas del individuo diana.
5
10
15
20
25
30
35
40
45
50
55
60
Una vez se ha definido el conjunto de hipotesis, cuando los algoritmos operan sobre los datos geneticos de entrada, pueden dar como resultado una probabilidad estad^stica determinada para cada una de las hipotesis consideradas. Las probabilidades de las diversas hipotesis pueden determinarse calculando matematicamente, para cada una de las distintas hipotesis, el valor de la probabilidad, como lo indican una o mas de las tecnicas especializadas, los algoritmos, y/o los metodos descritos en otra parte de esta divulgacion, utilizando como entrada los datos geneticos pertinentes.
Una vez calculadas las probabilidades de las distintas hipotesis, como se haya determinado por diversas tecnicas, se pueden combinar. Esto puede implicar multiplicar para cada hipotesis las probabilidades determinadas mediante cada tecnica. El producto de las probabilidades de las hipotesis puede ser normalizado. Hay que advertir que una hipotesis de ploidfa se refiere a un posible estado de ploidfa de un cromosoma.
El proceso de “combinacion de probabilidades”, denominado tambien “hipotesis combinadas”, o combinar los resultados de tecnicas especializadas, es un concepto que debe resultar familiar al experto en la tecnica del algebra lineal. Una posible forma de combinar probabilidades es como sigue: cuando se utiliza una tecnica especializada para evaluar un conjunto de hipotesis en un conjunto determinado de datos geneticos, el resultado del metodo es un conjunto de probabilidades asociadas, de forma uno-a-uno, a cada hipotesis del conjunto de hipotesis. Cuando un conjunto de probabilidades que han sido determinadas por una primera tecnica especializada, cada una de las cuales esta asociada a una de las hipotesis del conjunto, se combina con un conjunto de probabilidades determinadas por una segunda tecnica especializada, cada una de las cuales va asociada con el mismo conjunto de hipotesis, los dos conjuntos de probabilidades se multiplican. Esto significa que, para cada hipotesis del conjunto, las dos probabilidades asociadas a esa hipotesis, determinada por los dos metodos especializados, se multiplican juntas, y el producto correspondiente es el resultado de probabilidades. Este proceso puede ampliarse a cualquier numero de tecnicas especializadas. Si se utiliza solamente una tecnica especializada, las probabilidades de salida son las mismas que las de entrada. Si se utilizan mas de dos tecnicas especializadas, las probabilidades pertinentes pueden multiplicarse al mismo tiempo. Los productos pueden normalizarse de forma que las probabilidades de las hipotesis en el conjunto de hipotesis sumen 100%.
En algunas realizaciones, si las probabilidades combinadas de una hipotesis determinada son mayores que las probabilidades combinadas de cualquiera de las otras hipotesis, puede considerarse que esa hipotesis se determina como la mas probable. En algunas realizaciones, se puede determinar una hipotesis como la mas probable, y el estado de ploidfa, u otro estado genetico puede ser determinado si la probabilidad normalizada es superior a un umbral. En una realizacion, esto puede significar que el numero y la identidad de los cromosomas asociados a esa hipotesis pueden ser determinados como el estado de ploidfa. En una realizacion, esto puede significar que la identidad de los alelos que estan asociados a esa hipotesis puede ser determinada como el estado alelico. En algunas realizaciones el umbral puede situarse entre el 50% y aproximadamente el 80%. En algunas realizaciones el umbral puede situarse entre el 80% y aproximadamente el 90%. En algunas realizaciones el umbral puede situarse entre el 90% y aproximadamente el 95%. En algunas realizaciones el umbral puede situarse entre el 95% y aproximadamente el 99%. En algunas realizaciones el umbral puede situarse entre el 99% y aproximadamente el 99,9%. En algunas realizaciones el umbral puede situarse por encima de aproximadamente el 99,9%.
Contextos parentales
El contexto parental se refiere al estado genetico de un alelo determinado, en cada uno de los dos cromosomas relevantes para cada uno de los dos progenitores de la diana. Hay que advertir que en una realizacion, el contexto parental no se refiere al estado alelico de la diana, sino al estado alelico de los padres. El contexto parental de un SNP determinado puede consistir en cuatro pares de bases, dos paternos y dos maternos; pueden ser iguales o distintos entre sf. Esto viene expresado tfpicamente como “min2|fif2” donde ml y m2 son el estado genetico del SNP concreto en los dos cromosomas maternos, y fi y f2 son el estado genetico de dicho SNP en los dos cromosomas paternos 25. En algunas realizaciones, el contexto parental puede venir expresado como “fif2|mim2.” Hay que senalar que los submdices “1” y “2” se refieren al genotipo, en ese alelo determinado, del primer y el segundo cromosoma; vease tambien que la eleccion de que cromosoma se etiqueta como “1” y cual como “2” es arbitraria.
Hay que senalar que, en esta divulgacion, Ay B se utilizan frecuentemente para representar de forma generica identidades de pares de bases; A o B podnan representar igualmente bien a C (citosina), G (guanina), A (adenina) o T (timina). Por ejemplo, si en un alelo basado en SNP determinado, el genotipo materno fue T en ese SNP de un cromosoma, y G en ese SNP del cromosoma homologo, y el genotipo paterno en ese alelo es G en ese SNP en ambos cromosomas homologos, se podna decir que el alelo del individuo diana tiene el contexto parental de AB|BB; tambien se podna decir que el alelo tiene el contexto parental de AB|AA. Tenga en cuenta que, en teona, cualquiera de los cuatro nucleotidos posibles podna darse en un alelo determinado, y asf es posible, por ejemplo, que la madre tenga un genotipo de AT, y el padre tenga un genotipo de GC en un alelo determinado. No obstante, datos empmcos indican que en la mayona de los casos solo dos de los cuatro posibles pares de bases se observan en un alelo determinado. Resulta posible, por ejemplo, cuando se utilizan repeticiones en tandem unicas, tener mas de dos, mas de cuatro e incluso mas de diez contextos parentales. En esta divulgacion, en la discusion se supone que se observaran solamente dos posibles pares de bases en un alelo determinado, aunque las realizaciones divulgadas en el presente documento se podnan modificar para tener en cuenta los casos en los que este supuesto no se sostiene.
Un “contexto parental” puede referirse a un conjunto o subconjunto de SNP diana que tienen el mismo contexto parental. Por ejemplo, si hubiera que medir 1000 alelos en un cromosoma determinado en un individuo diana, el contexto AA|BB podna referirse al conjunto de todos los alelos en el grupo de 1000 alelos donde el genotipo de la
5
10
15
20
25
30
35
40
45
50
55
60
madre de la diana era homocigoto, y el genotipo del padre de la diana es homocigoto, pero donde el genotipo materno y el genotipo paterno son distintos en ese locus. Si los datos parentales no estan por fases, y por tanto AB = BA, hay nueve contextos parentales posibles: AA|AA, AA|AB, AA|BB, AB|AA, AB|AB, AB|BB, BB|AA, BB|AB, y BB|BB. Si los datos parentales estan ajustados por fases, y por tanto AB t BA, hay dieciseis posibles contextos parentales distintos: AA|AA, AA|AB, AA|BA, AA|BB, AB|AA, AB|AB, AB|BA, AB|BB, BA|AA, BA|AB, BA|BA, BA|BB, BB|AA, BB|AB, BB|BA, y BB|BB. Cada alelo SNP de un cromosoma, excluyendo algunos SNP en los cromosomas sexuales, tiene uno de esos contextos parentales. El conjunto de SNP donde el contexto parental en un progenitor es heterocigoto puede ser denominado el contexto heterocigoto.
Uso de los contextos parentales en NPD
El diagnostico prenatal no invasivo es una tecnica importante que se puede utilizar para determinar el estado genetico de un feto a partir del material genetico que se obtiene de manera no invasiva, por ejemplo, de la sangre extrafda a la madre embarazada. La sangre se podna separar y el plasma aislarse, para despues aislar el ADN del plasma. La seleccion del tamano se podna utilizar para aislar el ADN de la longitud apropiada. El ADN se puede enriquecer preferentemente en un conjunto de loci. Este ADN se puede entonces medir a traves de varios medios, como mediante hibridacion con un array para la determinacion del genotipo y midiendo la fluorescencia o secuenciacion en un secuenciador de alto rendimiento.
Cuando se utiliza la secuenciacion para determinar el estado de ploidfa de un feto en el contexto del diagnostico prenatal no invasivo, existen varias formas de utilizar los datos de la secuencia. La forma mas habitual en que se podnan utilizar los datos de la secuencia consiste simplemente en contar el numero de lecturas que corresponden a un determinado cromosoma. Por ejemplo, imagine que esta intentando determinar el estado de ploidfa del cromosoma 21 del feto. Imagine tambien que el aDn de la muestra se compone de un 10% de ADN de origen fetal y un 90% de ADN de origen materno. En este caso, se podna analizar el numero medio de lecturas en un cromosoma que cabe esperar que sea disomico, por ejemplo, el cromosoma 3, y compararlo con el numero de lecturas del cromosoma 21, donde las lecturas se ajustan para el numero de pares de bases de ese cromosoma que forman parte de una secuencia unica. Si el feto fuese euploide, cabna esperar que la cantidad de ADN por unidad de genoma fuese aproximadamente la misma en todas las ubicaciones (con sujecion a variaciones estocasticas). Por otra parte, si el feto fuese trisomico en el cromosoma 21, entonces cabna esperar que hubiese algo mas de ADN por unidad genetica del cromosoma 21 que en las demas ubicaciones del genoma.
Espedficamente cabna esperar que hubiese aproximadamente un 5% mas de ADN del cromosoma 21 en la mezcla. Cuando se utiliza la secuenciacion para medir el ADN, cabna esperar aproximadamente un 5% mas de lecturas unicamente susceptibles de correlacion con el cromosoma 21 por segmento unico que de los otros cromosomas. Se podna utilizar la observacion de una cantidad de ADN de un cromosoma concreto que supere un determinado umbral, cuando esta ajustada para el numero de secuencias que son unicamente susceptibles de correlacion con ese cromosoma, como base para el diagnostico de la aneuploidfa. Otro metodo que se podna utilizar para detectar la aneuploidfa es similar al anterior, salvo por el hecho de que se podnan tener en cuenta los contextos parentales.
A la hora de plantearse los alelos a focalizar, se podna considerar la probabilidad de que algunos contextos parentales ofrezcan mas informacion que otros. Por ejemplo, AA|BB y el contexto simetrico BB|AA son los contextos mas informativos, porque se sabe que el feto lleva un alelo que es diferente de la madre. Por razones de simetna, tanto los contextos AA|BB como BB|AA se pueden denominar Aa|BB. Otro conjunto de contextos parentales informativos son AA|AB y BB|AB, porque en estos casos el feto tiene un 50% de posibilidades de llevar un alelo que la madre no tiene. Por razones de simetna, tanto los contextos AA|AB como BB|aB se pueden denominar AA|AB. Un tercer conjunto de contextos parentales informativos son AB|AA y AB|BB, porque en estos casos el feto lleva un alelo paterno conocido, y el alelo tambien se encuentra presente en el genoma materno. Por razones de simetna, tanto los contextos AB|AA como AB|BB se pueden denominar AB|AA. Un cuarto contexto parental es AB|AB cuando el feto tiene un estado alelico desconocido y, con independencia del estado alelico, es uno en el que la madre tiene los mismos alelos. El quinto contexto parental es AA|Aa donde la madre y el padre son heterocigotos
Diferentes implementaciones de las realizaciones divulgadas en el presente documento
En el presente documento se divulgan metodos para determinar el estado de ploidfa de un individuo diana. El individuo diana puede ser un blastomero, un embrion o un feto. En algunas realizaciones de la presente divulgacion, un metodo para determinar el estado de ploidfa de uno o mas cromosomas en un individuo diana puede incluir cualquiera de los pasos descritos en este documento y combinaciones de estos.
En algunas realizaciones, la fuente del material genetico que se va a utilizar para determinar el estado genetico del feto puede ser celulas fetales, como globulos rojos fetales nucleados, aislados de la sangre materna. El metodo puede implicar la obtencion de una muestra de sangre de la madre embarazada. El metodo puede implicar el aislamiento de un globulo rojo fetal utilizando tecnicas visuales, basadas en la idea de que una determinada combinacion de colores esta exclusivamente asociada con un globulo rojo nucleado, y una combinacion de colores similar no esta asociada a ninguna otra celula presente en la sangre materna. La combinacion de colores asociada con los globulos rojos nucleados puede incluir el color rojo de la hemoglobina alrededor del nucleo, color que se puede diferenciar mediante tenido, y el color del material nuclear que puede ser tenido, por ejemplo, de azul. Al aislar las celulas de la sangre materna y extenderlas sobre un portaobjetos para despues identificar aquellos puntos en los que se aprecia tanto el rojo (de la hemoglobina) como el azul (del material nuclear), resulta posible identificar la ubicacion de los globulos rojos
5
10
15
20
25
30
35
40
45
50
55
60
nucleados. A continuacion, se pueden extraer estos globulos rojos nucleados utilizando un micromanipulador, utilizando tecnicas de determinacion del genotipo y/o secuenciacion para medir aspectos del genotipo del material genetico que contienen esas celulas.
En una realizacion, se pueden tenir los globulos rojos nucleados con un tinte que solo emite fluorescencia en presencia de hemoglobina fetal y no de hemoglobina materna, para de este modo eliminar la ambiguedad entre los globulos rojos nucleados obtenidos de la madre o del feto. Algunas realizaciones de la presente divulgacion pueden implicar el tenido u otro tipo de marcado del material nuclear. Algunas realizaciones de la presente divulgacion pueden implicar espedficamente el marcado del material nuclear fetal utilizando anticuerpos espedficos para las celulas fetales.
Hay muchas otras maneras de aislar las celulas fetales de la sangre materna o el ADN fetal de la sangre materna, o de enriquecer muestras de material genetico fetal en presencia de material genetico materno. Algunos de los metodos se recogen aqrn, aunque no se debera considerar una lista exhaustiva. Algunas tecnicas apropiadas se enumeran aqrn por conveniencia: uso de anticuerpos etiquetados con fluorescencia u otro marcado, cromatograffa de exclusion por tamano, etiquetas de afinidad etiquetadas magneticamente o de otro modo, diferencias epigeneticas, como metilacion diferencial entre las celulas maternas y fetales en alelos espedficos, centrifugacion en gradiente de densidad seguida por reduccion de CD45/14 y seleccion CD71-positiva de las celulas CD45/14 negativas, gradientes de Percoll sencillos o dobles con diferentes osmolaridades, o metodo de lectina espedfico de galactosa.
En una realizacion de la presente divulgacion, el individuo diana es un feto y las diferentes mediciones del genotipo se realizan en una pluralidad de muestras de ADN del feto. En algunas realizaciones de la presente divulgacion, las muestras de ADN fetal proceden de celulas fetales aisladas donde las celulas fetales pueden estar mezcladas con celulas maternas. En algunas realizaciones de la presente divulgacion, las muestras de ADN fetal proceden de ADN fetal flotante libre, donde el ADN fetal puede estar mezclado con ADN materno flotante libre. En algunas realizaciones, las muestras de ADN fetal se pueden obtener de plasma materno o sangre materna que contiene una mezcla de ADN materno y ADN fetal. En algunas realizaciones, el ADN fetal puede estar mezclado con ADN materno en ratios materno:fetales que oscilan entre 99,9:0,1% a 99:1%; 99:1% a 90:10%; 90:10% a 80:20%; 80:20% a 70:30%; 70:30% a 50:50%; 50:50% a 10:90%; o 10:90% a 1:99%; 1:99% a 0,1:99,9%.
Los datos geneticos del individuo diana y/o del individuo relacionado se pueden transformar de un estado molecular a un estado electronico, midiendo el material genetico adecuado utilizando herramientas o tecnicas seleccionadas de un grupo, incluyendo, entre otras, microarrays para la determinacion del genotipo y secuenciacion de alto rendimiento. Algunos metodos de secuenciacion de alto rendimiento incluyen la secuenciacion de ADN de Sanger, la pirosecuenciacion, la plataforma ILLUMINA SOLEXA, GENOME ANALYZER de ILLUMINA, o la plataforma de secuenciacion 454 de APPLIED BIOSYSTEM, la plataforma TRUE SINGLE MOLECULE SEQUENCING de HELICOS, el metodo de secuenciacion por microscopio de electrones de HALCYON MOLECULAR, o cualquier otro metodo de secuenciacion. Todos estos metodos transforman ffsicamente los datos geneticos almacenados en una muestra de ADN en un conjunto de datos geneticos que se almacenan tfpicamente en un dispositivo de memoria que va a ser procesado.
Los datos geneticos de un individuo relevante se pueden medir analizando sustancias tomadas de un grupo, incluyendo, entre otras: el tejido diploide bruto del individuo, una o mas celulas diploides del individuo, una o mas celulas haploides del individuo, uno o mas blastomeros del individuo diana, material genetico extracelular encontrado en el individuo, material genetico extracelular del individuo encontrado en la sangre materna, celulas del individuo encontradas en la sangre materna, uno o mas embriones creados de un gameto o gametos del individuo relacionado, uno o mas blastomeros tomados de este embrion, material genetico extracelular encontrado en el individuo relacionado, material genetico que se sabe que procede del individuo relacionado y combinaciones de estos.
En algunas realizaciones, se puede crear un conjunto de al menos una hipotesis del estado de ploidfa para cada uno de los tipos de cromosomas de interes del individuo diana. Cada una de las hipotesis del estado de ploidfa se puede referir a un posible estado de ploidfa del cromosoma o segmento del cromosoma del individuo diana. El conjunto de hipotesis puede incluir algunos o todos los posibles estados de ploidfa que cabe esperar que presente el cromosoma del individuo diana. Algunos de los posibles estados de ploidfa pueden incluir nulisomfa, monosoirna, disomfa, disomfa uniparental, euploidfa, trisomfa, trisomfa emparejada, trisomfa no emparejada, trisomfa materna, trisomfa paterna, tetrasomfa, tetrasomfa equilibrada (2:2), tetrasomfa no equilibrada (3:1), pentasomfa, hexasomfa, otra aneuploidfa y combinaciones de estas. Cualquiera de estos estados de aneuploidfa puede ser una aneuploidfa mixta o parcial, como translocaciones no equilibradas, translocaciones equilibradas, translocaciones robertsonianas, recombinaciones, deleciones, inserciones, cruces y combinaciones de estas.
En algunas realizaciones, el conocimiento del estado de ploidfa determinado se puede utilizar para tomar una decision clmica. Este conocimiento, tfpicamente almacenado como una disposicion ffsica de la materia en un dispositivo de memoria, se puede transformar despues en un informe. Posteriormente se puede actuar en funcion de este informe. Por ejemplo, la decision clmica puede ser poner fin al embarazo; alternativamente, la decision clmica puede ser continuar el embarazo. En algunas realizaciones, la decision clmica puede implicar una intervencion disenada para reducir la gravedad de la presentacion fenotfpica de un trastorno genetico, o la decision de emprender las acciones pertinentes para prepararse para un nino con necesidades especiales.
En una realizacion de la presente divulgacion, cualquiera de los metodos descritos en el presente documento se puede modificar para permitir que multiples dianas procedan del mismo individuo diana, por ejemplo, multiples extracciones de sangre de la misma mujer embarazada. Esto puede mejorar la precision del modelo, dado que multiples mediciones
5
10
15
20
25
30
35
40
45
50
55
60
geneticas pueden proporcionar mas datos con los que se puede determinar el genotipo diana. En una realizacion, un conjunto de datos geneticos diana se proporcionan como datos primarios de un informe y los demas se proporcionan como datos para una doble comprobacion de los datos geneticos primarios. En una realizacion, una pluralidad de conjuntos de datos geneticos, cada uno de ellos medidos del material genetico tornado del individuo diana, se consideran en paralelo, y asf ambos conjuntos de datos geneticos diana contribuyen a determinar que secciones de los datos geneticos parentales, medidos con una alta precision, componen el genoma fetal.
En una realizacion, el metodo se puede utilizar para realizar las pruebas de paternidad. Por ejemplo, dada la informacion genotfpica basada en el SNP de la madre y de un hombre que puede ser o no el padre genetico, y la informacion genotfpica medida de la muestra mezclada, se puede determinar si la informacion genotfpica del hombre representa de hecho la del padre genetico real del feto en gestacion. Una forma sencilla de hacerlo consiste simplemente en analizar los contextos donde la madre es AA y el posible padre es AB o BB. En estos casos, cabe esperar que la contribucion del padre sea la mitad (AA|AB) o la totalidad (AA|Bb) del tiempo, respectivamente. Teniendo en cuenta la ADO prevista, resulta sencillo determinar si los SNP fetales observados estan correlacionados o no con los del posible padre.
Una realizacion de la presente divulgacion podna ser como sigue: una mujer embarazada quiere saber si su feto esta afectado por el smdrome de Down y/o si sufrira fibrosis qrnstica, y no desea tener un hijo que este afectado por ninguna de estas condiciones. Un doctor le extrae sangre y tine la hemoglobina con un marcador de forma que aparezca claramente roja y tine el material nuclear con otro marcador para que aparezca claramente azul. Sabiendoque los
globulos rojos maternos son tfpicamente anucleares, mientras que una elevada proporcion de celulas fetales contienen un nucleo, el medico puede aislar visualmente una serie de globulos rojos nucleados identificando las celulas que presentan tanto el color rojo como el azul. El medico recoge estas celulas del portaobjetos con un micromanipulador y las envfa a un laboratorio que amplifica y determina los genotipos de diez celulas individuales. Utilizando las mediciones geneticas, el metodo PARENTAL SUPPORT™ es capaz de determinar que seis de las celulas son celulas sangumeas maternas y cuatro de las diez celulas son celulas fetales. Si una mujer embarazada ya ha tenido un hijo, PARENTAL SUPPORT™ se puede utilizar tambien para determinar que las celulas fetales son distintas de las celulas del nino nacido marcando las determinaciones de alelos fiables en las celulas fetales y mostrando que son distintas de las del nino nacido. Cabe senalar que el concepto de este metodo es similar al de la realizacion de la prueba de paternidad de la presente divulgacion. Los datos geneticos medidos de las celulas fetales pueden tener muy mala calidad, al comprender muchas perdidas de alelos, debido a la dificultad de determinar el genotipo de celulas unicas. El medico es capaz de utilizar el aDn fetal medido junto con las mediciones de ADN fiables de los progenitores para deducir aspectos del genoma del feto con una alta precision utilizando PARENTAL SUPPORT™, transformando asf los datos geneticos contenidos en el material genetico del feto en el estado genetico previsto del feto, almacenado en un ordenador. El medico es capaz de determinar tanto el estado de ploidfa del feto como la presencia o ausencia de una pluralidad de genes asociados con la enfermedad de interes. Resulta que el feto es euploide y no es portador de la fibrosis qrnstica y la madre decide continuar el embarazo.
En una realizacion de la presente divulgacion, a una mujer embarazada le gustana determinar si su feto esta afectado por alguna anomalfa del cromosoma completo. Acude al medico y le extrae una muestra de sangre, y se toman muestras a ella y su marido de su propio ADN con hisopos bucales. Un investigador del laboratorio determina los genotipos del ADN parental utilizando el protocolo MDA para amplificar el ADN parental y arrays ILLUMINA INFINIUM para medir los datos geneticos de los progenitores en un gran numero de SNP. A continuacion, el investigador centrifuga la sangre, recoge el plasma y afsla una muestra de ADN flotante libre utilizando la cromatograffa de exclusion por tamano. Alternativamente, el investigador utiliza uno o mas anticuerpos fluorescentes, como uno que es espedfico para la hemoglobina fetal, para aislar un globulo rojo fetal nucleado. A continuacion, el investigador toma el material genetico fetal aislado o enriquecido y lo amplifica utilizando una biblioteca de oligonucleotidos de 70-mer convenientemente disenada de forma que dos extremos de cada oligonucleotido se correspondan con las secuencias que flanquean cualquier lado de un alelo diana. Tras la adicion de una polimerasa, ligasa y los reactivos adecuados, los oliglonucleotidos se sometieron a circularizacion con llenado de huecos, capturando el alelo deseado. Se anadio una exonucleasa, inactivada por calor, y los productos se utilizaron directamente como plantilla para la amplificacion por PCR. Los productos de la PCR se secuenciaron en un ILLUMINA GENOME ANALYZER. Las lecturas de secuencia se utilizaron como datos de entrada para el metodo PARENTAL SUPPORT™, que posteriormente predijo el estado de ploidfa del feto.
En otra realizacion, una pareja, en la que la madre que esta embarazada tiene una edad materna avanzada, quiere saber si el feto en gestacion padece smdrome de Down, smdrome de Turner, smdrome de Prader Willi o alguna otra anomalfa del cromosoma completo. El obstetra toma una muestra de sangre a la madre y al padre. La sangre se envfa a un laboratorio, donde un tecnico centrifuga la muestra materna para aislar el plasma y la capa leucocitaria. El ADN de la capa leucocitaria y la muestra de sangre paterna se transforman mediante amplificacion y los datos geneticos codificados en el material genetico amplificado se transforman tambien a partir de los datos geneticos molecularmente almacenados en datos geneticos electronicamente almacenados procesando el material genetico en un secuenciador de alto rendimiento para medir los genotipos parentales. La muestra de plasma es enriquecida preferentemente en un conjunto de loci utilizando un metodo de PCR focalizada hemi-anidada de 5000-plex. La mezcla de fragmentos de ADN se prepara creando una biblioteca de ADN adecuada para la secuenciacion. A continuacion, se secuencia el ADN utilizando un metodo de secuenciacion de alto rendimiento, por ejemplo, el ILLUMINA GAIIx GENOMA ANALYZER. La secuenciacion transforma la informacion que esta codificada molecularmente en el ADN en informacion que esta
5
10
15
20
25
30
35
40
45
50
55
60
codificada electronicamente en un software informatico. Se puede utilizar una tecnica basada en la informatica que incluye las realizaciones divulgadas en el presente documento, como PARENTAL SUPPORT™, para determinar el estado de ploid^a del feto. Esto puede implicar el calculo, en un ordenador, de probabilidades del recuento de alelos en la pluralidad de loci polimorficos de las mediciones de ADN realizadas en la muestra preparada; la creacion, en un ordenador, de una pluralidad de hipotesis de ploidfa pertenecientes cada una de ellas a un posible estado de ploidfa diferente del cromosoma; la creacion en un ordenador, de un modelo de distribucion conjunto para los recuentos de alelos previstos en la pluralidad de loci polimorficos del cromosoma para cada una de las hipotesis de ploidfa; la determinacion, en un ordenador, de una probabilidad relativa de cada una de las hipotesis de ploidfa utilizando el modelo de distribucion conjunto y los recuentos de alelos medidos en la muestra preparada; y la determinacion del estado de ploidfa del feto seleccionando el estado de ploidfa correspondiente a la hipotesis con la probabilidad mas elevada. Se determina que el feto tiene smdrome de Down. Se imprime un informe o se envfa por medios electronicos al obstetra, que transmite el diagnostico a la mujer. La mujer, su marido y el medico se sientan a hablar sobre sus opciones. La pareja decide poner fin al embarazo basandose en el conocimiento de que el feto esta afectado por una condicion trisomica.
En una realizacion, una empresa puede decidir ofrecer una tecnologfa de diagnostico disenada para detectar la aneuploidfa en un feto en gestacion a partir de la extraccion de una muestra de sangre materna. Su producto puede implicar que una madre visite a su obstetra, que puede extraerle una muestra de sangre. El obstetra tambien puede recoger una muestra genetica del padre del feto. Un medico puede aislar el plasma de la sangre materna y purificar el ADN del plasma. Un medico tambien puede aislar la capa leucocitaria de la sangre materna y preparar el ADN de la capa leucocitaria. Un medico tambien puede preparar ADN de la muestra genetica paterna. El medico puede utilizar tecnicas de biologfa molecular descritas en la presente divulgacion para unir etiquetas de amplificacion universales al ADN obtenido de la muestra de plasma. El especialista clmico puede amplificar el ADN etiquetado universalmente. El medico puede enriquecer de forma preferente el ADN a traves de diversas tecnicas incluyendo la captura mediante hibridacion y PCR focalizada. La PCR focalizada puede implicar un planteamiento de animado, hemi-anidado o semi- anidado, o cualquier otro planteamiento para conseguir un enriquecimiento eficiente del ADN derivado del plasma. La PCR focalizada puede ser masivamente multiplexada, por ejemplo, con 10.000 cebadores en un volumen de reaccion, donde los cebadores van dirigidos a los SNP de los cromosomas 13, 18, 21, X y aquellos loci que son comunes tanto para X como para Y, y opcionalmente tambien para otros cromosomas. El enriquecimiento selectivo y/o la amplificacion pueden implicar el etiquetado de cada molecula individual con diferentes etiquetas, codigos de barras moleculares, etiquetas para la amplificacion y/o etiquetas para la secuenciacion. A continuacion, el medico puede secuenciar la muestra de plasma y tambien posiblemente el ADN materno y/o paterno preparado. Los pasos de biologfa molecular se pueden ejecutar parcial o totalmente en un cuadro de diagnostico. Los datos de la secuencia se pueden introducir en un unico ordenador u otro tipo de plataforma informatica, como las que se pueden encontrar en "la nube". La plataforma informatica puede calcular recuentos de alelos en los loci polimorficos focalizados de las mediciones realizadas por el secuenciador. La plataforma informatica puede crear una pluralidad de hipotesis de ploidfa correspondientes a la nulisoirna, monosomfa, disoirna, trisornfa emparejada, y trisoirna no emparejada para cada uno de los cromosomas 13, 18, 21, X e Y. La plataforma informatica puede crear un modelo de distribucion conjunto para los recuentos de alelos previstos en los loci focalizados del cromosoma para cada una de las hipotesis de ploidfa para cada uno de los cinco cromosomas que se van a interrogar. La plataforma informatica puede determinar una probabilidad de que cada una de las hipotesis de ploidfa sea cierta utilizando el modelo de distribucion conjunto y los recuentos de alelos medidas en el ADN enriquecido preferentemente derivado de la muestra de plasma. La plataforma informatica puede determinar el estado de ploidfa del feto, para cada uno de los cromosomas 13, 18, 21, X e Y, seleccionando el estado de ploidfa correspondiente a la hipotesis relevante con la probabilidad mas alta. Se puede generar un informe que comprende los estados de ploidfa determinados, que puede ser enviado al obstetra por medios electronicos, desplegado en un dispositivo de salida o se puede imprimir una copia en papel del informe que se puede entregar al obstetra. El obstetra puede informar a la paciente y, opcionalmente, al padre del feto, y ambos pueden decidir de que opciones clmicas disponen, y cual es la mas aconsejable.
En otra realizacion, una mujer embarazada, en adelante denominada "la madre" puede decidir que desea saber si su feto o fetos llevan o no alguna anomalfa genetica u otras condiciones. Es posible que ella quiera asegurarse de que no hay anomalfas importantes antes de decidir si quiere continuar con el embarazo. La madre puede acudir a su obstetra para que le tome una muestra de sangre. Tambien puede tomar una muestra genetica, por ejemplo, con un hisopo bucal, de la mejilla. Es posible que tambien quiera tomar una muestra genetica del padre del feto, por ejemplo, con un hisopo bucal, una muestra de esperma o una muestra de sangre. El obstetra puede enviar las muestras a un medico. El medico puede enriquecer la fraccion de ADN fetal flotante libre de la muestra de sangre materna. El medico puede enriquecer la fraccion de celulas sangumeas fetales enucleadas que contiene la muestra de sangre materna. El medico puede utilizar diversos aspectos de los metodos descritos en el presente documento para determinar los datos geneticos del feto. Esos datos geneticos pueden incluir el estado de ploidfa del feto y/o la identidad de una o una serie de alelos relacionados con enfermedades en el feto. Se puede generar un informe resumiendo los resultados del diagnostico prenatal. El informe puede ser transmitido o enviado por correo al doctor, que podra informar a la madre del estado genetico del feto. La madre podra decidir interrumpir el embarazo basandose en el hecho de que el feto presente una o mas anomalfas cromosomicas o geneticas, o condiciones no deseables. Tambien puede decidir continuar el embarazo basandose en el hecho de que el feto no presenta ninguna anomalfa cromosomica o genetica grave, ni condiciones geneticas de interes.
5
10
15
20
25
30
35
40
45
50
55
60
Otro ejemplo puede implicar una mujer embarazada que se ha sometido a una inseminacion artificial con esperma de un donante. Quiere minimizar el riesgo de que el feto tenga una enfermedad genetica. Se va a extraer sangre a un flebotomista y las tecnicas descritas en la presente divulgacion se utilizan para aislar tres globulos rojos fetales nucleados, y tambien se toma una muestra de tejido de la madre y del padre genetico. El material genetico del feto y de la madre y el padre se amplifican segun sea necesario y se determina el genotipo utilizando ILLUMINA INFINIUM BEADARRAY, y los metodos descritos en el presente documento limpian y determinan la fase del genotipo parental y fetal con una elevada precision, ademas de determinar el estado de ploidfa del feto. Se descubre que el feto es euploide y las susceptibilidades fenoffpicas se predicen a partir del genotipo fetal reconstruido, y se genera un informe que es enviado al medico de la madre para que puedan decidir cual es la mejor decision clmica.
En una realizacion, el material genetico bruto de la madre y del padre se transforma a traves de la amplificacion en una cantidad de ADN que tiene una secuencia similar pero en una cantidad mayor. A continuacion, a traves de un metodo de determinacion del genotipo, los datos genoffpicos codificados por los acidos nucleicos se transforman en mediciones geneticas que pueden ser almacenadas ffsica y/o electronicamente en un dispositivo de memoria, como los que se han descrito anteriormente. Los algoritmos relevantes que componen el algoritmo de PARENTAL SUPPORT™, cuyas partes relevantes se exponen detalladamente en el presente documento, se trasladan a un programa informatico utilizando un lenguaje de programacion. A continuacion, ejecutando el programa informatico en el hardware informatico, en lugar de ser bits y bytes ffsicamente codificados, dispuestos en un patron que representa datos de medicion en bruto, se transforman en un patron que representa una determinacion de alta certeza del estado de ploidfa del feto. Los detalles de esta transformacion se basaran en los propios datos y en el lenguaje informatico y el sistema de hardware utilizados para ejecutar el metodo descrito en el presente documento. A continuacion, los datos que estan ffsicamente configurados para representar una determinacion del estado de ploidfa de alta calidad del feto se transforman en un informe que se puede enviar a un profesional sanitario. Esta transformacion se puede realizar utilizando una impresora o una pantalla de ordenador. El informe puede ser una copia impresa, en papel u otro medio adecuado, o en soporte electronico. En el caso de un informe en soporte electronico, se puede transmitir, se puede almacenar ffsicamente en un dispositivo de memoria en una ubicacion del ordenador a la que puede acceder el profesional sanitario; o tambien se puede mostrar en una pantalla para que se pueda leer. En caso de que se muestre en una pantalla, los datos se pueden transformar en un formato legible causando la transformacion ffsica de los pfxeles en el dispositivo de visualizacion. La transformacion se puede realizar activando ffsicamente los electrones en una pantalla fosforescente, alterando una carga electrica que cambia ffsicamente la transparencia de un conjunto espedfico de pfxeles sobre una pantalla que puede encontrarse frente a un sustrato que emite o absorbe fotones. Esta transformacion se puede realizar cambiando la orientacion a nanoescala de las moleculas en un cristal lfquido, por ejemplo, de una fase nematica a colesterica o esmectica, a un conjunto espedfico de pfxeles. Esta transformacion se puede conseguir mediante una corriente electrica que provoca que los fotones se emitan desde un conjunto espedfico de pfxeles producidos a partir de una pluralidad de diodos emisores de luz dispuestos en un patron significativo. Esta transformacion se puede conseguir a traves de cualquier otra forma utilizada para mostrar informacion, como la pantalla de un ordenador o algun otro dispositivo de salida o manera de transmitir informacion. A continuacion, el profesional sanitario puede actuar en funcion del informe, de forma que los datos del informe se transforman en una accion. La accion puede ser continuar o interrumpir el embarazo, en cuyo caso un feto en gestacion con una anomalfa genetica se transformara en un feto no vivo. Las transformaciones enumeradas en el presente documento se pueden agregar, de forma que, por ejemplo, se puede transformar el material genetico de una madre embarazada y el padre, a traves de una serie de pasos descritos en esta divulgacion, en una decision medica consistente en abordar el feto con anomalfas geneticas o continuar el embarazo. Alternativamente, se puede transformar un conjunto de mediciones genoffpicas en un informe que ayuda a un medico a tratar a esta paciente embarazada.
En una realizacion de la presente divulgacion, el metodo descrito en el presente documento se puede utilizar para determinar el estado de ploidfa de un feto incluso cuando la madre hospedadora, es decir, la mujer que esta embarazada, no es la madre biologica del feto que lleva. En una realizacion de la presente divulgacion, el metodo descrito en el presente documento se puede utilizar para determinar el estado de ploidfa de un feto que utiliza unicamente la muestra de sangre materna, y sin necesidad de una muestra genetica paterna.
Parte de las matematicas de las realizaciones de la presente realizacion generan las hipotesis relativas a un numero limitado de estados de aneuploidfa. En algunos casos, por ejemplo, se espera que solo cero, uno o dos cromosomas procedan de cada progenitor. En algunas realizaciones de la presente divulgacion, las derivaciones matematicas se pueden ampliar para tener en cuenta otras formas de aneuploidfa, como la cuatrisoirna, donde tres cromosomas proceden de un progenitor, la pentasomfa, la hexasomfa, etc., sin variar los conceptos fundamentales de la presente divulgacion. Al mismo tiempo, es posible centrarse en un numero mas reducido de estados de ploidfa, por ejemplo, solo trisornfa y disomfa. Cabe senalar que las determinaciones del estado de ploidfa que indican un numero no entero de cromosomas pueden indicar moisaicismo en una muestra de material genetico.
En algunas realizaciones, la anomalfa genetica es un tipo de aneuploidfa, como el smdrome de Down (o trisomfa 21), el smdrome de Edwards (trisomfa 18), el smdrome de Patau (trisomfa 13), el smdrome de Turner (45X), el smdrome de Klinefelter (un hombre con 2 cromosomas X), el smdrome de Prader-Willi y el smdrome de DiGeorge (UPD15). Por lo general, los trastornos congenitos, como los enumerados en la frase anterior, suelen ser indeseados, y el conocimiento de que un feto esta afectado por una o mas anomalfas fenoffpicas puede proporcionar la base para la decision de poner fin a un embarazo, para tomar las precauciones necesarias para prepararse para el nacimiento de un nino con
5
10
15
20
25
30
35
40
45
50
55
60
necesidades especiales, o para adoptar algun planteamiento terapeutico orientado a aliviar la gravedad de una anomaKa cromosomica.
En algunas realizaciones, los metodos descritos en el presente documento se pueden utilizar en una edad gestacional muy temprana, por ejemplo, tan solo a las cuatro semanas, tan solo a las cinco semanas, tan solo a las seis semanas, tan solo a las siete semanas, tan solo a las ocho semanas, tan solo a las nueve semanas, tan solo a las diez semanas, tan solo a las once semanas y tan solo a las doce semanas.
En algunas realizaciones, se utiliza un metodo divulgado en el presente documento en el contexto del diagnostico genetico previo a la implantacion (PGD) para la seleccion del embrion durante la fertilizacion in vitro, donde el individuo diana es un embrion, y los datos genotfpicos parentales se pueden utilizar para realizar determinaciones del estado de ploidfa sobre el embrion a partir de los datos de secuenciacion de una biopsia de una o dos celulas de un embrion de tres dfas o una biopsia del trofectodermo de un embrion de cinco o seis dfas. En el contexto del PGD, solamente se mide el ADN del nino y solamente se somete a ensayo una pequena cantidad de celulas, por lo general entre una y cinco, aunque pueden ser hasta diez, veinte o cincuenta. A continuacion, se determina el numero total de copias de inicio de los alelos A y B (en el SNP) de forma trivial a traves del genotipo del nino y del numero de celulas. En el NPD, el numero de copias de inicio es muy elevado y por tanto se espera que el ratio de alelos tras la PCR refleje de forma precisa el ratio de partida. Sin embargo, el reducido numero de copias de inicio en el PGD hace que la contaminacion y la escasa eficiencia de la PCR tengan un efecto no trivial sobre el ratio de alelos tras la PCR. Este efecto puede ser mas importante que la profundidad de la lectura en la prediccion de la varianza en el ratio de alelos medido tras la secuenciacion. La distribucion del ratio de alelos medido dado un genotipo conocido del nino se puede crear mediante simulacion de Monte Carlo del proceso de PCR basandose en la eficiencia de la sonda de la PCR y en la probabilidad de contaminacion. Dada una distribucion del ratio de alelos para cada posible genotipo del nino, la probabilidad de diversas hipotesis se puede calculartal y como se describe para el NIPD.
Calculos de la probabilidad maxima
La mayona de los metodos conocidos en la tecnica para detectar la presencia o ausencia de fenomenos biologicos o condiciones medicas implican el uso de una prueba de rechazo de una unica hipotesis, donde se mide un parametro que esta correlacionado con la condicion, y si el parametro se encuentra a un lado de un determinado umbral, la condicion esta presente, mientras que si se encuentra al otro lado del umbral esta ausente. Una prueba de rechazo de una unica hipotesis solo analiza la distribucion nula al decidir entre las hipotesis nulas y alternativas. Sin tener en cuenta la distribucion alternativa, no se puede estimar la probabilidad de cada hipotesis dados los datos observados y, por tanto, no se puede calcular la certeza de la determinacion. Por tanto, con una prueba de rechazo de una unica hipotesis, se obtiene una respuesta positiva o negativa sin una indicacion de la certeza asociada al caso espedfico.
En algunas realizaciones, el metodo divulgado en el presente documento puede detectar la presencia o ausencia de fenomenos biologicos o condiciones medicas utilizando un metodo de probabilidad maxima. Esto supone una mejora sustancial con respecto a un metodo que utiliza una tecnica de rechazo de una unica hipotesis, dado que el umbral para determinar la ausencia o presencia de la condicion se puede ajustar segun corresponda a cada caso. Esto es particularmente relevante para las tecnicas de diagnostico que pretenden determinar la presencia o ausencia de aneuploidfa en un feto en gestacion con los datos geneticos disponibles de la mezcla del ADN fetal y materno presente en el ADN flotante libre que se encuentra en el plasma materno. Esto se debe a que cuando cambia la fraccion de ADN fetal de la fraccion obtenida del plasma, vana el umbral optimo para determinar la aneuploidfa frente a la euploidfa. Cuando cae la fraccion fetal, la distribucion de los datos asociados con una aneuploidfa es cada vez mas similar a la distribucion de los datos asociados a la euploidfa.
El metodo de la estimacion de la probabilidad maxima utiliza las distribuciones asociadas con cada hipotesis para estimar la probabilidad de los datos condicionados de cada hipotesis. Estas probabilidades condicionales se pueden convertir en la determinacion de una hipotesis y de la certeza. Del mismo modo, un metodo de estimacion maxima a posteriori utiliza las mismas probabilidades condicionales que la estimacion de la probabilidad maxima, pero tambien incorpora datos previos de la poblacion a la hora de elegir la mejor hipotesis y determinar la certeza.
Por tanto, el uso de una tecnica de estimacion de la probabilidad maxima (MLE), o la tecnica estrechamente relacionada de la maxima a posteriori (MAP) ofrece dos ventajas: la primera que aumenta la probabilidad de una determinacion correcta y la segunda que tambien permite un calculo de la certeza para cada determinacion. En una realizacion, la seleccion del estado de ploidfa correspondiente a la hipotesis con la probabilidad mas elevada se realiza utilizando estimaciones de probabilidad maxima o estimaciones de la maxima a posteriori. En una realizacion, se divulga un metodo para determinar el estado de ploidfa de un feto en gestacion que implica la utilizacion de cualquier metodo actualmente conocido en la tecnica que utiliza una tecnica de rechazo de una unica hipotesis y la reformulacion de dicho metodo para que utilice una tecnica de MLE o MAP. Algunos ejemplos de los metodos que se pueden mejorar de forma significativa aplicando estas tecnicas se pueden encontrar en la Patente USA 8.008.018, la Patente USA 7.888.017 o la Patente USA 7.332.277.
En una realizacion, se describe un metodo para determinar la presencia o ausencia de aneuploidfa fetal en una muestra de plasma materno que comprende ADN genomico fetal y materno, donde el metodo consiste en lo siguiente: obtener una muestra de plasma materno; medir los fragmentos de ADN que se encuentran en la muestra de plasma con un secuenciador de alto rendimiento; correlacionar las secuencias con el cromosoma y determinar el numero de lecturas de secuencia que corresponden a cada cromosoma; calcular la fraccion de ADN fetal en la muestra de plasma; calcular
una distribucion prevista de la cantidad de un cromosoma diana que cabna esperar que estuviese presente si el segundo cromosoma diana fuese euploide y uno o una pluralidad de distribuciones previstas que cabna esperar si ese cromosoma fuese aneuploide, utilizando la fraccion fetal y el numero de lecturas de secuencia que corresponden a una o una pluralidad de cromosomas de referencia que se espera que sean euploides; y utilizando una MLE o MAP para 5 determinar cuales de las distribuciones es mas probable que sean correctas, indicando asf la presencia o ausencia de aneuploidfa fetal. En una realizacion, la medicion de ADN del plasma puede implicar la realizacion de una secuenciacion por fuerza bruta masivamente paralela. En una realizacion, la medicion del ADN de la muestra de plasma puede implicar la secuenciacion de ADH que se ha enriquecido preferentemente, por ejemplo, mediante amplificacion focalizada, en una pluralidad de loci polimorficos o no polimorficos. La pluralidad de loci puede estar disenada para focalizar uno o un 10 pequeno numero de cromosomas que se sospecha que son aneuploides y uno o un pequeno numero de cromosomas de referencia. El proposito del enriquecimiento preferente consiste en aumentar el numero de lecturas de secuencia que son informativas para la determinacion de la ploid^a.
Metodos informaticos para la determinacion de la ploidia
En el presente documento se describe un metodo para determinar el estado de ploidia de un feto en funcion de los 15 datos de secuencia. En algunas realizaciones, los datos de esta secuencia se pueden medir en un secuenciador de alto rendimiento. En algunas realizaciones, los datos de la secuencia se pueden medir en ADN procedentes del ADN flotante libre aislado de la sangre materna, donde el ADN flotante libre comprende ADN de origen materno y ADN de origen fetal/placentario. Esta seccion describira una realizacion de la presente divulgacion en la que el estado de ploidia del feto se determina asumiendo que la fraccion de ADN fetal de la mezcla que ha sido analizada se desconoce y se 20 calculara a partir de los datos. Tambien se describira una realizacion en la que la fraccion de ADN fetal ("fraccion fetal") o el porcentaje de ADN fetal de la mezcla se puede medir mediante otro metodo y se asume que es conocida para determinar el estado de ploidia del feto. En algunas realizaciones, la fraccion fetal se puede calcular utilizando solo mediciones del genotipo realizadas con la muestra de la sangre materna, que es una mezcla de ADN fetal y materno. En algunas realizaciones, la fraccion se puede calcular utilizando tambien el genotipo medido o conocido de otro modo 25 de la madre y/o el genotipo medido o conocido de otro modo del padre. En otra realizacion, el estado de ploidia del feto se puede determinar basandose exclusivamente en la fraccion calculada de ADN fetal para el cromosoma en cuestion en comparacion con la fraccion calculada de ADN fetal para el cromosoma de referencia que se considera disomico.
En la realizacion preferible, se supone que, para un cromosoma concreto, observamos y analizamos N SNP, para los que tenemos:
30- Un conjunto de NR mediciones de la secuencia de ADN flotante libre S=(s1,..., .,SNR). Dado que este metodo utiliza las
mediciones de SNP, todos los datos de la secuencia que corresponden a loci no polimorficos se pueden ignorar. En una version simplificada, donde tenemos recuentos (A,B) en cada SNP, donde Ay B corresponden a los dos alelos presentes en un determinado locus, S se puede escribir como S=((a1 ,b1.,(aN, bN), donde a; es el recuento de A en el
£ <«t+ bi} = NR
SNP i, bi es el recuento de B en el SNP I, y :=i=ar 35- Los datos parentales se componen de
- Genotipos de un microarray de SNP u otra plataforma de determinacion del genotipo basada en la intensidad: madre M=(m1,...,mN) padre F=(f1,...,Fn), donde mi, fi, e (AA,AB, BB).
- Y/O mediciones de los datos de la secuencia: NRM mediciones de la madre SM=(sm1,...,smnrm), NRF mediciones del padre SF=(sf1,...,sfnf). De forma similar a la simplificacion anterior, si tenemos recuentos (A,B) de cada SNP
40 SM=((am1,bm1),...,(amN, bmN)), SF=((af1,bf1) .,f bfN))
Colectivamente, los datos de la madre, del padre y del nino se denotan como D = (M,F,SM,SF,S). Cabe senalar que los datos parentales son deseables y aumentan la precision del algoritmo, aunque NO son necesarios, en especial los datos del padre. Esto significa que incluso en ausencia de datos de la madre y/o el padre, es posible obtener resultados muy precisos del numero de copias.
45 Se puede obtener la mejor estimacion del numero de copias (H*) maximizando la probabilidad del logaritmo de datos LIK(D|H) con respecto a todas las hipotesis (H) consideradas. En particular, se puede determinar la probabilidad relativa de cada una de las hipotesis de ploidfa utilizando el modelo de distribucion conjunto y los recuentos de alelos medidos en la muestra preparada, y utilizando esas probabilidades relativas determinar la hipotesis que es mas probable que sea correcta del modo siguiente:
H* = argmaxLIK(D|H)
H
50 De forma similar, la probabilidad de las hipotesis a posteriori en funcion de los datos se pueden escribir como sigue:
H* = argmaxLIK(D|H) * priorprob(H)
H
Donde priorprob(H) es la probabilidad previa asignada a cada hipotesis H, basada en el diseno del modelo y en el conocimiento previo.
Tambien se pueden utilizar datos previos para hallar la estimacion de la maxima a posteriori:
5
10
15
20
25
30
35
40
Hma = argmaxLIK(D\H)
En una realizacion, las hipotesis del numero de copias que se pueden considerar son:
• Monosomna:
-materna H10 (una copia de la madre)
-paterna H01 (una copia del padre)
• Disomfa: H11 (una copia de la madre y una copia del padre)
• Trisoirna simple (sin considerar los cruces):
-Materna: H21_matched (dos copias identicas de la madre, una copia del padre), H21_unmatched (AMBAS copias de la madre, una copia del padre)
-Paterna: H12_matched (una copia de la madre, dos copias identicas del padre), H12_unmatched (una copia de la madre, ambas copias del padre)
• Trisomfa compuesta, permitiendo cruces (utilizando un modelo de distribucion conjunto):
-materna H21 (dos copias de la madre, una del padre),
-paterna HI12 (una copia de la madre, dos copias del padre)
En otras realizaciones, se pueden considerar otros estados de ploidfa, como la nulisomfa (H00), disomfa uniparental (H20 y H02), y tetrasomfa (H04, H13, H22, H31 y H40).
Si no hay cruces, cada trisomfa, con independencia de que el origen haya sido la mitosis, meiosis I o meiosis II, sena una de las trisomfas emparejadas o no emparejadas. Debido a los cruces, la verdadera trisomfa suele ser una combinacion de ambas. En primer lugar, se describe un metodo para obtener probabilidades de hipotesis para las hipotesis simples. A continuacion, se describe un metodo para obtener probabilidades de hipotesis para las hipotesis compuestas, que combinan la probabilidad individual del SNP con los cruces.
LIK(D\H) para una hipotesis simple
En una realizacion, se puede determinar LIK(D|H) para las hipotesis simples del modo siguiente: Para las hipotesis simples H, LIK(H), la probabilidad logantmica de la hipotesis H en un cromosoma completo, se puede calcular como la suma de las probabilidades logantmicas de los SNP individuales, asumiendo la fraccion cf conocida o derivada del nino. En una realizacion se puede obtener cf a partir de los datos.
LIK(D|H) = ^LIK(D\H,cf,i)
i
Esta hipotesis no sume ningun enlace entre los SNP y, por tanto, no utiliza un modelo de distribucion conjunto.
En algunas realizaciones, la probabilidad logantmica se puede determinar para cada SNP. En un SNP i concreto, asumiendo la hipotesis de ploidfa fetal H y un porcentaje de ADN fetal cf, la probabilidad logantmica de los datos observados D se define como:
donde m son posibles genotipos verdaderos de la madre, f son posibles genotipos verdaderos del padre, donde m,f e {AA,AB,BB}, y donde c son posibles genotipos del nino dada la hipotesis H. En concreto, para la monosomna c e {A, B}, para la disomfa c e{AA,AB,BB}, para la trisornfa c e {AAA, AAB, aBb, BBB},
Frecuencia previa del genotipo: p(m|i) es la probabilidad previa general del genotipo de la madre m en el SNP i, basandose en la frecuencia de la poblacion conocida en SNP I, denotada como pAi. En concreto
p(AA\pA{) = (pAt)2, p(AB\pAi) = 2(pAi) * (1 - pAt), p(BB\pAt) = (1 - pAt)2
La probabilidad del genotipo del padre, p(f|i), se puede determinar de forma analoga.
Probabilidad verdadera del nino: p(c\m,f,H) es la probabilidad de obtener el genotipo verdadero del nino = c, dados los progenitores m, f, y asumiendo la hipotesis H, que se puede calcular facilmente. Por ejemplo, para H11, H21 emparejado y H21 no emparejado, p(c|m,f,H) se proporciona a continuacion.
imagen1
5
10
15
20
25
30
H11
H21 emparejado
m
f AA AB BB AAA AAB ABB BBB AAA AAB ABB BBB
AA
AA
1 0 0 1 0 0 0 1 0 0 0
AB
AA 0.5 0.5 0 0.5 0 0.5 0 0 1 0 0
BB
AA 0 1 0 0 0 1 0 0 0 1 0
AA
AB 0.5 0.5 0 0.5 0.5 0 0 0.5 0.5 0 0
AB
AB
0.25 0.5 0.25 0.25 0.25 0.25 0.25 0 0.5 0.5 0
BB
AB 0 0.5 0.5 0 0 0.5 0.5 0 0 0.5 0.5
AA
BB 0 1 0 0 1 0 0 0 1 0 0
AB
BB 0 0.5 0.5 0 0.5 0 0.5 0 0 1 0
BB
BB
0 0 1 0 0 0 1 0 0 0 1
H21 no emparejado
Probabilidad de los datos: P (D|m, f, c, H,i, cf) es la probabilidad de los datos dados D en el SNP i, dado el genotipo verdadero de la madre m, el genotipo verdadero del padre f, el genotipo verdadero del nino c, la hipotesis H y la fraccion del nino cf. Se pueden dividir en los datos de probabilidad de la madre, del padre y del nino como sigue:
P(D|m, f, c, H, cf, i) = P(SM| m, i)P(M|m, i)P(SF|f, i) P(F|f, i)P(S| m, c, H, cf, i)
Probabilidad de los datos del array del SNP de la madre: La probabilidad de los datos m del genotipo del array del SNP de la madre en SNP i en comparacion con el genotipo verdadero m, asumiendo que los genotipos del array de SNP son correctos, es simplemente
P(M|m,i)
1 mj = m
0 mj ^ m
Probabilidad de los datos de la secuencia de la madre: la probabilidad de los datos de la secuencia de la madre en SNP i, en el caso de los recuentos Si=(ami,bmi), sin ningun ruido o sesgo adicional implicado, es la probabilidad binomial definida como P(SM|m,i)=Px|m(ami) donde X|m~Binom(pm(A), ami+bmi) con pm(A) se define como
m
AA AB BB A B Sin determinar
P(A)
1 0,5 0 1 0 0,5
Probabilidad de los datos del padre: una ecuacion similar se aplica a la probabilidad de los datos del padre. Cabe senalar que se puede determinar el genotipo del hijo sin los datos parentales, especialmente los datos del padre. Por ejemplo, si no se dispone de los datos del genotipo del padre F, se puede utilizar simplemente P(F|f,i) = 1. Si no se dispone de los datos de la secuencia del padre SF, se puede utilizar simplemente P(SF|f,i)=1.
En algunas realizaciones, el metodo implica la elaboracion de un modelo de distribucion conjunto para los recuentos de alelos previstos en una pluralidad de loci polimorficos del cromosoma para cada una de las hipotesis de ploidfa; en el presente documento se describe un metodo para ello. Probabilidad de los datos del ADN fetal libre: P(S|m, c, H, cf, i) es la probabilidad de los datos de la secuencia de ADN fetal libre en SNP i, dado el genotipo verdadero de la madre m, el genotipo verdadero del hijo c, la hipotesis del numero de copias del hijo H, y asumiendo una fraccion del hijo cf. De hecho, se trata de la probabilidad de los datos de la secuencia S en SNP I, dada la probabilidad verdadera de contenido A en SNP i p (m, c, cf, H)
P(S|m,c, H,cf,i) = P(S|n(m,c, cf,H),i)
Para los recuentos, donde Si=(ai,bi), sin ningun ruido ni sesgo adicional de los datos,
P(S|^(m,c,cf,H),i) = Px(aO
donde X~Binom(p(A), ai+bi) con p(A)= p(m, c, cf, H). En un caso mas complejo donde la alineacion exacta y los recuentos (A,B) por SNP se desconocen, P(S|p(m, c, cf, H), i) es una combinacion de binomios integrados.
Probabilidad verdadera de contenido A: p(m, c, cf, H), la probabilidad verdadera de contenido A en SNP i de esta mezcla madre/hijo, asumiendo el genotipo verdadero de la madre = m, el genotipo verdadero del nino = c, y la fraccion del nino total = cf, se define como
n(m, c, cf, H)
#A(m) * (1 — cf) + #A(c) * cf nm * (1 - cf) +nc*cf
donde #A(g) = numero de A en el genotipo g, nm = 2 es la somfa de la madre y nc es la ploidfa del hijo bajo la hipotesis H (1 para monosoirna, 2 para disomfa, 3 para trisoirna).
5
10
15
20
25
30
35
40
45
Utilizacion de un modelo de distribucion conjunto: LIK(D\H) para una hipotesis compuesta
En algunas realizaciones, el metodo implica la elaboracion de un modelo de distribucion conjunto para los recuentos de alelos previstos en una pluralidad de loci polimorficos del cromosoma para cada una de las hipotesis de ploidfa; en el presente documento se describe un metodo para ello. En muchos casos, habitualmente la trisoirna no esta puramente emparejada o no emparejada, debido a los cruces, por lo que en esta seccion se obtienen los resultados de las hipotesis compuestas H21 (trisomna materna) y H12 (trisomfa paterna), que combinan la trisomfa emparejada y no emparejada, teniendo en cuenta posibles cruces.
En el caso de la trisomfa, si no hubiese cruces, la trisomfa sena simplemente una trisomna emparejada o no emparejada. La trisomfa emparejada es cuando el nino hereda dos copias del segmento del cromosoma identico de uno de los progenitores. La trisomfa no emparejada es cuando el nino hereda una copia de cada segmento del cromosoma homologo del progenitor. Debido a los cruces, algunos segmentos de un cromosoma pueden tener trisomfa emparejada y otras partes presentar una trisomfa no emparejada.
En esta seccion se describe como elaborar un modelo de distribucion conjunto para los indices de heterocigosidad de un conjunto de alelos; es decir, para los recuentos de alelos previstos en una serie de loci para una o mas hipotesis.
Suponiendo que SNP i, LIK(D|Hm,i) corresponde a la hipotesis Hm emparejada, y LIK(D|Hu,i) corresponde a la hipotesis Hu no emparejada, y pc(i) = probabilidad de cruce entre SNPs i-1 andi. A continuacion, se puede calcular la probabilidad completa como:
LIK(D|H) = ^ LIK(D|E, 1: N)
E
donde LIK(D|E,1:N) es la probabilidad de acabar en la hipotesis E, para SNP 1:N. E = hipotesis del ultimo SNP, E e (Hm, Hu). Repetidamente, se puede calcular:
LIK(D|E, 1: i) = LIK(D|E,i) + log (exp(LIK(D|E, 1: i - 1)) * (l - pc(i)) + exp (LIK(D|~E, 1: i-1)) * pc(i))
donde ~E es la hipotesis distinta de E (no E), donde las hipotesis consideradas son Hm y Hu. En particular, se puede calcular la probabilidad de l:i SNPs, basandose en la probabilidad de 1 a (i-1) SNP con la misma hipotesis y ningun cruce, o la hipotesis opuesta y un cruce, multiplicada por la probabilidad del SNP i
Para SNP 1 = i1 (aqu falta un sfmbolo o formula que aparece en el pdf original)
Para SNP 2, i=2, y asf sucesivamente para i=3:N.
LIK(D|E, 1: 2) = LIK(D|E,2) + log (exp(LIK(D|E, 1)) * (1 - pc(2)) + exp (LIK(D|~E, 1)) * pc(2)),
En algunas realizaciones, se puede determinar la fraccion del nino. La fraccion del nino se puede referir a la proporcion de secuencias en una mezcla de ADN procedente del nino. En el contexto del diagnostico prenatal no invasivo, la fraccion del nino se puede referir a la proporcion de secuencias del plasma materno que proceden del feto o la proporcion de la placenta con genotipo fetal. Se puede referir a la fraccion del nino en una muestra de ADN que se ha preparado con plasma materno y que puede ser enriquecida en ADN fetal. Un proposito de la determinacion de la fraccion del nino en la muestra de ADN es el uso de un algoritmo que puede realizar determinaciones del estado de ploidfa del feto. Por tanto, la fraccion del nino se podna referir a cualquier muestra de ADN analizada por secuenciacion con el fin de realizar un diagnostico prenatal no invasivo.
Algunos de los algoritmos presentados en esta divulgacion que forman parte de un diagnostico de aneuploidfa prenatal no invasivo asumen una fraccion del nino conocida, que no siempre es el caso. En una realizacion, se puede hallar la fraccion del nino mas probable maximizando la probabilidad para la disomfa en cromosomas seleccionados, con o sin la presencia de los datos parentales.
En concreto, suponiendo que LIK(D| H11, cf, chr) = probabilidad logantmica descrita anteriormente, para las hipotesis de disomfa, y para la fraccion del nino cf en el cromosoma chr. Para cromosomas seleccionados en Cset (normalmente 1:16), que se supone que son euploides, la probabilidad completa es:
LIK(cf) = V Lik(D| H11,cf,chr)
^^chrGCset
La fraccion del nino mas probable se obtiene como cf* = argmax^ LIK(cf).
Se puede utilizar cualquier conjunto de cromosomas. Tambien se puede obtener la fraccion del nino sin asumir la eupioidfa de los cromosomas de referencia. Utilizando este metodo, se puede determinar la fraccion del nino para cualquiera de las situaciones siguientes: (1) se dispone de datos del array de los progenitores y datos de la secuenciacion por fuerza bruta del plasma materno; (2) se dispone de datos del array de los progenitores y datos de la secuenciacion focalizada del plasma materno; (3) se dispone de datos de la secuenciacion focalizada de ambos progenitores y del plasma materno; (4) se dispone de datos de la secuenciacion focalizada de la madre y de la fraccion de plasma materno; (5) se dispone de datos de la secuenciacion focalizada de la fraccion del plasma materno; (6) otras combinaciones de mediciones de la fraccion parental y del nino.
En algunas realizaciones, el metodo informatico puede incorporar perdidas de datos; esto puede proporcionar determinaciones de la ploidfa con una mayor precision. En otro apartado de esta divulgacion se ha asumido que la probabilidad de obtener una A es una funcion directa del genotipo verdadero de la madre, el genotipo verdadero del nino, la fraccion del nino en la mezcla y el numero de copias del nino. Tambien es posible que se produzca una perdida 5 de alelos de la madre o del nino, por ejemplo, en lugar de medir el verdadero AB del nino en la mezcla, se puede dar el caso de que solo se midan las secuencias correspondientes al alelo A. Se puede denotar la tasa de perdida parental para los datos genomicos de Illumina dpg, la tasa de perdida parental para los datos de la secuencia dps y la tasa de perdida del nino para los datos de la secuencia dcs. En algunas realizaciones, la tasa de perdida de la madre se puede asumir que es cero y las tasas de perdida del nino son relativamente bajas; en este caso, los resultados no se ven 10 gravemente afectados por las perdidas. En algunas realizaciones, la posibilidad de perdidas de alelos puede ser suficientemente grande como para que produzca un efecto significativo sobre la determinacion del estado de ploidfa previsto. En este caso, las perdidas de alelos se han incorporado al algoritmo como sigue:
Perdidas de los datos del array del SNP parental: Para los datos genomicos de la madre M, se supone que el genotipo tras la perdida es md, por tanto
P(M|m,i) =^P(M|md,i)P(md|m)
md
15 donde P(M|md,i) = m* = m^omo antes, y P(md|m) es la probabilidad del genotipo md tras la posible perdida dado
el verdadero genotipo m, definido mas abajo, para la tasa de perdida d
md
m
AA AB BB A B sin determinar
AA
(1-d)A2 0 0 2d(1-d) 0 dA2
AB
0 (1-d)A2 0 d(1-d) d(1-d) dA2
BB
0 0 (1-d)A2 0 2s(1-d) dA2
Una ecuacion similar se aplica a los datos del array del SNP del padre.
Perdidas de datos de la secuencia parental: Para los datos de la secuencia de la madre SM
P(SM|m,i) = I Px|md(ami)P(md|m)
md
20 dondeP (md|m) se define como en la seccion anterior y Px|md(amj)la probabilidad de una distribucion binomial se define como anteriormente en la seccion de la probabilidad de los datos parentales. Una ecuacion similar se aplica a los datos de la secuencia paterna.
Perdida de datos de la secuencia de ADN flotante libre:
P(S|m,c,H,cf,i) = ^ P(S|^(md,cd,cf,H),i)P(md|m)P(cd|c)
dond P(S||i(md,cd,cf,H),i)e es como se define en la seccion sobre probabilidad de los datos flotantes libres.
25 En una realizacion, p(md|m)es la probabilidad del genotipo observado de la madre, dado el genotipo verdadero
de la madre m, asumiendo una tasa de perdida dps, y p(cd|c) es la probabilidad del genotipo observado del nino cd, dado el genotipo verdadero del nino c , asumiendo una tasa de perdida dcs. Si nAj = numero de alelos A en el genotipo verdadero c, nAo = numero de alelos A en el genotipo observado cd, donde nAj _> nAo, y de forma similar nBT = numero de alelos B en el genotipo verdadero c, nBD = numero de alelos B en el genotipo observado cd, donde nBj _>_nBo y d = 30 tasa de perdida, entonces
p(cd|c) = * dnAr-nA° * (1 - d)nA° * * dnBT-nBD * (j - d)nB0
En una realizacion, el metodo informatico puede incorporar un sesgo aleatorio y constante. En una situacion ideal no existe ningun sesgo de muestreo constante por SNP ni ruido aleatorio (ademas de la variacion de la distribucion binomial) en el numero de recuentos de secuencias. En concreto, con respecto a SNP i, para el genotipo de la madre m, el genotipo verdadero del nino c y la fraccion del nino cf, y X = el numero de A en el conjunto de lecturas de (A+B) en 35 SNP i, X actua como un X~Binomico (p, A+B), donde p =|j, c, cf, H) = probabilidad verdadera de contenido de A.
En una realizacion, el metodo informatico puede incorporar un sesgo aleatorio. Como suele ocurrir, se supone que existe un sesgo en las mediciones, de forma que la probabilidad de obtener una A en este SNP es igual a q, que es
5
10
15
20
25
30
35
40
45
50
55
ligeramente diferente de p que se ha definido anteriormente. El punto hasta el que p es diferente de q depende de la precision del proceso de medicion y de varios otros factores y se puede cuantificar a traves de las desviaciones estandar de q con respecto a p. En una realizacion, se puede elaborar un modelo de q que tiene una distribucion beta, con los parametros a, p dependientes de la media de esa distribucion centrada en p, y cierta desviacion estandar especificada s. En concreto, esto da X\q~Bin(q,Dl), donde q~Beta(a,yS)Si dejamos E(q) = p,V(q) = s2 y los
parametros se pueden derivar como a = pN,fi = (1 - p)NdondeN = p(*~p) - 1
Esta es la definicion de una distribucion beta-binomial, donde se realiza un muestreo de una distribucion binomial con un parametro variable q, donde q sigue una distribucion beta como una media p. Por tanto, en una configuracion sin sesgo, con respecto a SNP i, la probabilidad de los datos de la secuencia paterna (SM) asumiendo el genotipo verdadero de la madre (m), dado el recuento de A de la secuencia de la madre en SNP i (ami) y el recuento de B de la secuencia de la madre en SNP i (bmp se puede calcular como:
P(SM|m,i)=Px|m(ami) donde X|m~Binom(pm(A), ami+bmi)
Ahora, incluyendo un sesgo aleatorio con una desviacion estandar s, esto se convierte en: X|m~BetaBinom(pm(A), ami+bmi,s)
En caso de ausencia de sesgo, la probabilidad de los datos de la secuencia de ADN de plasma materno (S), asumiendo el genotipo verdadero de la madre (m), el genotipo verdadero del nino (c) y la fraccion del nino (cf), asumiendo la hipotesis del nino H, dado un recuento de A de la secuencia de ADN flotante libre en SNP i (ap y un recuento de B en la secuencia de ADN flotante libre en SNP i (bp, se puede calcular del modo siguiente:
P(S\m, c,cf,H, i) = Px(aj)
donde X~Binom(p(A), ai+bp with p(A)= |j(m,c,cf,H).
En una realizacion, incluyendo un sesgo aleatorio con una desviacion estandar s, esto se convierte en X~BetaBinom(p(A),ai+bi,s), donde la cantidad de variacion adicional viene determinada por el parametro de desviacion s, o equivalentemente N. Cuanto menor es el valor de s (o mayor el valor de N) mas se aproximara esta distribucion a la
distribucion binomial ordinaria. Es posible estimar la cantidad de sesgo, es decir, estimar iVanterior, a partir de
contextos no ambiguos AA|AA, BB|BB, AA|BB, BB|AA y utilizar el valor iVestimado en la probabilidad anterior. Dependiendo del comportamiento de los datos, N puede ser una constante con independencia de la profundidad de lectura ai+bi, o una funcion de ai+bi, haciendo el sesgo menor para las profundidades de lectura mayores.
En una realizacion, el metodo informatico puede incorporar un sesgo constante por SNP. Debido a los artefactos del proceso de secuenciacion, algunos SNP pueden tener unos recuentos mas bajos o mas altos con independencia de la cantidad verdadera de contenido de A. Supongamos que SNP i anade de forma constante un sesgo de un porcentaje Wi al numero de recuentos A. En algunas realizaciones, este sesgo se puede estimar a partir del conjunto de datos de formacion derivados en las mismas condiciones, y anadirse a la estimacion de los datos de la secuencia de los progenitores como sigue:
P(SM|m,i)=Px|m(arnp donde X|m~BetaBinom(pm(A)+ Wi, ami+bmi,s)
y con la estimacion de la probabilidad de los datos de la secuencia de ADN flotante libre como:
P(S|m, c,cf, H, i) = PN(ai) donde X~BetaBinom(p(A)+ Wi,ai+bi,s),
En algunas realizaciones, el metodo puede estar escrito para tener en cuenta espedficamente el ruido adicional, la calidad de la muestra diferencial, la calidad del SNP diferencial y el sesgo de muestreo aleatorio. Un ejemplo de esto se proporciona en el presente documento. Este metodo ha demostrado ser particularmente util en el contexto de los datos generados utilizando el protocolo de mini-PCR masivamente multiplexada, y se utilizo en los Experimentos 7 a 13. El metodo implica varios pasos que introducen cada uno diferentes tipos de ruido y/o sesgo con respecto al modelo final:
(1) Se asume una primera muestra que contiene una mezcla de ADN materno y fetal que comprende una cantidad original de ADN de tamano=No moleculas, normalmente en el rango 1.000-40.000, donde p = %refs verdaderas
(2) En la amplificacion utilizando adaptadores de union universales, se asume que se someten a muestreo Ni moleculas, normalmente Ni ~ N0/2 moleculas y el sesgo de muestreo aleatorio se introduce debido al muestreo. La muestra amplificada puede contener un numero de moleculas N2 donde N2 >> Ni. Suponiendo que Xi representa la cantidad de loci de referencia (por SNP) de Ni moleculas sometidas a muestreo, con una variacion en pi=Xi/Ni que introduce un sesgo de muestreo aleatorio durante el resto del protocolo. Este sesgo de muestreo se incluye en el modelo utilizando una distribucion Beta-binomial (BB) en lugar de utilizar un modelo de distribucion binomial simple. El parametro N de la distribucion Beta-binomial se puede estimar posteriormente para cada muestra a partir de los datos de formacion, tras haber realizado el correspondiente ajuste por el sesgo de perdida y amplificacion, en los SNP con 0<p<i. La perdida es la tendencia de un SNP a ser lefdo incorrectamente.
(3) El paso de amplificacion amplificara cualquier sesgo alelico y, por tanto, el sesgo de amplificacion introducido debido a una posible amplificacion heterogenea. Asumiendo que un alelo de un locus sea amplificado f veces, otro alelo de ese locus sea amplificado g veces, donde f=geb, donde b=0 indica ausencia de sesgo. El parametro del sesgo, b, esta centrado en 0 e indica en que grado mayor o mayor se ha amplificado el alelo A en comparacion con el alelo B en un
5
10
15
20
25
30
35
40
45
50
55
SNP concreto. El parametro b puede diferir de un SNP a otro SNP. El parametro del sesgo b se puede estimar por cada SNP, por ejemplo, a partir de los datos de formacion.
(4)El paso de secuenciacion implica la secuenciacion de una muestra de moleculas amplificadas. En este paso puede haber una perdida, donde la perdida es la situacion en la que un SNP es lefdo de forma incorrecta. La perdida puede producirse por cualquier numero de problemas y puede provocar que un SNP no sea lefdo como el alelo A correcto, sino como otro alelo B que se encuentra en ese locus o como un alelo C o D que no se encuentra tipicamente en ese locus. Suponiendo que la secuenciacion mide los datos de la secuencia de una serie de moleculas de ADN de una muestra amplificada de tamano N3, donde N3 < N2. En algunas realizaciones, N3 se puede encontrar en el rango de 20.000 a 100.000; 100.000 a 500.000; 500.000 a 4.000.000; 4.000.000 a 20.000.000; o 20.000.000 a 100.000.000. Cada molecula sometida a un muestreo tiene una probabilidad pg de ser lefda correctamente, en cuyo caso aparecera correctamente como alelo A. La muestra sera lefda incorrectamente como un alelo no relacionado con la molecula original con probabilidad 1 -pg, y aparecera como un alelo A con probabilidad pr, un alelo B con probabilidad pm o un alelo C o alelo D con probabilidad p0, donde pr+pm+po=1. Los parametros pg, pr, pm, p0 se estiman para cada SNP a partir de los datos de formacion.
Diferentes protocolos pueden implicar pasos similares con variaciones en los pasos de biologfa molecular que dan como resultado diferentes cantidades de muestreo aleatorias, diferentes niveles de amplificacion y diferente sesgo de perdidas. El siguiente modelo tambien se puede aplicar perfectamente a cada uno de estos casos. El modelo para la cantidad de ADN sometido a muestreo, por cada SNP, viene dado por:
X3~BetaBinomial(L(F(p,b),pr,pg), N*H(p,b))
donde p = la cantidad verdadera de ADN de referencia, b = sesgo por SNP, y tal y como se ha descrito anteriormente, pg es la probabilidad de una lectura correcta, pr es la probabilidad de que una lectura sea lefda de forma incorrecta pero accidentalmente parezca el alelo correcto, en caso de una mala lectura, tal y como se ha descrito anteriormente, y:
F(p,b)= peb/(peb+(1-p)), H(p,b) = (ebp+(1-p))2/eb, L(p,pr,pg)=p*pg+pr*(1-pg).
En algunas realizaciones, el metodo utiliza una distribucion Beta-binomial en lugar de una distribucion binomial simple; de este modo se presta atencion al sesgo de muestreo aleatorio. El parametro N de la distribucion Beta-binomial es estimado para cada muestra o cuando resulta necesario. Utilizando una correccion del sesgo F(p,b), H(p,b), en lugar de tan solo p, se presta atencion al sesgo de amplificacion. El parametro b del sesgo es estimado para cada SNP a partir de los datos de formacion con antelacion.
En algunas realizaciones, el metodo utiliza la correccion de perdidas L(p,pr,pg), en lugar de tan solo p; de este modo se presta atencion al sesgo de perdidas, es decir, la variacion del SNP y de la calidad de la muestra. En algunas realizaciones, los parametros pg, pr, p0 se estiman para cada SNP a partir de los datos de formacion con antelacion. En algunas realizaciones, los parametros pg, pr, p0 se pueden actualizar con la muestra actual sobre la marcha, para tomar en cuenta la variacion de la calidad de la muestra.
El modelo descrito en el presente documento es bastante general y puede tener en cuenta tanto la calidad diferencial de la muestra como la calidad diferencial del SNP. Las diferentes muestras y SNP se tratan de forma diferente, tal y como se pone de manifiesto por el hecho de que algunas realizaciones utilizan distribuciones Beta-binomiales cuya media y varianza son una funcion de la cantidad original de ADN, asf como la calidad de la muestra y del SNP.
Elaboracion de modelos de plataformas
Se asume un unico SNP en el que el ratio del alelo previsto presente en el plasma es r (basandose en los genotipos maternos y fetales). El ratio del alelo previsto se define como la fraccion prevista de los alelos A en el ADN combinado materno y fetal. Para el genotipo materno gm y el genotipo del nino gc, el ratio del alelo previsto viene dado por la ecuacion 1, asumiendo que los genotipos son representados tambien como ratios de alelos.
r = fgc + (1-f)gm(1)
La observacion en el SNP se compone del numero de lecturas correlacionadas con cada alelo presente, na y nb, que se suman a la profundidad de lectura d. Se asume que los umbrales ya se han aplicado a las probabilidades de correlacion y las puntuaciones phred de forma que las correlaciones y las observaciones de alelos se pueden considerar correctas. Una puntuacion phred es una medida numerica que se refiere a la probabilidad de que una medicion concreta en una base concreta sea erronea. En una realizacion, cuando la base ha sido medida mediante secuenciacion, la puntuacion phred se puede calcular a partir del ratio de la intensidad del tinte correspondiente a la base determinada para la intensidad del tinte de las otras bases. El modelo mas sencillo para la probabilidad de observacion es una distribucion binomial que asume que cada una de las lecturas d se extrae independientemente de un amplio conjunto que tiene un ratio de alelos r. La ecuacion 2 describe este modelo.
P(na,nb|r) = pbino(na; na + nb, r) = n6)rn*( 1 - r)n»( 2)
El modelo binomial se puede ampliar de varias maneras. Cuando los genotipos materno y fetal son todos A o todos B, el ratio alelico previsto en el plasma sera 0 o 1 y la probabilidad binomial no estara bien definida. En la practica, en ocasiones se observan alelos imprevistos. En una realizacion, es posible utilizar un ratio alelico corregido P =1/(na + nb)
5
10
15
20
25
30
35
40
45
50
para permitir un pequeno numero de alelos imprevistos. En una realizacion, se pueden utilizar los datos de formacion para elaborar un modelo de la tasa de alelos imprevistos que aparece en cada SNP y utilizar este modelo para corregir el ratio alelico previsto. Cuando el ratio alelico previsto no es 0 o 1, el ratio alelico observado puede no coincidir con una profundidad de lectura suficientemente elevada para el ratio alelico previsto, debido al sesgo de amplificacion u otros fenomenos. A continuacion, se puede elaborar un modelo del ratio alelico como una distribucion beta centrada en el ratio alelico previsto, lo que conduce a una distribucion beta-binomial para P(na, nb|r) que tiene una varianza mas elevada que la binomial.
El modelo de la plataforma para la respuesta en un unico SNP se definira como F(a, b, gc, gm, f) (3), o la probabilidad de observar na = a y nb = b dados los genotipos materno y fetal, que tambien depende de la fraccion fetal a traves de la ecuacion 1. La forma funcional de F puede ser una distribucion binomial, una distribucion beta-binomial o funciones similares como las anteriormente descritas.
F(a, b, gc, gm, f) = P(na = a, nb = b|gc, gm, f) = P(na = a, nb = b|r(gc, gm, f)) (3)
En una realizacion, se puede determinar la fraccion del nino como sigue. Una estimacion de la probabilidad maxima de la fraccion fetal f para una prueba prenatal se puede obtener sin el uso de informacion paterna. Esto puede resultar relevante cuando no se dispone de los datos geneticos paternos, por ejemplo, cuando el padre registrado no es realmente el padre genetico del feto. La fraccion fetal se estima a partir del conjunto de SNP en los que el genotipo materno es 0 o 1, lo que resulta en un conjunto de solamente dos genotipos fetales posibles. Se define So como el conjunto de SNP con el genotipo materno 0 y Si como el conjunto de SNP con el genotipo materno 1. Los genotipos fetales posibles en So son 0 y 0,5, lo que resulta en un conjunto de ratios alelicos posibles Ro(f) = {0,f/2}. De forma similar, R-,(f) ={1-f/2, 1}.
Este metodo se puede ampliar de forma trivial para incluir los SNP donde el genotipo materno es 0,5, pero estos SNP seran menos informativos debido al conjunto mayor de ratios alelicos posibles.
Se define Nao y Nbo como los vectores formados por nas y nbS para los SNP s en So, y Nai y Nm similarmente para S-i. La estimacion de la probabilidad maxima f / de f se define por la ecuacion 4.
imagen2
Asumiendo que los recuentos de alelos en cada SNP son independientes condicionados por el ratio alelico del plasma en los SNP, las probabilidades se pueden expresar como productos sobre los SNP en cada conjunto (5).
P(Na0, Nbo|f) = nseSo P(nas, n>s|f)(5)
P(Nal, Nbi|f) = nssSl P(nas, nf
La dependencia de f se produce a traves de los posibles ratios alelicos R0(f) y R-i(f). La probabilidad del SNP P (nas, nbs|f) se puede aproximar asumiendo el genotipo de la probabilidad maxima condicionado de f. A una fraccion fetal y una profundidad de lectura razonablemente elevadas, la seleccion del genotipo de la probabilidad maxima sera de alta certeza. Por ejemplo, a una fraccion fetal del 10 por ciento y una profundidad de lectura de 1000, se considera un SNP donde la madre tiene el genotipo cero. Los ratios alelicos previstos son 0 y 5 por ciento, que seran facilmente distinguibles a una profundidad de lectura suficientemente elevada. La sustitucion del genotipo del nino estimado en la ecuacion 5 resulta en la ecuacion completa (6) para la estimacion de la fraccion fetal.
/ = arg maxf [^^(max^^ P(nas, nbs\rs) (max^^ P(nas, nbs\rs) ] (6)
La fraccion fetal debe estar en el rango [0,1] y por tanto la optimizacion se puede implementar facilmente a traves de una busqueda unidimensional limitada.
En presencia de una baja profundidad de lectura o un elevado nivel de ruido, puede ser preferible no asumir el genotipo de la probabilidad maxima, que puede proporcionar certezas artificialmente elevadas. Otro metodo consistina en sumar los posibles genotipos de cada SNP, resultando en la siguiente expresion (7) para P(na, nb|f) para un SNP en S0. La probabilidad previa P(r) se podna asumir uniforme en R0(f) o se podna basar en las frecuencias de la poblacion. La extension al grupo S1 es insignificante.
P(na, n>f) = Zrsfiocn P( na,na\r)P(r)( 7)
En algunas realizaciones, se pueden determinar las probabilidades del modo siguiente. Se puede calcular una certeza a partir de las probabilidades de los datos de las dos hipotesis Ht y Hf. La probabilidad de cada hipotesis se obtiene basandose en el modelo de respuesta, la fraccion fetal estimada, los genotipos maternos, las frecuencias alelicas de la poblacion y los recuentos alelicos del plasma.
Se define la siguiente notacion:
Gm, Gcgenotipos verdaderos materno y del nino
5
10
15
20
25
30
35
40
Gaf, Gtfgenotipos verdaderos del supuesto padre y del verdadero padre
G(gc, gm, gtf)=P(Gc =gc|Gm =gm,Gtf =gtf) probabilidades de herencia
P(g) = P(Gtf = g) frecuencia de la poblacion del genotipo g en un SNP concreto
Asumiendo que la observacion en cada SNP es independiente condicionada del ratio alelico del plasma, la probabilidad de una hipotesis de paternidad es el producto de las probabilidades de los SNP. Las siguientes ecuaciones calculan la probabilidad para un unico SNP. La ecuacion 8 es una expresion general para la probabilidad de cualquier hipotesis h, que posteriormente se dividira en casos espedficos de Ht y Hf.
P(na, nb|h, Gm, Gtf, f _ S^ce(0,0.5,l) P( ^a,^b \ ^c — 9 c, Gm, Gtf, — 9c, Gm, Gtf, h,f')
= S^c6(0,0.5,1) P( ^a,^b 1 Gc — 9c, G-m, f^P(Gc — 9c \ Gm, Gtf, ^)
_ S^c6(0,0.5,1) p( W'a,^'b,9c,9m,f')P(Gc — 9c\Gm,Gtf,h')(8')
En el caso de Ht, el supuesto padre es el verdadero padre y los genotipos fetales son heredados de los genotipos maternos y de los genotipos del supuesto padre en funcion de la ecuacion 9.
P(na, nb|^t5Gm5Gtf,f)— Xgce(0,0.5,l) p( ^a,^'b,9c,9m,f')P(Gc — 9c \ Gm, Gtf,Ht')(9)
_ Xgce(0,0.5,l) p( fta,^'b,9c,9m,f')G(gc, Gm, Gtf^
En el caso de Hf, el supuesto padre no es el verdadero padre. La mejor estimacion de los genotipos del verdadero padre viene dada por las frecuencias de la poblacion en cada SNP. Por tanto, las probabilidades de los genotipos del nino estan determinadas por los genotipos de la madre conocidos y las frecuencias de la poblacion, como en la ecuacion 10.
P(na, nb|^t5Gm,Gtf5f) _ Y,gce(0f0.5fl) ^(^a,^b, 9c, 9m, f)^(Gc — 9c\Gm,Gtf ,Hf)
~ Xgce(0,0.5,l) p( W'a,^'b,9c,9m,f')P(Gc — 9c \ Gm)
= ^,gce(0,0.5,l)^,gtfe(0,0.5,l) F('fl.a,^'b,9c,9m,f')P(Gc — 9c\Gm,Gtf — ^tf)^(Gtf — 9tf)
= Egcc(0,0.5,l) Egtfc(0,0.5,l) p( ^a,^b, 9 c, 9 m, f')G(gc, Gm, 9tf')^(9tf')
La certeza Cp de la paternidad correcta se calcula a partir del producto de los SNP de las dos probabilidades utilizando la regla de Bayes (11).
p __________ns^(nas,nbs\^t,^ms,^tf,f^___________,, , ,
^ nsP(nas,nbs\Ht,Gms,Gtf,f) ^ns^(nas,nbs\^f,^ms,^tf,f)
Modelo de la probabilidad maxima utilizando el porcentaje de la fraccion fetal
La determinacion del estado de ploidfa de un feto midiendo el ADN flotante libre contenido en suero materno o midiendo el material genotfpico de cualquier muestra mezclada, es un ejercicio nada trivial. Existen diversos metodos, por ejemplo, para realizar un analisis del recuento de lecturas donde se presume que si el feto es trisomico en un determinado cromosoma, entonces la cantidad total de ADN de ese cromosoma que se encuentra en la sangre materna sera elevada con respecto al cromosoma de referencia. Una forma de detectar la trisoirna en estos fetos consiste en normalizar la cantidad de ADN prevista para cada cromosoma, por ejemplo, en funcion del numero de SNP del conjunto de analisis que corresponde a un cromosoma dado o en funcion del numero de porciones del cromosoma correlacionables de forma unica. Una vez que se han normalizado las mediciones, se determina que cualquiera de los cromosomas para los que la cantidad de ADN medida supere un determinado umbral son trisomicos. Este planteamiento se describe en Fan, et al. PNAS, 2008; 105(42); pp. 16266-16271, y tambien en Chiu et al. BMJ 2011;342:c7401. En el documento de Chiu et al., la normalizacion se realizo calculando una puntuacion Z del modo siguiente:
Puntuacion Z para el porcentaje del cromosoma 21 en el caso de ensayo = ((porcentaje del cromosoma 21 en el caso de ensayo)- (porcentaje medio del cromosoma 21 en controles de referencia)) / (desviacion estandar del porcentaje del cromosoma 21 en controles de referencia).
Estos metodos determinan el estado de ploidfa del feto utilizando un metodo de rechazo por hipotesis unica. Sin embargo, sufren algunas carencias significativas. Puesto que estos metodos para la determinacion del estado de ploidfa en el feto son invariables en funcion del porcentaje de ADN fetal en la muestra, utilizan un valor de corte; el resultado de
5
10
15
20
25
30
35
40
45
50
55
60
esto es que las precisiones de las determinaciones no son optimas y aquellos casos en los que el porcentaje de ADN fetal en la mezcla es relativamente bajo sufriran las peores precisiones.
En una realizacion, se utiliza un metodo de la presente divulgacion para determinar el estado de ploid^a del feto que implica tener en cuenta la fraccion de ADN fetal de la muestra. En otra realizacion de la presente divulgacion, el metodo implica el uso de estimaciones de la probabilidad maxima. En una realizacion, un metodo de la presente divulgacion implica calcular el porcentaje de ADN en una muestra que es de origen fetal o placentario. En una realizacion, el umbral para la determinacion del estado de aneuploidfa se ajusta adaptativamente sobre el porcentaje de ADN fetal calculado. En algunas realizaciones, el metodo para estimar el porcentaje de ADN que es de origen fetal en una mezcla de ADN comprende la obtencion de una muestra mezclada que contiene material genetico de la madre y material genetico del feto, la obtencion de una muestra genetica del padre del feto, la medicion del ADN en la muestra mezclada, la medicion del ADN en la muestra del padre, y el calculo del porcentaje de ADN que es de origen fetal en la muestra mezclada utilizando las mediciones de ADN de la muestra mezclada y de la muestra del padre.
En una realizacion de la presente divulgacion, la fraccion de ADN fetal, o el porcentaje de ADN fetal en la mezcla se pueden medir. En algunas realizaciones, la fraccion se puede calcular utilizando solo mediciones del genotipo realizadas con la propia muestra de plasma materno, que es una mezcla de ADN fetal y materno. En algunas realizaciones, la fraccion se puede calcular utilizando tambien el genotipo medido o conocido de otro modo de la madre y/o el genotipo medido o conocido de otro modo del padre. En algunas realizaciones, el porcentaje de ADN fetal se puede calcular utilizando mediciones realizadas en la mezcla de ADN materno y fetal, junto con el conocimiento de los contextos parentales. En una realizacion, la fraccion de ADN fetal se puede calcular utilizando frecuencias de la poblacion para ajustar el modelo de la probabilidad a mediciones alelicas espedficas.
En una realizacion de la presente divulgacion, se puede calcular una certeza de la precision de la determinacion del estado de ploidfa del feto. En una realizacion, la certeza de la hipotesis de mayor probabilidad (Hprincipal) se puede calcular como (1- Hprincipal) / £ (todas las H). Se puede determinar la certeza de una hipotesis si se conocen las distribuciones de todas las hipotesis. Se puede determinar la distribucion de todas las hipotesis, si se conoce la informacion del genotipo parental. Se puede calcular una certeza de la determinacion del estado de ploidfa si se conoce la distribucion de los datos prevista para el feto euploide y la distribucion de los datos prevista para el feto aneuploide. Se pueden calcular estas distribuciones previstas si se conocen los datos del genotipo parental. En una realizacion, se puede utilizar el conocimiento de la distribucion de una estadfstica de ensayo con respecto a una hipotesis normal y con respecto a una hipotesis anomala para determinar tanto la fiabilidad de la determinacion, asf como tambien para reajustar el umbral y obtener una determinacion mas fiable. Esto resulta particularmente util cuando la cantidad y/o el porcentaje de ADN fetal en la mezcla son bajos. Ayudara a evitar la situacion en la que un feto que es realmente aneuploide se determina que es euploide porque una estadfstica de ensayo, como la estadfstica Z, no supera un umbral que se establece basandose en un umbral que esta optimizado para el caso en el que existe un porcentaje de ADN fetal superior.
En una realizacion, se puede utilizar un metodo divulgado en el presente documento para determinar una aneuploidfa fetal estableciendo el numero de copias de cromosomas diana maternos y fetales en una mezcla de material genetico materno y fetal. Este metodo puede implicar la obtencion de tejido materno que comprende tanto material genetico materno como fetal; en algunas realizaciones, este tejido materno puede ser plasma materno o un tejido aislado de sangre materna. Este metodo tambien puede implicar la obtencion de una mezcla de material genetico materno y fetal de dicho tejido materno mediante el procesamiento del tejido materno mencionado anteriormente. Este metodo puede implicar la distribucion del material genetico obtenido en una pluralidad de mezclas de reaccion para proporcionar aleatoriamente muestras de reaccion individuales que comprenden una secuencia diana de un cromosoma diana y muestras de reaccion individuales que no comprenden una secuencia diana de un cromosoma diana, por ejemplo, realizando una secuenciacion de alto rendimiento de la muestra. Este metodo puede implicar el analisis de secuencias diana de material genetico presente o ausente en dichas muestras de reaccion individuales para proporcionar un primer numero de resultados binarios que representan la presencia o ausencia de un cromosoma fetal presumiblemente euploide en las muestras de la reaccion y un segundo numero de resultados binarios que representan la presencia o ausencia de un cromosoma fetal posiblemente aneuploide en las muestras de la reaccion. Cualquiera de los numeros de resultados binarios se puede calcular, por ejemplo, mediante una tecnica informatica que recuenta las lecturas de secuencia que corresponden a un determinado cromosoma, a una determinada region de un cromosoma, a un determinado locus o conjunto de loci. El metodo puede implicar la normalizacion del numero de acontecimientos binarios basandose en la longitud del cromosoma, la longitud de la region del cromosoma o el numero de loci del conjunto. Este metodo puede implicar el calculo de una distribucion prevista del numero de resultados binarios para un cromosoma fetal presumiblemente euploide en las muestras de la reaccion utilizando el primer numero. Este metodo puede implicar el calculo de una distribucion prevista del numero de resultados binarios para un cromosoma fetal presumiblemente aneuploide en las muestras de la reaccion utilizando el primer numero y una fraccion estimada de ADN fetal que se encuentra en la muestra, por ejemplo, multiplicando la distribucion del recuento lefdo previsto del numero de resultados binarios para un cromosoma fetal presumiblemente euploide por (1 + n/2) donde n es la fraccion fetal prevista. En algunas realizaciones, las lecturas de secuencia se pueden tratar en correspondencias probabilfsticas mas que resultados binarios; este metodo proporcionana precisiones mas elevadas, aunque requiere una mayor potencia de calculo. La fraccion fetal se puede estimar a traves de una pluralidad de metodos, algunos de los cuales se describen en otro apartado de la presente divulgacion. Este metodo puede implicar el uso de un planteamiento de la probabilidad maxima para determinar si el segundo numero corresponde al cromosoma fetal posiblemente aneuploide que es
5
10
15
20
25
30
35
40
45
50
55
60
euploide o aneuploide. Este metodo puede implicar que la determinacion del estado de ploid^a del feto sea el estado de ploidfa que corresponde a la hipotesis con la probabilidad maxima de ser correcta dados los datos medidos.
Cabe senalar que se puede utilizar un modelo de probabilidad maxima para aumentar la precision de cualquier metodo que determine el estado de ploidfa de un feto. De forma similar, se puede calcular una certeza para cualquier metodo que determine el estado de ploidfa del feto. El uso de un modelo de probabilidad maxima supondna una mejora de la precision de cualquier metodo en el que se determine el estado de ploidfa utilizando una tecnica de rechazo de una unica hipotesis. Se puede utilizar un modelo de probabilidad maxima para cualquier metodo en el que se pueda calcular una distribucion de la probabilidad tanto para los casos normales como para los anomalos. El uso de un modelo de probabilidad maxima implica la capacidad de calcular una certeza para la determinacion del estado de ploidfa.
Exposicion mas detallada del metodo
En una realizacion, un metodo divulgado en el presente documento utiliza una medicion cuantitativa del numero de observaciones independientes de cada alelo en un locus polimorfico, donde esto no implica el calculo del ratio de los alelos. Esto contrasta con otros metodos, como algunos metodos basados en microarrays, que proporcionan informacion sobre el ratio de dos alelos en un locus, pero no cuantifican el numero de observaciones independientes de ninguno de los alelos. Algunos metodos conocidos en la tecnica pueden proporcionar informacion cuantitativa sobre el numero de observaciones independientes, pero los calculos que conducen a la determinacion del estado de ploidfa utilizan unicamente los ratios de alelos y no utilizan la informacion cuantitativa. Para ilustrar la importancia de retener informacion sobre el numero de observaciones independientes, consideremos el locus de la muestra con dos alelos, A y B. En un primer experimento se observan 20 alelos A y 20 alelos B, y en un segundo experimento se observan 200 alelos A y 200 alelos B. En ambos experimentos el ratio (A/(A+B)) es igual a 0,5; sin embargo, el segundo experimento proporciona mas informacion que el primero acerca de la certidumbre de la frecuencia del alelo A o B. El metodo instantaneo, en lugar de utilizar los ratios de los alelos, utiliza datos cuantitativos para elaborar un modelo mas preciso de las frecuencias alelicas mas probables en cada locus polimorfico.
En una realizacion, los metodos instantaneos crean un modelo genetico para sumar las mediciones de multiples loci polimorficos, con el fin de distinguir mejor la trisornfa de la disomfa y tambien para determinar el tipo de trisoirna. Por otra parte, el metodo instantaneo incorpora informacion de la union genetica para mejorar la precision del metodo. Esto contrasta con algunos metodos conocidos en la tecnica, donde se establece la media de los ratios de los alelos de todos los loci polimorficos de un cromosoma. El metodo divulgado en el presente documento establece un modelo explfcitamente de las distribuciones de la frecuencia alelica prevista en la disomfa, asf como la trisomfa resultante de la ausencia de disyuncion durante la meiosis I, la ausencia de disyuncion durante la meiosis II, y la ausencia de disyuncion durante la mitosis temprana en el desarrollo fetal. Para ilustrar por que esto es importante, si no se produjesen cruces, la ausencia de disyuncion durante la meiosis I resultana en una trisomfa en la que dos homologos diferentes se heredaron de un progenitor; la ausencia de disyuncion durante la meiosis II o durante la mitosis temprana en el desarrollo fetal resultana en dos copias del mismo homologo de un progenitor. Cada escenario dana como resultado unas frecuencias alelicas previstas diferentes en cada locus polimorfico y tambien en todos los loci unidos geneticamente (es decir, los loci en el mismo cromosoma) considerados conjuntamente. Los cruces, que provocan el intercambio de material genetico entre homologos, hacen que el patron de herencia sea mas complejo; sin embargo, el metodo instantaneo tiene esto en cuenta utilizando informacion sobre la union genetica, es decir, informacion sobre la tasa de recombinacion y la distancia ffsica entre loci. Para distinguir mejor entre la ausencia de disyuncion de la meiosis I y la ausencia de disyuncion de la meiosis II o la mitosis, el metodo instantaneo incorpora en el modelo una probabilidad creciente de cruce dado que la distancia desde el centromero aumenta. La ausencia de disyuncion de la meiosis II y la mitosis se puede distinguir por el hecho de que la ausencia de disyuncion mitotica tfpicamente resulta en copias identicas o practicamente identicas de un homologo, mientras que los dos homologos presentes tras un evento de ausencia de disyuncion de la meiosis II a menudo difieren debido a uno o mas cruces durante la gametogenesis.
En una realizacion, un metodo de la presente divulgacion no puede determinar los haplotipos de los padres si se asume una disomfa. En una realizacion, en caso de trisomfa, el metodo instantaneo puede realizar una determinacion sobre los haplotipos de uno de los progenitores o ambos utilizando el hecho de que el plasma toma dos copias de un progenitor, y la informacion de fase del progenitor se puede determinar analizando que dos copias se han heredado del progenitor en cuestion. En concreto, un nino puede heredar dos de las mismas copias del progenitor (trisomfa emparejada) o ambas copias del progenitor (trisomfa no emparejada). En cada SNP se puede calcular la probabilidad de la trisomfa emparejada y de la trisomfa no emparejada. Un metodo para determinar el estado de ploidfa que no utiliza el modelo de enlace que tiene en cuenta los cruces calculana la probabilidad total de la trisomfa como una media simple ponderada de las trisomfas emparejadas y no emparejadas de todos los cromosomas. Sin embargo, debido a los mecanismos biologicos que provocan el error de disyuncion y cruce, la trisomfa puede cambiar de emparejada a no emparejada (y viceversa) en un cromosoma unicamente si se produce un cruce. El metodo instantaneo probabilfsticamente tiene en cuenta la probabilidad de cruce, por lo que produce determinaciones del estado de ploidfa mas precisas que los metodos que no tienen esto en cuenta.
En una realizacion, se utiliza un cromosoma de referencia para determinar la fraccion del nino y la cantidad del nivel de ruido o distribucion de la probabilidad. En una realizacion, la fraccion del nino, el nivel de ruido y/o la distribucion de la probabilidad se determina utilizando unicamente la informacion genetica disponible de los cromosomas cuyo estado de ploidfa se esta determinando. El metodo instantaneo funciona sin el cromosoma de referencia y tambien sin establecer la fraccion del nino o el nivel de ruido espedficos. Esto representa una mejora significativa y un punto de diferenciacion
5
10
15
20
25
30
35
40
45
con respecto a los metodos conocidos en la tecnica, donde los datos geneticos de un cromosoma de referencia son necesarios para calibrar la fraccion del nino y el comportamiento del cromosoma.
En una realizacion donde un cromosoma de referencia no es necesario para determinar la fraccion fetal, la determinacion de la hipotesis se realiza del modo siguiente:
H* = argmaxHLIK(D|H)*priorprob(H)
Con el algoritmo con el cromosoma de referencia, normalmente se asume que el cromosoma de referencia es una disoirna y entonces se puede (a) determinar la fraccion del nino mas probable y el nivel de ruido aleatorio N basandose en este supuesto y en los datos del cromosoma de referencia:
[cfr*,N*] = argmaxLIK(D(ref.chrom)|H11,cfr,N)
cfr,N
Y, a continuacion, reducir
LIK(D|H) = LIK(D|H,cfr*,N*)
o (b) estimar la distribucion de la fraccion del nino y el nivel de ruido basandose en este supuesto y en los datos del cromosoma de referencia. En concreto, no se determinana un solo valor para cfr y N, sino que se asignana la probabilidad p(cfr, N) para el rango mas amplio de posibles valores cfr, N:
p(cfr,N)~LIK(D(ref.chrom)|H11,cfr,N) * priorprob(cfr,N)
donde priorprob(cfr, N) es la probabilidad previa de la fraccion del nino y el nivel de ruido concretos, determinados por el conocimiento y los experimentos anteriores. Si se desea, simplemente uniformes con respecto al rango de cfr, N. A continuacion, se puede escribir:
LIK(D|H) = ^ LIK(D|H,cfr,N)*p(cfr,N)
cfr,N
Los dos metodos anteriores dan buenos resultados.
Cabe senalar que en algunos casos el uso de un cromosoma de referencia no resulta recomendable, posible o factible. En este caso, se puede obtener la mejor determinacion del estado de ploidfa para cada cromosoma por separado. En concreto:
LIK(D|H) = ^ LIK(D|H,cfr,N)*p(cfr,N|H)
cfr,N
p(cfr,N|H) Se puede determinar como se ha indicado anteriormente, para cada cromosoma por separado, asumiendo la hipotesis H, no solo para el cromosoma de referencia que asume la disomfa. Utilizando este metodo se pueden mantener fijados los parametros del ruido y la fraccion del nino, se puede fijar uno de los dos parametros o se pueden mantener ambos parametros en forma probabilfstica para cada cromosoma y cada hipotesis.
Las mediciones de ADN son propensas a los ruidos y/o errores, en especial las mediciones donde la cantidad de ADN es pequena o donde el ADN esta mezclado con ADN contaminante. Este ruido genera datos genotipicos menos precisos y determinaciones del estado de ploidfa menos precisas. En algunas realizaciones, se pueden utilizar los modelos de las plataformas o algun otro metodo de modelos de ruido para contrarrestar los efectos nocivos del ruido sobre la determinacion del estado de ploidfa. El metodo instantaneo utiliza un modelo conjunto de ambos canales, que tiene en cuenta el ruido aleatorio debido a la cantidad de ADN aportado, la calidad del ADN y/o la calidad del protocolo.
Esto contrasta con algunos metodos conocidos en la tecnica donde las determinaciones del estado de ploidfa se realizan utilizando el ratio de intensidades alelicas en un locus. Este metodo excluye los modelos de ruido de SNP precisos. En concreto, por lo general los errores de las mediciones no dependen espedficamente del ratio de intensidad del canal medido, lo que reduce el modelo al uso de la informacion unidimensional. La elaboracion de modelos precisos del ruido, la calidad del canal y la interaccion del canal requiere un modelo conjunto bidimensional, que no se puede modelar utilizando ratios alelicos.
En concreto, la proyeccion de la informacion de dos canales para el ratio r donde f(x,y) es r = x/y, no resulta recomendable para los modelos precisos de ruido del canal y sesgo. El ruido de un SNP concreto no es una funcion del ratio, es decir, ruido(x,y) t f(x,y) sino que se trata de hecho de una funcion conjunta de ambos canales. Por ejemplo, en el modelo binomial, el ruido del ratio medido tiene una varianza de r(1-r)/(x+y) que no es una funcion puramente de r. En este modelo, cuando se incluye cualquier ruido o sesgo del canal, se supone que en SNP i, el valor X del canal observado es x=aiX+bi, donde X es el valor verdadero del canal, bi es el sesgo del canal y el ruido aleatorio adicionales. De forma similar, se supone que y=CiY+di. El ratio observado r=x/y no puede predecir de forma precisa el ratio verdadero X/Y ni elaborar un modelo del ruido restante, dado que (aiX+bi)/(ciY+di) no es una funcion de X/Y.
El metodo divulgado en el presente documento describe una forma efectiva de elaborar un modelo del ruido y el sesgo utilizando distribuciones binomiales conjuntas de todos los canales de medicion individualmente. Las ecuaciones relevantes se pueden encontrar en otro apartado del presente documento en las secciones que tratan sobre el sesgo constante por SNP, P(buena) y P(ref]mala), P (mut|mala) que se ajustan efectivamente al comportamiento de los SNP.
5
10
15
20
25
30
35
40
45
50
55
En una realizacion, un metodo de la presente divulgacion utiliza una distribucion Beta-binomial, que evita la practica restrictiva de confiar exclusivamente en los ratios de los alelos, pero que elabora modelos del comportamiento basandose en los recuentos de ambos canales.
En una realizacion, un metodo divulgado en el presente documento puede determinar el estado de ploidfa de un feto en gestacion a partir de los datos geneticos que se encuentran en el plasma materno utilizando todas las mediciones disponibles. En una realizacion, un metodo divulgado en el presente documento puede determinar el estado de ploidfa de un feto en gestacion a partir de los datos geneticos que se encuentran en el plasma materno utilizando las mediciones de solo un subconjunto de contextos parentales. Algunos metodos conocidos en la tecnica solamente utilizan datos geneticos medidos en los que el contexto parental procede del contexto AA|BB, es decir, cuando ambos progenitores son homocigotos en un determinado locus, pero para un alelo diferente. Un problema de este metodo es que una pequena proporcion de loci polimorficos procede del contexto AA|BB, tfpicamente menos del 10%. En una realizacion de un metodo divulgado en el presente documento, el metodo no utiliza mediciones geneticas del plasma materno realizadas en loci en los que el contexto parental es AA|BB. En una realizacion, el metodo instantaneo utiliza mediciones de plasma solo para aquellos loci polimorficos con el contexto parental AA|AB, AB|AA, y AB|AB.
Algunos metodos conocidos en la tecnica implican la determinacion de la media de los ratios de los alelos de los SNP en el contexto AA|BB, donde los genotipos de ambos progenitores se encuentran presentes, y reivindican la determinacion del estado de ploidfa a partir del ratio medio de los alelos en estos SNP. Este metodo presenta una imprecision significativa debido al comportamiento diferencial de los SNP. Cabe senalar que este metodo asume que se conocen los genotipos de ambos progenitores. Por el contrario, en algunas realizaciones, el metodo instantaneo utiliza un modelo de distribucion de canales conjunto que no asume la presencia de ninguno de los progenitores ni asume el comportamiento uniforme de los SNP. En algunas realizaciones, el metodo instantaneo tiene en cuenta la diferente ponderacion/comportamiento de los SNP. En algunas realizaciones, el metodo instantaneo no requiere el conocimiento de uno o ambos genotipos parentales. Un ejemplo de como puede conseguir esto el metodo instantaneo es el siguiente:
En algunas realizaciones, la probabilidad logantmica de una hipotesis se puede determinar para cada SNP. En un SNP i concreto, asumiendo la hipotesis de ploidfa fetal H y un porcentaje de ADN fetal cf, la probabilidad logantmica de los datos observados D se define como:
LIK(D|H,i) = logP(D|H, cf,i) = log ('V P(D|m, f,c,H, cf,i)P(c|m,f,H)P(m|i)P(f|i) |
Vm,f,c /
donde m son posibles genotipos verdaderos de la madre, f son posibles genotipos verdaderos del padre, donde m,f c {AA,AB,BB}, y donde c son posibles genotipos del nino dada la hipotesis H. En concreto, para la monosoirna c (A,B), para la disomfa c e (AA,AB,Bb), para la trisornfa c e (AAA,AAB,ABB,BBB). Cabe senalar que la inclusion de los datos genotfpicos parentales tfpicamente proporciona determinaciones de la ploidfa mas precisas; sin embargo, los datos genotfpicos parentales no son necesarios para que el metodo instantaneo funcione bien.
Algunos metodos conocidos en la tecnica implican la determinacion de la media de los ratios de alelos de los SNP en los que la madre es homocigota, pero un alelo diferente se mide en el plasma (contextos AA|AB o AA|BB) y reivindican determinar los estados del ploidfa a partir del ratio de alelos medio de estos SNP. Este metodo esta pensado para los casos en los que el genotipo parental no esta disponible. Cabe senalar que es cuestionable la precision con la que se puede reivindicar que el plasma es heterocigoto en un SNP concreto sin la presencia de un padre homocigoto y opuesto BB: para los casos con una escasa fraccion del nino, lo que parece la presencia de un alelo B podna ser simplemente la presencia de ruido; por otra parte, lo que parece la ausencia de B podna ser una simple perdida de alelos de las mediciones fetales. Incluso en el caso de que se pueda determinar realmente la heterocigosidad del plasma, este metodo no sera capaz de distinguir trisoirnas paternas. En concreto, para los SNP en los que la madre es AA, y donde algun B se mide en el plasma, si el padre es GG, el genotipo del nino resultante es AGG, lo que produce un ratio medio del 33% de A (para una fraccion del nino=100%). Sin embargo, en el caso en el que el padre es AG, el genotipo del nino resultante podna ser AGG para la trisomfa emparejada, contribuyendo al ratio del 33% de A, o AAG para la trisomfa no emparejada, arrastrando el ratio medio mas hacia un 66% de A. Dado que muchas trisomfas se encuentran en los cromosomas con cruces, el cromosoma total puede encontrarse en cualquier estado entre la ausencia de trisomfa no emparejada y todas las trisomfas no emparejadas, y este ratio puede variar entre el 33 y el 66%.Para una disomfa plana, el ratio se debena encontrar en torno al 50%>. Sin el uso de un modelo de enlace o un modelo de error preciso de la media, este metodo no detectana muchos casos de trisomfa parental. Por el contrario, el metodo divulgado en el presente documento asigna probabilidades del genotipo parental para cada candidato genotfpico parental, basandose en la informacion genotfpica disponible y la frecuencia de la poblacion, y no requiere explfcitamente genotipos parentales. Por otra parte, el metodo divulgado en el presente documento es capaz de detectar la trisomfa incluso en ausencia o presencia de datos genotfpicos parentales y puede compensar identificando los puntos de posibles cruces de trisomfa emparejada a no emparejada utilizando un modelo de enlace.
Algunos metodos conocidos en la tecnica reivindican un metodo para determinar la media de los ratios alelicos de los SNP cuando no se conoce el genotipo materno o paterno, y para determinar el estado de ploidfa a partir del ratio medio en estos SNP. Sin embargo, no se divulga un metodo para lograr este fin. El metodo divulgado en el presente documento es capaz de realizar determinaciones precisas del estado de ploidfa en esta situacion, y la reduccion a la practica se divulga en otro apartado del documento, utilizando un metodo de la probabilidad maxima conjunto y opcionalmente utiliza modelos de sesgo y ruido de los SNP, asf como un modelo de enlace.
5
10
15
20
25
30
35
40
45
50
55
60
Algunos metodos conocidos en la tecnica implican la estimacion de la media de los ratios alelicos y reivindican la determinacion de los estados de ploid^a a partir del ratio alelico medio en uno o unos cuantos SNP. Sin embargo, estos metodos no utilizan el concepto del enlace. Los metodos divulgados en el presente documento no presentan estas desventajas.
Utilizacion de la longitud de la secuencia como dato previo para determinar el origen del ADN
Se ha determinado que la distribucion de la longitud de las secuencias difiere entre el ADN materno y fetal, siendo por lo general mas cortas en el fetal. En una realizacion de la presente divulgacion, se puede utilizar el conocimiento previo en forma de datos empmcos y construir una distribucion previa para la longitud prevista del ADN tanto materno (P(X| materno)) como fetal (P(X| fetal)). Dada una nueva secuencia de ADN no identificada de longitud x, se puede asignar una probabilidad de que una determinada secuencia de ADN sea ADN materno o fetal, basandose en la probabilidad previa de que x sea materna o fetal. En concreto, si P(x|materna) > P(x|fetal), entonces la secuencia de ADN se puede clasificar como materna, con P(x|materna) = P(x|materna)/[(P(x|materna) + P(x| fetal)], y si p(x|materna) < p(x|fetal), entonces la secuencia de DNA se puede clasificar como fetal, P(x| fetal) = P(x| fetal)/[(P(x|materna) + P(x| fetal)]. En una realizacion de la presente divulgacion, una distribucion de las longitudes de secuencia materna y fetal se puede determinar que es espedfica para esa muestra considerando las secuencias que se pueden clasificar como maternas o fetales con una elevada probabilidad y, a continuacion, esa distribucion espedfica de la muestra se puede utilizar como la distribucion del tamano prevista para esa muestra.
Profundidad de lectura variable para minimizar el coste de la secuenciacion
En multiples ensayos clmicos relativos al diagnostico, por ejemplo, en Chiu et al. BMJ 2001;342:c7401, se establece un protocolo con un numero de parametros y, a continuacion, el mismo protocolo se ejecuta con los mismos parametros para cada uno de los pacientes del ensayo. En el caso de la determinacion del estado de ploidfa de un feto en gestacion en una madre utilizando la secuenciacion como metodo para medir el material genetico, un parametro pertinente es el numero de lecturas. El numero de lecturas se puede referir al numero de lecturas reales, el numero de lecturas previstas, lmeas parciales, lmeas completas o celulas del flujo completas en un secuenciador. En estos estudios, el numero de lecturas se fija tfpicamente a un nivel que garantizara que todas o practicamente todas las muestras alcancen el nivel de precision deseado. En estos momentos la secuenciacion es una tecnologfa cara, con un coste de unos 200 dolares por cinco millones de lecturas correlacionables, y a pesar de que el precio esta bajando, cualquier metodo que permita un diagnostico basado en la secuenciacion para operar con un nivel de precision similar pero menos lecturas supondra necesariamente un ahorro considerable de dinero.
La precision de la determinacion del estado de ploidfa depende tfpicamente de una serie de factores, incluyendo el numero de lecturas y la fraccion del ADN fetal en la mezcla. La precision es tfpicamente superior cuando la fraccion de ADN fetal de la mezcla es superior. Al mismo tiempo, la precision es tfpicamente superior si el numero de lecturas es mayor. Es posible tener una situacion con dos casos en la que el estado de ploidfa se determine con precisiones comparables, donde el primer caso tiene una fraccion mas baja de ADN fetal en la mezcla que el segundo, y se han secuenciado mas lecturas en el primer caso que en el segundo. Se puede utilizar la fraccion estimada de ADN fetal de la mezcla como grna para determinar el numero de lecturas necesarias para conseguir un determinado nivel de precision.
En una realizacion de la presente divulgacion, se puede utilizar un conjunto de muestras donde las diferentes muestras del conjunto se secuencian a diferentes profundidades de lectura, donde el numero de lecturas ejecutado en cada una de las muestras se selecciona para conseguir un determinado nivel de precision teniendo en cuenta la fraccion calculada de ADN fetal en cada mezcla. En una realizacion de la presente divulgacion, esto puede implicar realizar una medicion de la muestra mezclada para determinar la fraccion de ADN fetal en la mezcla; esta estimacion de la fraccion fetal se puede realizar con secuenciacion, se puede realizar con TAQMAN, se puede realizar con qPCR, se puede realizar con arrays de SNP, se puede realizar con cualquier metodo que pueda distinguir diferentes alelos en un determinado loci. La necesidad de la estimacion de la fraccion fetal se puede eliminar incluyendo hipotesis que cubran todas las fracciones fetales o un conjunto de fracciones fetales del conjunto de hipotesis consideradas cuando se comparan con los datos medidos reales. Una vez que se ha determinado la fraccion de ADN fetal de la muestra, se puede determinar el numero de secuencias a leer para cada muestra.
En una realizacion de la presente divulgacion, 100 mujeres embarazadas visitan a sus respectivos obstetras que les extraen sangre en tubos de analisis con un anti-lisante y/o algun elemento para inactivar la ADNasa. Se llevan a casa un kit para el padre de su feto en gestacion y el padre proporciona una muestra de saliva. Ambos conjuntos de materiales geneticos de las 100 parejas se envfan al laboratorio, donde se agita la sangre materna y se afsla la capa leucocitaria, asf como el plasma. El plasma comprende una mezcla de ADN materno y ADN de origen placentario. Se determina el genotipo de la capa leucocitaria materna y la sangre paterna utilizando un array de SNP, y el ADN de las muestras de plasma materno se focaliza con sondas de hibridacion SURESELECT. El ADN extrafdo con las sondas se utiliza para generar 100 bibliotecas etiquetadas, una para cada una de las muestras maternas, donde cada muestra es etiquetada con una etiqueta diferente. Se extrae una fraccion de cada biblioteca, cada una de esas fracciones se mezcla y anade a dos lmeas de un secuenciador de ADN ILLUMINA HISEQ de forma multiplexada, donde cada lmea da como resultado unos 50 millones de lecturas correlacionables, lo que proporciona unos 100 millones de lecturas correlacionables en las 100 mezclas multiplexadas o aproximadamente un millon de lecturas por muestra. Las lecturas de secuencia se utilizaron para determinar la fraccion de ADN fetal de cada mezcla. 50 de las muestras teman mas de un 15% de ADN
5
10
15
20
25
30
35
40
45
50
55
60
fetal en la mezcla y un millon de lecturas fue suficiente para determinar el estado de ploid^a de los fetos con una certeza del 99,9%.
De las mezclas restantes, 25 teman entre un 10 y un 15% de ADN fetal; una fraccion de cada una de las bibliotecas relevantes preparada a partir de estas mezclas se multiplexo y se proceso en la lmea del HISEZ generando otros dos millones de lecturas para cada muestra. Los dos conjuntos de datos de secuencias para cada una de las mezclas con
un 10-15% de ADN fetal se juntaron y los tres millones de lecturas por muestra resultantes fueron suficientes para
determinar el estado de ploidfa de esos fetos con una certeza del 99,9%.
De las mezclas restantes, 13 teman entre un 6 y un 10% de ADN fetal; una fraccion de cada una de las bibliotecas relevantes preparada a partir de estas mezclas se multiplexo y se proceso en la lmea del HISEZ generando otros cuatro millones de lecturas para cada muestra. Los dos conjuntos de datos de secuencias para cada una de las mezclas con un 6-10% de ADN fetal se juntaron y los 5 millones de lecturas totales por mezcla resultantes fueron suficientes para determinar el estado de ploidfa de esos fetos con una certeza del 99,9.
De las mezclas restantes, 8 teman entre un 4 y un 6% de ADN fetal; una fraccion de cada una de las bibliotecas relevantes preparada a partir de estas mezclas se multiplexo y se proceso en la lmea del HISEZ generando otros seis millones de lecturas para cada muestra. Los dos conjuntos de datos de secuencias para cada una de las mezclas con
un 4-6% de ADN fetal se juntaron y los siete millones de lecturas totales por mezcla resultantes fueron suficientes para
determinar el estado de ploidfa de esos fetos con una certeza del 99,9%.
De las cuatro mezclas restantes, todas ellas teman entre un 2 y un 4% de ADN fetal; una fraccion de cada una de las bibliotecas relevantes preparada a partir de estas mezclas se multiplexo y se proceso en la lmea del HISEZ generando otros 12 millones de lecturas para cada muestra. Los dos conjuntos de datos de secuencias para cada una de las mezclas con un 2-4% de ADN fetal se juntaron y los 13 millones de lecturas totales por mezcla resultantes fueron suficientes para determinar el estado de ploidfa de esos fetos con una certeza del 99,9%.
Este metodo preciso seis lmeas de secuenciacion en una maquina HISEQ para conseguir una precision del 99,9% con las 100 muestras. Si se hubiese requerido el mismo numero de procesamientos para cada muestra, para garantizar una determinacion del estado de ploidfa con una precision del 99,9% se habnan necesitado 25 lmeas de secuenciacion, y si se hubiese tolerado una tasa de no determinacion o una tasa de error del 4% se habnan podido obtener 14 lmeas de secuenciacion.
Uso de datos en bruto del genotipo
Hay una serie de metodos que pueden realizar un NPD utilizando informacion genetica fetal medida en ADN fetal que se encuentra en la sangre materna. Algunos de estos metodos implican la realizacion de mediciones del ADN fetal utilizando arrays de SNP, algunos metodos implican la secuenciacion no focalizada y algunos metodos implican la secuenciacion focalizada. La secuenciacion focalizada puede focalizarse en los SNP, puede focalizarse en STR, puede focalizarse en otros loci polimorficos, puede focalizarse en loci no polimorficos o en alguna combinacion de estos. Algunos de estos metodos pueden implicar el uso de un instrumento de determinacion alelica propio o comercializado que determine la identidad de los alelos a partir de los datos de intensidad procedentes de los sensores de la maquina que realiza la medicion. Por ejemplo, el sistema ILLUMINA INFINIUM o el sistema de microarrays AFFYMETRIX GeNECHIP utilizan perlas o microchips con secuencias de ADN adjuntas que se pueden hibridar con segmentos complementarios de ADN; tras la hibridacion, se produce un cambio en las propiedades fluorescentes de la molecula sensora que puede ser detectada. Tambien existen metodos de secuenciacion, por ejemplo, ILLUMINA SOLEXA GENOME SEQUENCER o ABI SOLID GENOME SEQUENCER, donde la secuencia genetica de fragmentos de ADN es secuenciada; tras la ampliacion de la cadena de ADN complementaria a la cadena que se va a secuenciar, la identidad del nucleotido ampliado se detecta tfpicamente a traves de una etiqueta fluorescente o radioetiqueta anexada al nucleotido complementario. En todos estos metodos los datos genotfpicos o de secuenciacion se determinan tfpicamente sobre la base de senales fluorescentes o de otro tipo, o de la ausencia de estas. Estos sistemas se combinan tfpicamente con paquetes de software de bajo nivel que realizan determinaciones alelicas espedficas (datos geneticos secundarios) a partir de los datos analogicos del dispositivo de deteccion de fluorescencia o de otro tipo (datos geneticos primarios). Por ejemplo, en el caso de un alelo determinado en un array de SNP, el software determinara, por ejemplo, que un determinado SNP se encuentra presente o no presente si la intensidad de la fluorescencia se encuentra por encima o por debajo de un cierto umbral. De forma similar, el producto de un secuenciador es un cromatograma que indica el nivel de fluorescencia detectado para cada uno de los tintes, y el software determinara que un determinado par de bases es A o T o C o G. Los secuenciadores de alto rendimiento tfpicamente realizan una serie de mediciones de este tipo, denominadas lecturas, que representan la estructura mas probable de la secuencia de ADN que se ha secuenciado. El producto analogo directo del cromatograma se define aqrn como datos geneticos primarios, y la determinacion del par de bases/SNP realizada por el software se considera en el presente documento los datos geneticos secundarios. En una realizacion, por datos primarios se entiende los datos de intensidad bruta que son el producto no procesado de una plataforma de determinacion del genotipo, donde la plataforma de determinacion del genotipo se puede referir a un array de SNP o a una plataforma de secuenciacion. Los datos geneticos secundarios se refieren a los datos geneticos procesados, donde se ha realizado una determinacion alelica, o se han asignado pares de bases a los datos de la secuencia, y/o las lecturas de secuencia se han correlacionado con el genoma.
5
10
15
20
25
30
35
40
45
50
55
60
Muchas aplicaciones de nivel superior aprovechan estas determinaciones alelicas, determinaciones de los SNP y lecturas de secuencia, es dedr, los datos geneticos secundarios que produce el software de determinacion del genotipo. Por ejemplo, DNA NEXUS, ELAND o MAQ realizaran las lecturas de secuenciacion y las correlacionaran con el genoma. Por ejemplo, en el contexto del diagnostico prenatal no invasivo, un sistema informatico complejo, como PARENTAL SUPPORT™, puede aprovechar un gran numero de determinaciones de SNP para determinar el genotipo de un individuo. Por otra parte, en el contexto del diagnostico genetico previo al implante, se puede tomar un conjunto de lecturas de secuencia correlacionadas con el genoma y realizando un recuento normalizado de las lecturas que estan correlacionadas con cada cromosoma, o con una seccion de un cromosoma, se puede determinar el estado de ploidfa de un individuo. En el contexto del diagnostico prenatal no invasivo, se puede tomar un conjunto de lecturas de secuencia que se han medido en el ADN presente en el plasma materno y correlacionarlas con el genoma. A continuacion, se puede realizar un recuento normalizado de las lecturas correlacionadas con cada cromosoma, o seccion de un cromosoma, y utilizar esos datos para determinar el estado de ploidfa de un individuo. Por ejemplo, se puede concluir que los cromosomas que tiene un numero desproporcionadamente grande de lecturas son trisomicos en el feto que se esta gestando en la madre a la que se le ha extrafdo la sangre.
Sin embargo, en realidad el producto inicial de los instrumentos de medicion es una senal analogica. Cuando se determina un determinado par de bases a traves del software asociado con el software de secuenciacion, por ejemplo, el software puede determinar el par de bases T, en realidad la determinacion es la que el software considera mas probable. Sin embargo, en algunos casos, la determinacion puede ser de baja certeza, por ejemplo, la senal analogica puede indicar que el par de bases concreto tiene solo un 90% de probabilidad de ser T y un 10% de probabilidad de ser A. En otro ejemplo, el software de determinacion del genotipo que esta asociado con un lector del array de SNP puede determinar que un alelo espedfico es G. Sin embargo, en realidad la senal analogica subyacente puede indicar que tiene solo un 70% de probabilidad de ser G y un 30% de probabilidad de ser T. En estos casos, cuando las aplicaciones de nivel superior utilizan las determinaciones del genotipo y las determinaciones de la secuencia realizadas por el software de nivel inferior, pierden cierta informacion. Es decir, los datos geneticos primarios, medidos directamente por la plataforma de determinacion del genotipo, pueden ser menos fiables que los datos geneticos secundarios determinados por los paquetes de software adjuntos, aunque contienen mas informacion. Para correlacionar las secuencias de datos geneticos secundarios con el genoma, muchas lecturas se descartan porque algunas bases no se leen con suficiente claridad y/o porque la correlacion no esta clara. Cuando se utilizan lecturas de secuencia de datos geneticos primarios, todas o muchas de esas lecturas que se han descartado cuando se convirtieron por primera vez en lecturas de secuencia de datos geneticos secundarios se pueden utilizar tratando las lecturas de manera probabilfstica.
En una realizacion de la presente divulgacion, el software de nivel superior no se basa en las determinaciones alelicas, las determinaciones del SNP o las lecturas de secuencia determinadas por el software de nivel inferior.
En vez de esto, el software de nivel superior basa sus calculos en las senales analogicas medidas directamente por la plataforma de determinacion del genotipo. En una realizacion de la presente divulgacion, un metodo basado en la informatica como PARENTAL SUPPORT™ se modifica para que su capacidad para reconstruir datos geneticos del embrion/feto/nino sea organizada para utilizar directamente los datos geneticos primarios medidos por la plataforma de determinacion del genotipo. En una realizacion de la presente divulgacion, un metodo basado en la informatica como PARENTAL SUPPORT™ puede realizar determinaciones alelicas y/o determinar el numero de copias del cromosoma utilizando datos geneticos primarios y sin usar datos geneticos secundarios. En una realizacion de la presente divulgacion, todas las determinaciones geneticas, determinaciones de SNP, lecturas de secuencia, correlaciones de secuencia se tratan de manera probabilfstica utilizando los datos de intensidad brutos medidos directamente por la plataforma de determinacion del genotipo, en lugar de convertir los datos geneticos primarios en determinaciones geneticas secundarias. En una realizacion, las mediciones de ADN de la muestra preparada utilizada para calcular las probabilidades del recuento de alelos y determinar la probabilidad relativa de cada hipotesis comprenden los datos geneticos primarios.
En algunas realizaciones, el metodo puede aumentar la precision de los datos geneticos de un individuo diana que incorporan los datos geneticos de al menos un individuo relacionado, donde el metodo comprende la obtencion de datos geneticos primarios espedficos del genoma de un individuo diana y datos geneticos espedficos del genoma o genomas del individuo o individuos relacionados, la creacion de un conjunto de una o mas hipotesis sobre que segmentos de que cromosomas del individuo o individuos relacionados corresponden posiblemente a esos segmentos en el genoma del individuo diana, la determinacion de la probabilidad de cada una de las hipotesis teniendo en cuenta los datos geneticos primarios del individuo diana y los datos geneticos del individuo o individuos relacionados, y la utilizacion de las probabilidades asociadas con cada hipotesis para determinar el estado mas probable del material genetico real del individuo diana. En algunas realizaciones, el metodo puede determinar el numero de copias de un segmento de un cromosoma del genoma de un individuo diana, donde el metodo comprende la creacion de un conjunto de hipotesis del numero de copias sobre cuantas copias del segmento del cromosoma se encuentran presentes en el genoma de un individuo diana, la incorporacion de datos geneticos primarios del individuo diana e informacion genetica de uno o mas individuos relacionados al conjunto de datos, la estimacion de las caractensticas de la respuesta de la plataforma asociada con el conjunto de datos, donde la respuesta de la plataforma puede variar de un experimento a otro, el calculo de las probabilidades condicionales de cada hipotesis del numero de copias, teniendo en cuenta el conjunto de datos y las caractensticas de la respuesta de la plataforma, y la determinacion del numero de copias del segmento del cromosoma basandose en la hipotesis del numero de copias mas probable. En una realizacion, un metodo de la presente divulgacion puede determinar un estado de ploidfa de al menos un cromosoma en un individuo diana, el
5
10
15
20
25
30
35
40
45
50
55
60
metodo comprende la obtencion de datos geneticos primarios del individuo diana y de uno o mas individuos relacionados, la creacion de un conjunto de al menos una hipotesis del estado de ploidfa para cada uno de los cromosomas del individuo diana, la utilizacion de una o mas tecnicas especializadas para determinar una probabilidad estad^stica para cada hipotesis del estado de ploidfa del conjunto, para cada tecnica especializada utilizada, teniendo en cuenta los datos geneticos obtenidos, la combinacion para cada hipotesis del estado de ploidfa de las probabilidades estadfsticas determinadas mediante la tecnica o tecnicas especializadas, y la determinacion del estado de ploidfa para cada uno de los cromosomas del individuo diana basandose en las probabilidades estadfsticas combinadas de cada una de las hipotesis del estado de ploidfa. En una realizacion, un metodo de la presente divulgacion puede determinar un estado alelico de un conjunto de alelos en un individuo diana y a partir de uno o los dos progenitores del individuo diana, y opcionalmente de uno o mas individuos relacionados, donde el metodo comprende la obtencion de datos geneticos primarios del individuo diana, y de uno o los dos progenitores, y de cualquier individuo relacionado, la creacion de un conjunto de al menos una hipotesis alelica para el individuo diana, y para uno o los dos progenitores, y opcionalmente para uno o mas individuos relacionados, donde las hipotesis describen los posibles estados alelicos del conjunto de alelos, la determinacion de una probabilidad estadfstica para cada hipotesis alelica del conjunto de hipotesis, teniendo en cuenta los datos geneticos obtenidos, y la determinacion del estado alelico para cada uno de los alelos del conjunto de alelos para el individuo diana, y para uno o los dos progenitores, y opcionalmente para uno o mas individuos relacionados, basandose en las probabilidades estadfsticas de cada una de las hipotesis alelicas.
En algunas realizaciones, los datos geneticos de la muestra mezclada pueden comprender datos de secuencia donde los datos de secuencia pueden no corresponder de forma exclusiva al genoma humano. En algunas realizaciones, los datos geneticos de la muestra mezclada pueden comprender datos de secuencia donde los datos de secuencia corresponden a una pluralidad de ubicaciones en el genoma, donde cada posible correlacion esta asociada con una probabilidad de que la correlacion en cuestion es correcta. En algunas realizaciones, no se asume que las lecturas de secuencia estan asociadas con una posicion concreta en el genoma. En algunas realizaciones, las lecturas de secuencia estan asociadas con una pluralidad de posiciones en el genoma y una probabilidad asociada perteneciente a esa posicion.
Metodo de recuento para determinar el numero de copias de cromosoma
En un aspecto, la divulgacion presenta metodos de realizar pruebas para determinar la distribucion anomala de un cromosoma fetal comparando el numero de etiquetas de secuencia que se alinean con diferentes cromosomas (vease, por ejemplo, la Pat. USA numero 8.296.076, presentada el 20 de abril de 2012). Como se conoce en la tecnica, el termino "etiqueta de secuencia" se refiere a una secuencia de acido nucleico relativamente corta (por ejemplo, 15-100) que se puede utilizar para identificar una determinada secuencia mas larga, por ejemplo, que este correlacionada con un cromosoma o gen o region genomica. En algunas realizaciones, el metodo consiste en (i) poner en contacto una muestra que incluye una mezcla de ADN materno y fetal con una biblioteca de cebadores que se hibridan simultaneamente a al menos 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o
100.000 loci diana diferentes para producir una mezcla de reaccion; en la que los loci diana son de una pluralidad de cromosomas diferentes: y en la que la pluralidad de cromosomas diferentes incluye al menos un primer cromosoma sospechoso de tener una distribucion anomala en la muestra y al menos un segundo cromosoma que se supone que esta distribuido normalmente en la muestra; (ii) someter la mezcla de reaccion a las condiciones de reaccion de extension del cebador para producir productos amplificados; (iii) secuenciar los productos amplificados para obtener una pluralidad de etiquetas de secuencia que se alinean con los loci diana; en donde las etiquetas de secuencia tienen la longitud suficiente para ser asignadas a un locus diana espedfico; (iv) asignar en un ordenador la pluralidad de etiquetas de secuencia a sus loci diana correspondientes; (v) determinar en un ordenador un numero de etiquetas de secuencia que se alinean con los loci diana del primer cromosoma y un numero de etiquetas de secuencia que se alinean con los loci diana del segundo cromosoma; y (vi) comparar los numeros del paso (v) para determinar la presencia o ausencia de una distribucion anomala del primer cromosoma.
En un aspecto, la divulgacion proporciona metodos para detectar la presencia o ausencia de una aneuploidfa fetal comparando la frecuencia relativa de amplicones diana entre cromosomas (vease, por ejemplo, la publ. PCT numero WO 2012/103031, presentada el 23 de enero de 2012). En algunas realizaciones, el metodo consiste en (i) poner en contacto una muestra que incluye una mezcla de ADN materno y fetal con una biblioteca de cebadores que se hibridan simultaneamente a al menos 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o
100.000 loci diana no polimorficos diferentes para producir una mezcla de reaccion; en la que los loci diana son de una pluralidad de cromosomas diferentes: (ii) someter la mezcla de reaccion a las condiciones de reaccion de extension del cebador para producir productos amplificados que incluyen amplicones diana; (iii) cuantificar en un ordenador una frecuencia relativa de los amplicones diana del primer y segundo cromosomas de interes; (iv) comparar en un ordenador la frecuencia relativa de los amplicones diana del primer y segundo cromosomas de interes; e (v) identificar la presencia o ausencia de una aneuploidfa en base a las frecuencias relativas comparadas del primer y segundo cromosoma de interes. En algunas realizaciones, el primer cromosoma es un cromosoma sospechoso de ser euploide. En algunas realizaciones, el segundo cromosoma es un cromosoma sospechoso de ser aneuploidfa.
Combinacion de metodos para el diagnostico prenatal
Hay muchos metodos que se pueden utilizar para el diagnostico prenatal y la deteccion prenatal de la aneuploidfa u otros defectos geneticos. En otra parte de este documento, y en la Solicitud de patente USA con el numero de serie 11/603.406, presentada el 28 de noviembre de 2006; la Solicitud de patente USA con el numero de serie 12/076,348,
5
10
15
20
25
30
35
40
45
50
55
60
presentada el 17 de marzo de 2008, y la Solicitud PCT con el numero de serie PCT/S09/52730 se describe un metodo que utiliza los datos geneticos de individuos relacionados para aumentar la precision con la que se conocen o estiman los datos geneticos de un individuo diana. Otros metodos utilizados para el diagnostico prenatal implican la medicion de los niveles de determinadas hormonas en la sangre materna, donde estas hormonas estan correlacionadas con diversas anomaUas geneticas. Un ejemplo de esto se denomina la prueba triple, una prueba en la que se miden los niveles de varias (normalmente dos, tres, cuatro o cinco) hormonas diferentes en la sangre materna. En un caso en el que se utilizan multiples metodos para determinar la probabilidad de un determinado resultado, donde ninguno de los metodos es definitivo por sf solo, se puede combinar la informacion proporcionada por estos metodos para realizar una prediccion que es mas precisa que cualquiera de los metodos individuales. En la prueba triple, la combinacion de la informacion proporcionada por las tres hormonas diferentes puede proporcionar una prediccion de anomalfas geneticas que es mas precisa que la efectuada por los niveles de hormonas individuales.
En el presente documento se describe un metodo para hacer predicciones mas precisas sobre el estado genetico de un feto, espedficamente la posibilidad de anomalfas geneticas en un feto que comprende la combinacion de predicciones de anomalfas geneticas en un feto donde esas predicciones se han realizado utilizando una variedad de metodos. Un metodo "mas preciso" se puede referir a un metodo para el diagnostico de una anomalfa que tiene una tasa de falsos negativos inferior para una determinada tasa de falsos positivos. En una realizacion preferida de la presente divulgacion, una o mas de las predicciones se realizan en base a los datos geneticos conocidos sobre el feto, donde el conocimiento genetico ha sido determinado utilizando el metodo PARENTAL SUPPORT™, es decir, utilizando datos geneticos del individuo relacionado con el feto para determinar los datos geneticos del feto con mayor precision. En algunas realizaciones, los datos geneticos pueden incluir estados de ploidfa del feto. En algunas realizaciones, los datos geneticos se pueden referir a un conjunto de determinaciones alelicas sobre el genoma del feto. En algunas realizaciones, algunas de las predicciones se pueden haber realizado utilizando la prueba triple. En algunas de las realizaciones, algunas de las predicciones se pueden haber realizado utilizando mediciones de otros niveles de hormonas en la sangre materna. En algunas realizaciones, las predicciones realizadas mediante metodos considerados diagnosticos se pueden combinar con predicciones realizadas mediante metodos considerados de deteccion. En algunas realizaciones, el metodo implica la medicion de los niveles en sangre materna de alfa-fetoprotema (AFP). En algunas realizaciones, el metodo implica la medicion de los niveles de sangre materna de estriol no conjugado (UE3). En algunas realizaciones, el metodo implica la medicion de los niveles en sangre materna de gonadotropina corionica humana beta (beta-hCG). En algunas realizaciones, el metodo implica la medicion de los niveles en sangre materna de antfgeno trofoblastico invasivo (ITA). En algunas realizaciones, el metodo implica la medicion de los niveles en sangre materna de inhibina. En algunas realizaciones, el metodo implica la medicion de los niveles en sangre materna de protema A plasmatica asociada al embarazo (PAPP-A). En algunas realizaciones, el metodo implica la medicion de los niveles en sangre materna de otras hormonas o marcadores del suero materno. En algunas de las realizaciones, algunas de las predicciones se pueden haber realizado utilizando otros metodos. En algunas realizaciones, algunas de las predicciones se pueden haber realizado utilizando una prueba plenamente integrada, como una que combina los ultrasonidos y el analisis de sangre a las 12 semanas aproximadas de embarazo y un segundo analisis de sangre sobre las 16 semanas de embarazo. En algunas realizaciones, el metodo implica la medicion de la translucencia nucal (NT) fetal. En algunas realizaciones, el metodo implica el uso de los niveles medidos de las mencionadas hormonas para realizar predicciones. En algunas realizaciones, el metodo implica una combinacion de los metodos mencionados anteriormente.
Existen muchas formas de combinar las predicciones, por ejemplo, se podnan convertir las mediciones de las hormonas en un multiplo de la mediana (MoM) y a continuacion en ratios de probabilidad (LR). De forma similar, otras mediciones se podnan transformar en LR utilizando el modelo de la mezcla de las distribuciones de NT. Los LR para NET y los marcadores bioqmmicos se podnan multiplicar por la edad y el riesgo relacionado con la gestacion para obtener el riesgo para las diversas condiciones, como la trisornfa 21. Las tasas de deteccion (DR) y las tasas de falsos positivos (FPR) se podnan calcular tomando las proporciones con los riesgos anteriores que superan un determinado umbral de riesgo.
En una realizacion, un metodo para determinar el estado de ploidfa implica la combinacion de las probabilidades relativas de cada una de las hipotesis de ploidfa determinadas utilizando el modelo de distribucion conjunto y las probabilidades del recuento de alelos con las probabilidades relativas de cada una de las hipotesis de ploidfa que se calculan utilizando tecnicas estadfsticas tomadas de otros metodos que determinan una puntuacion de riesgo para un feto que es trisomico, incluyendo, entre otros: un analisis del recuento de lecturas, la comparacion de las tasas de heterocigosidad, una estadfstica que solo esta disponible cuando se utiliza la informacion genetica parental, la probabilidad de senales normalizadas del genotipo para determinados contextos parentales, una estadfstica que se calcula utilizando la fraccion fetal estimada de la primera muestra o de la muestra preparada y combinaciones de estas.
Otro metodo podna implicar una situacion con cuatro niveles de hormonas medidos, donde la distribucion de la probabilidad con respecto a esas hormonas es conocida: p(x1, X2, X3, X4|e) para el caso euploide y p(x1, x2, x3, x4|a) para el caso aneuploide. A continuacion, se podna medir la distribucion de la probabilidad para las mediciones del ADN, g(y|e) y g(y|a) para el caso euploide y el caso aneuploide, respectivamente. Asumiendo que son independientes dado el supuesto de euploide/aneuploide, se podna combinar como p(x1, X2, X3, X4|a)g(y|a) y p(x1, X2, X3, X4|e)g(y|e) y, a continuacion, multiplicar cada uno por el anterior p(a) y p(e) dada la edad materna. Se podna elegir el mas elevado.
En una realizacion, es posible evocar el teorema de lfmite central para asumir que la distribucion en g(y|a o e) es gaussiana, y medir la desviacion estandar y media analizando multiples muestras. En otra realizacion, se puede asumir
5
10
15
20
25
30
35
40
45
50
55
60
que no son independientes dado el resultado y recoger suficientes muestras para estimar la distribucion conjunta p(x1, x2, x3, x4|a o e).
En una realizacion, el estado de ploid^a para el individuo diana esta determinado que sea el estado de ploidfa que esta asociado con la hipotesis cuya probabilidad es mayor. En algunos casos, una hipotesis tendra una probabilidad normalizada combinada superior al 90%. Cada hipotesis esta asociada con uno o varios estados de ploidfa, y el estado de ploidfa asociado con la hipotesis cuya probabilidad normalizada combinada sea superior al 90%, o algun otro valor umbral, como el 50%, 80%, 95%, 98%, 99% o 99,9% podra ser seleccionado como el umbral requerido para establecer que una hipotesis es el estado de ploidfa determinado.
ADN de hijos de embarazos anteriores en la sangre materna
Una dificultad del diagnostico prenatal no invasivo consiste en diferenciar las celulas fetales del embarazo actual de las celulas fetales de embarazos anteriores. Algunos piensan que el material genetico de los embarazos anteriores desaparecera tras algun tiempo, pero no se han obtenido pruebas concluyentes. En una realizacion de la presente divulgacion, se puede determinar el ADN fetal presente en la sangre materna de origen paterno (es decir, ADN del feto heredado del padre) utilizando el metodo PARENTAL SUPPORT™ (PS) y el conocimiento del genoma paterno. Este metodo puede utilizar informacion genetica parental por fases. Es posible obtener por fases el genotipo parental de la informacion genotfpica no determinada por fases utilizando datos geneticos del abuelo (como datos geneticos medidos a partir del esperma del abuelo), o datos geneticos de otros ninos nacidos, o una muestra de un aborto. Tambien se podna obtener informacion genetica por fases a partir de la informacion genetica no determinada por fases mediante HapMap o determinando el haplotipo de las celulas paternas. La determinacion con exito del haplotipo se ha demostrado deteniendo las celulas en la fase de mitosis cuando los cromosomas son agrupaciones apretadas y utilizando microfluidicos para poner los cromosomas separados en pocillos separados. En una realizacion se pueden utilizar los datos del haplotipo parental por fases para detectar la presencia de mas de un homologo del padre, lo que implica que el material genetico de mas de un nino se encuentra presente en la sangre. Al centrarse en los cromosomas que se espera que sean euploides en un feto, se podna descartar la posibilidad de que el feto se vea afectado por una trisoirna. Tambien se puede determinar si el ADN fetal no procede del padre actual, en cuyo caso se podnan utilizar otros metodos como la prueba triple para predecir anomalfas geneticas.
Puede haber otras fuentes de material genetico fetal disponibles a traves de metodos distintos de la extraccion de sangre. En el caso del material genetico fetal disponible en la sangre materna, existen dos categonas principales: (1) celulas fetales completas, por ejemplo, globulos rojos fetales nucleados o eritroblastos, y (2) ADN fetal flotante libre. En el caso de las celulas fetales completas, existen algunas evidencias de que las celulas fetales pueden persistir en la sangre materna durante un periodo de tiempo prolongado de forma que se puede aislar una celula de una mujer embarazada que contenga ADN de un nino o un feto de un embarazo anterior. Tambien existen evidencias de que el ADN fetal flotante se elimina del sistema en unas semanas. Un problema consiste en determinar la identidad del individuo cuyo material genetico se encuentra en la celula, concretamente para garantizar que el material genetico medido no corresponda a un feto de un embarazo anterior. En una realizacion de la presente divulgacion, el conocimiento del material genetico materno se puede utilizar para garantizar que el material genetico en cuestion no es material genetico materno. Existen diversos metodos para ello, incluyendo el metodo basado en la informatica PARENTAL SUPPORT™, descrito en este documento o en cualquiera de las patentes mencionadas en el mismo.
En una realizacion de la presente divulgacion, la sangre extrafda de la madre embarazada se puede separar en una fraccion que comprende ADN fetal flotante libre, y una fraccion que comprende globulos rojos nucleados. El ADN flotante libre se puede opcionalmente enriquecer, y la informacion genotfpica del ADN se puede medir. A partir de la informacion genotfpica medida del ADN flotante libre, el conocimiento del genotipo materno se puede utilizar para determinar aspectos del genotipo fetal. Estos aspectos se pueden referir al estado de ploidfa y/o a las identidades de un conjunto de alelos. A continuacion, se puede determinar el genotipo de los globulos rojos nucleados utilizando metodos descritos en otro apartado de este documento y en otras patentes mencionadas, especialmente las mencionadas en la primera parte de este documento. El conocimiento del genoma materno permitina determinar si un globulo rojo dado es geneticamente materno o no. Y los aspectos del genotipo fetal determinados como se ha descrito anteriormente permitinan determinar si la celula sangumea individual procede geneticamente del feto que se esta gestando en estos momentos. Basicamente, este aspecto de la presente divulgacion permite utilizar el conocimiento genetico de la madre y posiblemente la informacion genetica de otros individuos relacionados, como el padre, junto con la informacion genetica medida del ADN flotante libre que se encuentra en la sangre materna para determinar si una celula nucleada aislada que se encuentra en la sangre materna es a) geneticamente materna, b) geneticamente del feto que se esta gestando en estos momentos, o c) geneticamente de un feto de un embarazo anterior.
Determinacion de aneuploidia del cromosoma sexual prenatal
En metodos conocidos en la tecnica, las personas que desean determinar el sexo de un feto en gestacion a partir de la sangre materna han utilizado el hecho de que el ADN flotante libre fetal (fffDNA) se encuentra presente en el plasma de la madre. Si se pueden detectar los loci espedficos de Y en el plasma materno, esto implica que el feto en gestacion es un varon. Sin embargo, la falta de deteccion de loci espedficos de Y en el plasma no siempre garantiza que el feto en gestacion es femenino cuando se utilizan los metodos conocidos en la tecnica, ya que en algunos casos la cantidad de fffDNA es demasiado baja para garantizar que los loci espedficos de Y se detectanan en el caso de un feto varon.
5
10
15
20
25
30
35
40
45
En el presente documento se proporciona un metodo novedoso que no requiere la medicion de acidos nucleicos espedficos de Y, es decir ADN procedente de loci de origen exclusivamente paterno. El metodo Parental Support, anteriormente divulgado, utiliza datos de frecuencia de cruces, datos genotfpicos parentales y tecnicas informaticas para determinar el estado de ploidfa de un feto en gestacion. El sexo del feto es simplemente el estado de ploidfa del feto en los cromosomas sexuales. Un feto que es XX es mujer y XY es varon. El metodo descrito en el presente documento tambien se puede utilizar para determinar el estado de ploidfa del feto. Cabe senalar que la determinacion del sexo es efectivamente sinonimo de la determinacion del estado de ploidfa de los cromosomas sexuales; en el caso de la determinacion del sexo, normalmente se presupone que el nino es euploide y, por tanto, hay menos hipotesis posibles.
El metodo divulgado en el presente documento implica analizar los loci que son comunes a los cromosomas X e Y para crear una lmea de base en terminos de cantidad prevista de ADN fetal presente para un feto. A continuacion, las regiones que son espedficas solo para el cromosoma X se pueden analizar para determinar si el feto es mujer o varon. En el caso de un varon, esperamos observar menos ADN fetal de loci que son espedficos para el cromosoma X que de loci que son espedficos tanto para el cromosoma X como para el cromosoma Y. Por el contrario, en los fetos de mujeres, esperamos que el ADN para cada uno de estos grupos sea el mismo. El ADN en cuestion se puede medir a traves de cualquier tecnica que pueda cuantificar la cantidad de ADN presente en una muestra, por ejemplo, qPCR, arrays de SNP, arrays para la determinacion del genotipo o secuenciacion. Para el ADN que es exclusivamente de un individuo esperanamos observar lo siguiente:
ADN espedfico de X ADN espedfico de X e Y ADN espedfico de Y
Varon (XY)
A 2A A
Mujer (XX)
2A 2A 0
En el caso del ADN de un feto mezclado con ADN de la madre y donde la fraccion de ADN fetal de la mezcla es F y donde la fraccion de ADN materno de la mezcla es M, de forma que F+M = 100%, esperanamos observar lo siguiente:
ADN espedfico de X ADN espedfico de X e Y ADN espedfico de Y
Feto varon (XY)
M + / F M + F / F
Feto mujer (XX)
M + F M + F 0
En el caso en el que F y M son conocidos, los ratios previstos se pueden calcular y los datos observados se pueden comparar con los datos previstos. En el caso en el que F y M no son conocidos, se puede seleccionar un umbral basado en datos historicos. En ambos casos, la cantidad de aDn medida en loci espedficos tanto para X como para Y se pueden utilizar como lmea de base, y la prueba para determinar el sexo del feto se puede basar en la cantidad de ADN observada en loci espedficos exclusivamente para el cromosoma X. Si esa cantidad es inferior que la lmea de base en una cantidad aproximadamente igual a V2 F o en una cantidad que hace que caiga por debajo de un umbral predefinido, se determina que el feto es varon, y si esa cantidad es aproximadamente igual a la lmea de base o si no es inferior en una cantidad que hace que caiga por debajo de un umbral predefinido, se determina que el feto es mujer.
En otra realizacion, se puede analizar solo aquellos loci que son comunes tanto a los cromosomas X como a los Y, a menudo denominado el cromosoma Z. Tfpicamente un subconjunto de los loci del cromosoma Z son siempre A en el cromosoma X y B en el cromosoma Y. Si se descubre que los SNP del cromosoma Z tienen el genotipo B, entonces se dira que el feto es un varon; si se descubre que los SNP del cromosoma Z solo tienen el genotipo A, se dira que el feto es una mujer. En otra realizacion, se pueden analizar los loci que se encuentran unicamente en el cromosoma X. Contextos como AA|B resultan particularmente informativos, dado que la presencia de una B indica que el feto tiene un cromosoma X del padre. Contextos como AB|B tambien son informativos, dado que esperamos ver B presente unicamente la mitad de las veces en el caso de un feto de mujer en comparacion con el feto de un varon. En otra realizacion, se pueden analizar los SNP del cromosoma Z donde tanto los alelos A como B se encuentran presentes en el cromosoma X y el cromosoma Y, y donde se sabe que SNP proceden del cromosoma Y paterno y cuales proceden del cromosoma X paterno.
En una realizacion, es posible amplificar las posiciones de un solo nucleotido que se conoce que vanan entre la region homologa que no se vuelve a combinar (HNR) compartida por el cromosoma Y y el cromosoma X. La secuencia de la region HNR es en gran medida identica en los cromosomas X e Y. Dentro de esta region identica estan posiciones de un solo nucleotido que, aunque no vanan entre los cromosomas X y entre los cromosomas Y de la poblacion, son diferentes entre los cromosomas X e Y. Cada ensayo por PCR podna amplificar una secuencia de loci que se encuentran presentes tanto en los cromosomas X como Y. Dentro de cada secuencia amplificada estana una base individual que se puede detectar utilizando la secuenciacion o cualquier otro metodo.
5
10
15
20
25
30
35
40
45
50
55
60
En una realizacion, el sexo del feto se podna determinar a partir del ADN flotante libre fetal que se encuentra en el plasma materno, el metodo comprende algunos o todos los pasos siguientes: 1) Disenar cebadores para una PCR (ordinaria o mini-PCR, mas multiplexado si se desea) para amplificar las posiciones de un unico nucleotido variable X/Y dentro de la region HNR, 2) obtener plasma materno, 3) amplificar por PCR diana del plasma materno utilizando ensayos de PCR para X/Y de HNR, 4) secuenciar los amplicones, 5) examinar los datos de secuencia para determinar la presencia del alelo Y en_una o mas de las secuencias amplificadas. La presencia de uno o mas indicana un feto varon. La ausencia de todos los alelos Y de los amplicones indica un feto mujer.
En una realizacion, se puede utilizar la secuenciacion focalizada para medir el ADN en el plasma materno y/o los genotipos parentales. En una realizacion se podnan ignorar todas las secuencias que proceden claramente de ADN de origen paterno. Por ejemplo, en el contexto AA|AB, se podna recontar el numero de secuencias A e ignorar todas las secuencias B. Para determinar la tasa de heterocigosidad del anterior algoritmo, se podna comparar el numero de secuencias A observadas con el numero previsto de secuencias totales para la sonda en cuestion. Hay muchas formas de calcular un numero previsto de secuencias para cada sonda y para cada muestra. En una realizacion, es posible utilizar datos historicos para determinar que fraccion de todas las lecturas de secuencia pertenece a cada sonda espedfica y, a continuacion, utilizar esta fraccion emprnca, combinada con el numero total de lecturas de secuencia, para estimar el numero de secuencias en cada sonda. Otro planteamiento sena focalizar algunos alelos homocigotos conocidos y, a continuacion, utilizar los datos historicos relativos al numero de lecturas en cada sonda con el numero de lecturas en los alelos homocigotos conocidos. A continuacion, para cada muestra se podna medir el numero de lecturas en los alelos homocigotos y despues utilizar esta medicion, junto con las relaciones obtenidas empmcamente, para estimar el numero de lecturas de secuencia en cada sonda.
En algunas realizaciones, es posible determinar el sexo del feto combinando las predicciones realizadas mediante una pluralidad de metodos. En algunas realizaciones, la pluralidad de metodos se selecciona de los metodos descritos en esta divulgacion. En algunas realizaciones, al menos uno de la pluralidad de metodos se selecciona de los metodos descritos en esta divulgacion.
En algunas realizaciones, el metodo descrito en el presente documento tambien se puede utilizar para determinar el estado de ploidfa del feto en gestacion. En una realizacion, el metodo de determinacion del estado de ploidfa utiliza loci que son espedficos para el cromosoma X, o comunes para el cromosoma X y el cromosoma Y, pero no emplea los loci espedficos de Y. En una realizacion, el metodo de determinacion del estado de ploidfa utiliza uno o mas de los siguientes loci: loci que son espedficos del cromosoma X, loci que son comunes para el cromosoma X y el cromosoma Y, y loci que son espedficos para el cromosoma Y. En una realizacion, donde los ratios de cromosomas sexuales son similares, por ejemplo, 45,X (smdrome de Turner), 46,XX (mujer normal) y 47,XXX (trisornfa X), la diferenciacion se puede realizar comparando las distribuciones alelicas con las distribuciones alelicas previstas en funcion de las diversas hipotesis. En otra realizacion, esto se puede conseguir comparando el numero relativo de lecturas de secuencia para los cromosomas sexuales con uno o una pluralidad de cromosomas de referencia que se presuponen euploides. Cabe senalar tambien que estos metodos se pueden ampliar para incluir los casos aneuploides.
Deteccion de enfermedades en un unico gen
En una realizacion, un metodo para determinar el estado de ploidfa del feto se puede ampliar para permitir la realizacion de pruebas simultaneas para trastornos en un unico gen. El diagnostico de enfermedades en un unico gen utiliza el mismo planteamiento focalizado que se emplea para las pruebas de la aneuploidfa y requiere dianas espedficas adicionales. En una realizacion, el diagnostico de NPD en un unico gen se realiza a traves del analisis del enlace. En muchos casos, las pruebas directas de la muestra de ADN libre de celulas no resultan fiables, dado que la presencia de ADN materno hace que resulte practicamente imposible determinar si el feto ha heredado la mutacion de la madre. La deteccion de un alelo unico de origen paterno resulta menos problematica, pero solamente resulta plenamente informativa si la enfermedad es dominante y portada por el padre, lo que limita la utilidad del planteamiento. En una realizacion el metodo implica la PCR o planteamientos de amplificacion relacionados.
En algunas realizaciones, el metodo implica el ajuste por fases de los alelos anomalos con los SNPs circundantes enlazados muy estrechamente en los progenitores utilizando informacion de familiares en primer grado. A continuacion se puede ejecutar el metodo Parental Support en los datos de secuenciacion focalizados obtenidos de estos SNP para determinar que homologos, normales o anomalos, han sido heredados por el feto de ambos progenitores. Siempre que los SNP estan suficientemente unidos, la herencia del genotipo del feto se puede determinar de manera muy fiable. En algunas realizaciones, el metodo comprende a) la adicion de un conjunto de loci de SNP para flanquear de forma densa un conjunto especificado de enfermedades comunes a nuestro grupo multiplexado para la prueba de la aneuploidfa; b) determinacion por fases de manera fiable de los alelos de estos SNP anadidos con los alelos normales y anomalos basados en los datos geneticos de diversos parientes; y (c) reconstruccion del haplotipo fetal, o del conjunto de alelos de SNP por fases en los homologos paternos y maternos heredados en la region que rodea al locus de la enfermedad para determinar el genotipo fetal. En algunas realizaciones, las sondas adicionales que estan estrechamente unidas a un locus vinculado a una enfermedad se anaden al conjunto de loci polimorficos que se van a utilizar para la prueba de la aneuploidfa.
La reconstruccion del diplotipo fetal resulta diffcil porque la muestra es una mezcla de ADN materno y fetal. En algunas realizaciones, el metodo incorpora informacion relativa para determinar las fases de los SNP y los alelos de la enfermedad, a continuacion tiene en cuenta la distancia ffsica de los SNP y los datos de recombinacion de las
5
10
15
20
25
30
35
40
45
50
55
60
probabilidades de recombinacion espedficas de una ubicacion y los datos observados de las mediciones geneticas del plasma materno para obtener el genotipo mas probable del feto.
En una realizacion, se incluyen un numero de sondas adicionales por locus vinculado a una enfermedad en el conjunto de loci polimorficos focalizados; el numero de sondas adicionales por locus vinculada a la enfermedad puede ser de entre 4 y 10, entre 11 y 20, entre 21 y 40, entre 41 y 60, entre 61 y 80, o combinaciones de estos.
El ajuste por fases de los datos diploides de los progenitores puede ser un reto, y hay varias maneras de que esto se pueda conseguir. Algunas se describen en esta divulgacion, otras se describen mas detalladamente en otras divulgaciones (vease, por ejemplo,,la publ. PCT numero W02009105531, presentada el 9 de febrero de 2009, y la publ. PCT numero W02010017214, presentada el 4 de agosto de 2009). En una realizacion, un progenitor se puede determinar por fases por inferencia midiendo el tejido del progenitor que es haploide, por ejemplo, midiendo uno o mas esperma u ovulos. En una realizacion el progenitor se puede determinar por fases por inferencia utilizando los datos genotfpicos medidos de un familiar de primer grado como los padres o hermanos del progenitor. En una realizacion, el progenitor se puede determinar por fases por dilucion donde el ADN se diluye, en uno o una pluralidad de pocillos, hasta el punto donde se espera que no haya mas de aproximadamente una copia de cada haplotipo en cada pocillo y, a continuacion, se mide el ADN en uno o mas pocillos. En una realizacion, el genotipo del progenitor se puede determinar por fases utilizando programas informaticos que utilizan frecuencias de haplotipo basadas en la poblacion para inferir la fase mas probable. En una realizacion, el progenitor se puede determinar por fases si los datos haplotfpicos por fases son conocidos para el otro progenitor, junto con los datos geneticos no determinados por fases de una o mas descendencia genetica de los progenitores. En algunas realizaciones, la descendencia genetica de los progenitores puede ser uno o mas embriones, fetos, y/o ninos nacidos. Algunos de estos metodos y otros metodos para la determinacion por fases de uno o ambos progenitores se divulgan mas detalladamente, por ejemplo, en la Publ. USA numero 2011/0033862, presentada el 19 de agosto de 2010; la Publ. USA numero 2011/0178719, presentada el 3 de febrero de 2011; la Publ. USA numero 2007/0184467, presentada el 22 de noviembre de 2006; la Publ. USA numero 2008/0243398, presentada el 17 de marzo de 2008.
Reconstruccion del genoma fetal
En un aspecto, la divulgacion presenta metodos para determinar un haplotipo de un feto. En varias realizaciones, este metodo permite determinar que loci polimorficos (como SNPs) ha heredado el feto y reconstruir que homologos (incluyendo los eventos de recombinacion) estan presentes en el feto (e interpolar asf la secuencia entre los loci polimorficos). Si se desea, se puede reconstruir basicamente todo el genoma del feto. Si queda alguna ambiguedad restante en el genoma del feto (como en intervalos con un cruce), esta ambiguedad se puede minimizar si se desea analizando loci polimorficos adicionales. En distintas realizaciones, los loci polimorficos se eligen para cubrir uno o mas de los cromosomas a una densidad para reducir cualquier ambiguedad a un nivel deseado. Este metodo tiene importantes aplicaciones para la deteccion de polimorfismos u otras mutaciones de interes en un feto ya que permite su deteccion en base a un enlace (como la presencia de loci polimorficos enlazados en el genoma fetal) en lugar de dirigir la deteccion del polimorfismo u otra mutacion de interes en el genoma fetal. Por ejemplo, si un progenitor es un portador para una mutacion asociada a fibrosis qrnstica (CF), se puede analizar una muestra de acido nucleico que incluye ADN materno de la madre del feto y ADN fetal del feto para determinar si el ADN fetal incluye el haplotipo que contiene la mutacion CF. En concreto, los loci polimorficos se pueden analizar para determinar si el ADN fetal incluye el haplotipo que contiene la mutacion CF sin tener que detectar la propia mutacion CF en el ADN fetal.
En algunas realizaciones, el metodo implica la determinacion de un haplotipo parental (por ejemplo, un haplotipo de la madre o padre del feto). En algunas realizaciones, esta determinacion se realiza sin utilizar datos de un familiar de la madre o padre. En algunas realizaciones, un haplotipo parental se determina utilizando un planteamiento de dilucion seguido de una determinacion del genotipo de sNp o secuenciacion como se describe en el presente documento y en otra parte (vease, por ejemplo, la Publ. USA numero 2011/0033862, presentada el 19 de agosto de 2010). Puesto que el ADN esta diluido, es poco probable que mas de un haplotipo este en la misma fraccion (o tubo). Por tanto, puede haber efectivamente una unica molecula de ADN en el tubo, lo que permite determinar el haplotipo en una unica molecula de ADN. En algunas realizaciones, el metodo incluye dividir una muestra de ADN en una pluralidad de fracciones de tal modo que al menos una de las fracciones incluye un cromosoma o un segmento de cromosoma de una par de los cromosomas, y una determinacion del genotipo (por ejemplo, la determinacion de la presencia de dos o mas loci polimorficos) de la muestra de ADN en al menos una de las fracciones, determinando asf un haplotipo parental. En algunas realizaciones, la determinacion del genotipo implica una secuenciacion (como, por ejemplo, la secuenciacion por fuerza bruta). En algunas realizaciones, la determinacion del genotipo consiste en utilizar un array del SNP para detectar loci polimorficos, por ejemplo, al menos 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 loci polimorficos diferentes. En algunas realizaciones, la determinacion del genotipo implica el uso de PCR multiplexada. En algunas realizaciones, el metodo consiste en poner en contacto la muestra en una fraccion con una biblioteca de cebadores que se hibridan simultaneamente a al menos 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 loci polimorficos diferentes (como SNPs) para producir una mezcla de reaccion; y someter la mezcla de reaccion a las condiciones de reaccion de extension del cebador para producir productos amplificados que se miden con un secuenciador de alto rendimiento para producir datos de secuenciacion.
En algunas realizaciones, un haplotipo de la madre se determina mediante cualquiera de los metodos que se describen en el presente documento utilizando datos de un familiar de la madre. En algunas realizaciones, un haplotipo del padre
5
10
15
20
25
30
35
40
45
50
55
60
se determina mediante cualquiera de los metodos que se describen en el presente documento utilizando datos de un familiar del padre. En algunas realizaciones, un haplotipo se determina tanto para el padre como para la madre. En algunas realizaciones, se utiliza un array del SNP para determinar la presencia de al menos 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 loci polimorficos diferentes en una muestra de ADN de la madre (o padre) y un familiar de la madre (o padre). En algunas realizaciones, el metodo consiste en poner en contacto una muestra de ADN de la madre (o padre) y/o un familiar de la madre (o padre) con una biblioteca de cebadores que se hibridan simultaneamente a al menos 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 loci polimorficos diferentes (como SNPs) para producir una mezcla de reaccion; y someter la mezcla de reaccion a las condiciones de reaccion de extension del cebador para producir productos amplificados que se miden con un secuenciador de alto rendimiento para producir datos de secuenciacion. El haplotipo parental se puede determinar en base al array de SNP o a los datos de secuenciacion. En algunas realizaciones, los datos parentales se pueden determinar por fases mediante metodos descritos o a los que se hace referencia en otra parte de este documento.
Estos datos de haplotipo parental se pueden utilizar para determinar si el feto ha heredado el haplotipo parental. En algunas realizaciones, se analiza una muestra de acido nucleico que incluye ADN materno de la madre del feto y ADN fetal utilizando un array de SNP para detectar al menos 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 loci polimorficos diferentes. En algunas realizaciones, se analiza una muestra de acido nucleico que incluye ADN materno de la madre del feto y ADN fetal poniendo en contacto la muestra con una biblioteca de cebadores que se hibridan simultaneamente a al menos 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 loci polimorficos diferentes (como SNPs) para producir una mezcla de reaccion. En algunas realizaciones, la mezcla de reaccion se somete a condiciones de reaccion de extension del cebador para producir productos amplificados. En algunas realizaciones, los productos amplificados se miden con un secuenciador de alto rendimiento para producir datos de secuenciacion. En varias realizaciones, el array de SNP o los datos de secuenciacion se utilizan para determinar un haplotipo parental utilizando datos sobre la probabilidad de que los cromosomas se crucen en diferentes ubicaciones en un cromosoma (como, por ejemplo, utilizando datos de recombinacion como los que se pueden encontrar en la base de datos HapMap para crear una puntuacion de riesgo de recombinacion para cualquier intervalo) para modelar la dependencia entre alelos polimorficos en el cromosoma. En algunas realizaciones, los recuentos de alelos en los loci polimorficos se calculan en un ordenador en base a los datos de secuenciacion. En algunas realizaciones, en un ordenador se crean una pluralidad de hipotesis de ploidfa cada una de ellas perteneciente a un estado de ploidfa posible diferente del cromosoma; un modelo (como, por ejemplo, un modelo de distribucion conjunto) para los recuentos de alelos esperados en los loci polimorficos en el cromosoma se genera en un ordenador para cada hipotesis de ploidfa; una probabilidad relativa de cada hipotesis de ploidfa se determina en un ordenador utilizando el modelo de distribucion conjunto y los recuentos de alelos; y el estado de ploidfa del feto se determina seleccionando el estado de ploidfa correspondiente a la hipotesis con la mayor probabilidad. En algunas realizaciones, la creacion de un modelo de distribucion conjunto para los recuentos de alelos y el paso de determinacion de la probabilidad relativa de cada hipotesis se realiza utilizando un metodo que no requiere el uso de un cromosoma de referencia.
En algunas realizaciones, un haplotipo fetal se determina para uno o mas cromosomas tomados del grupo compuesto por los cromosomas 13, 18, 21, X, e Y. En algunas realizaciones, un haplotipo fetal se determina para todos los cromosomas fetales. En varias realizaciones, el metodo determina basicamente todo el genoma del feto. En algunas realizaciones, el haplotipo se determina para al menos un 30, 40, 50, 60, 70, 80, 90, o un 95% del genoma del feto. En algunas realizaciones, la determinacion del haplotipo del feto incluye informacion sobre que alelo esta presente para al menos 1.000; 2.000; 5.000; 7.500; 10.000; 20.000; 25.000; 30.000; 40.000; 50.000; 75.000; o 100.000 loci polimorficos diferentes.
Composiciones de ADN
Cuando se realiza un analisis informatico en datos de secuenciacion medidos en una mezcla de sangre fetal y materna para determinar informacion genomica que pertenece al feto, por ejemplo, el estado de ploidfa del feto, puede ser beneficioso medir las distribuciones alelicas en un conjunto de alelos. Lamentablemente, en muchos casos, por ejemplo, cuando se intenta determinar el estado de ploidfa de un feto a partir de la mezcla de ADN que se encuentra en el plasma de una muestra de sangre materna, la cantidad de ADN disponible no es suficiente como para medir directamente las distribuciones alelicas de una forma fiable en la muestra. En estos casos, la amplificacion de la mezcla de ADN proporcionara un numero suficiente de moleculas de ADN como para medir de forma fiable las distribuciones alelicas deseadas. Sin embargo, los metodos actuales de amplificacion que se utilizan tipicamente en la amplificacion de ADN para la secuenciacion a menudo presentan sesgos importantes, lo que significa que no amplifican los dos alelos de un locus polimorfico de forma homogenea. Una amplificacion sesgada puede producir distribuciones alelicas bastante diferentes de las presentes en la mezcla original. Para la mayona de las aplicaciones, no se necesitan unas mediciones altamente precisas de las cantidades relativas de alelos presentes en los loci polimorficos. Por el contrario, en una realizacion de la presente divulgacion, la amplificacion o los metodos de enriquecimiento que enriquecen espedficamente alelos polimorficos y preservan ratios alelicos es beneficiosa.
En el presente documento se describen diversos metodos que se pueden utilizar para enriquecer preferentemente una muestra de ADN en una pluralidad de loci de forma que se minimice el sesgo alelico. Algunos ejemplos utilizan sondas circularizantes para focalizar una pluralidad de loci donde los extremos 3' y los extremos 5' de la sonda precircularizada estan disenados para hibridarse a bases que estan a una o unas cuantas posiciones de distancia de los puntos
5
10
15
20
25
30
35
40
45
50
55
60
polimorficos del alelo focalizado. Otro ejemplo consiste en utilizar sondas para la PCR donde la sonda para la PCR del extremo 3' esta disenada para hibridarse a bases que se encuentran a una o unas cuantas posiciones de distancia de los puntos polimorficos del alelo focalizado. Otro ejemplo consiste en utilizar un planteamiento de division y reagrupacion para crear mezclas de ADN en las que los loci enriquecidos preferentemente son enriquecidos con un escaso sesgo alelico sin las desventajas del multiplexado directo. Otro ejemplo es el uso de un planteamiento de captura hubrida, donde las sondas de captura estan disenadas de forma que la region de la sonda de captura que esta disenada para hibridarse con el ADN que flanquea el punto polimorfico de la diana esta separada del punto polimorfico por uno o un numero reducido de bases.
Cuando las distribuciones alelicas medidas en un conjunto de loci polimorficos se utilizan para determinar el estado de ploidfa de un individuo, resulta recomendable preservar las cantidades relativas de alelos de una muestra de ADN mientras se prepara para las mediciones geneticas. Esta preparacion puede implicar la amplificacion por WGA, la amplificacion focalizada, tecnicas de enriquecimiento selectivo, tecnicas de captura hubrida, sondas de circularizacion u otros metodos disenados para amplificar la cantidad de ADN y/o mejorar selectivamente la presencia de moleculas de ADN correspondientes a determinados alelos.
En algunas realizaciones de la presente divulgacion, se presenta un conjunto de sondas de ADN disenadas para loci diana, donde los loci tienen unas frecuencias alelicas menores maximas. En algunas realizaciones de la presente divulgacion, se presenta un conjunto de sondas que estan disenadas para una diana donde los loci tienen la probabilidad maxima de que el feto tenga un SNP altamente informativo en esos loci. En algunas realizaciones de la presente divulgacion, se presenta un conjunto de sondas disenadas para loci diana, donde las sondas estan optimizadas para un subgrupo de poblacion determinado. En algunas realizaciones de la presente divulgacion, se presenta un conjunto de sondas disenadas para loci diana, donde las sondas estan optimizadas para una mezcla determinada de subgrupos de poblacion. En algunas realizaciones de la presente divulgacion, se presenta un conjunto de sondas disenadas para loci diana, donde las sondas estan optimizadas para una determinada pareja de progenitores que pertenecen a subgrupos de poblacion diferentes que tienen perfiles de frecuencia alelica menor diferentes. En algunas realizaciones de la presente divulgacion, se presenta una cadena circularizada de ADN que comprende al menos un par de bases que se hibrida a una porcion de ADN que es de origen fetal. En algunas realizaciones de la presente divulgacion, se presenta una cadena circularizada de ADN que comprende al menos un par de bases que se hibrida a una porcion de ADN que es de origen placentario. En algunas realizaciones de la presente divulgacion, se presenta una cadena circularizada de ADN que se circularizo mientras que al menos algunos de los nucleotidos se hibridaban con ADN de origen fetal. En algunas realizaciones de la presente divulgacion, se presenta una cadena circularizada de ADN que se circularizo mientras que al menos algunos de los nucleotidos se hibridaban con ADN de origen placentario. En algunas realizaciones de la presente divulgacion, se presenta un conjunto de sondas donde algunas de las sondas estan dirigidas a repeticiones en tandem simples y algunas de las sondas estan dirigidas a polimorfismos de un solo nucleotido. En algunas realizaciones, los loci se seleccionan para los fines del diagnostico prenatal no invasivo. En algunas realizaciones, las sondas se utilizan para los fines del diagnostico prenatal no invasivo. En algunas realizaciones, los loci se focalizan utilizando un metodo que podna incluir sondas circularizantes, MIP, captura mediante sondas de hibridacion, sondas de un array de SNP o combinaciones de estas. En algunas realizaciones, las sondas se utilizan como sondas circularizantes, MIP, captura mediante sondas de hibridacion, sondas de un array de SNP o combinaciones de estas. En algunas realizaciones, los loci se secuencian para los fines del diagnostico prenatal no invasivo.
Cuando la capacidad de informacion relativa de una secuencia es mayor si se combina con los contextos parentales pertinentes, al maximizar el numero de lecturas de secuencia que contienen un SNP para el que se conoce el contexto parental se puede maximizar la capacidad de informacion del conjunto de lecturas de secuencia de la muestra mezclada. En una realizacion, el numero de lecturas de secuencia que contienen un SNP para el que se conocen los contextos parentales se puede aumentar utilizando la qPCR para amplificar preferentemente secuencias espedficas. En una realizacion, el numero de lecturas de secuencia que contienen un SNP para el que se conocen los contextos parentales se puede mejorar utilizando sondas circularizantes (por ejemplo, MIP) para amplificar preferentemente secuencias espedficas. En una realizacion, el numero de lecturas de secuencia que contienen un SNP para el que se conocen los contextos parentales se puede mejorar utilizando una captura mediante un metodo de hibridacion (por ejemplo, SURESELECT) para amplificar preferentemente secuencias espedficas. Se pueden utilizar metodos diferentes para mejorar el numero de lecturas de secuencia que contienen un SNP para el que se conocen los contextos parentales. En una realizacion, la focalizacion se puede realizar mediante union con extension, union sin extension, captura por hibridacion o PCR.
En una muestra de ADN genomico fragmentado, una fraccion de las secuencias de ADN corresponde de forma exclusiva a cromosomas individuales; otras secuencias de ADN se pueden encontrar en diferentes cromosomas. Cabe senalar que el ADN que se encuentra en el plasma, sea de origen materno o fetal, esta tfpicamente fragmentado, a menudo con longitudes inferiores a 500 pares de bases. En una muestra genomica tfpica, aproximadamente el 3,3% de las secuencias correlacionables se correlacionaran con el cromosoma 13; el 2,2% de las secuencias correlacionables se correlacionaran con el cromosoma 18; el 1,35% de las secuencias correlacionables se correlacionaran con el cromosoma 21; el 4,5% de las secuencias correlacionables se correlacionaran con el cromosoma X en una mujer; el 2,25% de las secuencias correlacionables se correlacionaran con el cromosoma X (en un hombre); y el 0,73% de las secuencias correlacionables se correlacionaran con el cromosoma Y (en un hombre). Estos son los cromosomas con mas probabilidades de presentar estado de aneuploidfa en un feto. Por otra parte, entre las secuencias cortas,
5
10
15
20
25
30
35
40
45
50
55
60
aproximadamente 1 de 20 secuencias contendra un SNP, utilizando los SNP contenidos en dbSNP. La proporcion podra ser superior dado que hay muchos SNP que no se han descubierto.
En una realizacion de la presente divulgacion, se pueden utilizar los metodos de focalizacion para mejorar la fraccion de ADN en una muestra de ADN que corresponden a un cromosoma determinado de modo que la fraccion significativamente supera los porcentajes que se muestran mas arriba que son tfpicos para muestras genomicas. En una realizacion de la presente divulgacion, se pueden utilizar metodos de focalizacion para mejorar la fraccion de ADN de una muestra de ADN de forma que el porcentaje de secuencias que contienen SNP sea notablemente mayor que los porcentajes tfpicos para las muestras genomicas. En una realizacion de la presente divulgacion, se pueden utilizar metodos de focalizacion para focalizar ADN de un cromosoma o de un conjunto de SNP en una mezcla de ADN materno y fetal para los fines del diagnostico prenatal.
Cabe senalar que un metodo ha sido documentado (Patente USA 7.888.017) para determinar la aneuploidfa fetal contando el numero de lecturas que corresponden a un cromosoma sospechoso y comparandolo con el numero de lecturas que corresponden a un cromosoma de referencia, y utilizando la suposicion de que un exceso de lecturas del cromosoma sospechoso corresponde a una triploidfa en el feto en ese cromosoma. Estos metodos para el diagnostico prenatal no hanan uso de ningun tipo de focalizacion ni describen el uso de la focalizacion para el diagnostico prenatal.
Haciendo uso de planteamientos de focalizacion en la secuenciacion de la muestra mezclada, se puede conseguir un determinado nivel de precision con menos lecturas de secuencia. La precision se puede referir a la sensibilidad, se puede referir a la especificidad o se puede referir a una combinacion de estas. El nivel deseado de precision puede ser entre 90 y 95%; puede ser entre 95% y 98%; puede ser entre 98% y 99%; puede ser entre 99% y 99,5%; puede ser entre 99,5% y 99,9%; puede ser entre 99,9% y 99,99%; puede ser entre 99,99% y 99,999%, puede ser entre 99,999% y 100%). Los niveles de precision superiores al 95% se pueden denominar de alta precision.
Existen diversos metodos publicados en la tecnica que demuestran como se puede determinar el estado de ploidfa de un feto a partir de una muestra mezclada de ADN materno y fetal, por ejemplo: G.J. W. Liao et al. Clinical Chemistry 2011; 57(1) pp. 92-101. Estos metodos se centran en miles de ubicaciones a lo largo de cada cromosoma. El numero de ubicaciones a lo largo de un cromosoma que se pueden focalizar al tiempo que se consigue una determinacion de alta precision del estado de ploidfa en un feto, para un determinado numero de lecturas de secuencia con una muestra de ADN mezclado, es inesperadamente limitado. En una realizacion de la presente divulgacion, una determinacion precisa del estado de ploidfa se puede realizar utilizando secuenciacion focalizada, utilizando cualquier metodo de focalizacion, por ejemplo, qPCR, PCR mediada por ligando, otros metodos de PCR, captura por hibridacion, o sondas circularizantes, donde el numero de loci a lo largo de un cromosoma que necesita ser focalizado puede ser de entre 5000 y 2000 loci; puede ser de entra 2000 y 1000 loci; puede ser de entre 1000 y 500 loci; puede ser de entre 500 y 300 loci; puede ser de entre 300 y 200 loci; puede ser de entre 200 y 150 loci; puede ser de entre 150 y 100 loci; puede ser de entre 100 y 50 loci; puede ser de entre 50 y 20 loci; puede ser de entre 20 y 10 loci. Optimamente, puede ser de entre 100 y 500 loci. El elevado nivel de precision se puede conseguir focalizando un pequeno numero de loci y ejecutando un numero inesperadamente reducido de lecturas de secuencia. El numero de lecturas puede ser entre 100 millones y 50 millones de lecturas; el numero de lecturas puede ser entre 50 millones y 20 millones de lecturas; el numero de lecturas puede ser entre 20 millones y 10 millones de lecturas; el numero de lecturas puede ser entre 10 millones y 5 millones de lecturas; el numero de lecturas puede ser entre 5 millones y 2 millones de lecturas; el numero de lecturas puede ser entre 2 millones y 1 millon de lecturas; el numero de lecturas puede ser entre 1 millon y 500.000 lecturas; el numero de lecturas puede ser entre 500.000 y 200.000 lecturas; el numero de lecturas puede ser entre 200.000 y 100.000 lecturas; el numero de lecturas puede ser entre 100.000 y 50.000 lecturas; el numero de lecturas puede ser entre 50.000 y 20.000 lecturas; el numero de lecturas puede ser entre 20.000 y 10.000 lecturas; el numero de lecturas puede ser inferior a 10.000. Cuanto mayor es la cantidad de ADN disponible, menos lecturas se necesitan.
En algunas realizaciones, hay una composicion que comprende una mezcla de ADN de origen fetal, y ADN de origen materno, donde el porcentaje de secuencias que se corresponden de forma exclusiva con el cromosoma 13 es superior a un 4%, superior a un 5%, superior a un 6%, superior a un 7%, superior a un 8%, superior a un 9%, superior a un 10%, superior a un 12%, superior a un 15%, superior a un 20%, superior a un 25%, o superior a un 30%. En algunas realizaciones de la presente divulgacion, hay una composicion que comprende una mezcla de ADN de origen fetal, y ADN de origen materno, donde el porcentaje de secuencias que se corresponden de forma exclusiva con el cromosoma 18 es superior a un 3%, superior a un 4%, superior a un 5%, superior a un 6%, superior a un 7%, superior a un 8%, superior a un 9%, superior a un 10%, superior a un 12%, superior a un 15%, superior a un 20%, superior a un 25%, o superior a un 30%. En algunas realizaciones de la presente divulgacion, hay una composicion que comprende una mezcla de ADN de origen fetal, y ADN de origen materno, donde el porcentaje de secuencias que se corresponden de forma exclusiva con el cromosoma 21 es superior a un 2%, superior a un 3%, superior a un 4%, superior a un 5%, superior a un 6%, superior a un 7%, superior a un 8%, superior a un 9%, superior a un 10%, superior a un 12%, superior a un 15%, superior a un 20%, superior a un 25%, o superior a un 30%. En algunas realizaciones de la presente divulgacion, hay una composicion que comprende una mezcla de ADN de origen fetal, y ADN de origen materno, donde el porcentaje de secuencias que se corresponden de forma exclusiva con el cromosoma X es superior a un 6%, superior a un 7%, superior a un 8%, superior a un 9%, superior a un 10%, superior a un 12%, superior a un 15%, superior a un 20%, superior a un 25%, o superior a un 30%. En algunas realizaciones de la presente divulgacion, hay una composicion que comprende una mezcla de ADN de origen fetal, y ADN de origen materno, donde el porcentaje de secuencias que se corresponden de forma exclusiva con el cromosoma Y es superior a un 1%, superior a un 2%, superior a un 3%, superior a un 4%, superior a un 5%, superior a un 6%, superior a un 7%, superior a un 8%, superior a
5
10
15
20
25
30
35
40
45
50
55
60
un 9%, superior a un 10%, superior a un 12%, superior a un 15%, superior a un 20%, superior a un 25%, o superior a un 30%.
En algunas realizaciones, se describe una composicion que comprende una mezcla de ADN de origen fetal, y ADN de origen materno, donde el porcentaje de secuencias que se corresponden de forma exclusiva con un cromosoma, y que contienen al menos un polimorfismo de un solo nucleotido es superior a un 0,2%, superior a un 0,3%, superior a un 0,4%, superior a un 0,5%, superior a un 0,6%, superior a un 0,7%, superior a un 0,8%, superior a un 0,9%, superior a un 1%, superior a un 1,2%, superior a un 1,4%, superior a un 1,6%, superior a un 1,8%, superior a un 2%, superior a un 2,5%, superior a un 3%, superior a un 4%, superior a un 5%, superior a un 6%, superior a un 7%, superior a un 8%, superior a un 9%, superior a un 10%, superior a un 12%, superior a un 15%, o superior a un 20%, y donde el cromosoma se toma del grupo 13, 18, 21, X, o Y. En algunas realizaciones de la presente divulgacion, se describe una composicion que comprende una mezcla de ADN de origen fetal y ADN de origen materno, donde el porcentaje de secuencias que corresponde exclusivamente a un cromosoma y que contiene al menos un polimorfismo de un unico nucleotido de un conjunto de polimorfismos de un unico nucleotido es superior al 0,15%, superior al 0,2%, superior al 0,3%, superior al 0,4%, superior al 0,5%, superior al 0,6%, superior al 0,7%, superior al 0,8%, superior al 0,9%, superior al 9%, superior al 1%, superior al 1,2%, superior al 1,4%, superior al 1,6%, superior al 1,8%, superior al 2%, superior al 2,5%, superior al 3%, superior al 4%, superior al 5%, superior al 6%, superior al 7%, superior al 8%, superior al 9%, superior al 10%, superior al 12%, superior al 15%, o superior al 20%, donde el cromosoma se toma del grupo de cromosomas 13, 18, 21, X e Y, y donde el numero de polimorfismos de un unico nucleotido del conjunto de polimorfismos de un unico nucleotido esta entre 1 y 10, entre 10 y 20, entre 20 y 50, entre 50 y 100, entre 100 y 200, entre 200 y 500, entre 500 y 1000, entre 1000 y 2000, entre 2000 y 5000, entre 5000 y 10.000, entre 10.000 y 20.000, entre 20.000 y 50.000, y entre 50.000 y 100.000.
En teona, cada ciclo de la amplificacion duplica la cantidad de ADN presente; sin embargo, en la practica el grado de amplificacion es ligeramente inferior a dos. En teona, la amplificacion, incluyendo la amplificacion focalizada, producira una amplificacion libre de sesgos de una mezcla de ADN; sin embargo, en la practica los diferentes alelos tienden a amplificarse en diferente medida que otros alelos. Cuando se amplifica ADN, normalmente el grado de sesgo alelico aumenta con el numero de pasos de amplificacion. En algunas realizaciones, los metodos descritos en el presente documento implican la amplificacion de ADN con un bajo nivel de sesgo alelico. Dado que el sesgo alelico aumenta con cada ciclo adicional, se puede determinar el sesgo alelico por ciclo calculando la rafz n-esima del sesgo total donde n es el logaritmo en base 2 del grado de enriquecimiento. En algunas realizaciones, hay una composicion que comprende una segunda mezcla de ADN, donde la segunda mezcla de ADN se ha enriquecido preferentemente con una pluralidad de loci polimorficos) de una primera mezcla de ADN donde el grado de enriquecimiento es al menos 10, al menos 100, al menos 1.000, al menos 10.000, al menos 100.000 o al menos 1.000.000, y donde el ratio de los alelos en la segunda mezcla de ADN en cada locus difiere del ratio de los alelos en ese locus en la primera mezcla de ADN por un factor que es, de media, inferior a 1.000%, 500%>, 200%>, 100%>, 50%>, 20%>, 10%>, 5%, 2%, 1%, 0,5%, 0,2%, 0,1%, 0,05%, 0,02%, o 0,01%. En algunas realizaciones, se presenta una composicion que comprende una segunda mezcla de ADN, donde la segunda mezcla de ADN ha sido enriquecida preferentemente en una pluralidad de loci polimorficos de una primera mezcla de ADN, donde el sesgo alelico por ciclo para la pluralidad de loci polimorficos es, de media, inferior al 10%, 5%, 2%, 1%, 0,5%, 0,2%, 0,1%, 0,05%, o 0,02%. En algunas realizaciones, la pluralidad de loci polimorficos comprende al menos 10 loci, al menos 20 loci, al menos 50 loci, al menos 100 loci, al menos 200 loci, al menos 500 loci, al menos 1.000 loci, al menos 2.000 loci, al menos 5.000 loci, al menos 10.000 loci, al menos 20.000 loci, o al menos 50.000 loci.
Algunas realizaciones
En algunas realizaciones, se divulga un metodo en el presente documento para generar un informe que divulga el estado de ploidfa determinado de un cromosoma en un feto en gestacion, el metodo consiste en lo siguiente: la obtencion de una primera muestra que contiene ADN de la madre del feto y ADN del feto; la obtencion de datos genotfpicos de uno o ambos padres del feto; la preparacion de la primera muestra aislando el ADN para obtener una muestra preparada; la medicion del ADN en la muestra preparada en una pluralidad de loci polimorficos; el calculo, en un ordenador, de probabilidades de recuento de alelos o de recuentos de alelos en la pluralidad de loci polimorficos de las mediciones de ADN realizadas en la muestra preparada; la creacion, en un ordenador, de una pluralidad de hipotesis de ploidfa sobre probabilidades del recuento de alelos previstas en la pluralidad de loci polimorficos en el cromosoma para diferentes estados de ploidfa posibles del cromosoma; la creacion, en un ordenador, de un modelo de distribucion conjunto para la probabilidad del recuento de alelos de cada locus polimorfico en el cromosoma para cada hipotesis de ploidfa utilizando datos genotfpicos de uno o ambos progenitores del feto; la determinacion, en un ordenador, de una probabilidad relativa de cada una de las hipotesis de ploidfa utilizando el modelo de distribucion conjunto y las probabilidades del recuento de alelos calculadas para la muestra preparada; la determinacion del estado de ploidfa del feto seleccionando el estado de ploidfa correspondiente a la hipotesis con la probabilidad mas elevada; y la generacion de un informe que divulgue el estado de ploidfa determinado.
En algunas realizaciones, el metodo se utiliza para determinar el estado de ploidfa de una pluralidad de fetos en gestacion en una pluralidad de madres respectivas, el metodo ademas comprende: la determinacion del porcentaje de ADN que es de origen fetal en cada una de las muestras preparadas; y donde el paso de medir el ADN en la muestra preparada se realiza mediante la secuenciacion de un numero de moleculas de ADN en cada una de las muestras preparadas, donde se secuencian mas moleculas de ADN de aquellas muestras preparadas que tienen una fraccion mas pequena de ADN fetal que aquellas muestras preparadas que tienen una fraccion mas grande de ADN fetal.
5
10
15
20
25
30
35
40
45
50
55
60
En algunas realizaciones, el metodo se utiliza para determinar el estado de ploid^a de una pluralidad de fetos en gestacion en una pluralidad de madres respectivas, y donde se realiza la medicion del ADN en la muestra preparada, para cada uno de los fetos, mediante la secuenciacion de una primera fraccion de la muestra preparada de ADN para dar un primer conjunto de mediciones, el metodo ademas comprende: la creacion de una primera determinacion de probabilidad relativa para cada una de las hipotesis de ploidfa para cada uno de los fetos, dado el primer conjunto de mediciones de ADN; la resecuenciacion de una segunda fraccion de la muestra preparada de aquellos fetos donde la primera determinacion de la probabilidad relativa para cada una de las hipotesis de ploidfa indica que una hipotesis de ploidfa correspondiente a un feto aneuploide tiene una probabilidad significativa pero no conclusiva, para dar un segundo conjunto de mediciones; la creacion de una segunda determinacion de la probabilidad relativa para la hipotesis de ploidfa para los fetos utilizando el segundo conjunto de mediciones y, opcionalmente, tambien el primer conjunto de mediciones; y la determinacion de los estados de ploidfa de los fetos cuya segunda muestra se ha resecuenciado seleccionando el estado de ploidfa correspondiente a la hipotesis con la probabilidad mas elevada determinada mediante la segunda determinacion de probabilidad relativa.
En algunas realizaciones, se divulga una composicion de materia, la composicion de materia comprende: una muestra de ADN preferentemente enriquecido, donde la muestra de ADN preferentemente enriquecido se ha enriquecido preferentemente en una pluralidad de loci polimorficos de una primera muestra de ADN, donde la primera muestra de ADN consistfa en una mezcla de ADN materno y ADN fetal derivado del plasma materno, donde el grado de enriquecimiento es al menos un factor de 2, y donde el sesgo alelico entre la primera muestra y la muestra preferentemente enriquecida se selecciona, de media, del grupo compuesto por menos de un 2%, menos de un 1%, menos de un 0,5%, menos de un 0,2%, menos de un 0,1 %, menos de un 0,05%, menos de un 0,02%, y menos de un 0,01%. En algunas realizaciones, se describe un metodo para crear una muestra de dicho ADN preferentemente enriquecido.
En alguna realizacion, se divulga un metodo para determinar la presencia o ausencia de aneuploidfa fetal en una muestra de tejido materno que comprende ADN genomico fetal y materno, donde el metodo consiste en lo siguiente: (a) la obtencion de una mezcla de ADN genomico materno y fetal de dicha muestra de tejido materno; (b) el enriquecimiento selectivo de la mezcla de ADN materno y fetal en una pluralidad de alelos polimorficos; (c) la distribucion de los fragmentos enriquecidos selectivamente de la mezcla de ADN genomico materno y fetal del paso a para proporcionar muestras de la reaccion que comprende una unica molecula de ADN genomico o productos de amplificacion de una unica molecula de ADN genomico; (d) la realizacion de una secuenciacion de ADN masivamente paralela de los fragmentos enriquecidos selectivamente de ADN genomico en las muestras de la reaccion del paso c) para determinar la secuencia de dichos fragmentos enriquecidos selectivamente; (e) la identificacion de los cromosomas a los que pertenecen las secuencias obtenidas en el paso d); (f) el analisis de los datos del paso d) para determinar i) el numero de fragmentos de ADN genomico del paso d) que pertenecen a al menos un primer cromosoma diana que se supone que es diploide tanto en la madre como en el feto, y ii) el numero de fragmentos de ADN genomico del paso d) que pertenecen a un segundo cromosoma diana, donde se sospecha que dicho segundo cromosoma es aneuploide en el feto; (g) el calculo de una distribucion prevista del numero de fragmentos de ADN genomico del paso d) para el segundo cromosoma diana si el segundo cromosoma diana es euploide, utilizando el numero determinado en el paso f) parte i); (h) el calculo de una distribucion prevista del numero de fragmentos de ADN genomico del paso d) para el segundo cromosoma diana si el segundo cromosoma diana es aneuploide, utilizando el primer numero en el paso f) parte i) y una fraccion estimada de ADN fetal que se encuentra en la mezcla del paso b); e (i) la utilizacion de una probabilidad maxima o un planteamiento a posteriori maximo para determinar si el numero de fragmentos de ADN genomico en el paso f) parte ii) es mas probable que sea parte de la distribucion calculada en el paso g) o la distribucion calculada en el paso h); indicando de este modo la presencia o ausencia de aneuploidfa fetal.
Ejemplos de metodos de diagnostico del cancer
Cabe senalar que se ha demostrado que el ADN procedente del cancer que vive en un huesped se puede encontrar en la sangre del huesped. Del mismo modo que se pueden realizar diagnosticos geneticos con la medicion del ADN mezclado que se encuentra en la sangre materna, tambien se pueden realizar diagnosticos geneticos con la medicion del ADN mezclado que se encuentra en la sangre del hospedador. Los diagnosticos geneticos pueden incluir estados de aneuploidfa o mutaciones geneticas. Cualquier reivindicacion de la divulgacion instantanea relativa a la determinacion del estado de ploidfa o del estado genetico de un feto a partir de las mediciones realizadas con la sangre materna se puede aplicar igualmente a la determinacion del estado de ploidfa o del estado genetico de un cancer a partir de las mediciones realizadas con la sangre del hospedador. En algunas realizaciones, un metodo de la presente divulgacion permite determinar el estado de ploidfa de un cancer, el metodo incluye la obtencion de una muestra mezclada que contiene material genetico del hospedador, y material genetico del cancer; y la medicion del ADN en la muestra mezclada; el calculo de la fraccion de ADN de origen cancengeno en la muestra mezclada; y la determinacion del estado de ploidfa del cancer utilizando las mediciones realizadas en la muestra mezclada y la fraccion calculada. En algunas realizaciones, el metodo puede incluir tambien la administracion de un terapeutico para el cancer basandose en la determinacion del estado de ploidfa del cancer. En algunas realizaciones, el metodo puede incluir tambien la administracion de un terapeutico para el cancer basado en la determinacion del estado de ploidfa del cancer, donde el terapeutico se toma del grupo compuesto por un producto farmaceutico, un terapeutico biologico y una terapia con anticuerpos o una combinacion de estos.
Ejemplos de metodos de implementacion
5
10
15
20
25
30
35
40
45
50
55
60
Cualquiera de las realizaciones divulgadas en el presente documento se puede implementar en circuitos electronicos digitales, circuitos integrados, ASIC (circuitos integrados de aplicacion espedfica) especialmente disenados, hardware informatico, firmware, software o combinaciones de estos. El aparato de las realizaciones divulgadas en el presente documento se puede implementar en un producto de programa informatico realizado de forma tangible en un dispositivo de almacenamiento legible electronicamente para su ejecucion por un procesador programable; y los pasos del metodo de las realizaciones divulgadas en el presente documento se pueden realizar mediante un procesador programable que ejecuta un programa de instrucciones para realizar funciones de las realizaciones divulgadas en el presente documento operando sobre los datos de entrada y generando datos de salida. Las realizaciones divulgadas en el presente documento se pueden implementar de forma ventajosa en uno o mas programas informaticos que se puedan ejecutar y/o interpretar en un sistema programable
incluyendo al menos un procesador programable, que puede ser especial o para multiples usos, conectado para recibir datos e instrucciones de un sistema de almacenamiento y para transmitir datos e instrucciones a dicho sistema de almacenamiento, al menos un dispositivo de entrada, y al menos un dispositivo de salida. Cada programa informatico se puede implementar en un lenguaje de programacion orientado al objeto o procedural de alto nivel o en un lenguaje ensamblador o lenguaje maquina si se desea; y en cualquier caso el lenguaje puede ser un lenguaje compilado o interpretado. Se puede desplegar un programa informatico en cualquier forma, incluido como programa independiente, o como un modulo, componente, subrutina u otra unidad adecuada para su uso en un entorno informatico. Se puede desplegar un programa informatico para que sea ejecutado o interpretado en un ordenador o multiples ordenadores en un punto, o distribuido en multiples puntos e interconectado a traves de una red de comunicacion.
Los medios de almacenamiento legibles por ordenador, como los utilizados en el presente documento, se refieren a un almacenamiento ffsico o tangible (en oposicion a las senales) e incluyen, entre otros, medios volatiles y no volatiles, extrafbles y no extrafbles, implementados en cualquier metodo o tecnologfa para el almacenamiento tangible de informacion como instrucciones legibles por ordenador, estructuras de datos, modulos de programas y otros datos. Los medios de almacenamiento legibles por ordenador incluyen, entre otros, RAM, ROM, EPROM, EEPROm, memoria flash u otra tecnologfa de memoria de estado solido, CD-ROM, DVD, u otro almacenamiento optico, cassettes magneticos, cinta magnetica, almacenamiento en disco magnetico u otros dispositivos de almacenamiento magnetico, o cualquier otro medio ffsico o material que se pueda utilizar para almacenar tangiblemente la informacion deseada o datos o instrucciones y al que se pueda acceder mediante un ordenador o procesador.
Cualquiera de los metodos descritos en el presente documento puede incluir la produccion de datos en un formato ffsico, como la pantalla de un ordenador o una copia impresa en papel. En las explicaciones de cualquiera de las realizaciones que aparecen en otra parte de este documento, se debe entender que los metodos descritos se pueden combinar con la salida de los datos ejecutables en un formato con el que puede actuar un medico. Por otra parte, los metodos descritos se pueden combinar con la ejecucion real de una decision clmica que resulta en un tratamiento clmico o la ejecucion de una decision clmica de no emprender medidas. Algunas de las realizaciones descritas en el documento para determinar los datos geneticos pertenecientes a un individuo diana se pueden combinar con la decision de seleccionar uno o mas embriones para la transferencia en el contexto de la IVF, opcionalmente combinada con el proceso de transferencia del embrion al utero de la futura madre. Algunas de las realizaciones descritas en el documento para determinar los datos geneticos pertenecientes a un individuo diana se pueden combinar con la notificacion de una potencial anomaffa cromosomica, o la ausencia de esta, a un profesional medico, combinada opcionalmente con la decision de abortar o no un feto en el contexto del diagnostico prenatal. Algunas de las realizaciones descritas en el presente documento se pueden combinar con la produccion de datos ejecutables y la ejecucion de una decision clmica que resulta en un tratamiento clmico o la ejecucion de una decision clmica de no emprender medidas.
Ejemplos de cuadros de diagnostico
En una realizacion, la presente divulgacion comprende un cuadro de diagnostico que es capaz de realizar parcial o completamente cualquiera de los metodos descritos en esta divulgacion. En una realizacion, el cuadro de diagnostico puede estar ubicado en la consulta de un medico, el laboratorio de un hospital o cualquier lugar adecuado y relativamente proximo al punto de atencion del paciente. El cuadro puede ser capaz de ejecutar el metodo completo de forma totalmente automatizada o puede que un tecnico tenga que completar uno o varios pasos manualmente. En una realizacion, el cuadro puede ser capaz de analizar al menos los datos genoffpicos medidos en el plasma materno. En una realizacion, el cuadro puede estar conectado a medios que transmiten los datos genoffpicos medidos en el cuadro de diagnostico a una instalacion de calculo externa que puede posteriormente analizar los datos genoffpicos y posiblemente tambien generar un informe. El cuadro de diagnostico puede incluir una unidad robotica que es capaz de transferir muestras acuosas o ffquidas de un contenedor a otro. Puede comprender una serie de reactivos, tanto solidos como ffquidos. Puede comprender un secuenciador de alto rendimiento. Puede comprender un ordenador.
Seccion experimental
Las realizaciones divulgadas en el presente documento se describen en los siguientes ejemplos, que se establecen para facilitar la comprension de la divulgacion. Los siguientes ejemplos se presentan para proporcionar al experto en la tecnica una divulgacion y descripcion completa de como utilizar las realizaciones descritas. Se ha hecho todo lo posible para garantizar la precision con respecto a los numeros utilizados (por ejemplo, cantidades, temperatura, etc.) pero se debe tener en cuenta la posibilidad de algunas desviaciones y errores experimentales. A menos que se indique lo contrario, las partes son partes por volumen y la temperatura se indica en grados cenffgrados. Se debe entender que las
5
10
15
20
25
30
35
40
45
50
55
variaciones en los metodos que se describen se pueden realizar sin cambiar los aspectos fundamentales que los experimented pretenden ilustrar.
Experimento 1
El objetivo fue mostrar que un algoritmo de una estimacion de la probabilidad maxima Bayesiana (MLE) que utiliza genotipos de los progenitores para calcular la fraccion fetal mejora la precision del diagnostico de la trisoirna prenatal no invasiva en comparacion con los metodos publicados.
Los datos de secuenciacion simulados para el ADN libre de celulas materno se crearon mediante lecturas de muestreo obtenidas en trisoirna-21 y en las lmeas celulares maternas respectivas. La tasa de determinaciones de disoirna y trisoirna correcta se determino a partir de 500 simulaciones en varias fracciones fetales para un metodo publicado (Chiu et al. BMJ 201 l;342:c7401) y nuestro algoritmo basado en MLE. Validamos las simulaciones mediante la obtencion de 5 millones de lecturas por fuerza bruta de cuatro madres embarazadas y los respectivos padres recogidas bajo un protocolo aprobado por IRB. Los genotipos parentales se obtuvieron en un array de SNP de 290K. (Vease la Figura 14)
En simulaciones, el planteamiento basado en MLE obtuvo una precision del 99,0% para fracciones fetales tan bajas como un 9% e informo de certezas que corresponden a una precision global. Validamos estos resultados utilizando cuatro muestras reales donde obtuvimos todas las determinaciones correctas con una certeza calculada que supero el 99%. Por el contrario, nuestra implementacion del algoritmo publicado para Chiu et al. requirio un 18% de fraccion fetal para conseguir una precision del 99,0%, y consiguio unicamente un 87,8% de precision a un 9% de ADN fetal.
La determinacion de la fraccion fetal de genotipos parentales conjuntamente con el planteamiento basado en MLE consigue una mayor precision que los algoritmos publicados en las fracciones fetales previstas durante el primer trimestre y a principios del segundo trimestre. Ademas, el metodo que se divulga en el presente documento produce una metrica de certeza que es crucial en la determinacion de la fiabilidad del resultado, especialmente en fracciones fetales bajas donde la deteccion de la ploidfa es mas diffcil. Los metodos publicados utilizan un metodo con un umbral menos preciso para determinar la ploidfa basado en grandes conjuntos de datos de formacion de la disoirna, un planteamiento que predefine una tasa de falsos positivos. Ademas, sin una metrica de certeza, los metodos publicados corren el riesgo de informar de resultados falsos negativos cuando hay un ADN libre de celulas fetal insuficiente para realizar una determinacion. En algunas realizaciones se calcula una estimacion de certeza para el estado de ploidfa determinado.
Experimento 2
El objetivo fue mejorar la deteccion no invasiva de la trisoirna fetal 18, 21, y X especialmente en muestras compuestas de fracciones fetales bajas utilizando un planteamiento de secuenciacion focalizada combinado con los genotipos de los progenitores y datos Hapmap en un algoritmo de estimacion de la probabilidad maxima Bayesiana (MLE).
Las muestras maternas de cuatro embarazos euploides y dos con trisoirna-positiva y las muestras paternas respectivas se obtuvieron bajo un protocolo aprobado por rB de pacientes en los que se conoda el cariotipo fetal. El ADN libre de celulas materno se extrajo del plasma y se obtuvieron aproximadamente 15 millones de lecturas de secuencia tras el enriquecimiento preference que focalizo SNPs espedficos. Las muestras del progenitor se secuenciaron de forma similar para obtener genotipos.
El algoritmo descrito determino correctamente la disoirna 18 y 21 del cromosoma para todas las muestras euploides y cromosomas normales de muestras aneuploides. Las determinaciones de trisoirna 18 y 21 fueron correctas, como lo fueron los numeros de copia del cromosoma X en fetos masculinos y femeninos. La certeza producida por el algoritmo fue superior a un 98% en todos los casos.
El metodo descrito informo de forma precisa de la ploidfa de todos los cromosomas que fueron sometidos a pruebas de seis muestras, incluyendo muestras compuestas de menos de un 12% de ADN fetal, lo que representa aproximadamente un 30% de las muestras del primer trimestre y de principios del segundo trimestre. La diferencia crucial entre el algoritmo MLE instantaneo y los metodos publicados es que utiliza los genotipos del progenitor y los datos Hapmap para mejorar la precision y generar una metrica de certeza. A fracciones fetales bajas, todos los metodos se vuelven menos precisos; es importante identificar correctamente las muestras sin suficiente ADN libre de celulas fetal para realizar una determinacion fiable. Otros han utilizado sondas espedficas del cromosoma Y para estimar la fraccion fetal de fetos masculinos, pero la determinacion del genotipo parental concurrente permite la estimacion de la fraccion fetal para ambos sexos. Otra limitacion inherente de los metodos publicados que utilizan una secuenciacion por fuerza bruta no focalizada es que la precision de la determinacion de ploidfa vana entre los cromosomas debido a diferencias en los factores como la riqueza de GC. El planteamiento de secuenciacion focalizada instantanea depende en gran medida de dichas variaciones en la escala del cromosoma y produce un rendimiento mas constante entre cromosomas.
Experimento 3
El objetivo era determinar si la trisoirna es detectable con una alta seguridad en un feto triploide, utilizando un programa informatico nuevo para analizar loci de SNP de ADN fetal flotante libre en plasma materno.
Se extrajeron 20 mL de sangre de una paciente embarazada tras ultrasonidos anomalos. Despues de la centrifugacion, se extrajo ADN materno de la capa leucocitaria (DNEASY, QIAGEN); se extrajo ADN libre de celulas del plasma (QIAAMP QIAGEN). Se aplico una secuenciacion focalizada a los loci de SNP en los cromosomas 2, 21, y X en ambas muestras de ADN. La estimacion Bayesiana de probabilidad maxima selecciono la hipotesis mas probable del conjunto
5
10
15
20
25
30
35
40
45
50
55
60
de todos los estados de ploidfa posibles. El metodo determina la fraccion de ADN fetal, el estado de ploid^a y las certezas expKcitas en la determinacion del estado de ploid^a. No se realiza ninguna suposicion sobre la ploidfa de un cromosoma de referencia. El diagnostico utiliza una estadfstica de ensayo que es independiente de los recuentos de lectura de la secuencia, que es el estado reciente de la tecnica.
El metodo instantaneo diagnostico con precision la trisoirna de los cromosomas 2 y 21. La fraccion del nino se estimo en un 11,9% [CI 11,7-12,1], se descubrio que el feto tema una copia materna y dos paternas de los cromosomas 2 y 21 con una certeza de efectivamente 1 (error-30 probabilidad<10"30). Esto se consiguio con 92.600 y 258.100 lecturas en los cromosomas 2 y 21 respectivamente.
Esta es la primera demostracion de diagnostico prenatal no invasivo de cromosomas trisomicos de sangre materna donde el feto era triploide, segun confirmo el cariotipo de metafase. Los metodos existentes de diagnosis no invasiva no detectanan aneuploidfa en esta muestra. Los metodos actuales se basan en una sobreproduccion de lecturas de secuencia en un cromosoma trisomico relacionado con cromosomas de referencia disomicos; aunque un feto triploide no tiene referencia disomica. Ademas, los metodos existentes no conseguinan de forma similar una determinacion del estado de ploidfa de alta certeza con esta fraccion de ADN fetal y numero de lecturas de secuencia. Es sencillo ampliar el planteamiento a los 24 cromosomas.
Experimento 4
El siguiente protocolo se utilizo para la amplificacion de 800-plex de ADN aislado del plasma materno de un embarazo euploide y tambien ADN genomico de una lmea celular de triploidfa 21 utilizando PCR estandar (es decir, no se utilizo el anidado). La preparacion de la biblioteca y la amplificacion supuso un extremo romo de un unico tubo seguido de un factor de cola A. La union de adaptador se ejecuto utilizando el kit de union que se encuentra en el kit AGILENT SURESELECT, y la PCR se ejecuto durante 7 ciclos. A continuacion, 15 ciclos de STA (95 °C durante 30 s; 72 °C durante 1 min; 60 °C durante 4 min; 65 °C durante 1 min; 72 °C durante 30 s) utilizando 800 diferentes pares de cebadores focalizando SNPs en los cromosomas 2, 21 y X. La reaccion se ejecuto con una concentracion del cebador de 12,5 nM. A continuacion, se secuencio el ADN con un secuenciador ILLUMINA IIGAX. El secuenciador produce 1,9 millones de lecturas, de las cuales un 92% se correlaciona con el genoma; de estas lecturas que se han correlacionado con el genoma, mas del 99% se han correlacionado con una de las regiones focalizadas por los cebadores focalizados. Los numeros eran basicamente el mismo para tanto el ADN del plasma como el ADN genomico. La Figura 15 muestra el ratio de los dos alelos para los -780 SNPs detectados por el secuenciador en el ADN genomico que se tomo de una lmea celular con trisoirna conocida en el cromosoma 21. Cabe senalar que los ratios de alelos se representan aqu graficamente para facilitar la visualizacion, ya que las distribuciones alelicas no son sencillas de leer visualmente. Los drculos representan SNPs en cromosomas disomicos, mientras que las estrellas representan SNPs en un cromosoma trisomico. La Figura 16 es otra representacion de los mismos datos que en la Figura X, donde el eje Y es el numero relativo de A y B medido para cada SNP, y donde el eje X es el numero SNP donde los SNPs estan separados por cromosoma. En la Figura 16, del SNP 1 al 312 se encuentran en el cromosoma 2, del SNP 313 al 605 se encuentran en el cromosoma 21 que es trisomico, y del SNP 606 al 800 estan en el cromosoma X. Los datos de los cromosomas 2 y X muestran un cromosoma disomico, ya que la secuencia relativa se encuentra en tres agrupaciones: AA en la parte superior del grafico, BB en la parte inferior del grafico, y AB en la parte central del grafico. Los datos del cromosoma 21, que es trisomico, muestran cuatro agrupaciones: AAA en la parte superior del grafico, AAB alrededor de la lmea 0,65 (2/3), ABB alrededor de la lmea 0,35 (1/3), y BBB en la parte inferior del grafico.
Las Figuras 17A-D: muestran datos para el mismo protocolo de 800-plex, pero medidas en ADN que se amplifico de cuatro muestras de plasma de mujeres embarazadas. Para estas cuatro muestras, esperamos ver siete agrupaciones de puntos: (1) a lo largo de la parte superior del grafico estan aquellos loci donde tanto la madre como el feto son AA,
(2) ligeramente por debajo de la parte superior del grafico estan aquellos loci en los que la madre es AA y el feto es AB,
(3) ligeramente por encima de la lmea 0,5 estan aquellos loci en los que la madre es Ab y el feto es AA, (4) a lo largo de la lmea 0,5 estan aquellos loci en los que la madre y el feto son ambos AB, (5) ligeramente por debajo de la lmea 0,5 estan aquellos loci en los que la madre es AB y el feto es BB, (6) ligeramente por encima de la parte inferior del grafico estan aquellos loci en los que la madre es BB y el feto es AB, (1) a lo largo de la parte inferior del grafico estan aquellos loci en los que tanto la madre como el feto son BB. Cuanto mas pequena sea la fraccion fetal, menos sera la separacion entre las agrupaciones (1) y (2), entre las agrupaciones (3), (4) y (5), y entre las agrupaciones (6) y (7). La separacion esta previsto que sea la mitad de la fraccion de ADN que es de origen fetal. Por ejemplo, si el ADN es un 20% fetal y un 80% materno, se espera que del (1) al (7) esten centrados en 1,0, 0,9, 0,6, 0,5, 0,4, 0,1 y 0,0 respectivamente; vease, por ejemplo, la Figura 17D, POOL1_BC5_mdice_ref. Si, en caso contrario el ADN es un 8%> fetal, y un 92% materno, se espera que del (1) al (7) esten centrados en 1,00, 0,96, 0,54, 0,50, 0,46, 0,04 y 0,00 respectivamente; vease por ejemplo, la Figura 17b, POoL1_BC2_mdice_ref. Si no se detecta ADN fetal, no se espera ver (2), (3), (5), o (6); de forma alternativa se puede decir que la separacion es cero y, por tanto, (1) y (2) estan en la parte superior uno de otro, como lo estan (3), (4) y (5), y tambien (6) y (7); vease por ejemplo, la Figura 17C, 15POOL1_BC7_mdice_ref. Cabe senalar que la fraccion fetal para la Figura 17A, Indice de ref. POOL1 BC1 es de un 25%.
Experimento 5
La mayona de metodos de amplificacion de ADN y medicion produciran algun sesgo alelico, donde los dos alelos que de forma tfpica se encuentran en un locus se detectan con intensidades o recuentos que no son representativos de las cantidades reales de alelos en la muestra de ADN. Por ejemplo, para un solo individuo, en un locus heterocigoto esperamos ver un ratio 1:1 de los dos alelos, que es el ratio teorico que se espera para un locus heterocigoto; sin
5
10
15
20
25
30
35
40
45
50
55
60
embargo, debido al sesgo alelico, es posible que veamos uno de 55:45, o incluso 60:40. Tambien cabe senalar que en el contexto de la secuenciacion, si la profundidad de lectura es baja, un simple ruido estocastico podna dar como resultado un sesgo alelico significativo. En una realizacion, es posible modelar el comportamiento de cada SNP de modo que si se observa un sesgo constante para determinados alelos, este sesgo se puede corregir. La Figura 18 muestra la fraccion de datos que se puede explicar por la varianza binomial antes y despues de la correccion del sesgo. En la Figura 18, las estrellas representan el sesgo alelico observado en los datos de secuencia brutos para el experimento de 800-plex; los drculos representan el sesgo alelico despues de la correccion. Cabe senalar que si no hubiera un sesgo alelico en absoluto, se esperana que los datos recayeran en la lmea x=y. Un conjunto de datos similar del que se ha producido mediante la amplificacion de ADN utilizando una amplificacion focalizada de 150-plex produjo datos que se encontraron muy cerca de la lmea 1:1 despues de la correccion del sesgo.
Experimento 6
La amplificacion universal de ADN utilizando adaptadores unidos con cebadores espedficos para las etiquetas del adaptador, donde la reformacion termica del cebador y los tiempos de ampliacion son limitados a unos pocos minutos tiene el efecto de enriquecer la proporcion de hebras de ADN mas cortas. La mayona de protocolos de biblioteca disenados para crear bibliotecas de ADN adecuadas para la secuenciacion contienen dicho paso, y se publican protocolos de ejemplos que son bien conocidos para el experto en la tecnica. En algunas realizaciones de la divulgacion, los adaptadores con una etiqueta universal estan unidos al ADN del plasma, y amplificados utilizando cebadores espedficos a la etiqueta del adaptador. En algunas realizaciones, la etiqueta universal puede ser la misma etiqueta que se utiliza para la secuenciacion, puede ser una etiqueta universal solo para la amplificacion por PCR, o puede ser un conjunto de etiquetas. Puesto que el ADN fetal es de forma tfpica corto, mientras que el aDn materno puede ser tanto de naturaleza corta como larga, este metodo tiene el efecto de enriquecer la proporcion de ADN fetal en la mezcla. El ADN flotante libre, que se cree que es ADN de celulas apoptoticas, y que contiene tanto ADN materno como fetal, es corto, en su mayor parte por debajo de 200 pares de bases. El ADN celular liberado por la celula lisis, un fenomeno comun despues de la flebotoirna, es de forma tfpica casi exclusivamente materno, y es tambien bastante largo, en su mayor parte por encima de 500 pares de bases. Por tanto, las muestras de sangre que han estado asentadas durante mas de unos minutos contendran una mezcla de ADN (fetal + materno) corto y (materno) mas largo. La realizacion de una amplificacion universal con tiempos de ampliacion relativamente cortos en plasma materno seguida de una amplificacion focalizada tendera a aumentar la proporcion relativa de ADN fetal al compararla con el plasma que se ha amplificado utilizando unicamente la amplificacion focalizada. Esto se puede ver en la Figura 19 que muestra el porcentaje fetal medido cuando el aporte es aDn del plasma (eje vertical) frente al porcentaje fetal medido cuando el ADN aportado es ADN del plasma que ha tenido una biblioteca preparada utilizando el protocolo de preparacion de bibliotecas ILLUMINA GAIIx. Todos los puntos caen por debajo de la lmea, lo que indica que el paso de preparacion de la biblioteca enriquece la fraccion de ADN que es de origen fetal. Dos muestras de plasma que eran rojas, indicando hemolisis y por tanto que habna un incremento en la cantidad de ADN materno largo presente de celula lisis, muestran un enriquecimiento especialmente significativo de la fraccion fetal cuando la preparacion de la biblioteca se realiza antes de la amplificacion focalizada. El metodo divulgado en el presente documento es especialmente util en los casos donde hay hemolisis o se ha producido cualquier otra situacion donde las celulas que comprenden hebras relativamente largas de ADN contaminante se han lisado, contaminando la muestra mezclada de ADN corto con el ADN largo. De forma tfpica la reformacion termica relativamente corta y los tiempos de ampliacion estan entre 30 segundos y 2 minutos, aunque podnan ser tan cortos como 5 o 10 segundos o menos, o tan largos como 5 o 10 minutos.
Experimento 7
El siguiente protocolo se utilizo para la amplificacion de 1.200-plex de ADN aislado del plasma materno de un embarazo euploide y tambien ADN genomico de una lmea celular de triploidfa 21 utilizando un protocolo de PCR directo, y tambien un planteamiento semianidado. La preparacion de la biblioteca y la amplificacion supuso un extremo romo de un unico tubo seguido de un factor de cola A. La union de adaptador se ejecuto utilizando una modificacion del kit de union que se encuentra en el kit AGILENT SURESELECT, y la PCR se ejecuto durante 7 ciclos. En el conjunto del cebador focalizado, habfa 550 ensayos para SNPs del cromosoma 21, y 325 ensayos para SNPs de cada uno de los cromosomas 1 y X. Ambos protocolos supoman 15 ciclos de STA (95 °C durante 30 s; 72 °C durante 1 min; 60 °C durante 4 min; 65 °C durante 30 s; 72 °C durante 30 s) utilizando una concentracion del cebador de 16 nM. El protocolo de PCR semianidada supoma una segunda amplificacion de 15 ciclos de STA (95 °C durante 30 s; 72 °C durante 1 min; 60 °C durante 4 min; 65 °C durante 30 s; 72 °C durante 30 s) utilizando una concentracion de etiqueta directa interior de 29 nM, y una concentracion de etiqueta inversa de 1 uM o 0,1 uM. A continuacion, se secuencio el ADN con un secuenciador ILLUMINA IIGAX. Para el protocolo de PCR directa, un 73% de las lecturas corresponde al genoma; para el protocolo semianidado, un 97,2% de las lecturas de secuencia corresponde al genoma. Por tanto, el protocolo semianidado da como resultado aproximadamente un 30% mas de informacion, presumiblemente debido en gran parte a la eliminacion de los cebadores que es mas probable que causen dfmeros de cebadores.
La variabilidad en la profundidad de lectura tiende a ser mas alta cuando se utiliza el protocolo semianidado que cuando se utiliza el protocolo de PCR directa (vease la Figura 20) donde los diamantes hacen referencia a la profundidad de lectura para loci ejecutados con el protocolo semianidado, y los cuadrados hacen referencia a la profundidad de lectura para loci ejecutados sin anidado. Los SNPs estan dispuestos por profundidad de lectura para los diamantes, de modo que todos los diamantes caen en una lmea curva, mientras que los cuadrados aparecen correlacionados holgadamente; la disposicion de los SNPs es arbitraria, y es la altura del punto lo que denota la profundidad de lectura en lugar de su ubicacion de izquierda a derecha.
5
10
15
20
25
30
35
40
45
50
55
En algunas realizaciones, los metodos que se describen en el presente documento pueden obtener unas variaciones en la profundidad de lectura (DOR) excelentes. Por ejemplo, en un version de este experimento (Figura 21) utilizando una amplificacion por PCR directa de 1.200-plex de aDn genomico, de los 1.200 ensayos: 1186 ensayos tuvieron una DOR superior a 10; la profundidad de lectura media fue de 400; 1063 ensayos (88,6%) tuvieron una profundidad de lectura de entre 200 y 800, y una ventana ideal donde el numero de lecturas para cada alelo es lo suficientemente alta para dar datos significativos, mientras que el numero de lecturas para cada alelo no es tan alto de modo que el uso marginal de esas lecturas fue especialmente pequeno. Solo 12 alelos teman una profundidad de lectura mas alta siendo la maxima de 1035 lecturas. La desviacion estandar de la DOR fue de 290, la DOR fue de 453, el coeficiente de varianza de la DOR fue de un 64%, hubo un total de 950.000 lecturas, y 63,1% de las lecturas se correspondieron con el genoma. En otro experimento (Figura 22) utilizando un protocolo semianidado de 1.200-plex, la DOR fue mas alta. La desviacion estandar de la DOR fue de 583, la DOR fue de 630, el coeficiente de varianza de la DOR fue de un 93%, hubo un total de 870.000 lecturas, y 96,3% de las lecturas se correspondieron con el genoma. Cabe senalar que en ambos casos, los SNPs estan dispuestos por la profundidad de lectura para la madre, de modo que la lmea curva representa la profundidad de lectura materna. La diferenciacion entre nino y padre no es significativa; solo es la tendencia lo que es significativo para los fines de esta explicacion.
Experimento 8
En un experimento, el protocolo para PCR de 1.200-plex semianidado se utilizo para amplificar el ADN de una celula y de tres celulas. Este experimento es relevante para la prueba de aneuploidfa prenatal utilizando celulas fetales aisladas de la sangre materna, o para el diagnostico genetico previo al implante utilizando blastomeros biopsiados o muestras de trofectodermo. Hubo 3 duplicados de 1 y 3 celulas de individuos (46 XY y 47 XX+21) por condicion. Los ensayos focalizaron los cromosomas 1, 21 y X. Se utilizaron tres diferentes metodos de lisis. ARCTURUS, MPERv2 y lisis alcalina. La secuenciacion se ejecuto multiplexando 48 muestras en una lmea de secuenciacion. El algoritmo devolvio determinaciones correctas del estado de ploidfa para cada uno de los tres cromosomas, y para cada uno de los duplicados.
Experimento 9
En un experimento, se prepararon cuatro muestras de plasma materno y se amplificaron utilizando un protocolo de 9.600-plex hemianidado. Las muestras se prepararon del modo siguiente: Se centrifugaron hasta 40 mL de sangre materna para aislar la capa leucocitaria y el plasma. El ADN genomico en la muestra materna se preparo de la capa leucocitaria y el ADN paterno se preparo a partir de una muestra de sangre o una muestra de saliva. El ADN libre de celulas en el plasma materno se aislo utilizando el kit de acido nucleico circulante QIAGEN y se eluyo en 45 uL de tampon TE en funcion de las instrucciones del fabricante. Se anexaron adaptadores de union universales al extremo de cada molecula de 35 uL de ADN del plasma purificado y las bibliotecas se ampliaron durante 7 ciclos utilizando cebadores espedficos del adaptador. Las bibliotecas se purificaron con perlas AGENCOURT AMPURE y se eluyeron en 50 ul de agua.
Se amplificaron 3 ul del ADN con 15 ciclos de STA (95 °C durante 10 min para la activacion de la polimerasa inicial, a continuacion, 15 ciclos de 95 °C durante 30 s; 72 °C durante 10 s; 65 °C durante 1 min; 60 °C durante 8 min; 65 °C durante 3 min; y 72 °C durante 30 s; y una ampliacion final a 72 °C durante 2 min;) utilizando una concentracion del cebador de 14,5 nM de 9600 cebadores inversos etiquetados espedficos diana y un cebador directo espedfico del adaptador de biblioteca a 500 nM.
El protocolo para PCR hemianidada supoma una segunda amplificacion de una dilucion del primer producto de STAs durante 15 ciclos de STA (95 °C durante 10 min para la activacion de la polimerasa inicial, a continuacion, 15 ciclos de 95 °C durante 30 s; 65 °C durante 1 min; 60 °C durante 5 min; 65 °C durante 5 min y 72 °C durante 30 s; y una ampliacion final a 72 °C durante 2 min) utilizando una concentracion de etiqueta inversa de 1000 nM, y una concentracion de 16,6 u nM para cada uno de los 9600 cebadores directos espedficos diana.
A continuacion, se amplifico una almuota de productos de STA mediante PCR estandar durante 10 ciclos con 1 uM de cebadores directos espedficos etiquetados y cebadores inversos codificados mediante codigo de barras para generar bibliotecas de secuenciacion codificadas mediante codigo de barras. Se mezclo una almuota de cada biblioteca con bibliotecas de diferentes codigos de barras y se purifico utilizando una columna de centrifugacion.
De este modo, se utilizaron 9.600 cebadores en las reacciones de un unico pocillo; los cebadores se disenaron para focalizar SNPs encontrados en los cromosomas 1, 2, 13, 18, 21, X e Y. A continuacion, se secuenciaron los amplicones utilizando un secuenciador ILLUMINA GAIIX. Por muestra, el secuenciador genero aproximadamente 3,9 millones de lecturas, con 3,7 millones de lecturas correlacionadas con el genoma; (94%), y de esas, 2,9 millones de lecturas (74%) correlacionadas con los SNPs focalizados con una profundidad media de lectura de 344 y una mediana de profundidad de lectura de 255. Se descubrio que la fraccion fetal para las cuatro muestras era del 9,9%, 18,9%, 16,3%, y 21,2%
Las muestras de ADN genomico materno y paterno relevantes se amplificaron utilizando un protocolo de 9600-plex semianidado y se secuenciaron. El protocolo semianidado es diferente en que aplica 9.600 cebadores directos exteriores y cebadores inversos etiquetados a 7,3 nM en la primera STA. Las condiciones termodclicas y la composicion de la segunda STA, y la PCR mediante codificacion por medio de codigo de barras eran las mismas que para el protocolo hemianidado.
5
10
15
20
25
30
35
40
45
50
55
Los datos de secuenciacion se analizaron utilizando metodos informaticos divulgados en el presente documento y se determino el estado de ploidfa en seis cromosomas para los fetos cuyo ADN estaba presente en las 4 muestras de plasma materno. Las determinaciones del estado de ploidfa para los 28 cromosomas en el conjunto se determinaron correctamente con certezas superiores al 99,2% excepto por un cromosoma que se determino correctamente, pero con una certeza del 83%.
La Figura 23 muestra la profundidad de lectura del planteamiento hemianidado de 9.600-plex junto con la profundidad de lectura del planteamiento semianidado de 1.200-plex descrito en el Experimento 7, aunque el numero de SNPs con una profundidad de lectura superior a 100, superior a 200 y superior a 400 fue significativamente mas alto que en el protocolo de 1.200-plex. El numero de lecturas en el 90° percentil se puede dividir por el numero de lecturas en el 10° percentil para dar una metrica sin dimensiones que es indicativa de la uniformidad de la profundidad de lectura; el numero mas pequeno, el mas uniforme (estrecho) la profundidad de lectura. El 90° percentil medio/10° ratio de percentil es 11,5 para el metodo ejecutado en el Experimento 9, mientras que es 5,6 para el metodo ejecutado en el Experimento 7. Una profundidad de lectura mas estrecha para la plexidad de un protocolo determinado es mejor para la eficiencia de la secuenciacion, ya que son necesarias menos lecturas de secuencia para garantizar que un determinado porcentaje de lecturas esta por encima de un umbral de numero de lecturas.
Experimento 10
En un experimento, se prepararon cuatro muestras de plasma materno y se amplificaron utilizando un protocolo de 9.600-plex semianidado. Los detalles del Experimento 10 fueron muy similares al Experimento 9, siendo la excepcion el protocolo de anidado, e incluyendo la identidad de las cuatro muestras. Las determinaciones del estado de ploidfa para los 28 cromosomas en el conjunto se determinaron correctamente con certezas superiores al 99,7%. 7,6 millones (91%) de lecturas se correlacionaron con el genoma, y 6,3 millones (80%) de lecturas se correlacionaron con los SNPs focalizados. La profundidad de lectura media fue de 751, y la mediana de profundidad de lectura fue de 396.
Experimento 11
En un experimento, tres muestras de plasma materno se dividieron en cinco partes iguales, y cada parte se amplifico utilizando o bien 2.400 cebadores multiplexados (cuatro partes) o 1.200 cebadores multiplexados (una parte) y se amplificaron utilizando un protocolo semianidado, para un total de 10.800 cebadores. Despues de la amplificacion, las partes se agruparon para la secuenciacion. Los detalles del Experimento 11 fueron muy similares al Experimento 9, siendo la excepcion el protocolo de anidado, y el planteamiento de division y reagrupacion. Las determinaciones del estado de ploidfa para los 21 cromosomas en el conjunto se determinaron correctamente con certezas superiores al 99,1% excepto por una determinacion fallida donde la certeza fue del 83%. 3,4 millones de lecturas se correlacionaron con los SNPs focalizados, la profundidad de lectura media fue de 404 y la mediana de profundidad de lectura fue de 258.
Experimento 12
En un experimento, cuatro muestras de plasma materno se dividieron en cuatro partes iguales, y cada parte se amplifico utilizando 2.400 cebadores multiplexados y se amplifico utilizando un protocolo semianidado, para un total de 9.600 cebadores. Despues de la amplificacion, las partes se agruparon para la secuenciacion. Los detalles del Experimento 12 fueron muy similares al Experimento 9, siendo la excepcion el protocolo de anidado, y el planteamiento de division y reagrupacion. Las determinaciones del estado de ploidfa para los 28 cromosomas en el conjunto se determinaron correctamente con certezas superiores al 97% excepto por una determinacion fallida donde la certeza fue del 78%. 4,5 millones de lecturas se correlacionaron con los SNPs focalizados, la profundidad de lectura media fue de 535 y la mediana de profundidad de lectura fue de 412.
Experimento 13
En un experimento, se prepararon cuatro muestras de plasma materno y se amplificaron utilizando un protocolo triplemente hemianidado de 9.600-plex, para un total de 9.600 cebadores. Los detalles del Experimento 12 fueron muy similares al Experimento 9, siendo la excepcion el protocolo de anidado que supuso tres rondas de amplificacion; las tres rondas supoman 15, 10 y 15 ciclos de STA respectivamente. Las determinaciones del estado de ploidfa para 27 de 28 cromosomas en el conjunto se determinaron correctamente con certezas superiores al 99,9% excepto por una que se determino correctamente con un 94,6%, y una determinacion fallida con una certeza de un 80,8%. 3,5 millones de lecturas se correlacionaron con los SNPs focalizados, la profundidad de lectura media fue de 414 y la mediana de profundidad de lectura fue de 249.
Experimento 14
En un experimento se amplificaron 45 conjuntos de celulas utilizando un protocolo semianidado de 1.200-plex, se secuenciaron, y se realizaron determinaciones de ploidfa en tres cromosomas. Cabe senalar que este experimento pretende simular las condiciones de realizar un diagnostico genetico previo a la implantacion en biopsias de una sola celula de embriones de 3 dfas, o biopsias de trofectodermo de embriones de 5 dfas. 15 celulas unicas individuales y 30 conjuntos de tres celulas se colocaron en 45 tubos de reaccion individuales para un total de 45 reacciones donde cada reaccion contema celulas de una sola lmea celular, pero las diferentes reacciones conteman celulas de diferentes lmeas celulares. Las celulas se prepararon en 5 ul de tampon de lavado y se lisaron anadiendo 5 ul de tampon de lisis ARCTURUS PICOPURE (APPLIED BIOSYSTEMS) y se incubaron a 56 °C durante 20 min, 95 °C durante 10 min.
5
10
15
20
25
30
35
40
45
50
55
60
Se amplifico el ADN de la celula individual/las tres celulas con 25 ciclos de STA (95 °C durante 10 min para la activacion de la polimerasa inicial, a continuacion, 25 ciclos de 95 °C durante 30 s; 72 °C durante 10 s; 65 °C durante 1 min; 60 °C durante 8 min; 65 °C durante 3 min; y 72 °C durante 30 s; y una ampliacion final a 72 °C durante 2 min;) utilizando una concentracion del cebador de 50 nM de 1200 cebadores directos espedficos diana y cebadores inversos etiquetados.
El protocolo para PCR semianidada supoma la segunda amplificacion de tres paralelas de una dilucion del primer producto de STAs durante 20 ciclos de STA (95 °C durante 10 min para la activacion de la polimerasa inicial, a continuacion, 15 ciclos de 95 °C durante 30 s; 65 °C durante 1 min; 60 °C durante 5 min; 65 °C durante 5 min; y 72 °C durante 30 s; y una ampliacion final a 72 °C durante 2 min) utilizando una concentracion de cebador espedfico de etiqueta inversa de 1000 nM, y una concentracion de 60 nM para cada uno de los 400 cebadores directos anidados espedficos diana. De este modo, en las tres reacciones paralelas de 400-plex se amplifico el total de 1200 dianas amplificadas en la primera STA. A continuacion, se amplifico una alfcuota de productos STA mediante PCR estandar durante 15 ciclos con 1 uM de cebadores directos espedficos etiquetados y cebadores inversos codificados mediante codigo de barras para generar bibliotecas de secuenciacion codificadas mediante codigo de barras. Se mezclo una alfcuota de cada biblioteca con bibliotecas de diferentes codigos de barras y se purifico utilizando una columna de centrifugacion.
De este modo, se utilizaron 1.200 cebadores en las reacciones de una sola celula; los cebadores se disenaron para focalizar SNPs encontrados en los cromosomas 1, 21 y X. A continuacion, se secuenciaron los amplicones utilizando un secuenciador ILLUMINA GAIIX. Por muestra, el secuenciador genero aproximadamente 3,9 millones de lecturas, con de
500.000 a 800.000 millones de lecturas que se correspondieron con el genoma; (de un 74% a un 94% de todas las lecturas por muestra).
Las muestras relevantes de ADN genomico materno y paterno de las lmeas celulares se analizaron utilizando el mismo conjunto de ensayo semianidado de 1200-plex con un protocolo similar con menos ciclos y una segunda STA de 1200- plex, y se secuenciaron.
Los datos de secuenciacion se analizaron utilizando metodos informaticos divulgados en el presente documento y se determino el estado de ploidfa en los tres cromosomas para las muestras.
La Figura 24 muestra ratios de profundidad de lectura normalizados (eje vertical) para seis muestras en tres cromosomas (1 = crom 1; 2 = crom 21; 3 = crom X). Los ratios se establecieron para que fueran iguales al numero de lecturas que se correspondfan con ese cromosoma, normalizado, y dividido por el numero de lecturas que se correlacionan con ese cromosoma promediado en tres pocillos cada uno de los cuales contiene tres celulas 46XY. Los tres conjuntos de puntos de datos correspondientes a las reacciones 46XY esta previsto que tengan ratios de 1:1. Los tres conjuntos de puntos de datos correspondientes a las celulas 47XX+21 esta previsto que tengan ratios de 1:1 para el cromosoma 1, 1.5:1 para el cromosoma 21, y 2:1 para el cromosoma X.
La Figura 25 muestra ratios de alelos representados graficamente para tres cromosomas (1, 21, X) para tres reacciones. La reaccion en la parte inferior izquierda muestra una reaccion en tres celulas 46XY. La region izquierda representa los ratios de alelos para el cromosoma 1, la region central son los ratios de alelos para el cromosoma 21, y la region derecha son los ratios de alelos para el cromosoma X. Para las celulas 46XY, para el cromosoma 1 se preve ver ratios de 1, 0,5 y 0, correspondientes a los genotipos AA, AB y BB SNP. Para las celulas 46XY, para el cromosoma 21 se preve ver ratios de 1, 0,5 y 0, correspondientes a los genotipos AA, AB y BB SNP. Para las celulas 46XY, para el cromosoma X se preve ver ratios de 1 y 0, correspondientes a los genotipos A, y B SNP. La reaccion en la parte inferior derecha muestra una reaccion en tres celulas 47XX+21. Los ratios de alelos son aislados por el cromosoma como en el grafico de la parte inferior izquierda. Para las celulas 47XX+21, para el cromosoma 1 se preve ver ratios de 1, 0,5 y 0, correspondientes a los genotipos AA, AB y BB SNP. Para las celulas 47XX+21, para el cromosoma 21 se preve ver ratios de 1, 0,67, 0,33 y 0, correspondientes a los genotipos AAA, AAB, ABB y BBB SNP. Para las celulas 47XX+21, para el cromosoma X se preve ver ratios de 1, 0,5 y 0, correspondientes a los genotipos AA, AB y BB SNP. El grafico en la parte superior derecha se realizo en una reaccion que comprende 1 ng de ADN genomico de la lmea celular 47XX+21. La Figura 26 muestra los mismos graficos que la Figura 25, pero para reacciones realizadas en una sola celula. El grafico de la izquierda fue una reaccion que contema una celula 47XX+21, y el grafico de la derecha fue una reaccion que contema una celula 46XX.
De los graficos que se muestran en la Figura 25 y en la Figura 26, es visualmente aparente que hay dos agrupaciones de puntos para los cromosomas donde se preve ver ratios de 1 y 0; tres agrupaciones de puntos para los cromosomas donde se preve ver ratios de 1, 0,5, y 0, y cuatro agrupaciones de puntos para los cromosomas donde se preve ver ratios de 1, 0,67, 0,33 y 0. El algoritmo de Parental Support pudo realizar determinaciones correctas en los tres cromosomas para todas las 45 reacciones.
Experimento 15
En un experimento, se prepararon muestras de plasma materno y se amplificaron utilizando un protocolo de 19.488-plex hemianidado. Las muestras se prepararon del modo siguiente: se centrifugaron hasta 20 mL de sangre materna para aislar la capa leucocitaria y el plasma. El ADN genomico en la muestra materna se preparo de la capa leucocitaria y el ADN paterno se preparo a partir de una muestra de sangre o una muestra de saliva. El ADN libre de celulas en el plasma materno se aislo utilizando el kit de acido nucleico circulante QIAGEN y se eluyo en 50 uL de tampon de TE en funcion de las instrucciones del fabricante. Se anexaron adaptadores de union universales al extremo de cada molecula de 40 uL de ADN del plasma purificado y las bibliotecas se ampliaron durante 9 ciclos utilizando cebadores espedficos
5
10
15
20
25
30
35
40
45
50
55
del adaptador. Las bibliotecas se purificaron con perlas AGENCOURT AMPURE y se eluyeron en 50 ul de tampon de suspension de ADN. Se amplificaron 6 ul del ADN con 15 ciclos de STAR 1 (95 °C durante 10 min para la activacion de la polimerasa inicial, a continuacion, 15 ciclos de 96 ° C durante 30 s; 65 °C durante 1 min; 58 °C durante 6 min; 60 °C durante 8 min; 65 °C durante 4 min y 72 °C durante 30 s; y una ampliacion final a 72 °C durante 2 min) utilizando una concentracion del cebador de 7,5 nM de 19.488 cebadores inversos etiquetados espedficos diana y un cebador directo espedfico del adaptador de biblioteca a 500 nM.
El protocolo para PCR hemianidada supoma una segunda amplificacion de una dilucion del producto STAR 1 durante 15 ciclos (STAR 2) (95 °C durante 10 min para la activacion de la polimerasa inicial, a continuacion, 15 ciclos de 95 °C durante 30 s; 65 °C durante 1 min; 60 °C durante 5 min; 65 °C durante 5 min y 72 °C durante 30 s; y una ampliacion final a 72 °C durante 2 min) utilizando una concentracion de etiqueta inversa de 1000 nM, y una concentracion de 20 nM para cada uno de los 19.488 cebadores directos espedficos diana.
A continuacion, se amplifico una alfcuota de productos STAR 2 mediante PCR estandar durante 12 ciclos con 1 uM de cebadores directos espedficos etiquetados y cebadores inversos codificados mediante codigo de barras para generar bibliotecas de secuenciacion codificadas mediante codigo de barras. Se mezclo una alfcuota de cada biblioteca con bibliotecas de diferentes codigos de barras y se purifico utilizando una columna de centrifugacion.
De este modo, se utilizaron 19.488 cebadores en las reacciones de un unico pocillo; los cebadores se disenaron para focalizar SNPs encontrados en los cromosomas 1, 2, 13, 18, 21, X e Y. A continuacion, se secuenciaron los amplicones utilizando un secuenciador ILLUMINA GAIIX. Para las muestras de plasma, el secuenciador genero aproximadamente 10 millones de lecturas, con 9,4-9,6 millones de lecturas correlacionadas con el genoma; (94-96 %), y de esas, 99,95 % correlacionadas con los SNPs focalizados con una profundidad media de lectura de 460 y una mediana de profundidad de lectura de 350. Con fines comparativos, una distribucion perfectamente uniforme sena: 10M lecturas / 19.488 dianas = 513 lecturas/diana. Para los dfmeros de cebadores, 30.000 lecturas fueron de dfmeros de cebadores secuenciados (un 0,3% de las lecturas se generaron mediante el secuenciador). Para muestras genomicas, 99,4-99,7% de las lecturas se correlacionaron con el genoma, de aquellas, 99,99% de las lecturas se correlacionaron con los SNPs focalizados, y 0,1 % de las lecturas generadas por el secuenciador fueron dfmeros de cebadores.
Para las muestras de plasma con 10 millones de lecturas de secuenciacion, de forma tfpica al menos 19.350 de los 19.488 SNPs focalizados (99,3 %) se amplifican y secuencian. Para las muestras de plasma con 2 millones de lecturas de secuenciacion, de forma tfpica al menos 19.000 SNPs focalizados (97,5%) se amplifican y secuencian. El numero mas bajo puede ser debido a ruido en el muestreo ya que el numero de lecturas es inferior y el secuenciador omite algunos de los productos amplificados. Si se desea, se puede aumentar el numero de lecturas de secuenciacion para aumentar el numero de SNPs focalizados que se amplifican y secuencian.
Las muestras de ADN genomico materno y paterno relevantes se amplificaron utilizando 19.488 cebadores directos exteriores y cebadores inversos etiquetados a 7,5 nM en el STAR 1. Las condiciones termodclicas y la composicion de STAR 2, y la PCR mediante codificacion por medio de codigo de barras eran las mismas que para el protocolo hemianidado.
Se descubrio que la fraccion fetal media para 407 muestras era del 14,8%. Los datos de secuenciacion se analizaron utilizando metodos informaticos divulgados en el presente documento y se determino el estado de ploidfa en cuatro cromosomas (13, 18, 21, Y) para los fetos cuyo ADN estaba presente en 378 de las 407 muestras de plasma materno, y en el cromosoma X en 375 de las 407 muestras de plasma materno. Las determinaciones del estado de ploidfa para los 1.887 cromosomas en el conjunto se determinaron correctamente con certezas superiores al 90%. 1882 de las 1887 determinaciones eran superiores al 95%; y 1.862 de las 1.887 determinaciones se determinaron con una certeza superior al 99%.
Un experimento de control similar se llevo a cabo utilizando agua en lugar de ADN extrafdo del plasma en el protocolo de PCR del plasma. En base a seis de dichos ensayos de un experimento, 5-6% de las lecturas secuenciadas fueron dfmeros de cebadores. Otras lecturas secuenciadas fueron debidas a ruido de fondo. Este experimento demuestra que incluso en ausencia de una muestra de acido nucleico con loci diana para que los cebadores se hibriden (en lugar de
hibridarse en otros cebadores y formar dfmeros de cebadores amplificados) se forman pocos dfmeros de cebadores.
Experimento 16
El siguiente experimento ilustra un ejemplo de metodo para disenar y seleccionar una biblioteca de cebadores que se pueden utilizar en cualquiera de los metodos de PCR multiplexada de la invencion.
El objetivo es seleccionar cebadores de una biblioteca de cebadores candidatos inicial que se puede utilizar para amplificar simultaneamente un gran numero de loci diana (o un subconjunto de loci diana) en una sola reaccion. Para un conjunto inicial de loci diana candidatos, los cebadores no teman que disenarse o seleccionarse para cada locus diana. Los cebadores se disenan y seleccionan preferiblemente para una gran parte de los loci diana mas convenientes.
Paso 1
Un conjunto de loci diana candidatos (como los SNP) se seleccionaron en base a informacion disponible publicamente sobre parametros deseados para los loci diana, como frecuencia de los SNPs dentro de una poblacion diana o la tasa de heterocigosidad de los SNPs (pagina web ncbi.nlm.nih.gov/projects/SNP/; Sherry ST, Ward MH, Kholodov M, et al.
5
10
15
20
25
30
35
40
45
50
dbSNP: the NCBI database of genetic variation. Nucleic Acids Res. 1 de enero de 2001;29(1):308-11). Para cada locus candidato, uno o mas pares de cebadores para PCR se disenaron utilizando el programa Primer3 (pagina web primer3.sourceforge.net; libprimer3 version 2.2.3). Si no habfa disenos factibles para los cebadores para PCR para un locus diana determinado, ese locus diana se eliminaba de cualquier consideracion ulterior.
Si se desea, se puede calcular una “puntuacion de locus diana” (puntuacion mas alta que representa una mayor
deseabilidad) para la mayona o todos los loci diana, como una puntuacion de locus diana calculada en base a una
media ponderada de distintos parametros deseados para los loci diana. A los parametros se les puede asignar diferentes pesos en base a su importancia para la aplicacion particular para la que se utilizaran los cebadores. Entre los ejemplos de parametros se incluye la tasa de heterocigosidad del locus diana, el predominio de la enfermedad asociado a una secuencia (por ejemplo, un polimorfismo) en el locus diana, la penetrancia de la enfermedad asociada con una secuencia (por ejemplo, un polimorfismo) en el locus dina, la especificidad del cebador o cebadores candidatos utilizados para amplificar el locus diana, el tamano del cebador o cebadores candidatos utilizado para amplificar el locus diana, y el tamano del amplicon diana.
Paso 2
Se calculo una puntuacion de interaccion termodinamica entre cada cebador y todos los cebadores para todos los otros loci diana del paso 1 (vease, por ejemplo, Allawi, H. T. & SantaLucia, J., Jr. (1998), "Thermodynamics of Internal C-T Mismatches in DNA", Nucleic Acids Res. 26, 2694-2701; Peyret, N., Seneviratne, P. A., Allawi, H. T. & SantaLucia, J., Jr. (1999), "Nearest-Neighbor Thermodynamics and NMR of DNA Sequences with Internal A-A, C-C, G-G, and T-T Mismatches", Biochemistry 38, 3468-3477; Allawi, H. T. & SantaLucia, J., Jr. (1998), "Nearest-Neighbor
Thermodynamics of Internal A-C Mismatches in DNA: Sequence Dependence and pH Effects", Biochemistry 37, 9435
9444.; Allawi, H. T. & SantaLucia, J., Jr. (1998), "Nearest Neighbor Thermodynamic Parameters for Internal G-A Mismatches in DNA", Biochemistry 37, 2170-2179; & Allawi, H. T. & SantaLucia, J., Jr. (1997), "Thermodynamics and NMR of Internal G-T Mismatches in DNA", Biochemistry 36, 10581- 10594; MultiPLX 2.1 (Kaplinski L, Andreson R, Puurand T, Remm M. MultiPLX: automatic grouping and evaluation of PCR primers. Bioinformatics. 15 de abril de 2005;21(8): 1701-2). Este paso dio como resultado una matriz en 2D de puntuaciones de interaccion. La puntuacion de interaccion predijo la probabilidad de dfmeros de cebadores en la que estaban implicados los dos cebadores que interactuaban. La puntuacion se calculo del siguiente modo:
Puntuacion_interaccion = max(- deltaG_2, 0.8 * (- deltaG_1))
donde
deltaG_2 = energfa Gibbs (energfa necesaria para romper el dfmero) para un dfmero que es extensible mediante PCR en ambos extremos, es decir, el extremo 3' de cada cebador se reforma termicamente en el otro cebador; y deltaG_1 = energfa Gibbs para un dfmero que es extensible mediante PCR en al menos un extremo.
Paso 3:
Para cada locus diana, si habfa mas de un diseno de par de cebadores, se selecciono un diseno utilizando el metodo siguiente:
1 Para cada diseno de par de cebadores para el locus, encuentre la peor puntuacion de interaccion (la mas alta) para los cebadores en ese diseno y todos los cebadores de todos los disenos para todos los otros loci diana.
2 Seleccione el diseno con la mejor puntuacion de interaccion (la mas baja).
Paso 4
Se creo un grafico de modo que cada nodo representaba un locus y su diseno de par de cebadores asociado (por ejemplo, un problema Maximal Clique). Se creo un borde entre cada par de nodos. Se asigno un peso a cada borde igual a la peor puntuacion de interaccion (mas alta) entre los cebadores asociados a los dos nodos conectados por el borde.
Paso 5
Si se desea, para cada par de disenos para dos loci diana diferentes donde uno de los cebadores de un diseno y uno de los cebadores del otro diseno se reformanan termicamente en regiones diana con solapamiento, se anadio un borde adicional entre los nodos para los dos disenos.
El peso de estos bordes se establecio igual al peso mas alto asignado en el paso 4. Por tanto, el paso 5 evita que la biblioteca tenga cebadores que se reformanan termicamente en regiones diana con solapamiento y, de este modo,
interfieran entre sf durante una reaccion por PCR multiplexada.
Paso 6
Se calculo un umbral de puntuacion de interaccion inicial del siguiente modo: umbral_peso = max(peso_borde) - 0,05 * (max(peso_borde) - mm(peso_borde) donde
5
10
15
20
25
30
35
40
45
50
max(peso_borde) es el peso del borde maximo en el grafico; y mm(peso_borde) es el peso del borde mmimo en el grafico. Los Smites iniciales para el umbral se establecieron del modo siguiente: max_umbral_peso = max(peso_borde) mm_umbral_peso = mm(peso_borde)
Paso 7
Se creo un nuevo grafico compuesto por el mismo conjunto de nodos que el grafico del paso 5, que solo inclma bordes con pesos que superaban el umbral_peso. Por tanto, el paso ignora las interacciones con puntuaciones iguales o inferiores al umbral de peso.
Paso 8
Los nodos (y todos los bordes conectados a los nodos extrafdos) se extrajeron del grafico del paso 7 hasta que no quedaron bordes. Los nodos se extrajeron aplicando el siguiente procedimiento repetidamente:
1 Hallar el nodo con el grado mas alto (numero de bordes mas alto). Si hay mas de uno entonces seleccionar uno arbitrariamente.
2 Definir el conjunto de nodos compuesto del nodo seleccionado anteriormente y de todos los nodos conectados a este, pero excluyendo cualquier nodo que tenga un grado inferior al nodo seleccionado anteriormente.
3 Elegir el nodo del conjunto que tiene la puntuacion de locus diana mas baja (una puntuacion mas baja representa una menor deseabilidad) del paso 1. Extraer el nodo del grafico.
Paso 9
Si el numero de nodos que quedan en el grafico satisface el numero requerido de loci diana para el conjunto de PCR multiplexada (dentro de una tolerancia aceptable), entonces se continuo con el metodo en el paso 10.
Si habfa muchos o pocos nodos que quedaban en el grafico, se llevo a cabo una busqueda binaria para determinar que valores de umbral danan como resultado en el numero deseado de nodos que quedase en los graficos. Si habfa demasiados nodos en el grafico, los lfmites del umbral de peso se ajustaron del modo siguiente:
max_umbral_peso = umbral_peso
En caso contrario (si hay demasiado pocos nodos en el grafico, los lfmites del umbral de peso se ajustaron del modo siguiente:
mm_umbral_peso = umbral_peso
A continuacion, el umbral de peso se ajusto del modo siguiente: umbral_peso = (max_umbral_peso + mm_umbral_peso) / Se repitieron 2 pasos.
Paso 10
Los disenos de par de cebadores asociados con los nodos que quedan en el grafico se seleccionaron para la biblioteca de cebadores. Esta biblioteca de cebadores se puede utilizar en cualquiera de los metodos de la invencion.
Si se desea, este metodo de disenar y seleccionar cebadores se puede realizar para bibliotecas de cebadores en las que se utiliza un solo cebador (en lugar de un par de cebadores) para la amplificacion de un locus diana. En este caso, un nodo presenta un cebador por locus diana (en lugar de un par de cebadores).
Experimento 17
La Figura 27 es un grafico en el que se comparan dos bibliotecas de cebadores disenadas utilizando los metodos de la invencion. Este grafico muestra el numero de loci con una determinada frecuencia de alelos menor que son focalizados por cada biblioteca de cebadores. Durante la seleccion de la biblioteca del “nuevo conjunto”, se retuvieron mas cebadores. Esta biblioteca permite la amplificacion de mas loci diana, especialmente loci diana con frecuencias alelicas menores relativamente grandes (que son los alelos mas informativos para algun metodo de la invencion como, por ejemplo, para la deteccion de anomalfas cromosomicas fetales).
Estas bibliotecas de cebadores se utilizaron en el siguiente metodo de PCR multiplexada. Se recogio sangre (20- 40 mL) de cada sujeto en de dos a cuatro tubos de ADN CELL-FREE™ (Streck). Se aislo plasma (un mmimo de 7 mL) de cada muestra a traves de un protocolo de doble centrifugacion de 2.000 g durante 20 min, seguido de 3.220 g durante 30 min, con una transferencia de sobrenadante despues de la primera centrifugacion. El ADN libre de celulas se aislo del plasma de 7-20 mL utilizando el kit acido nucleico circulante QIAGEN QIAamp y se eluyo en 45 uL del tampon de TE. El ADN genomico materno puro se aislo de la capa leucocitaria obtenida despues de la primera centrifugacion, y el ADN genomico paterno puro se preparo de forma similar a partir de una muestra de sangre, saliva o bucal.
Las muestras de ADN libre de celulas materno, ADN genomico materno, y ADN genomico paterno se preamplificaron durante 15 ciclos utilizando 11.000 ensayos diana espedficos y se transfirio una alfcuota a una segunda reaccion por PCR de 15 ciclos utilizando cebadores anidados. Finalmente, se prepararon muestras para la secuenciacion anadiendo etiquetas codificadas mediante codigo de barras en una tercera ronda de 12 ciclos de PCR. Por tanto, se amplificaron
11.000 dianas en una sola reaccion; las dianas inclrnan SNPs encontrados en los cromosomas 13, 18, 21, X, e Y. A
5
10
15
20
25
30
35
40
45
50
55
continuacion, se secuenciaron los amplicones utilizando un secuenciador ILLUMINA GAIIx o HISEQ. Los genotipos parentales se secuenciaron a una profundidad de lectura mas baja (-20% de la profundidad de lectura del ADN libre de celulas) que los genotipos fetales.
Experimento 18
Si se desea, el tamano y cantidad de los productos de PCR se puede analizar utilizando metodos estandar, como el uso del Bioanalizador 2100 de Agilent Technologies (Figura 28A-M). Por ejemplo, los metodos de PCR directa que se describe en el presente documento sin anidado se utilizaron en experimented de 2.400-plex (Figuras 28B-28G) y 19.488-plex (Figuras 28H a 28M). La cantidad de cebador fue 10 nM para las Figuras 28B-28D y 28H a 28 J. La cantidad de cebador fue 1 nM para las Figuras 28E-28G y 28K a 28M. La cantidad de ADN aportado fue de 24 ng para las Figuras 28B, 28E, 28H, y 28K; 80 ng para las Figuras 28C, 281^ f, 281, y 28L; y 250 ng para las Figuras 28D, 28G, 28 J, y 28M. Mas ADN aportado dio como resultado una mayor proporcion del producto de 180 pares de bases deseado. El pico a 140 pares de bases es un producto de dfmeros de cebadores.
Experimento 19
Un estudio de prueba de principio demostro la deteccion de T13, T18, T21,45,X, y 47,XXY con precisiones igualmente altas en todos los cromosomas.
Pacientes
Las parejas embarazadas se inscribieron en centros espedficos de atencion prenatal bajo protocolos aprobados por una Junta de Revision Institucional en conformidad con las leyes locales. Los criterios de inclusion fueron tener al menos 18 anos de edad, una edad gestacional de al menos nueve semanas, embarazos unicos, y la firma de un consentimiento por parte del paciente sobre los beneficios y riesgos involucrados. Se extrajeron muestras de sangre de madres embarazadas, y una muestra de sangre o bucal del padre. Se seleccionaron muestras de 2 embarazos con T13 (smdrome de Patau), 2 con T18 (smdrome de Edwards), 2 con T21 (smdrome de Down), 2 con 45,X, 2 con 47,XXY, y 90 embarazos normales antes de realizar una prueba de una cohorte de 500 mujeres para determinar que anomalfas cromosomicas detecta el metodo. El cariotipo fetal normal se confirmo mediante el establecimiento del cariotipo molecular para las muestras donde el tejido del nino posterior al nacimiento estaba disponible. La muestra euploide se extrajo antes de la prueba invasiva de mujeres de bajo riesgo. Se extrajeron muestras aneuploides al menos 7 dfas despues de realizar la prueba invasiva y se confirmo la aneuploidfa mediante el establecimiento del cariotipo citogenetico o hibridacion in situ de fluorescencia en laboratorios independientes.
Preparacion de la muestra y PCR multiplexada
Para los datos en las Figuras 30A-E, 30G, 30H, y 31A-31G, se realizo la preparacion de la muestra y PCR de 19.488- plex como se describe en el Experimento 15. Para los datos de la Figura 30F, la preparacion de la muestra y la PCR de
11.000 plex se llevaron a cabo como se describe en el Experimento 17.
Metodologfa y analisis de datos
El algoritmo considera los genotipos parentales y los datos de frecuencia de cruces (como datos de la base de datos HapMap) para calcular las distribuciones alelicas previstas para 19.488 loci polimorficos para un numero muy grande de estados de ploidfa fetal posibles, y a distintas fracciones de ADN libre de celulas fetales (Figuras 29A-29C). A diferencia de los metodos basados en el ratio de alelos, tambien tiene en cuenta el desequilibrio del enlace y utiliza modelos de datos no gaussianos para describir la distribucion prevista de mediciones alelicas en un SNP dadas las caractensticas de la plataforma y los sesgos de amplificacion observados. A continuacion, compara las distintas distribuciones alelicas previstas con las distribuciones alelicas reales medidas en la muestra de ADN libre de celulas (Figura 29C), y calcula la probabilidad de cada hipotesis (monosoirna, disoirna, o trisoirna, para la que hay numerosas hipotesis en base a los distintos cruces potenciales) en base a los datos de secuenciacion. El algoritmo suma las probabilidades de cada hipotesis de monosoirna, disoirna, o trisoirna individual (Figura 29D), y determina el estado de ploidfa con la probabilidad global maxima como el numero de copia y fraccion fetal (Figura 29E). Aunque el cariotipo de muestra no fue ciego para los investigadores de laboratorio, el algoritmo determino los estados de ploidfa sin intervencion humana y fue ciego con respecto a la veracidad.
Interpretacion de datos
Representaciones graficas de los datos generados
Para determinar el estado de ploidfa de un cromosoma de interes, el algoritmo considera la distribucion de los recuentos de secuencia de cada uno de dos alelos posibles de 3.000 a 4.000 SNPs por cromosoma. Es importante senalar que el algoritmo realiza determinaciones del estado de ploidfa utilizando un planteamiento que no se presta a la visualizacion. Por tanto, con fines ilustrativos, los datos se muestran aqu de forma simplificada como ratios de los dos alelos mas probables, etiquetados como A y B de modo que las tendencias relevantes se puedan visualizar mas facilmente. Esta ilustracion simplificada no tiene en cuenta algunas de las caractensticas del algoritmo. Por ejemplo, dos aspectos importantes del algoritmo que no es posible ilustrar con un metodo de visualizacion que muestra ratios de alelos son: 1) la capacidad de aprovechar el desequilibrio del enlace, es decir, la influencia que una medicion en un SNP tiene en la identidad probable de un SNP contiguo, y 2) el uso de modelos de datos no gaussianos que describen la distribucion prevista de mediciones alelicas en un sNp dadas las caractensticas de la plataforma y los sesgos de amplificacion.
5
10
15
20
25
30
35
40
45
50
55
60
Tambien cabe senalar que el algoritmo solo considera los dos alelos mas comunes en cada SNP, omitiendo otros posibles alelos.
Las representaciones graficas en la Figura 30A-30H incluyen muestras para las que dos, uno, o tres cromosomas fetales estan presentes. Generalmente, estas indican euploid^a (Figuras 30A-30C) monosoirna (Figura 30D), y trisoirna (Figuras 30E-30H), respectivamente. En todos los graficos, cada punto representa un unico SNP, donde los SNPs focalizados se representan graficamente de forma secuencial de izquierda a derecha para un cromosoma a lo largo de los ejes horizontales. Los ejes verticales indican el numero de lecturas para el alelo A como una fraccion del numero total de lecturas para los alelos A y B para ese SNP. Cabe senalar que las mediciones se realizan en ADN libre de celulas total aislado de la sangre materna, y el ADN libre de celulas incluye tanto ADN libre de celulas materno como fetal; por tanto, cada punto representa la combinacion de la contribucion del ADN materno y fetal para ese SNP. Por tanto, aumentar la proporcion de ADN libre de celulas materno de un 0% a un 100% cambiara gradualmente algunos puntos arriba o abajo dentro de los graficos, dependiendo del genotipo materno y fetal. Esto se describe con mayor detalle a continuacion con los graficos correspondientes. Si se desea facilitar la visualizacion, los puntos se pueden codificar por colores en funcion del genotipo materno, ya que el genotipo materno contribuye mas a la localizacion de cada punto y la mayona de trisoirnas se heredan de la madre; esto contribuye a la visualizacion de los estados de ploidfa. Espedficamente, los SNPs para los cuales el genotipo materno es AA se pueden indicar en rojo, aquellos para los que el genotipo materno es AB se pueden indicar en verde, y aquellos para los que el genotipo materno es BB se pueden indicar en azul.
En todos los casos, los SNPs que son homocigotos para el alelo A (AA) tanto en la madre como en el feto se encuentran estrechamente asociados con el lfmite superior de los graficos, ya que la fraccion de lecturas de alelo A es alta porque no debena haber alelos B presentes. Por el contrario, los SNPs que son homocigotos para el alelo B tanto en la madre como en el feto se encuentran estrechamente asociados con el lfmite inferior de los graficos, ya que la fraccion de lecturas de alelo A es baja porque debena haber solo alelos B. Los puntos que no estan estrechamente asociados con los lfmites superior e inferior de los graficos representan SNPs para los que la madre, el feto, o ambos son heterocigotos; estos puntos son utiles para identificar la ploidfa fetal, pero tambien pueden ser utiles para determinar la herencia paterna frente a la materna. Estos puntos se afslan en base a los genotipos maternos y fetales y la fraccion fetal, y como tal la posicion precisa de cada punto individual a lo largo del eje y depende de la estequiometna y la fraccion fetal. Por ejemplo, los loci donde la madre es AA y el feto es AB se preve que tengan una fraccion diferente de lecturas de alelo A y, por tanto, una posicion diferente a lo largo del eje y, en funcion de la fraccion fetal.
Dos cromosomas presentes
Las Figuras 30A-30C muestran datos que indican la presencia de dos cromosomas cuando la muestra es completamente materna (no hay ADN libre de celulas fetal presente, Figura 30A), contiene una fraccion de ADN libre de celulas fetal moderada (Figura 30B), o contiene una fraccion de ADN libre de celulas fetal alta (Figura 30C).
La Figura 30A muestra datos obtenidos de ADN libre de celulas aislado de la sangre de una mujer no embarazada. Cuando hay un numero de ADN libre de celulas fetal presente y la muestra contiene solo ADN libre de celulas materno, los graficos representan puramente el genotipo materno euploide; el patron distintivo incluye “agrupaciones” de puntos: una agrupacion roja estrechamente asociada con la parte superior del grafico (SNPs donde el genotipo materno es AA), una agrupacion azul estrechamente asociada con la parte inferior del grafico (SNPs donde el genotipo materno es BB), y una agrupacion verde central unica (SNPs donde el genotipo materno es AB) (no se muestra el color). Cuando el ADN libre de celulas fetal esta presente, la ubicacion de los puntos cambia de modo que las agrupaciones se afslan en “bandas” discretas. Cabe senalar que para las muestras con una fraccion fetal de 0%, se hace referencia a las agrupaciones de puntos como “grupos” (como en la Figura 30A), y para todas las muestras con una fraccion fetal de >0%, se hace referencia a las agrupaciones de puntos como “bandas” (como en las Figuras 30B- 30J). Si la fraccion fetal es lo suficientemente alta, estas bandas discretas seran facilmente visibles.
Espedficamente, las Figuras 30B y 30C demuestran el patron caractenstico asociado con dos cromosomas fetales presentes en fracciones fetales moderadas y altas, respectivamente. Este patron incluye tres bandas verdes centrales que corresponden a SNPs que son heterocigotos en la madre, y dos bandas “perifericas” cada una de ellas tanto en la parte superior (roja) como en la parte inferior (azul) de los graficos que corresponden a SNPs que son homocigotos en la madre (no se muestra el color).
La Figura 30B muestra datos obtenidos de ADN libre de celulas aislado a partir de una muestra de plasma de una mujer portadora de un feto euploide y con un 12% de fraccion de ADN libre de celulas fetal. Aqrn, las agrupaciones de puntos estrechamente asociados con la parte superior y la parte inferior del grafico se afslan en dos bandas discretas cada una: una banda periferica externa roja y una azul que permanecen estrechamente asociadas con el lfmite superior o inferior de los graficos, y una banda periferica interna roja y una azul que se ha separado de los lfmites de los graficos (no se muestra el color). Estas bandas perifericas internas, centradas alrededor de 0,92 y 0,08, representan SNPs para los que el genotipo materno es AA y el genotipo fetal es AB (indicado en rojo), y SNPs para los que el genotipo materno es BB y el genotipo fetal es AB (indicado en azul), respectivamente. La agrupacion central de puntos verdes se ensancha, pero en esta fraccion fetal la separacion en bandas diferentes no es facilmente visible.
A una fraccion de ADN libre de celulas fetal alta, el patron tfpico que indica la presencia de dos cromosomas (un tno de bandas verdes asf como dos bandas rojas y dos azules perifericas) se puede ver rapidamente (no se muestra el color).
5
10
15
20
25
30
35
40
45
50
55
60
La Figura 30C muestra datos obtenidos de una muestra de plasma de una mujer portadora de un feto euploide y con una fraccion de ADN libre de celulas fetal del 26%. Aqm, las bandas perifericas se han separado de tal manera que la banda interna se ha trasladado hacia el centro del grafico debido a los niveles alterados de alelos B de la fraccion de ADN libre de celulas fetal que ha aumentado. Significativamente, a fracciones fetales mas altas, la separacion de la agrupacion verde central en tres bandas diferentes ahora se puede ver rapidamente. Este tno central de bandas, en este caso agrupandose alrededor de 0,37, 0,50 y 0,63, corresponde a aquellos SNPs donde el genotipo materno es AB, y el genotipo fetal es AA (parte superior), Ab (parte central) y BB (parte inferior). Estos patrones distintivos, concretamente las tres bandas verdes y las cuatro bandas perifericas (dos rojas y dos azules), indican la presencia de dos cromosomas, como en la euploidfa autosomica o para el cromosoma X en un feto (XX) de mujer.
Un cromosoma presente
Cuando el feto solo hereda un unico cromosoma y, por tanto, solo hereda un unico alelo, la heterocigosidad del feto no es posible. Como tal, las unicas identidades de SNP fetales posibles son A o B. Por tanto, los cromosomas monosomicos heredados de la madre tienen un patron caractenstico de dos bandas verdes centrales que representa SNPs para los que la madre es heterocigota, y solo tiene bandas rojas y azules perifericas individuales que representan SNPs para los que la madre es homocigota, y que permanecen estrechamente asociados con los lfmites superior e inferior de los graficos (1 y 0), respectivamente (Figura 30D) (no se muestra el color). Cabe senalar la ausencia de bandas perifericas internas. Este patron indica la presencia de un cromosoma, como en la monosoirna autosomica heredada de la madre, o para el cromosoma X en un feto (XY) varon.
Tres cromosomas presentes
Los cromosomas trisomicos tienen tres patrones caractensticos. El primer patron indica trisoirna mitotica heredada de la madre, un error meiotico donde el feto ha heredado dos cromosomas no identicos homologos, de la madre (Figura 30E); este patron incluye dos bandas verdes centrales cada una de las cuales con dos bandas rojas y dos azules perifericas (no se muestra el color). El segundo patron indica trisomfa mitotica heredada del padre, donde el feto ha heredado dos cromosomas no identicos homologos del padre (Figura 30F); este patron incluye cuatro bandas verdes centrales y cada una de las cuales con tres bandas rojas y azules perifericas (no se muestra el color). El tercer patron indica una trisomfa mitotica o bien heredada de la madre (Figura 30G) o heredada del padre (Figura 30H) , un error mitotico donde el feto ha heredado dos cromosomas identicos de la madre o del padre; este patron incluye cuatro bandas verdes en el centro cada una de las cuales con dos bandas rojas y azules perifericas. Las trisomfas mitoticas heredadas del padre y de la madre se pueden distinguir por la colocacion de las bandas rojas y azules de flanqueo, de modo que las bandas rojas y azules perifericas internas (aquellas no asociadas con los lfmites de los graficos) estan mas cerca del centro en la trisornfa mitotica heredada del padre (no se muestra el color). Esto es debido a la contribucion paterna de cromosomas identicos. Cabe senalar que nuestros resultados anteriores indican que en la etapa de blastomero, un 66,7% de las trisomfas heredadas de la madre son meioticas, y que solo un 10,2% de las trisomfas son heredadas del padre.
Para el cromosoma Y, el metodo PS considera un conjunto diferente de hipotesis: cero, uno o dos cromosomas presentes. Puesto que no hay contribucion materna a las lecturas de secuencia en cada locus y puesto que los loci heterocigotos no son posibles (los casos de dos cromosomas Y necesariamente implican dos cromosomas identicos), las bandas se mantienen estrechamente asociadas con la parte superior (alelos A) o la parte inferior (alelos B) del grafico (no se muestran los datos), y el analisis se ve simplificado en gran medida, dependiendo de los datos del recuento de alelos cuantitativo. Cabe senalar que puesto que el metodo interroga a los SNPs, utiliza SNPs no recombinantes homologos del cromosoma Y, obteniendo asf datos tanto en X como en Y para un par de sondas.
Identificacion de aneuploidias
La identificacion de las aneuploidias autosomicas utilizando este metodo de visualizacion basado en graficos es sencilla dada una fraccion fetal suficiente, y requiere unicamente identificar graficos para los que hay un numero anomalo de cromosomas presente, como se ha descrito anteriormente. La combinacion del conocimiento del numero de copia de los cromosomas X e Y identifica si hay aneuploidias cromosomicas sexuales presentes. Espedficamente, los graficos que representan un feto con un genotipo 47,XXX tendran de forma tfpica un patron de “tres cromosomas”, y los graficos que representan un feto con un genotipo 47,XXY tendran de forma tfpica el patron de “dos cromosomas” para el cromosoma X, pero tambien tendran lecturas de alelos que indiquen la presencia de un cromosoma Y. El metodo de forma similar puede determinar 47,XYY, donde un patron de “un cromosoma” indica la presencia de un solo cromosoma X, y las lecturas de alelos indican la presencia de dos cromosomas Y. Un feto con un genotipo 45,X tendra el tfpico patron de “un cromosoma” para el cromosoma X, y datos que indiquen cero cromosomas Y.
Efectos de la fraccion fetal
Como se ha expuesto anteriormente, el numero de lecturas de secuencia del feto contribuye a la ubicacion precisa de cada punto a lo largo del eje y en los graficos. Una fraccion fetal afectara a la proporcion de lecturas que se originan del feto y de la madre, tambien afectara la posicion de cada punto. A una fraccion de ADN libre de celulas fetal alta (por lo general superior a -20%), como en las Figuras 30C-30E y las Figuras 30G y 30H, se puede ver rapidamente que aunque los puntos se agrupan en base principalmente al genotipo materno, la presencia de ADN fetal de alelos cuyo genotipo es diferente del genotipo materno cambia las agrupaciones en multiples bandas diferentes. Sin embargo, puesto que la fraccion fetal disminuye (como en las Figuras 30B y 30F), los puntos retroceden hacia los polos y el centro del grafico, lo que da como resultado agrupaciones mas estrechas. Espedficamente, el conjunto de bandas rojas perifericas, donde el genotipo materno es AA, retrocede hacia la parte superior del grafico; el conjunto de bandas azules perifericas, donde el
5
10
15
20
25
30
35
40
45
50
55
genotipo materno es BB, retrocede hacia la parte inferior; el conjunto de bandas verdes centrales, donde la madre es heterocigota, se condensa en una sola agrupacion en el centro del grafico (compare las Figuras 30B y 30C) (no se muestra el color). Aunque la aneuploidfa no se puede ver rapidamente a simple vista utilizando esta tecnica de visualizacion para casos de fracciones fetales bajas, el algoritmo puede identificar estados de ploidfa con una fraccion fetal muy baja, como una fraccion fetal del 3%. Puede hacer esto ya que la tecnica estadfstica compara los datos observados con modelos de datos muy precisos que predicen las distribuciones alelicas para un conjunto de parametros de muestra determinado (incluido el numero de copia, los genotipos parentales, y la fraccion fetal, por ejemplo). La precision del modelo de datos es cntica en casos de fracciones fetales bajas, ya que las diferencias entre las distribuciones alelicas para diferentes estados de ploidfa son proporcionales a la fraccion fetal. Ademas, el algoritmo puede determinar cuando un conjunto de datos no contiene datos suficientes para realizar una determinacion del estado de ploidfa fetal con certeza.
Resultados
Las lecturas de secuenciacion que se correlacionaron con los SNPs focalizados se consideraron informativas y se utilizaron mediante el algoritmo. Se observaron mas del 95% de loci focalizados en los resultados de secuenciacion. Los graficos para visualizar determinaciones del estado de ploidfa clave se muestran en la Figura 31A-31G. La Figura 31A indica una muestra euploide. Aqrn, los cromosomas 13, 18, y 21 tienen el tfpico patron de “dos cromosomas” (como se describe en el presente documento). Esto incluye un tno de bandas verdes centrales, y dos bandas perifericas rojas y dos azules. Esto, junto con las dos bandas verdes centrales para el cromosoma X y la presencia de bandas de cromosoma Y a lo largo de las periferias de los graficos, indican un genotipo XY euploide (no se muestra el color).
Las trisoirnas autosomicas mas prevalentes, T13, T18, y T21, se indican mediante los graficos en las Figuras 31B, 31C, y 31D, respectivamente. Espedficamente, la Figura 31B representa una muestra T13. Aqrn, los cromosomas 18 y 21 muestran de forma tfpica el patron de “dos cromosomas”, el cromosoma X muestra de forma tfpica el patron de “un cromosoma”, y hay lecturas del cromosoma Y.
Conjuntamente, esto indica disomfa en los cromosomas 18 y 21, e identifica un genotipo XY fetal. Sin embargo, el cromosoma 13 muestra un tfpico patron de “tres cromosomas”, espedficamente. De forma similar, la Figura 31C representa una muestra T18, y la Figura 31D representa una muestra T21.
El metodo tambien puede detectar aneuploidfas cromosomicas sexuales, incluidas 45,X (Figura 31E), 47,XXY (Figura 31F), y 47,XYY (Figura 31G). Cabe senalar que el metodo determina el numero de copia en los cromosomas 13, 18, 21, X, e Y; se informa del numero de cromosoma total asumiendo la disomfa en los cromosomas restantes. Las regiones del cromosoma X del grafico que representan una muestra 45,X revela la presencia de un solo cromosoma. Sin embargo, la ausencia de lecturas del cromosoma Y, junto con el patron de “dos cromosomas” para los cromosomas 13, 18, y 21, indica un genotipo 45,X. Por el contrario, las muestras 47,XXY generan un grafico que revela la presencia de dos cromosomas X. Los datos tambien revelaron lecturas para alelos del cromosoma Y. Junto con la presencia de dos copias de cromosomas 13, 18 y 21, esto indica un genotipo 47,XXY. Un genotipo 47,XYY se indica mediante la presencia de un patron de “un cromosoma” para el cromosoma X, y lecturas que indican la presencia de dos cromosomas Y.
Exposicion
Este metodo detecto T13, T18, T21, 45,X, 47,XXY, y 47,XYY de forma no invasiva de sangre materna. Este metodo interroga al ADN libre de celulas del plasma materno mediante amplificacion por PCR multiplexada focalizada y una secuenciacion de alto rendimiento de 19.488 SNPs. Esto, junto con los sofisticados analisis informaticos del metodo que tienen en cuenta la informacion genetica parental y numerosos parametros de muestra, incluida la fraccion fetal y la calidad del ADN, detecta de un modo mas robusto la senal fetal y hace determinaciones del estado de ploidfa altamente precisas en los cinco cromosomas implicados en los siete tipos mas comunes de aneuploidfa en el nacimiento (T13, T18, T21, 45,X, 47,XXX, 47,XXY, y 47,XYY). Este metodo ofrece una serie de ventajas clfnicas sobre metodos anteriores, incluida y mas significativamente una mayor cobertura clfnica y precisiones calculadas espedficas de la muestra (analogas a una puntuacion de riesgo personalizada).
Mayor cobertura clfnica
Este metodo ofrece aproximadamente un aumento doble en la cobertura de la aneuploidfa en comparacion con las metodologfas NIPT clfnicamente disponibles, dada su capacidad de detectar de forma precisa trisornfas y aneuploidfas cromosomicas sexuales. El metodo que se presenta aqrn es la unica prueba no invasiva que determina la ploidfa en los cromosomas sexuales con una alta precision. Los experimentos de mezcla de ADN anteriores y las muestras de plasma separadas analizadas en nuestros ensayos experimentales sugieren que este metodo detectara una cohorte mayor de anomalfas de cromosomas sexuales, incluido 47,XXX. El metodo que aqrn se presenta tambien detecta aneuploidfas en los cromosomas 13, 18, y 21 con altas sensibilidades y especificidades, y con un diseno de cebadores apropiado se preve que pueda detectar tambien el numero de copia en los cromosomas restantes.
Precisiones calculadas espedficas de la muestra
Significativamente, este metodo calcula una precision espedfica de la muestra para las determinaciones del estado de ploidfa en cada cromosoma de cada muestra. Las precisiones calculadas por este metodo se prevee que desciendan significativamente la tasa de determinaciones incorrectas identificando y marcando muestras individuales que tienen
5
10
15
20
25
30
35
40
45
50
55
ADN de baja calidad o fracciones fetales bajas que es probable que den un resultado de la prueba con una precision baja. Por el contrario, los metodos basados en una secuenciacion por fuerza bruta masivamente paralela (MPSS) producen una determinacion positiva o negativa utilizando una prueba de rechazado de una unica hipotesis, y su estimacion de la precision se basa en una cohorte de estudios publicados en lugar de en las caractensticas de la muestra individual, que se supone que tienen la misma precision que el grupo. Sin embargo, las precisiones individuales para las muestras con parametros en la cola de la distribucion de cohorte pueden diferir significativamente. Esto se ve exacerbado en las fracciones fetales bajas, como en la edad gestacional temprana, o para muestras con una calidad de ADN baja. Estas muestras por lo general no estan identificadas y marcadas para el seguimiento, lo que puede dar como resultado determinaciones fallidas. Sin embargo, el presente metodo, tiene en cuenta muchos parametros, incluida la fraccion fetal y un numero de metricas de calidad del ADN, para realizar cada determinacion del numero de copia del cromosoma, calculando una precision espedfica de la muestra para esa determinacion. Esto permite que el metodo identifique muestras individuales con una precision baja y las marque para su seguimiento. Esto esta previsto que elimine las determinaciones fallidas, especialmente en las primeras etapas del embarazo cuando las fracciones fetales, de forma tfpica, son bajas. La suposicion es que es preferible una no determinacion que una determinacion fallida, ya que una no determinacion simplemente requiere un nuevo trazado y un nuevo analisis.
Conversion de precisiones calculadas en puntuaciones de riesgo tradicionales
Este metodo puede ofrecer un riesgo ajustado de aneuploidfa para mujeres embarazadas de alto riesgo, donde el riesgo ajustado tiene en cuenta un riesgo a priori (Benn P, Cuckle H, Pergament E. Non-invasive prenatal diagnosis for Down syndrome: the paradigm will shift, but slowly. Ultrasound Obstet Gynecol 2012;39:127-130). Aunque el metodo presente ofrece a cada paciente una precision calculada personalizada, para uso clmico estas precisiones se pueden convertir en puntuaciones de riesgo tradicionales, lo que tambien denota el riesgo de un embarazo aneuploide pero se expresan como fracciones. Las puntuaciones de riesgo tradicionales tienen en cuenta distintos parametros, incluidos los riesgos relacionados con la edad y los niveles de suero de los marcadores bioqmmicos, para ofrecer una puntuacion de riesgo por encima de la cual una madre se considera de alto riesgo y para la que se recomiendan procedimientos de diagnostico invasivo de seguimiento. Este metodo significativamente refina esta puntuacion de riesgo, reduciendo asf tanto las tasas de falsos positivos como las de falsos negativos, y ofrece una evaluacion mas precisa del riesgo materno individual. Una precision calculada como la que se utiliza aqrn es la probabilidad de que la determinacion del estado de ploidfa es correcta y se expresa como un porcentaje, pero las precisiones calculadas utilizadas en el Experimento 19 no incluyen un riesgo relacionado con la edad. Puesto que el calculo de una puntuacion de riesgo de forma tfpica incluye un riesgo relacionado con la edad, las precisiones calculadas y las puntuaciones de riesgo tradicionales no son intercambiables; se deben combinar para convertirse en una puntuacion de riesgo tradicional. La formula para combinar el riesgo relacionado con la edad con la precision calculada es:
_______^1^2_______
R1R2 + [1-R1][1-R2]
donde R1 es la puntuacion de riesgo calculada por el presente metodo y R2 es la puntuacion de riesgo calculada por el analisis del primer trimestre.
Problemas de invalidacion de los metodos basados en SNP con variacion de amplificacion
Una desventaja inherente a los metodos de recuento utilizada por otros metodos es que determinan el estado de ploidfa fetal midiendo el ratio del numero de lecturas que se correlacionan con el cromosoma de interes (por ejemplo, el cromosoma 21) con aquellos que se correlacionan con un cromosoma de referencia. Los cromosomas con un contenido alto o bajo de GC, incluidos los cromosomas 13, X, e Y, amplifican con una alta variabilidad. Esto puede dar como resultado una variacion de senal que es comparable en magnitud a la senal del ADN libre de celulas fetal, que puede confundir las determinaciones del numero de copia alterando el ratio de lecturas de alelos del cromosoma de interes con aquellos del cromosoma de referencia. Esto puede dar como resultado una precision baja para los cromosomas 13, X, e Y. Significativamente, este problema se ve exacerbado en las fracciones de ADN libre de celulas fetal, como suele ser el caso en edades gestacionales tempranas.
Por el contrario, los metodos basados en SNP no se basan en niveles de amplificacion constantes entre los cromosomas y, por tanto, se espera que proporcionen resultados que sean igual de precisos en todos los cromosomas. Puesto que el metodo presente mira, en parte, a recuentos relativos de alelos diferentes en loci polimorficos, que por definicion difieren solo por un unico nucleotido, no requiere el uso de cromosomas de referencia, y esto obvia los problemas con la variacion de amplificacion cromosoma a cromosoma que son inherentes en los metodos que se basan en cuantificar los recuentos de lectura. A diferencia de los metodos cuantitativos que requieren cromosomas de referencia que son euploides, el presente metodo se espera que pueda detectar la triploidfa asf como las anomalfas neutrales de numero de copia como la disoirna uniparental.
La importancia de una deteccion prematura
Significativamente, el predominio de aneuploidfas cromosomicas sexuales combinadas en el nacimiento es mayor que el de la mayona de aneuploidfas autosomicas comunes (Figura 32). Sin embargo, no hay actualmente metodos de analisis no invasivo rutinarios que detecten de manera fiable las anomalfas cromosomicas sexuales. Por tanto, las anomalfas de los cromosomas sexuales por lo general se detectan prenatalmente como un efecto secundario de las pruebas rutinarias para el smdrome de Down u otras aneuploidfas autosomicas; una gran proporcion de casos son
5
10
15
20
25
30
35
40
45
completamente fallidos. La deteccion prematura y precisa es crucial para muchos de estos trastornos donde una intervencion terapeutica prematura mejora los resultados clmicos. Por ejemplo, el smdrome de Turner a menudo no se diagnostica hasta la adolescencia, aunque su predominio total en el nacimiento es de 1 en 2.500 mujeres. Se conoce que la terapia de la hormona del crecimiento evita la baja estatura que da como resultado este trastorno, pero los tratamientos son significativamente mas eficaces cuando se inician antes de los 4 anos de edad. Ademas, la terapia de sustitucion de estrogenos puede estimular las caractensticas sexuales secundarias en pacientes con el smdrome de Turner, aunque, de nuevo, la terapia se debe iniciar antes de la adolescencia, antes de que se detecte por lo general el smdrome. Conjuntamente, esto subraya la importancia de una deteccion prematura, rutinaria y segura de las aneuploidfas cromosomicas sexuales. Este metodo ofrece un primer planteamiento con el potencial para servir como un analisis rutinario para las anomalfas de los cromosomas sexuales.
Aplicaciones adicionales
Puesto que este metodo utiliza la amplificacion focalizada, se encuentra en una posicion exclusiva para detectar anomalfas submicroscopicas, como microdeleciones y microduplicaciones. Aunque se ha demostrado que los metodos no focalizados como MPSS detectan el smdrome de microdelecion de DiGeorge, esto ha requerido un nivel suficientemente alto de cobertura genomica para hacer que el planteamiento sea inviable. Esto es porque la amplificacion no focalizada sera varios ordenes de magnitud menos eficiente en regiones submicroscopicas, ya que una fraccion muy pequena de las lecturas de secuenciacion sera informativa. Ademas, el hecho de que los metodos disponibles actualmente tienen dificultades para identificar de forma precisa el estado de ploidfa para los cromosomas sexuales sugiere que tambien encontraran problemas de amplificacion variable en los segmentos cromosomicos mas pequenos.
De forma similar, los metodos basados en SNP pueden detectar trastornos de UPD, que son anomalfas neutrales de numero de copia que no se detectaran o bien mediante los metodos no invasivos actuales que se basan en el recuento o los metodos invasivos tradicionales como la amniocentesis y CVS que se basan en el establecimiento del cariotipo citogenetico y/o la hibridacion in situ de fluorescencia. Esto es porque los metodos basados en SNP pueden distinguir de forma exclusiva haplotipos individuales, mientras que los metodos focalizados y basados en MPSS disponibles clmicamente amplifican loci no polimorficos y, por tanto, no pueden determinar, por ejemplo, si los cromosomas de interes se originan a partir del mismo progenitor. Esto significa que estas microdeleciones/microduplicaciones y smdromes de UPD, incluyendo los smdromes de Prader-Willi, Angelman, y Beckwith-Wiedemann, por lo general, no se diagnostican prenatalmente y, a menudo, inicialmente se diagnostican erroneamente postnatalmente. Esto retrasa significativamente la intervencion terapeutica. Ademas, puesto que este metodo focaliza SNPs, este metodo tambien facilitara la reconstruccion del haplotipo parental, lo que permite la deteccion de la herencia fetal de loci vinculados a enfermedad individual (Kitzman JO, Snyder MW, Ventura M, et al. Noninvasive whole-genome sequencing of a human fetus. Sci Transl Med 2012;4:137ra76). Los resultados que aqrn se presentan confirman el ambito ampliado de este metodo para identificar la aneuploidfa prenatal. Espedficamente, al amplificar y secuenciar 19.488 SNPs, este metodo puede determinar el numero de copia en los cromosomas 13, 18, 21, X, e Y, y esta previsto que detecte de forma exclusiva otras anomalfas cromosomicas, como triploidfa y UPD, que no se detectan mediante ningun otro metodo no invasivo disponible clmicamente. La mayor cobertura clmica y las potentes precisiones calculadas espedficas de la muestra sugieren que este metodo puede ser un complemento viable a la realizacion de pruebas invasivas para la deteccion de aneuploidfas cromosomicas fetales.
Por ejemplo, cualquiera de los metodos que se divulgan en el presente documento para el ADN se puede adaptar facilmente para ARN mediante la inclusion de un paso de transcripcion inversa para convertir el ARN en ADN. Los ejemplos ilustrativos que utilizan loci polimorficos se pueden adaptar rapidamente para la amplificacion de loci no polimorficos si se desea.

Claims (15)

  1. REIVINDICACIONES
    1. Un metodo de amplificar loci diana en una muestra de acido nucleico, el metodo comprende:
    a) poner en contacto una muestra de acido nucleico que comprende loci diana con una biblioteca de cebadores de 5 prueba que comprende al menos 1.000 diferentes pares de cebadores para producir una mezcla de reaccion en un
    volumen de reaccion; donde cada par de cebadores incluye un cebador de prueba directo y un cebador de prueba inverso que se hibridan en el mismo locus diana, y donde los cebadores no incluyen sondas de inversion molecular (MIPs);
    b) someter la mezcla de reaccion a las condiciones de reaccion en cadena de la polimerasa (PCR) para producir 10 productos amplificados que incluyen amplicones diana; donde la concentracion de cada cebador de prueba es inferior a
    10 nM; donde la longitud del paso de reformacion termica de las condiciones de reaccion es superior a 10 minutos; donde al menos 1.000 loci diana diferentes se amplifican simultaneamente; y donde (i) menos de un 20% de los productos amplificados son dfmeros del cebador de prueba, (ii) al menos un 80% de los productos amplificados son amplicones diana, y (iii) al menos un 80% de los loci diana estan amplificados; y 15 c)secuenciar los productos amplificados.
  2. 2. El metodo de la reivindicacion 1, donde al menos 5.000 loci diana diferentes se amplifican.
  3. 3. El metodo de la reivindicacion 1, donde la longitud de los amplicones diana es inferior a 100 nucleotidos.
    20
  4. 4. El metodo de la reivindicacion 1, donde los cebadores de prueba se seleccionan de una biblioteca de cebadores candidatos basandose al menos en parte en la capacidad de los cebadores candidatos de formar dfmeros de cebadores.
  5. 5. El metodo de la reivindicacion 1, donde la muestra comprende ADN materno de la madre embarazada de un feto y 25 ADN fetal, y donde el metodo comprende la determinacion de la presencia o ausencia de una anomalfa cromosomica
    fetal de los datos de secuenciacion.
  6. 6. El metodo de la reivindicacion 1, donde los loci diana estan presentes en el genoma humano, o donde los loci diana comprenden polimorfismos de un solo nucleotido humanos.
  7. 7. El metodo de la reivindicacion 1, donde la muestra de acido nucleico comprende ADN de un tumor, trasplante, o feto.
    30 8.El metodo de la reivindicacion 1, donde la muestra comprende ADN de una sola celula.
  8. 9. Un metodo segun la reivindicacion 1, donde la biblioteca de cebadores de prueba se selecciona de una biblioteca de cebadores candidatos mediante un metodo que comprende:
    a) calcular en un ordenador una puntuacion no deseable para al menos un 90% de las combinaciones posibles de dos cebadores candidatos de la biblioteca, donde cada puntuacion no deseable se basa, al menos en parte, en la
    35 probabilidad de la formacion de dfmeros entre los dos cebadores candidatos;
    b) extraer de la biblioteca de cebadores candidatos el cebador candidato que es parte del mayor numero de combinaciones de dos cebadores candidatos con una puntuacion no deseable por encima de un primer umbral mmimo;
    c) si el cebador candidato que se ha extrafdo en el paso (b) es un miembro de un par de cebadores, extraer, a continuacion, el otro miembro del par de cebadores de la biblioteca de cebadores candidatos; y
    40 d)opcionalmente repetir los pasos (b) y (c), con el fin de seleccionar una biblioteca de cebadores de prueba.
  9. 10. El metodo de la reivindicacion 9, que comprende o bien
    i) reducir todavfa mas el numero de cebadores candidatos que quedan en la biblioteca disminuyendo el primer umbral mmimo utilizado en el paso (b) a un segundo umbral mmimo inferior y repetir los pasos (b) y (c) hasta que las
    45 puntuaciones no deseables para las combinaciones del cebador candidato restantes en la biblioteca son todas iguales o por debajo del segundo umbral mmimo, o hasta que el numero de cebadores candidato restantes en la biblioteca se reduce a un numero deseado; o
    ii) aumentar el numero de cebadores candidatos restantes en la biblioteca aumentando el primer umbral mmimo utilizado en el paso (b) a un segundo umbral mmimo mas alto y repetir los pasos (b) y (c) hasta que las puntuaciones no
    50 deseables para las combinaciones del cebador candidato restantes en la biblioteca son todas iguales o por debajo del segundo umbral mmimo, o hasta que el numero de cebadores candidato restantes en la biblioteca se reduce a un numero deseado.
  10. 11. El metodo de la reivindicacion 9, ademas comprende, antes del paso (b), quitar un par de cebadores de la biblioteca que produce un amplicon diana que se solapa con un amplicon diana producido por otro par de cebadores.
    55 12.El metodo de la reivindicacion 9, donde las puntuaciones no deseables se basan al menos en parte en uno o mas
    parametros seleccionados del grupo compuesto por una tasa de heterocigosidad de un locus diana, el predominio de la enfermedad asociada a un polimorfismo o mutacion en un locus diana, la penetrancia de la enfermedad asociada a un polimorfismo o mutacion en un locus diana, la especificidad del cebador candidato para un locus diana, el tamano del
    cebador candidato, la temperatura de fusion de un amplicon diana, el contenido de guanina-citosina (GC) de un amplicon diana, la eficacia de amplificacion de un amplicon diana, y el tamano de un amplicon diana.
  11. 13. EI metodo de la reivindicacion 9, que comprende la seleccion de una biblioteca de al menos 1.000 cebadores de prueba diferentes y la utilizacion de al menos 1.000 de los cebadores de prueba seleccionados para amplificar
    5 simultaneamente al menos 1.000 loci diana diferentes.
  12. 14. El metodo de la reivindicacion 1, donde las temperaturas de fusion de los cebadores de los pares de cebadores son de 55 a 65 °C.
  13. 15. El metodo de la reivindicacion 1, donde la temperatura de reformacion termica comprende una temperatura que se eleva.
    10 16.El metodo de la reivindicacion 1, donde las temperaturas de fusion de los cebadores de los pares de cebadores son
    de 57 a 60,5 °C.
  14. 17. El metodo de la reivindicacion 1, donde la PCR es PCR anidada.
  15. 18. El metodo de la reivindicacion 1, donde el rango de la longitud de los amplicones diana esta entre 50 y 100 nucleotidos.
    15 19.El metodo de 1, donde los pares de cebadores estan disenados para amplificar loci de SNP potencialmente
    heterocigoticos en los cromosomas X, Y, 13, 18, y 21 y estos ensayos se utilizan en una sola reaccion para amplificar ADN libre de celulas obtenido de una muestra de plasma materno.
ES12881774.9T 2012-07-24 2012-11-21 Composiciones y métodos por PCR altamente multiplexada Active ES2625079T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261675020P 2012-07-24 2012-07-24
US201261675020P 2012-07-24
PCT/US2012/066339 WO2014018080A1 (en) 2012-07-24 2012-11-21 Highly multiplex pcr methods and compositions

Publications (1)

Publication Number Publication Date
ES2625079T3 true ES2625079T3 (es) 2017-07-18

Family

ID=52462077

Family Applications (1)

Application Number Title Priority Date Filing Date
ES12881774.9T Active ES2625079T3 (es) 2012-07-24 2012-11-21 Composiciones y métodos por PCR altamente multiplexada

Country Status (3)

Country Link
EP (1) EP2847347B1 (es)
ES (1) ES2625079T3 (es)
HK (1) HK1208504A1 (es)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116092585B (zh) * 2023-01-30 2024-04-19 上海睿璟生物科技有限公司 基于机器学习的多重pcr扩增优化方法、系统、设备及介质

Also Published As

Publication number Publication date
EP2847347A4 (en) 2015-12-23
EP2847347A1 (en) 2015-03-18
EP2847347B1 (en) 2017-03-22
HK1208504A1 (en) 2016-03-04

Similar Documents

Publication Publication Date Title
US11482300B2 (en) Methods for preparing a DNA fraction from a biological sample for analyzing genotypes of cell-free DNA
US20210355536A1 (en) Methods for non-invasive prenatal ploidy calling
US11339429B2 (en) Methods for non-invasive prenatal ploidy calling
US11332785B2 (en) Methods for non-invasive prenatal ploidy calling
AU2012385961B2 (en) Highly multiplex PCR methods and compositions
US20190309358A1 (en) Methods for non-invasive prenatal ploidy calling
US20190323076A1 (en) Methods for non-invasive prenatal ploidy calling
ES2770342T3 (es) Procedimientos para pruebas prenatales no invasivas de paternidad
US20140141981A1 (en) Highly multiplex pcr methods and compositions
ES2625079T3 (es) Composiciones y métodos por PCR altamente multiplexada
ES2622088T3 (es) Métodos no invasivos para la determinación del estado de ploidía prenatal