ES2920280T3 - Enriquecimiento de regiones genómicas blanco para análisis paralelo multiplexado - Google Patents

Enriquecimiento de regiones genómicas blanco para análisis paralelo multiplexado Download PDF

Info

Publication number
ES2920280T3
ES2920280T3 ES18745508T ES18745508T ES2920280T3 ES 2920280 T3 ES2920280 T3 ES 2920280T3 ES 18745508 T ES18745508 T ES 18745508T ES 18745508 T ES18745508 T ES 18745508T ES 2920280 T3 ES2920280 T3 ES 2920280T3
Authority
ES
Spain
Prior art keywords
tacs
sample
interest
sequences
dna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES18745508T
Other languages
English (en)
Inventor
George Koumbaris
Marios Ioannides
Elena KYPRI
Acilleas Achilleos
Petros MINA
Kyriakos Tsangaras
Philippos Patsalis
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nipd Genetics Public Co Ltd
Original Assignee
Nipd Genetics Public Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nipd Genetics Public Co Ltd filed Critical Nipd Genetics Public Co Ltd
Application granted granted Critical
Publication of ES2920280T3 publication Critical patent/ES2920280T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1093General methods of preparing gene libraries, not provided for in other subgroups
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/185Modifications characterised by incorporating bases where the precise position of the bases in the nucleic acid string is important
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/204Modifications characterised by specific length of the oligonucleotides
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/159Reduction of complexity, e.g. amplification of subsets, removing duplicated genomic regions
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physics & Mathematics (AREA)
  • Genetics & Genomics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Medical Informatics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Probability & Statistics with Applications (AREA)

Abstract

La invención proporciona métodos mejorados para enriquecer las regiones genómicas de interés dirigidas que se analizarán mediante secuenciación paralela multiplexada. Los métodos de la invención utilizan un conjunto de secuencias de captura objetivo (TACS), en el que el grupo comprende una pluralidad de familias TACS, cada miembro de una familia que se une a la misma secuencia objetivo pero con diferentes posiciones de inicio y/o parada en la secuencia (es decir, la unión escalonada de los miembros de la familia a la secuencia objetivo) para enriquecer así las secuencias objetivo de interés, seguido de una secuencia paralela masiva y análisis estadístico de la población enriquecida. Los métodos de la invención se pueden utilizar para una variedad de fines clínicos, incluidas las pruebas prenatales no invasivas para anomalías cromosómicas, por ejemplo, utilizando una muestra de sangre materna o una muestra de células fetales, evaluación del estado de portador materno y paternal para trastornos genéticos y genéticos y Detección de biomarcadores tumorales (por ejemplo, biopsia líquida). También se proporcionan kits para llevar a cabo los métodos de la invención. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Enriquecimiento de regiones genómicas blanco para análisis paralelo multiplexado
Sector de la técnica
La invención se inscribe en el campo de la biología, de la medicina y de la química, más específicamente en el campo de la biología molecular e incluso más específicamente en el campo del diagnóstico molecular.
Estado de la técnica
El descubrimiento de ADN fetal libre (ADNfl) en la circulación materna (Lo, Y.M. et al. (1997) Lancet 350:485-487) marcó un hito en el camino hacia el desarrollo de análisis prenatales no invasivos para la detección de anomalías cromosómicas y ha abierto nuevas posibilidades en el entorno clínico. Sin embargo, el análisis directo de la cantidad reducida de ADNfl en presencia de un exceso de ADN materno es un gran desafío para los análisis prenatales no invasivos (NIPT) de anomalías cromosómicas. La implementación de tecnologías de secuenciación de última generación (NGS) en el desarrollo de NIPT ha revolucionado el campo. En 2008, dos grupos independientes demostraron que podía realizarse un NIPT para detectar la trisomía 21 mediante el uso de secuenciación masiva paralela shotgun (MPSS) de última generación (Chiu, R. W. et al. (2008) Proc. Natl. Acad. Sci. USA 105:20458-20463; Fan, H.C. et al. (2008) Proc. Natl. Acad. Sci. USA 105:16266-162710). La nueva era de los NIPT para la detección de anomalías cromosómicas ha abierto nuevas posibilidades para la implementación de estas tecnologías en la práctica clínica. Las empresas de biotecnología dedicadas total o parcialmente al desarrollo de NIPT han iniciado ensayos clínicos a gran escala tendientes a su implementación (Palomaki, G.E. et al. (2011) Genet. Med. 13:913-920; Ehrich, M. et al. (2011) Am. J. Obstet. Gynecol. 204:205e1-11; Chen, E.Z. et al. (2011) PLoS One 6:e21791; Sehnert, A.J. et al. (2011) Clin. Chem. 57:1042-1049; Palomaki, G.E. et al. (2012) Genet. Med. 14:296-305; Bianchi, D.W. et al. (2012) Obstet. Gynecol. 119:890-901; Zimmerman, B. et al. (2012) Prenat. Diag. 32:1233-1241; Nicolaides, K.H. et al. (2013) Prenat. Diagn. 33:575-579; Sparks, A.B. et al. (2012) Prenat. Diagn. 32:3-9).
Los primeros enfoques hacia los NIPT empleaban metodologías de secuenciación masiva paralela shotgun (MPSS) basada en tecnologías de NGS (véase, por ejemplo, la patente estadounidense n.° 7,888,017; la patente estadounidense n.° 8,008,018; la patente estadounidense n.° 8,195,415; la patente estadounidense n.° 8,296,076; la patente estadounidense n.° 8,682,594; la publicación de patente estadounidense n.° 20110201507; y la patente estadounidense n.° 20120270739). Estos enfoques son de genoma completo, donde toda la muestra materna — muestra que contiene tanto ADN materno como ADN fetal libre— se somete a amplificación, secuenciación y análisis.
Más recientemente, se han desarrollado enfoques de NIPT basados en NGS dirigida, en los que se secuencian únicamente secuencias específicas de interés. Por ejemplo, se ha descrito un enfoque de NIPT dirigido que emplea secuencias de captura de blancos (TACS) para la identificación de anomalías cromosómicas fetales a partir de una muestra de sangre materna (publicación de patente del PCT WO 2016/189388; publicación de patente estadounidense 2016/0340733; Koumbaris, G. et al. (2015) Clinical Chemistry, 62(6), pp. 848-855).
Tales enfoques dirigidos requieren un volumen de secuenciación considerablemente menor que los enfoques de MPSS, dado que únicamente se secuencian loci específicos de la secuencia blanco de interés en lugar de regiones de todo el genoma. Todavía se requieren metodologías para enfoques basados en NGS, en particular enfoques que puedan dirigirse a secuencias blanco específicas de interés, de modo de reducir considerablemente el volumen de secuenciación necesario en comparación con los enfoques de genoma completo y, al mismo tiempo, aumentar la profundidad de lecturas en la región de interés, lo que permitiría la detección de regiones con una baja relación señalruido. En particular, todavía se requieren metodologías que permitan detectar de forma confiable aberraciones genéticas presentes en cantidades diminutas.
Objeto de la invención
Esta invención provee métodos superiores para enriquecer regiones genómicas blanco de interés para su análisis mediante secuenciación paralela múltiplex. Los métodos de la invención utilizan una mezcla de secuencias de captura de blancos (TACS) diseñada de tal manera que las secuencias dentro de la mezcla tengan características que optimizan la eficiencia, la especificidad y la exactitud de la evaluación genética. Más específicamente, se ha optimizado el tamaño de las TACS, la cantidad de TACS, su ubicación en el/los cromosoma(s) de interés y su contenido de GC. Además, la mezcla de TACS comprende múltiples familias de TACS, donde cada miembro de una familia de TACS se une a la misma secuencia blanco de interés, pero con diferentes posiciones de inicio/fin en la secuencia con respecto a un sistema de coordenadas de referencia (p. ej., la unión de los distintos miembros de la familia de TACS a la secuencia blanco está escalonada), de modo de enriquecer secuencias blanco de interés, seguido de una secuenciación paralela en masa y un análisis estadístico de la población enriquecida. Usar, dentro de la mezcla de TACS, familias de TACS que se unen a cada secuencia blanco de interés en lugar de usar una única TACS que se una a cada secuencia blanco de interés aumenta considerablemente el enriquecimiento de las secuencias blanco de interés, lo que se manifiesta como un aumento promedio superior al 50 % en la profundidad de lecturas obtenida con familias de TACS en comparación con TACS individuales.
Los métodos de la invención para la evaluación genética mediante secuencias blanco altamente enriquecidas pueden usarse para diversos fines clínicos. En una realización, los métodos se usan para análisis prenatales no invasivos (NIPT), por ejemplo, para la detección de anomalías cromosómicas fetales (p. ej., usando una muestra de plasma materno que contiene ADN materno y fetal o usando una muestra de ADN obtenida de un embrión derivado de FIV antes de su implantación o de una prueba de Papanicolaou). Los métodos de NIPT también pueden usarse para evaluar la condición del padre o de la madre de ser portadores de trastornos genéticos hereditarios, a fin de determinar el riesgo de que el feto herede dichos trastornos genéticos. En otra realización, los métodos se usan para la detección de biomarcadores tumorales para una gran variedad de fines en el campo de la oncología, incluyendo el diagnóstico inicial del cáncer, la selección de regímenes terapéuticos adecuados sobre la base de biomarcadores tumorales (medicina personalizada) y la vigilancia de la eficacia del tratamiento (reducción de la carga tumoral en función de los cambios en los biomarcadores tumorales). Para fines de oncología, el método puede usarse con una muestra de tejido (p. ej., una biopsia de tejido tumoral), con una muestra de sangre o de plasma (p. ej., una biopsia líquida) o con otra muestra biológica adecuada descrita en la presente. También se proveen kits para aplicar los métodos de la invención.
Así, un aspecto de la invención refiere a un método para evaluar el riesgo de una anomalía genética en una muestra de ADN que comprende secuencias genómicas de interés, donde el método comprende:
(a) preparar la biblioteca de secuenciación a partir de la muestra de ADN;
(b) hibridar la biblioteca de secuenciación a una mezcla de secuencias de captura de blancos (TACS) de doble hebra, donde la mezcla de TACS comprende múltiples familias de TACS dirigidas a diferentes secuencias genómicas de interés, donde cada familia de TACS comprende múltiples secuencias miembro, donde cada secuencia miembro se une a la misma secuencia genómica de interés, pero tiene diferentes posiciones de inicio y/o fin con respecto a un sistema de coordenadas de referencia de la secuencia genómica de interés y donde, además:
(i) cada secuencia miembro de cada familia de TACS tiene entre 150 y 260 pares de bases (bp) de longitud, y cada secuencia miembro tiene un extremo 5' y un extremo 3';
(ii) cada secuencia miembro se une a la misma secuencia genómica de interés a una distancia de al menos 50 pares de bases, tanto en el extremo 5' como en el extremo 3', de regiones que presentan variaciones en el número de copias (CNV), duplicaciones segmentales o elementos de ADN repetitivo; y
(iii) el contenido de GC de la mezcla de TACS, que se determina calculando el contenido de GC de cada secuencia miembro de cada familia de TACs , se encuentra entre el 19 % y el 80 %;
(c) aislar aquellos miembros de la biblioteca de secuenciación que se unen a la mezcla de TACS para obtener una biblioteca enriquecida;
(d) amplificar y secuenciar la biblioteca enriquecida; y
(e) realizar análisis estadísticos de las secuencias de la biblioteca enriquecida para determinar el riesgo de una anomalía genética en la muestra de ADN, donde las posiciones de inicio y/o fin de las secuencias miembro dentro de una familia de TACS con respecto a un sistema de coordenadas de referencia de la secuencia genómica de interés están escalonadas por entre 5 y 10 pares de bases.
En ciertas realizaciones, cada familia de TACS comprende al menos 2 secuencias miembro o al menos 5 secuencias miembro. En la presente, se describen otros números posibles de secuencias miembro en cada familia de TACS. En una realización, la mezcla de TACS comprende al menos 50 familias de TACS diferentes. En la presente, se describen otros números posibles de familias de TACS dentro de la mezcla de TACS. En ciertas realizaciones, las posiciones de inicio y/o fin de las secuencias miembro dentro de una familia de TACS con respecto a un sistema de coordenadas de referencia están escalonadas por al menos 3 pares de bases o por entre 5 y 10 pares de bases. En la presente, se describen otras longitudes (tamaños) posibles de pares de bases del escalonamiento, pero estas no están de acuerdo con la invención y se incluyen únicamente para fines ilustrativos.
En una realización, la anomalía genómica es una aneuploidía cromosómica. En otras realizaciones, la anomalía genómica es una anomalía estructural, incluidas, sin carácter taxativo, las variaciones en el número de copias, incluidas las microdeleciones y las microduplicaciones, las inserciones, las deleciones, las translocaciones, las inversiones y las mutaciones pequeñas, incluidas las mutaciones puntuales y los perfiles de mutaciones.
En una realización, la mezcla de TACS está fijada a un sustrato sólido. Por ejemplo, en una realización, las TACS están biotiniladas y fijadas a microesferas magnéticas recubiertas con estreptavidina.
En ciertas realizaciones, el contenido de GC de la mezcla de TACS se encuentra entre el 19 % y el 80 % o entre el 19 % y el 46 %. En la presente, se describen otros rangos de porcentaje de contenido de GC de la mezcla de TACS.
En una realización, la secuenciación de la biblioteca enriquecida provee una profundidad de lecturas correspondiente a las secuencias genómicas de interés y profundidades de lecturas correspondientes a los loci de referencia, y el análisis estadístico comprende aplicar un algoritmo que contrasta secuencialmente la profundidad de lecturas de los loci de las secuencias genómicas de interés contra la profundidad de lecturas de los loci de referencia, donde el algoritmo comprende pasos para: (a) eliminar los loci secuenciados de forma inadecuada; (b) mitigar el sesgo inducido por el contenido de GC; y (c) determinar la ploidía. En una realización, el sesgo inducido por el contenido de GC se mitiga agrupando los loci con contenidos de GC equiparables. En una realización, la secuenciación de la biblioteca enriquecida provee el número y el tamaño de los fragmentos secuenciados correspondientes a coordenadas específicas de cada TACS y el análisis estadístico comprende aplicar un algoritmo que contrasta secuencialmente la proporción de tamaños de fragmentos de la secuencia genómica de interés contra la proporción de tamaños de fragmentos de los loci de referencia, donde el algoritmo comprende pasos para: (a) eliminar los valores atípicos de tamaños de fragmentos; (b) calcular la proporción de tamaños de fragmentos; y (c) determinar la ploidía.
En una realización, la muestra de ADN es una muestra de plasma materno que comprende ADN materno y ADN fetal libre (ADNfl).
En una realización, la muestra de ADN comprende ADN libre tumoral (ADNlt), y cada secuencia miembro de una familia de TACS se une a una secuencia biomarcadora tumoral de interés. En una realización, la muestra de ADN se selecciona de entre el grupo que consiste de una muestra de plasma, una muestra de orina, una muestra de esputo, una muestra de líquido cefalorraquídeo, una muestra de líquido peritoneal y una muestra de líquido pleural de un sujeto que tiene o presuntamente tiene un tumor. En una realización, la muestra de ADN proviene de una muestra de tejido de un sujeto que tiene o presuntamente tiene un tumor. En una realización, las múltiples familias de TACS se unen a múltiples secuencias biomarcadoras tumorales de interés seleccionadas de entre el grupo que consiste de EGFR_6240, KRAS_521, EGFR_6225, NRAS_578, NRAS_580, PIK3CA_763, EGFR_13553, EGFR_18430, BRAF_476, KIT_1314, NRAS_584, EGFR_12378 y combinaciones de las anteriores.
En una realización, la muestra de plasma materno se analiza para determinar la condición de la madre de ser portadora de múltiples alelos mutantes, donde cada familia de TACS se une a un locus de alelo mutante asociado con una alteración genética. En una realización, cada secuencia miembro de cada familia de TACS tiene al menos 160 pares de bases de longitud.
En otra realización, los múltiples loci de alelos mutantes de interés están asociados con alteraciones genéticas seleccionadas de entre el grupo que consiste de la abetalipoproteinemia; la artrogriposis con retraso mental y convulsiones; la enfermedad poliquística renal autosómica recesiva; el síndrome 12 de Bardet-Biedl; la beta-talasemia; la enfermedad de Canavan; la coreoacantocitosis; el síndrome de Crigler-Najjar de tipo I; la fibrosis quística; la trombofilia por factor V de Leiden; la deficiencia de factor XI; la disautonomía familiar; la fiebre mediterránea familiar; la anemia de Fanconi (relacionada con el gen FANCG); la encefalopatía por glicina (relacionada con el gen GLDC); la enfermedad por almacenamiento de glucógeno, tipo 3; la enfermedad por almacenamiento de glucógeno, tipo 7; el síndrome GRACILE; la miositis por cuerpos de inclusión, tipo 2; la acidemia isovalérica; el síndrome de Joubert, tipo 2; la epidermólisis ampollosa juntural, tipo Herlitz; la amaurosis congénita de Leber (relacionada con el gen LCA5); la hipoplasia de células de Leydig (resistencia a la hormona luteinizante); la distrofia muscular de la cintura y las extremidades, tipo 2E; la deficiencia de lipoamida deshidrogenasa (enfermedad de la orina con olor a jarabe de arce, tipo 3); la deficiencia de lipoproteinlipasa; la deficiencia de 3-hidroxiacil CoA-deshidrogenasa de cadena larga; la enfermedad de la orina con olor a jarabe de arce, tipo 1B; la acidemia metilmalónica (relacionada con el gen MMAA); la deficiencia múltiple de sulfatasas; la neurohepatopatía de Navajo (síndrome del agotamiento de ADN mitocondrial hepatocerebral relacionado con el gen MPV17); la lipofuscinosis neuronal ceroidea (relacionada con el gen MFSD8); el síndrome de rotura de Nijmegen; la deficiencia de ornitina translocasa (síndrome de hiperornitinemia, hiperamonemia y homocitrulinuria [HHH]); los trastornos de la biogénesis del peroxisoma del espectro del síndrome de Zellweger (relacionados con el gen PEX1); los trastornos de la biogénesis del peroxisoma del espectro del síndrome de Zellweger (relacionados con el gen PEX2); la fenilcetonuria; la hipoplasia pontocerebelosa, tipo 2E; la picnodisostosis; la deficiencia de piruvato deshidrogenasa (relacionada con el gen PDHB); la distrofia de retina (relacionada con el gen RLBP1) (distrofia retiniana de Bothnia); la retinitis pigmentosa (relacionada con el gen DHDDS); el síndrome de Sanfilippo, tipo D (mucopolisacaridosis IIID); la anemia de células falciformes; el síndrome de Sjogren-Larsson; la enfermedad de Tay-Sachs; el síndrome de Usher, tipo 1F; la deficiencia de 3-metilcrotonil-CoA carboxilasa, tipo 1; la deficiencia de 3-metilcrotonil-CoA carboxilasa, tipo 2; y combinaciones de las anteriores. En una realización, el método también comprende, si la muestra tiene un resultado positivo en cuanto a la condición de ser portadora de la madre, obtener una muestra de ADN paterna y aplicar los pasos (a) al (e) del método a la muestra de ADN paterna para determinar la condición de ser portador del padre, a fin de calcular una puntuación de riesgo de que el feto herede la alteración genética.
En una realización, la muestra de ADN es de un grupo que comprende una muestra de ADN fetal o embrionaria. En una realización, la muestra de ADN fetal o embrionaria es de una o unas pocas células de un embrión todavía no implantado. En una realización, la muestra de ADN fetal o embrionaria es de una o unas pocas células fetales obtenidas a partir de una prueba de Papanicolaou de la madre. En una realización, la mezcla de TACS comprende múltiples secuencias cuya unión abarca todos los cromosomas del genoma humano.
En una realización, la amplificación de la biblioteca enriquecida se realiza en presencia de secuencias de bloqueo que inhiben la amplificación de secuencias no mutantes.
En una realización, los miembros de la biblioteca de secuenciación que se unen a la mezcla de TACS son parcialmente complementarios a la TACS.
Descripción de las figuras
El expediente de la patente o solicitud de patente contiene al menos una figura a color. La Oficina proporcionará copias de esta patente o solicitud de patente con figuras a color a solicitud, sujeto al pago de la tarifa correspondiente.
La Figura 1 es un diagrama esquemático del análisis paralelo múltiplex de regiones genómicas blanco para análisis prenatales no invasivos mediante secuencias de captura de blancos (TACS).
La Figura 2 es una lista de regiones cromosómicas ejemplares para TACS de amplificación que se unan a, por ejemplo, los cromosomas 13, 18, 21 o X. En la Tabla 1, se muestra una lista más extensa.
La Figura 3 es un diagrama esquemático del enriquecimiento basado en TACS de una secuencia de interés (línea gorda) usando una única TACS (izquierda) o usando una familia de TACS (derecha).
Las Figuras 4A-4B son gráficos que muestran el enriquecimiento usando familias de TACS frente al enriquecimiento usando TACS individuales, lo que se manifiesta en un aumento en la profundidad de lecturas promedio. En la Figura 4A, se muestran loci enriquecidos usando una familia de TACS (puntos rojos) frente a loci enriquecidos usando una única TACS (puntos azules); en el eje x se muestran las diferentes secuencias blanco y en el eje y, el cambio relativo en la profundidad de lecturas. La Figura 4B es un gráfico de barras que muestra el aumento relativo promedio en la profundidad de lecturas (54,7 %) cuando se usa una familia de TACS (derecha) respecto del caso cuando se usa una única TACS (izquierda).
En la Figura 5, se muestran gráficos de barras que ilustran la detección de mutaciones genéticas conocidas, que son biomarcadores tumorales, en material de referencia certificado que tiene las mutaciones en cuestión. Se muestran dos réplicas del material de referencia. La línea ilustra la frecuencia del alelo menos frecuente (MAF) prevista para cada una de las cargas tumorales evaluadas. Las barras (eje x) ilustran la MAF detectada (eje y) correspondiente a las mutaciones genéticas indicadas en el material de referencia certificado.
En la Figura 6, se muestran gráficos de barras que ilustran la detección de biomarcadores tumorales en muestras de pacientes con cáncer. Se muestran los resultados de dos pacientes: uno que tiene la mutación PIK3CA E545K (barras superiores) y uno que tiene la mutación TP53 K139 (barras inferiores). Se representan tanto muestras de tejido tumoral (“Rep. de tejido 1” y “Rep. de tejido 2”) como muestras de plasma (“Plasma”). En el eje y, se muestra la frecuencia del alelo mutante (VAF) detectada en las muestras (como un porcentaje).
La Figura 7 es un gráfico de barras que muestra el patrón observado de SNV somáticas en cáncer de mama, de acuerdo con la base de datos COSMIC. En el eje x, se muestra una mutación de una sola base observada en cáncer en el contexto de sus secuencias vecinas. Por ejemplo, A[C>A]T describe una mutación de una citosina (C) a adenina (A) aguas arriba de la cual hay una adenina y aguas abajo de la cual hay una timina. En el eje y, se muestra la frecuencia con la que ocurre esta mutación en cáncer de mama.
La Figura 8 es un gráfico de barras que muestra los resultados de un estudio de simulaciones en las que se usaron datos de secuenciación simulados que incluían motivos mutantes. Los datos se sometieron a la detección de motivos de mutaciones. Las barras indican la frecuencia promedio estimada de los motivos de mutación de cáncer de mama calculados a partir de un conjunto de datos de 10000 simulaciones. Los resultados muestran que es posible detectar motivos de mutación con el algoritmo desarrollado.
La Figura 9 es un gráfico de puntos que muestra los resultados de una prueba de fragmentos para la detección de un número creciente de fragmentos pequeños en una muestra combinada. Una muestra anómala aneuploide con una fracción fetal estimada del 2,8 % se detectó correctamente mediante este método. Los puntos negros son muestras individuales. En el eje x, se muestra el índice de la muestra. En el eje y, se muestra la puntuación que arroja el método basado en los tamaños de los fragmentos. Una puntuación mayor que el umbral mostrado por la línea gris indica una desviación respecto del tamaño esperado de los fragmentos, lo que es indicativo de la presencia de una aneuploidía.
La Figura 10 es un gráfico que muestra las frecuencias de los alelos mutantes (VAF) de varios loci asociados con las alteraciones genéticas indicadas, calculadas a partir de una muestra combinada que contiene ADN materno y ADN fetal. El eje x es un índice de muestras. El eje y muestra la VAF (como un porcentaje). El valor de VAF depende de la fracción materna presente en la muestra combinada. Los valores de VAF superiores a cierto umbral indican la presencia de una alteración genética en la muestra materna (la muestra materna se clasifica como portadora materna).
La Figura 11 es un gráfico que muestra los resultados obtenidos con muestras de ADN fetal de las cuales se determinó la ploidía a partir de análisis de segmentación basados en verosimilitud y datos de secuenciación de genoma completo. La línea horizontal azul indica la profundidad de lecturas promedio en cada segmento. Las líneas rojas indican los umbrales de los intervalos esperados para el caso de diploidía. Los datos por encima de la línea roja superior indica una condición por encima de la diploidía, y los datos por debajo de la línea roja inferior indican una condición por debajo de la diploidía. En el panel superior, se muestran los resultados correspondientes a una muestra euploide femenina (un feto femenino con cromosoma X diploide, sin cromosoma Y y sin anomalías de ploidía). En el panel inferior, se muestran los resultados correspondientes a una muestra femenina aneuploide (un feto femenino con cromosoma X diploide, sin cromosoma Y y con monosomía 18 y 20). Los valores en el eje y son el logaritmo de la profundidad de lecturas.
La Figura 12 es un gráfico que muestra los resultados obtenidos con muestras de ADN fetal de las cuales se determinó la ploidía mediante secuenciación de genoma completo, seguida por análisis de segmentación con un análisis de ventanas pequeñas solapadas. La línea horizontal azul indica la profundidad de lecturas promedio en cada cromosoma. Las líneas rojas indican los umbrales de los intervalos esperados para el caso de diploidía. En el panel superior, se muestran los resultados correspondientes a una muestra euploide masculina (un feto masculino con una única copia de los cromosomas X e Y y sin anomalías de ploidía). En el panel inferior, se muestran los resultados correspondientes a una muestra aneuploide masculina (un feto masculino con una única copia de los cromosomas X e Y y aneuploidías en los cromosomas 13 y 19: trisomía 13 y mosaicismo en el cromosoma 19). Los valores en el eje y son el logaritmo de la profundidad de lecturas.
La Figura 13 es un gráfico que muestra los resultados obtenidos con muestras de ADN fetal de las cuales se determinó la ploidía mediante secuenciación de genoma completo, seguida por análisis de segmentación con pruebas paralelas de a pares. En el panel superior, se muestran los resultados de una muestra normal (euploide) y, en el panel inferior, los resultados de una muestra aneuploide, con aneuploidías en los cromosomas 1, 2, 13, 15, 16, 19 y 20.
La Figura 14 es un gráfico que muestra resultados obtenidos con muestras de ADN fetal de las cuales se determinó la ploidía mediante enriquecimiento basado en TACS, seguido por una clasificación basada en la puntuación. De acuerdo con la leyenda, las muestras indicadas con N tienen una ploidía normal, la muestra indicada con P corresponde a una trisomía parcial, las muestras indicadas con T corresponden a trisomías y las muestras indicadas con M corresponden a monosomías.
La Figura 15 es un gráfico que muestra los resultados obtenidos con muestras de ADN fetal de las cuales se determinó la ploidía a partir de análisis de segmentación basados en verosimilitud y datos de secuenciación de genoma completo tras enriquecimiento basado en TACS. La línea horizontal azul indica la profundidad de lecturas promedio en cada cromosoma. Las líneas rojas indican los umbrales de los intervalos esperados para el caso de diploidía. Los datos por encima de la línea roja superior se clasifican con ploidía superior a dos, y los datos por debajo de la línea roja inferior se clasifican con ploidía inferior a dos. En el panel superior, se muestran los resultados correspondientes a una muestra euploide masculina (un feto masculino con una copia del cromosoma X, una copia del cromosoma Y y sin anomalías de ploidía). En el panel inferior, se muestran los resultados correspondientes a una muestra aneuploide masculina con trisomía 13 y monosomía 21. Los valores en el eje y son el logaritmo de la profundidad de lecturas.
La Figura 16 es un gráfico que muestra los resultados obtenidos con muestras de ADN fetal de las cuales se determinó la ploidía a partir de análisis de segmentación basados en verosimilitud y datos tras enriquecimiento basado en TACS. La línea horizontal azul indica la profundidad de lecturas promedio en cada cromosoma. Las líneas rojas indican los umbrales de los intervalos esperados para el caso de diploidía. Los datos por encima de la línea roja superior se clasifican con ploidía superior a dos y los datos por debajo de la línea roja inferior se clasifican con ploidía inferior a dos. En el panel superior, se muestran los resultados correspondientes a una muestra euploide masculina (un feto masculino con una copia del cromosoma X, una copia del cromosoma Y y sin anomalías de ploidía). En el panel inferior, se muestran los resultados correspondientes a una muestra aneuploide masculina con trisomía 13 y monosomía 21. Los valores en el eje y son el logaritmo de la profundidad de lecturas.
La Figura 17 es una lista de regiones cromosómicas ejemplares para TACS de amplificación que se unen a genes biomarcadores tumorales ejemplares, sin carácter taxativo.
Descripción detallada de la invención
La invención refiere a un método para analizar anomalías genéticas que involucra un enriquecimiento basado en hibridación de determinadas regiones blanco a lo largo del genoma humano en un panel de determinaciones, seguida por la cuantificación, combinada con un nuevo pipeline bioinformático y matemático. En la Figura 1, se muestra un resumen esquemático del método.
El enriquecimiento por hibridación en solución se ha usado en el pasado para enriquecer regiones específicas de interés antes de la secuenciación (véase, por ejemplo, Meyer, M y Kirchner, M. (2010) Cold Spring Harb. Protoc.
2010(6):pdbprot5448; Liao, G.J. et al. (2012) PLoS One 7:e38154; Maricic, T. et al. (2010) PLoS One 5:e14004; Tewhey, R. et al.(2009) Genome Biol. 10:R116; Tsangaras, K. et al. (2014) PLoS One 9:e109101; publicación de patente del PCT WO 2016/189388; publicación de patente estadounidense 2016/0340733; Koumbaris, G. et al. (2016) Clinical Chemistry, 62(6), pp. 848-855). Sin embargo, en los métodos de la invención, las secuencias blanco (denominadas secuencias de captura de blancos o TACS) usadas para enriquecer regiones específicas de interés se han optimizado para maximizar la eficiencia, la especificidad y la exactitud y, además, se usan en familias de TACS, que comprenden múltiples miembros que se unen a la misma secuencia genómica, pero con diferentes posiciones de inicio y/o fin, de modo que el enriquecimiento de las secuencias genómicas de interés mejora significativamente en comparación con el uso de una única TACS que se une a la secuencia genómica. La configuración de tales familias de TACS se ilustra esquemáticamente en la Figura 3, que muestra que las diferentes posiciones de inicio y/o fin de los miembros de la familia de TACS cuando se unen a la secuencia genómica de interés dan lugar a un patrón de unión escalonado de los miembros de la familia.
Usar, dentro de la mezcla de TACS, familias de TACS que se unen a cada secuencia blanco de interés en lugar de usar una única TACS que se una a cada secuencia blanco de interés aumenta considerablemente el enriquecimiento de las secuencias blanco de interés, lo que se manifiesta como un aumento promedio superior al 50 % en la profundidad de lecturas obtenida con familias de TACS en comparación con TACS individuales. En el Ejemplo 5, se compara el uso de una familia de TACS y de una única TACS y se describe la mejora significativa en la profundidad de lecturas observada.
Así, en un aspecto, la invención refiere a un método para evaluar el riesgo de una anomalía genética en una muestra de ADN que comprende secuencias genómicas de interés, donde el método comprende:
(a) preparar la biblioteca de secuenciación a partir de la muestra de ADN;
(b) hibridar la biblioteca de secuenciación a una mezcla de secuencias de captura de blancos (TACS) de doble hebra, donde la mezcla de TACS comprende múltiples familias de TACS dirigidas a diferentes secuencias genómicas de interés, donde cada familia de TACS comprende múltiples secuencias miembro, donde cada secuencia miembro se une a la misma secuencia genómica de interés, pero tiene diferentes posiciones de inicio y/o fin con respecto a un sistema de coordenadas de referencia de la secuencia genómica de interés y donde, además:
(i) cada secuencia miembro de cada familia de TACS tiene entre 150 y 260 pares de bases (bp) de longitud, y cada secuencia miembro tiene un extremo 5' y un extremo 3';
(ii) cada secuencia miembro se une a la misma secuencia genómica de interés a una distancia de al menos 50 pares de bases, tanto en el extremo 5' como en el extremo 3', de regiones que presentan variaciones en el número de copias (CNV), duplicaciones segmentales o elementos de ADN repetitivo; y
(iii) el contenido de GC de la mezcla de TACS, que se determina calculando el contenido de GC de cada secuencia miembro de cada familia de TACs , se encuentra entre el 19 % y el 80 %;
(c) aislar aquellos miembros de la biblioteca de secuenciación que se unen a la mezcla de TACS para obtener una biblioteca enriquecida;
(d) amplificar y secuenciar la biblioteca enriquecida; y
(e) realizar análisis estadísticos de las secuencias de la biblioteca enriquecida para determinar el riesgo de una anomalía genética en la muestra de ADN, donde las posiciones de inicio y/o fin de las secuencias miembro dentro de una familia de TACS con respecto a un sistema de coordenadas de referencia de la secuencia genómica de interés están escalonadas por entre 5 y 10 pares de bases.
Cada familia de TACS comprende múltiples miembros que se unen a la misma secuencia genómica de interés, pero tienen diferentes posiciones de inicio y/o fin con respecto a un sistema de coordenadas de referencia de la secuencia genómica de interés. Normalmente, el sistema de coordenadas de referencia que se usa para el análisis del ADN genómico es el genoma humano de referencia versión hg19, que está disponible públicamente en la técnica, aunque pueden usarse otras versiones. Como alternativa, el sistema de coordenadas de referencia puede ser un genoma artificial basado en la versión hg19 que contenga únicamente las secuencias genómicas de interés. En la Figura 2, se muestran ejemplos sin carácter taxativo de posiciones de inicio/fin de TACS que se unen a los cromosomas 13, 18, 21, X o Y. En la Figura 17, se muestran ejemplos sin carácter taxativo de posiciones de inicio/fin de TACS que se unen a NRAS en el cromosoma 1, PI3KCA en el cromosoma 3, EGFR en el cromosoma 7 o KRAS en el cromosoma 12 (como ejemplos sin carácter taxativo de biomarcadores tumorales).
Cada familia de TACS comprende al menos 2 miembros que se unen a la misma secuencia genómica de interés. En varias realizaciones, cada familia de TACS comprende al menos 2 secuencias miembro, o al menos 3 secuencias miembro, o al menos 4 secuencias miembro, o al menos 5 secuencias miembro, o al menos 6 secuencias miembro, o al menos 7 secuencias miembro, o al menos 8 secuencias miembro, o al menos 9 secuencias miembro o al menos 10 secuencias miembro. En varias realizaciones, cada familia de TACS comprende 2 secuencias miembro, o 3 secuencias miembro, o 4 secuencias miembro, o 5 secuencias miembro, o 6 secuencias miembro, o 7 secuencias miembro, u 8 secuencias miembro, o 9 secuencias miembro o 10 secuencias miembro. En varias realizaciones, las múltiples familias de TACS comprenden diferentes familias que tienen diferentes números de secuencias miembro. Por ejemplo, una familia de TACS puede comprender una familia de TACS que comprende 3 secuencias miembro, otra familia de TACS que comprende 4 secuencias miembro, otra familia de TACS que comprende 5 secuencias miembro, y así. En una realización, una familia de TACS comprende entre 3 y 5 secuencias miembro. En una realización, la familia de TACS comprende 4 secuencias miembro.
La mezcla de TACS comprende múltiples familias de TACS. En una realización, una mezcla de TACS comprende al menos 2 familias de TACS. En varias realizaciones, una mezcla de TACS comprende al menos 3 familias de TACS diferentes, o al menos 5 familias de TACS diferentes, o al menos 10 familias de TACS diferentes, o al menos 50 familias de TACS diferentes, o al menos 100 familias de TACS diferentes, o al menos 500 familias de TACS diferentes, o al menos 1000 familias de TACS diferentes, o al menos 2000 familias de TACS diferentes, o al menos 4000 familias de TACS diferentes o al menos 5000 familias de TACS diferentes.
Cada miembro de una familia de TACS se une a la misma región genómica de interés, pero con diferentes posiciones de inicio y/o fin con respecto a un sistema de coordenadas de referencia de la secuencia genómica de interés, de modo que el patrón de unión de los miembros de la familia de TACS es escalonado (véase la Figura 3).
Normalmente, las posiciones de inicio y/o fin están escalonadas por entre 5 y 10 pares de bases. En una realización, las posiciones de inicio y/o fin están escalonadas por 5 pares de bases. En otra realización, las posiciones de inicio y/o fin están escalonadas por 10 pares de bases.
El método basado en el enriquecimiento por TACS de la divulgación puede usarse para la detección de una amplia variedad de anomalías genéticas. En una realización, la anomalía genética es una aneuploidía cromosómica (como una trisomía, una trisomía parcial o una monosomía). En otras realizaciones, la anomalía genómica es una anomalía estructural, incluidas, sin carácter taxativo, las variaciones en el número de copias, incluidas las microdeleciones y las microduplicaciones, las inserciones, las translocaciones, las inversiones y las mutaciones pequeñas, incluidas las mutaciones puntuales y los perfiles de mutaciones. En otra realización, la anomalía genética es un mosaicismo cromosómico.
En las subsecciones que siguen, se describen otros aspectos y características de los métodos de la divulgación.
Los métodos de la divulgación pueden usarse con una amplia variedad de muestras de ADN y en una amplia variedad de situaciones clínicas, incluidos los análisis prenatales no invasivos y, en el campo de la oncología, para el diagnóstico y el tratamiento del cáncer. Tales usos se describen en mayor detalle en las subsecciones que siguen.
Diseño de las secuencias de captura de blancos
En la presente, los términos “secuencias de captura de blancos” o “TACS” hacen referencia a secuencias de ADN cortas que son complementarias a la(s) región/ones de interés en una o más secuencias genómicas de interés (p. ej., uno o más cromosomas de interés) y que se usan como “señuelo” para capturar y enriquecer la región de interés a partir de una biblioteca amplia de secuencias, como una biblioteca de secuenciación de genoma completo preparada a partir de una muestra biológica. Además de las características de las familias de TACS descritas anteriormente (p. ej., la unión escalonada a la secuencia genómica de interés), se usa para el enriquecimiento una mezcla de TACS, donde las secuencias dentro de la mezcla se han optimizado en relación con: (i) la longitud de las secuencias; (ii) la distribución de las TACS a lo largo de la(s) región/ones de interés; y (iii) el contenido de GC de las TACS. Asimismo, se ha optimizado la cantidad de secuencias dentro de la mezcla de TACS (tamaño de la mezcla).
Se ha descubierto que las TACS con una longitud de entre 150 y 260 pares de bases son óptimas para maximizar la eficiencia de enriquecimiento. En varias otras realizaciones, cada secuencia dentro de la mezcla de TACS tiene entre 150 y 260 pares de bases o entre 200 y 260 pares de bases.
En realizaciones preferentes, la longitud de las TACS de la mezcla es de al menos 250 pares de bases, es de 250 pares de bases o es de 260 pares de bases.
La distribución de las TACS a lo largo de cada región o cromosoma de interés se ha optimizado para evitar las repeticiones con alto número de copias, las repeticiones con bajo número de copias y las variantes en el número de copias, y, a la vez, poder direccionar la captura a polimorfismos de nucleótidos individuales (SNP) informativos para permitir la detección de las aneuploidías, la detección de variaciones en el número de copias y la estimación de la fracción fetal (ff). Así, cada secuencia dentro de la mezcla de TACS está diseñada de manera tal que el extremo 5' y el extremo 3' se encuentran, cada uno, a una distancia de al menos 50 pares de bases de regiones en el genoma de las que se sabe que contienen uno o más de los siguientes elementos: variaciones en el número de copias (CNV), duplicaciones segmentales y/o elementos de ADN repetitivo (como transposones o zonas de repeticiones en tándem). En varias otras realizaciones, cada secuencia dentro de la mezcla de TACS está diseñada de manera tal que el extremo 5' y el extremo 3' se encuentran, cada uno, a una distancia de al menos 50, 100, 150, 200, 250, 300, 400 o 500 pares de bases de regiones en el genoma de las que se sabe que contienen uno o más de los elementos anteriores.
El término "variaciones en el número de copias" (CNV) es un término de la técnica que hace referencia a una forma de variante estructural del genoma humano en la cual existen alteraciones en el ADN del genoma de ciertos individuos que resultan en una cantidad menor o mayor a la normal de una o más secciones del genoma. Las CNV corresponden a regiones relativamente extensas del genoma que pueden haberse borrado (por ejemplo, una sección que normalmente es A-B-C-D puede ser A-B-D) o duplicado (por ejemplo, una sección que normalmente es A-B-C-D puede ser A-B-C-C-D). Las CNV representan aproximadamente el 13 % del genoma humano y el tamaño de cada variación varía entre aproximadamente 1 kilobase a varias megabases.
El término "duplicaciones segmentales" (también "repeticiones con bajo número de copias") también es un término de la técnica que refiere a bloques de ADN cuya longitud varía entre 1 y 400 kilobases que ocurren en más de una posición del genoma y que, por lo general, tienen un alto grado de identidad a nivel de secuencia (mayor del 90 %). Las duplicaciones segmentales se abordan, por ejemplo, en Eichler. E.E. (2001) Trends Genet. 17:661-669.
El término "elementos de ADN repetitivo" (también "ADN repetitivo" o "ADN repetido") también es un término de la técnica que refiere a patrones de ADN que ocurren en múltiples copias a lo largo del genoma. El término "elemento de ADN repetitivo" abarca las repeticiones terminales, las repeticiones en tándem y las repeticiones intercaladas, incluidos los transposones. Los elementos de ADN repetitivo en el marco de las tecnologías de NGS se analizan en más detalle, por ejemplo, en Todd, J. et al. (2012) Nature Reviews Genet. 13:36-46.
Las TACS están diseñadas con características específicas de contenido de GC con el fin de minimizar el sesgo inducido por el contenido de GC en los datos y permitir el uso de un pipeline de análisis de datos personalizado e innovador. Se ha determinado que las TACS con un contenido de GC del 19 al 80 % logran un enriquecimiento óptimo y son las que muestran mayor rendimiento con el ADN fetal acelular. Dentro de una mezcla de TACS, diferentes secuencias pueden tener diferentes contenidos de GC porcentuales, pero, para ser incluida en la mezcla, el contenido de GC porcentual de cada secuencia, obtenido calculando el contenido de GC de cada miembro de cada familia de TACS, debe encontrarse en el rango del 19 al 80 %. Eso significa que cada miembro de cada familia de TACS tiene un contenido de GC porcentual dentro del rango porcentual dado (p. ej., un contenido de GC entre el 19 y el 80 %). En algunas instancias, la mezcla de TACS (es decir, cada miembro de cada familia de TACS) puede seleccionarse de manera de definir otro rango de contenido de GC porcentual que se considere más adecuado para la evaluación de anomalías genéticas específicas. Algunos ejemplos de rangos de contenido de GC porcentual son, sin carácter taxativo, entre 19 % y 80 %, o entre 19 % y 79 %, o entre 19 % y 78 %, o entre 19 % y 77 %, o entre 19 % y 76 %, o entre 19 % y 75 %, o entre 19 % y 74 %, o entre 19 % y 73 %, o entre 19 % y 72 %, o entre 19 % y 71 %, o entre 19 % y 70 %, o entre 19 % y 69 %, o entre 19 % y 68 %, o entre 19 % y 67 %, o entre 19 % y 66 %, o entre 19 % y 65 %, o entre 19 % y 64 %, o entre 19 % y 63 %, o entre 19 % y 62 %, o entre 19 % y 61 %, o entre 19 % y 60 %, o entre 19 % y 59 %, o entre 19 % y 58 %, o entre 19 % y 57 %, o entre 19 % y 56 %, o entre 19 % y 55 %, o entre 19 % y 54 %, o entre 19 % y 53 %, o entre 19 % y 52 %, o entre 19 % y 51 %, o entre 19 % y 50 %, o entre 19 % y 49 %, o entre 19 % y 48 %, o entre 19 % y 47 %, o entre 19 % y 46 %, o entre 19 % y 45 %, o entre 19 % y 44 %, o entre 19 % y 43 %, o entre 19 % y 42 %, o entre 19 % y 41 %, o entre 19 % y 40 %.
Según se describen en mayor detalle más abajo a propósito de una realización del análisis de datos, luego de la amplificación y secuenciación de las secuencias enriquecidas, los loci de prueba y los loci de referencia pueden aparearse o agruparse en función de su contenido de GC porcentual (p. ej., los loci bajo análisis con un contenido de GC porcentual del 40 % se aparean con loci de referencia con un contenido de GC porcentual del 40 %). Se apreciará que el procedimiento de apareamiento en función del contenido de GC porcentual podría permitir una variación leve en el rango de contenido de GC porcentual admitido para un apareamiento. Como ejemplo no taxativo y con referencia al ejemplo descrito anteriormente, un locus de prueba con un contenido de GC porcentual del 40 % podría aparearse con loci de referencia con un rango de contenido de GC porcentual entre el 39 y el 41 %, abarcando el contenido de GC porcentual del locus de prueba dentro de un rango adecuado.
Para preparar una mezcla de TACS con los criterios optimizados mencionados arriba en relación con el tamaño, la ubicación en el genoma humano y el contenido de GC porcentual, pueden aplicarse métodos manuales o computarizados conocidos en la técnica para el análisis del genoma humano de referencia. En una realización, se implementa un método semiautomático en el que primeramente se designan manualmente regiones basadas en la versión 19 del genoma humano de referencia (hg19), de manera de evitar las regiones repetitivas mencionadas, y, posteriormente, las regiones designadas se curan en relación con el contenido de GC con ayuda de software que calcula el contenido de GC de cada región en función de sus coordenadas en la versión 19 del genoma humano de referencia (hg 19). En otra realización, se emplea software hecho a medida para analizar el genoma humano de referencia e identificar regiones adecuadas para TACS que cumplan ciertos criterios, incluidos, sin carácter taxativo, criterios referidos al contenido de GC porcentual, la proximidad a regiones repetitivas y/o la proximidad a otras TACS.
La cantidad de TACS en la mezcla se ha examinado y ajustado cuidadosamente para lograr el mejor equilibrio entre la robustez de los resultados y el costo/la capacidad de la determinación. La mezcla generalmente contiene 800 o más TACS, pero puede incluir más; por ejemplo, 1500 o más TACS, 2000 o más TACS, o 2500 o más TACS, o 3500 o más TACS, o 5000 o más TACS. Se ha detectado que un número óptimo de TACS en la mezcla es de 5000. La persona razonablemente versada en la técnica apreciará que, por lo general, puede usarse una pequeña variación en el tamaño de la mezcla sin afectar los resultados (p. ej., la eliminación o el agregado de una pequeña cantidad de TACS). Así, las cantidades de TACS de la mezcla que se indican en la presente deben considerarse como "aproximadas", admitiendo una pequeña variación (p. ej., del 1 al 5 %) en su tamaño. Así, por ejemplo, un tamaño de mezcla de "1600 secuencias" hace referencia a "aproximadamente 1600 secuencias", de manera que también abarca, por ejemplo, 1590 secuencias o 1610 secuencias.
En vista de lo anterior, en otro aspecto, la invención provee un método para preparar una mezcla de TACS para usar en el método de la invención para detectar el riesgo de una anomalía cromosómica y/u otra anomalía genética, donde el método para preparar la mezcla de TACS comprende: seleccionar regiones en uno o más cromosomas de interés que cumplan los criterios definidos arriba (p. ej., que se encuentren a una distancia de al menos 50 pares de bases a cada extremo de las secuencias repetitivas mencionadas y que tengan un contenido de GC entre el 19 % y el 80 %, que se obtiene calculando el contenido de GC de cada miembro de cada familia de TACS); preparar cebadores que amplifiquen las secuencias que hibridan con las regiones seleccionadas; y amplificar las secuencias, donde cada secuencia tiene entre 150 y 260 pares de bases de longitud.
Para usar en los métodos de la divulgación, la mezcla de TACS normalmente se fija a un sustrato sólido, como microesferas (p. ej., microesferas magnéticas) o a una columna. En una realización, las TACS de la mezcla de TACS están marcadas con biotina y están unidas a microesferas magnéticas recubiertas con una sustancia que se une a la biotina, como la estreptavidina o la avidina, a fin de fijar la mezcla de TACS a un sustrato sólido. Otros sistemas de unión adecuados para fijar la mezcla de TACS a un sustrato sólido (como microesferas o una columna) son conocidos para la persona versada en la técnica y están fácilmente disponibles en la técnica. Cuando se usan microesferas magnéticas como sustrato sólido, las secuencias que se unen a las TACS unidas a las microesferas pueden separarse magnéticamente de las secuencias que no se unen a las TACS.
Obtención y preparación de las muestras
Los métodos de la invención pueden usarse con diversas muestras biológicas. Esencialmente cualquier muestra biológica que contiene ADN, y en particular ADN libre (ADNl), puede usarse como muestra en los métodos, permitiendo el análisis genético del ADN en ellas. Por ejemplo, en una realización, la muestra de ADN es una muestra de plasma que contiene ADN libre (ADNl). Para los análisis prenatales en particular, la muestra de ADN contiene ADN fetal (p. ej., ADN fetal libre). En una realización para NIPT, la muestra es una muestra combinada que contiene tanto ADN materno como ADN fetal (p. ej., ADN fetal libre [ADNfl]), como una muestra de plasma materno obtenida de sangre periférica materna. Normalmente, en el caso de las muestras de ADN materno y fetal combinados, la muestra es una muestra de plasma materno, aunque pueden usarse otras fuentes de tejido que contengan tanto ADN materno como ADN fetal. El plasma materno puede obtenerse de una muestra de sangre periférica entera de una mujer embarazada y el plasma puede obtenerse mediante métodos estándar. Apenas 2 a 4 ml de plasma son suficientes para obtener material de ADN suficiente para el análisis de acuerdo con el método de la divulgación. Luego, puede extraerse el ADN libre total de la muestra mediante técnicas estándar, que incluyen, sin carácter taxativo, el protocolo Qiasymphony (Qiagen) adecuado para aislar ADN fetal libre, así como cualquier otro método de extracción manual o automático adecuado para aislar ADN libre.
En otra realización para NIPT, la muestra contiene predominantemente ADN fetal o embrionario. En el contexto de la presente, una muestra que contiene “predominantemente ADN fetal o embrionario” es una que contiene más de 50 % de ADN fetal o embrionario y, normalmente, contiene más de 90 %, 95 % o 99 % de ADN fetal o embrionario. En una realización, el origen de la muestra que contiene predominantemente ADN fetal o embrionario es un conjunto de células fetales o embrionarias obtenidas de una biopsia embrionaria de embriones derivados de fertilización in vitro (FIV) antes de su implantación. Se ha demostrado que pueden obtenerse células intactas de embriones derivados de FIV antes de su implantación para procesos de detección genética previa a la implantación (PGS) y diagnóstico genético previo a la implantación (PGD). Un óvulo se fertiliza mediante FIV, y las células resultantes se recolectan durante el crecimiento in vitro del embrión. Por ejemplo, las células pueden recolectarse de un embrión de 3 días o de un embrión de 5 días. Normalmente, si la recolección de células se realiza en el día 3, se obtiene una única célula, también conocida como blastómero, y, si la recolección se realiza en el día 5, se obtienen unas pocas células, también conocidas como células del trofectodermo. Normalmente, la integridad genética de las células fetales cultivadas se analiza mediante hibridación genómica comparativa basada en microarreglos (aCGH), una tecnología que puede detectar anomalías genéticas superiores a cierto tamaño genómico. El método de la divulgación proporciona una forma alternativa de detectar anomalías genómicas en células fetales o embrionarias obtenidas de un embrión.
En otra realización, la fuente de la muestra que contiene predominantemente ADN fetal o embrionario es un conjunto de células fetales o embrionarias obtenidas de forma no invasiva mediante la recolección de células intactas (trofoblastos) de una prueba de Papanicolaou (prueba de citología vaginal) de la madre. Recientemente, se ha demostrado que esta es una forma simple y segura de obtener material genético fetal o embrionario de forma no invasiva y que las células obtenidas de la prueba de Papanicolaou mostraban una gran abundancia (casi 100 %) de material genético fetal (Jain, C.V. et al. (2016) Science Translational Medicine 8(363):363re4-363re4).
En otra realización, la muestra que contiene predominantemente ADN fetal o embrionario es una muestra de ADN de una o unas pocas células fetales presentes en el plasma materno. En otras realizaciones, la muestra que contiene predominantemente ADN fetal o embrionario es una muestra de ADN obtenida directamente de tejido fetal o de líquido amniótico, o bien de las vellosidades coriónicas o del medio donde se cultivaron los productos de la concepción. En otra realización para fines oncológicos, la muestra es una muestra biológica obtenida de un paciente que tiene o presuntamente tiene un tumor. En una realización, la muestra de ADN comprende ADN libre tumoral (ADNlt). En una realización, la muestra oncológica es una muestra de tejido (p. ej., de una biopsia tumoral). En otra realización, la muestra es orina, esputo, líquido peritoneal, líquido cefalorraquídeo o líquido de un derrame pleural del paciente. En otra realización, la muestra oncológica es una muestra de plasma del paciente, preparada a partir de la sangre periférica del paciente. Así, la muestra puede ser una muestra de biopsia líquida obtenida de forma no invasiva de una muestra de sangre del paciente, lo que podría permitir la detección temprana del cáncer antes de que se desarrolle un tumor detectable o palpable.
Para la preparación de la muestra biológica, generalmente se lisan las células y se extrae ADN mediante técnicas estándar conocidas en la técnica, de las cuales un ejemplo, sin carácter taxativo, es el protocolo Qiasymphony (Qiagen).
Luego de aislarse, el ADN libre de la muestra se usa para construir una biblioteca de secuenciación cuyo fin es hacer la muestra compatible con una tecnología de secuenciación ulterior (por ejemplo, la secuenciación de última generación). En general, esto involucra la ligación de adaptadores a los extremos de los fragmentos de ADN libre, seguida por una amplificación. Hay kits para la preparación de bibliotecas de secuenciación disponibles comercialmente. En el Ejemplo 1, se describe en detalle un protocolo ejemplar —sin carácter taxativo— para la preparación de una biblioteca de secuenciación.
Enriquecimiento mediante hibridación de TACS
Para enriquecer la(s) región/ones de interés del/de los cromosoma(s) de interés, se hace hibridar la mezcla de TACS con la biblioteca de secuenciación y, a continuación, se aíslan las secuencias de la biblioteca de secuenciación que hibrida a las TACS. Para facilitar el aislamiento de las secuencias deseadas enriquecidas, las TACS generalmente se modifican de tal manera que las secuencias que hibridan con las TACS se pueden separar de aquellas que no hibridan con las TACS. En general, esto se logra fijando las TACS a un sustrato sólido. Esto permite la separación física de las secuencias que hibridan con las TACS de aquellas que no hibridan con las TACS. Por ejemplo, cada secuencia dentro de la mezcla de TACS puede marcarse con biotina, y la mezcla puede fijarse a microesferas recubiertas con una sustancia que se una a la biotina, como estreptavidina o avidina. En una realización preferente, las TACS se marcan con biotina y se unen a microesferas magnéticas recubiertas con estreptavidina. Sin embargo, la persona razonablemente versada en la técnica apreciará que existen otros sistemas de unión por afinidad conocidos en la técnica y que pueden usarse en lugar del sistema de biotina-estreptavidina/avidina. Por ejemplo, puede usarse un sistema basado en anticuerpos en el que las TACS se marquen con un antígeno y, luego, se unan a microesferas recubiertas con el anticuerpo correspondiente. Además, las TACS pueden incorporar en un extremo una secuencia marca y pueden fijarse a un sustrato sólido mediante una secuencia complementaria en el sustrato sólido que hibride con la secuencia marca. Por otra parte, además de microesferas magnéticas, pueden usarse otros tipos de sustratos sólidos, como microesferas poliméricas y otros similares.
En ciertas realizaciones, los miembros de la biblioteca de secuenciación que se unen a la mezcla de TACS son perfectamente complementarios a las TACS. En otras realizaciones, los miembros de la biblioteca de secuenciación que se unen a la mezcla de TACS son parcialmente complementarios a las TACS. Por ejemplo, en ciertas circunstancias, puede ser deseable utilizar y analizar datos provenientes de fragmentos de ADN que son productos del proceso de enriquecimiento, pero que no necesariamente pertenecen a las regiones genómicas de interés (es decir, tales fragmentos de ADN podrían unirse a las TACS a causa de homologías parciales [complementariedad parcial] con las TACS y, al ser secuenciados, producirían muy baja cobertura a lo largo del genoma en coordenadas que no sean las de las TACS).
Luego del enriquecimiento de la(s) secuencia(s) de interés con las TACS y la formación de la biblioteca enriquecida, los miembros de la biblioteca enriquecida se eluyen del sustrato sólido y se amplifican y secuencian mediante métodos estándar conocidos en la técnica. En general, se emplea la tecnología estándar de secuenciación de última generación, aunque pueden emplearse también otras tecnologías de secuenciación que provean no solo información de secuencia, sino también recuentos muy exactos. Detectar anomalías genéticas — incluidas, sin carácter taxativo, las aneuploidías o las variaciones estructurales en el número de copias— exige un recuento muy exacto, y la NGS es un tipo de tecnología que provee tal recuento muy exacto. Así, para la detección de anomalías genéticas, incluidas, sin carácter taxativo, las aneuploidías o las variaciones estructurales en el número de copias, pueden usarse otros métodos de recuento exactos, como la PCR digital y los microarreglos, en lugar de la NGS. En el Ejemplo 3, se describen en detalle protocolos ejemplares —sin carácter taxativo— para la amplificación y secuenciación de la biblioteca enriquecida.
Análisis de los datos
La información obtenida de la secuenciación de la biblioteca enriquecida puede analizarse mediante un innovador pipeline de análisis biomatemático/bioestadístico. En el Ejemplo 4, se presentan detalles de un ejemplo de un análisis realizado con este pipeline, y este se describe en más detalle a continuación. En la presente también se proveen otros enfoques de análisis de datos para diferentes fines. Por ejemplo, en los Ejemplos 6 a 9 y en la sección siguiente sobre oncología, se describen enfoques de análisis de datos para analizar muestras oncológicas. Además, en el Ejemplo 11 y en la sección siguiente sobre ADN fetal, se describen enfoques de análisis de datos para analizar muestras de ADN fetal y/o embrionario en busca de anomalías genéticas.
El pipeline de análisis que se describe en el Ejemplo 4 explota las características de las TACS, en tanto que la alta eficiencia de la captura de blancos permite una detección eficiente de aneuploidías o variaciones estructurales en el número de copias, así como otros tipos de anomalías genéticas. En el análisis, los fragmentos de ADN secuenciados de la muestra se alinean primeramente al genoma humano de referencia. Se emplean métricas de control de calidad para inspeccionar las propiedades de la muestra alineada y decidir si la muestra es apta para clasificación. Estas métricas de calidad pueden incluir, sin carácter taxativo, el análisis de patrones de enriquecimiento de los loci de interés, como, por ejemplo, la profundidad de secuenciación general de la muestra, el volumen de secuenciación específico de la muestra, el rendimiento de las TACS, el nivel esperado de sesgo inducido por el contenido de GC y la cuantificación de la fracción de interés. Para determinar el riesgo de una anomalía cromosómica en el ADN fetal de la muestra, se emplea un algoritmo innovador. Los pasos del algoritmo incluyen, sin carácter taxativo, eliminar los loci secuenciados de forma inadecuada; extraer información relativa a la profundidad de lecturas y el tamaño de fragmentos en coordenadas específicas de las TACS; mitigar el sesgo inducido por el contenido de GC; y determinar la ploidía.
La determinación de la ploidía se logra mediante uno o más métodos estadísticos, algunos de los cuales son, sin carácter taxativo, una prueba t, una prueba de remuestreo (bootstrap), una prueba de permutación, una prueba binomial de proporciones, métodos basados en segmentación y/o combinaciones de las anteriores. La persona razonablemente versada en la técnica apreciará que la selección y aplicación de pruebas estadísticas para incluir en una determinación de la ploidía se basa en la cantidad de puntos de datos disponibles. Así, la idoneidad de cada prueba viene dada por distintos factores como —sin carácter taxativo— la cantidad de TACS utilizadas y la correspondiente aplicación para mitigar el sesgo inducido por el contenido de GC, si corresponde. Así, los métodos mencionados deben considerarse como ejemplos de los tipos de análisis estadísticos que pueden emplearse y no son los únicos métodos adecuados para la determinación de la ploidía. En general, el método estadístico resulta en una puntuación asociada a la muestra combinada y se detecta el riesgo de la anomalía cromosómica en cuestión en el ADN fetal cuando la puntuación de la muestra combinada se encuentra por encima de un valor umbral de referencia.
En particular, un aspecto de los análisis estadísticos involucra cuantificar y mitigar el sesgo inducido por el contenido de GC. Además del desafío de detectar pequeños cambios de señal en el ADN fetal en la muestra combinada y/u otros componentes de ADN de interés que forman parte de una muestra combinada (por ejemplo, sin carácter taxativo, la presencia de más o menos material genético de ciertas regiones cromosómicas), el propio proceso de secuenciación introduce ciertos sesgos que pueden oscurecer la detección de la señal. Uno de tales sesgos es la secuenciación/amplificación preferente de las regiones genéticas en función de su contenido de GC. Por ello, ciertos métodos de detección — incluidos, sin carácter taxativo, los métodos basados en la profundidad de lecturas— deben tener en cuenta tal sesgo al momento de analizar los datos de secuenciación. Así, se debe cuantificar el sesgo en los datos y, posteriormente, se deben aplicar métodos adecuados que contemplen dicho sesgo de manera tal que las dependencias del contexto genético no puedan afectar los métodos estadísticos que pudieran usarse para cuantificar el riesgo de anomalías genéticas fetales.
Por ejemplo, un método para cuantificar el sesgo inducido por el contenido de GC es aplicar la técnica de suavizado local ponderado de diagramas de dispersión (LOESS) a los datos de secuenciación. Cada locus blanco puede definirse por su profundidad de lecturas obtenidas en la secuenciación y su contenido de GC. Una recta de ajuste óptimo por estas dos variables sobre una gran cantidad de loci provee una estimación de la profundidad de lecturas de secuenciación esperada dado el contenido de GC. Una vez que se completa este paso de cuantificación del sesgo inducido por el contenido de GC, el siguiente paso es usar esta información para considerar posibles sesgos en los datos. Un método es normalizar la profundidad de lecturas de todos los loci respecto de su profundidad de lecturas esperada (en función del contenido de GC de cada locus). En principio, eso desvincula los datos de profundidad de lecturas de su contexto genético y torna todos los datos comparables. Así, los datos recuperados de regiones con distintos contenidos de GC, como, por ejemplo —sin carácter taxativo— , distintos cromosomas, se pueden usar en pruebas estadísticas ulteriores para la detección de anomalías. Así, mediante el procedimiento LOESS, el sesgo inducido por el contenido de GC se desvincula de los datos antes de la aplicación de las pruebas estadísticas. En una realización, el análisis estadístico de las secuencias de la biblioteca enriquecida comprende mitigar el sesgo de GC con un procedimiento LOESS.
En una realización preferente alternativa, el sesgo inducido por el contenido de GC se cuantifica y mitiga agrupando los loci con contenidos de GC similares (equiparables). Así, conceptualmente, este método para mitigar el sesgo inducido por el contenido de GC comprende los tres pasos siguientes:
1) identificar y calcular el contenido de GC en las TACS;
2) mitigar/considerar el sesgo inducido por el contenido de GC mediante diversos procedimientos de apareamiento/agrupación de las TACS; y
3) calcular el riesgo de que distintas anomalías genéticas estén presentes en el feto aplicando métodos estadísticos y matemáticos a los conjuntos de datos resultantes del paso 2.
En el caso de la prueba t, el conjunto de datos se divide en dos grupos: los loci de prueba y los loci de referencia. Por cada grupo, se crean subconjuntos de grupos en los que los loci se categorizan de acuerdo con su contenido de GC, como se ilustra en el ejemplo no taxativo de la Tabla 1, a continuación:
Tabla 1
Figure imgf000013_0001
La persona razonablemente versada en la técnica apreciará que la creación de subgrupos puede abarcar un rango de contenidos de GC adecuados y/o un subconjunto de loci definidos por un contenido de GC y/o un rango de contenido de GC dados. Así, el contenido de GC porcentual dado en el ejemplo no taxativo de la Tabla 1 debe considerarse “aproximado”, admitiendo una leve variación (p. ej., 1 o 2 %). Así, por ejemplo, un contenido de GC porcentual del “40 %” pretende hacer referencia a “aproximadamente el 40 %”, de tal manera que, por ejemplo, también podrían estar comprendidos los loci con contenidos de GC en el rango del 39 % al 41 % si se considera pertinente.
Así, cuando se hace referencia a un contenido de GC particular, se entiende que la referencia y los subgrupos de loci de prueba pueden comprender cualquier cantidad de loci relacionados con un contenido de GC porcentual y/o rango particulares.
Posteriormente, por cada subgrupo de contenido de GC, se calcula una profundidad de lecturas representativa. Para ello, se pueden usar distintos métodos, incluidos, sin carácter taxativo, la media, la mediana o la moda de caja conjunto. Así, se crean dos vectores de profundidades de lecturas representativas, donde uno corresponde a los loci de referencia y el otro a los loci de prueba (p. ej., Xm e Ym). En una realización, ambos vectores pueden contrastarse entre sí para identificar diferencias significativas en la profundidad de lecturas. En otra realización, la diferencia entre ambos vectores puede usarse para evaluar si hay discrepancias considerables entre los loci de referencia y los loci de prueba. Se le atribuye a la muestra la puntuación que arroja la prueba.
En el caso de los análisis estadísticos con un enfoque de remuestreo, el conjunto de datos se divide primero en dos grupos: los loci de prueba y los loci de referencia. Entonces, se calcula el contenido de GC de cada locus. Luego, se realiza el siguiente procedimiento: se selecciona un locus al azar de entre los loci de referencia y se registran su profundidad de lecturas y su contenido de GC. Posteriormente, se selecciona un locus al azar de entre los loci de prueba, con la única condición de que su contenido de GC sea similar al del locus de referencia. Se registra su profundidad de lecturas. La persona razonablemente versada en la técnica apreciará que la similitud entre los contenidos de GC puede abarcar un rango de contenidos de GC adecuados. Así, la referencia a un contenido de GC porcentual específico puede considerarse “aproximada”, “próxima” o “dentro de un rango adecuado” (p. ej., 1 a 2 %) que incluya el contenido de GC porcentual específico investigado. De este modo, se crea un par de loci de referencia y de prueba con contenidos de Gc similares. Se registra la diferencia del par de loci de referencia y de prueba, notada E1. Luego, los loci se regresan a sus grupos respectivos. Este proceso se repite hasta crear una muestra de remuestreo del mismo tamaño que la cantidad de t Ac S de prueba presentes. Entonces, se estima y se registra una profundidad de lecturas representativa de la muestra de remuestreo, notada E_mu. Para ello, se pueden usar distintos métodos, incluidos, sin carácter taxativo, la media, la moda o la mediana del vector, y/o múltiplos de dichos valores. El proceso descrito anteriormente se repite tantas veces como sea necesario y se crea una distribución de E_mu. Luego, se atribuye a la muestra una puntuación que corresponde a un percentil de esta distribución.
En el caso de los análisis estadísticos con una prueba de permutación, el conjunto de datos se ordena primero en dos grupos: los loci de prueba y los loci de referencia. Por cada grupo, se crean subconjuntos de grupos en los que los loci se categorizan de acuerdo con la similitud en sus contenidos de GC (véanse las columnas 2 y 3 del ejemplo no taxativo de la Tabla 2, a continuación). También se registra la cantidad de loci presentes en cada subgrupo de prueba. Los loci del grupo de prueba se usan para estimar la profundidad de lecturas del grupo de prueba, notada Yobs. Para hacerlo, puede seleccionarse un número representativo de cada subgrupo de contenido de GC. Para obtener una estimación de la profundidad de lecturas se pueden usar distintos métodos, incluidos, sin carácter taxativo, la media, la mediana o la moda de los loci seleccionados.
Tabla 2
Figure imgf000014_0001
Luego, se crea una distribución de los valores Yobs de prueba usando indistintamente loci que provengan del grupo de prueba o del grupo de referencia, tal como se explica a continuación. Los loci de prueba y de referencia de cada subgrupo de contenido de GC (véase la última columna del ejemplo de la Tabla 2) se combinan para permitir calcular una nueva estimación de la profundidad de lecturas. De cada subgrupo combinado se escoge una cantidad de loci al azar, cantidad acotada superiormente por la cantidad de loci de prueba usados en el cálculo original de Yobs (p. ej., en el caso de un contenido de GC del 40 % y en el contexto del ejemplo no taxativo de la Tabla 2, esta cantidad de loci puede estar en el rango [1,ny40]). La nueva estimación de la profundidad de lecturas se calcula a partir de todos los loci seleccionados. El procedimiento se repite tantas veces como sea necesario para construir una distribución de las medias observadas. Luego, se le atribuye a una muestra una puntuación que corresponde a la posición de Yobs en esta distribución, usando una transformación adecuada que tiene en cuenta los momentos de la distribución construida. Al igual que con los métodos descritos anteriormente, se apreciará que se admite una ligera variación en el contenido de GC porcentual (p. ej., 1 a 2 %) si se considera adecuado. Así, la referencia a un contenido de GC específico puede interpretarse como “aproximada”, de manera que, por ejemplo, al hacer referencia a un contenido de GC del 40 %, el método puede utilizar los loci que tengan un contenido de GC de “aproximadamente” 40 % (p. ej., entre el 39 y el 41 %).
En el caso del análisis estadístico con una prueba binomial de proporciones, se emplean los tamaños de fragmentos alineados a coordenadas genómicas específicas de los TACS. Se ha demostrado que los fragmentos de material genético acelular provenientes de la placenta tienden a ser de menor tamaño que los de otros tipos de material genético acelular (Chan, K.C. (2004) Clin. Chem. 50:88-92). Así, el estadístico de interés es si la proporción de fragmentos pequeños alineados a una región de prueba específica de una TACS se aparta significativamente de lo que se espera en comparación con la proporción respectiva de otras regiones de referencia específicas de TACS, lo que indicaría una anomalía genética fetal.
De este modo, los tamaños de fragmentos se dividen en dos grupos. Los tamaños relacionados con los loci de prueba se asignan a un grupo y los tamaños de fragmentos relacionados con los loci de referencia se asignan al otro grupo. Posteriormente, en cada grupo, los tamaños de fragmentos se distribuyen en dos subgrupos, donde los fragmentos pequeños se asignan a un subgrupo y todos los fragmentos restantes se asignan al otro subgrupo. El último paso es calcular la proporción de fragmentos pequeños en cada grupo y usar estas cantidades en una prueba binomial de proporciones. La puntuación de la prueba se atribuye a la muestra investigada.
El resultado final de una muestra puede asignarse combinado una o más puntuaciones derivadas de los diferentes métodos estadísticos, ejemplos no taxativos de lo cual se muestran en el Ejemplo 4.
En el caso de los análisis estadísticos basados en métodos de segmentación, se obtiene la profundidad de lecturas y la composición de la secuencia de regiones genómicas de tamaño fijo que no se solapan entre sí. En el conjunto de datos que se obtiene, el sesgo en la profundidad de lecturas inducido por el contenido de GC se puede mitigar, sin carácter taxativo, usando un método de ajuste polinómico para estimar la profundidad de lecturas estimada de las regiones en función de su contenido de GC. Luego, se usa el valor esperado, que depende del contenido de GC, para normalizar las regiones mediante métodos adecuados conocidos para la persona versada en la técnica. Posteriormente, el conjunto de datos normalizado se procesa mediante una o más rutinas de clasificación basadas en la segmentación. Para ello, los algoritmos procesan puntos de datos consecutivos para detectar la presencia de variaciones en la profundidad de lecturas, que se manifiestan como “saltos” o “caídas” respecto de los puntos de datos circundantes. En función de la rutina de segmentación empleada, se les asigna a los puntos de datos una puntuación que se usa para asignar la pertenencia a segmentos con profundidades de lecturas de desempeño similar. Por ejemplo, los puntos de datos consecutivos con valores de puntuación dentro de un rango adecuado podrían clasificarse como un segmento, mientras que los puntos de datos consecutivos con valores de puntuación que superaran umbrales definidos podrían asignarse a otro segmento. En el Ejemplo 11, se dan detalles de rutinas basadas en la segmentación.
Los siguientes aspectos y realizaciones que hacen referencia a kits no están de acuerdo con la invención y se incluyen solo para fines ilustrativos.
En otro aspecto, la invención provee kits para aplicar los métodos de la divulgación. En una realización, el kit comprende un contenedor que consiste de la mezcla de TACS e instrucciones para aplicar el método. En una realización, las TACS se proveen en un formato que permite unirlas a un sustrato sólido, por ejemplo, pueden ser TACS biotiniladas. En otra realización, las TACS se proveen junto con un sustrato sólido, por ejemplo, TACS biotiniladas provistas junto con microesferas magnéticas recubiertas con estreptavidina.
En una realización, el kit comprende un contenedor que comprende la mezcla TACS e instrucciones para aplicar el método, donde la mezcla de TACS comprende múltiples familias de TACS de interés, donde cada familia de TACS comprende múltiples secuencias miembro, donde cada secuencia miembro se une a la misma secuencia genómica de interés, pero tiene diferentes posiciones de inicio y/o fin con respecto a un sistema de coordenadas de referencia de la secuencia genómica de interés y donde, además:
(i) cada secuencia miembro de cada familia de TACS tiene entre 100 y 500 pares de bases (bp) de longitud, y cada secuencia miembro tiene un extremo 5' y un extremo 3';
(ii) cada secuencia miembro se une a la misma secuencia genómica de interés a una distancia de al menos 50 pares de bases, tanto en el extremo 5' como en el extremo 3', de regiones que presentan variaciones en el número de copias (CNV), duplicaciones segmentales o elementos de ADN repetitivo; y
(iii) el contenido de GC de la mezcla de TACS, que se determina calculando el contenido de GC de cada secuencia miembro de cada familia de TACS, se encuentra entre el 19 % y el 80 %.
Además, cualquiera de las diversas características descritas en la presente en cuanto al diseño y la estructura de las TACS puede incorporarse a las TACS incluidas en el kit.
En varias otras realizaciones, el kit puede comprender otros componentes para realizar otros aspectos del método. Por ejemplo, además de la mezcla de TACS, el kit puede comprender uno o más de los siguientes: (i) uno o más componentes para aislar ADN acelular de una muestra biológica (p. ej., los que se describen en el Ejemplo 1); (ii) uno o más componentes para preparar la biblioteca de secuenciación (p. ej., cebadores, adaptadores, soluciones amortiguadoras, ligadores, enzimas de restricción, enzimas de ligación, polimerasas y similares, como los que se describen en el Ejemplo 1); (iii) uno o más componentes para amplificar y/o secuenciar la biblioteca enriquecida (p. ej., los que se describen en el Ejemplo 3); y/o (iv) software para realizar análisis estadístico (p. ej., el que se describe en los Ejemplos 4 y 6-11).
Usos oncológicos
En varias realizaciones, el método de enriquecimiento basado en TACS de la divulgación puede usarse para diversos fines en el campo de la oncología. Como se describe en detalle en los Ejemplos 6-8, el método permite la detección de biomarcadores tumorales en muestras biológicas. En otro aspecto, la invención refiere a un método para detectar un biomarcador tumoral en una muestra de ADN de un sujeto que tiene o que presuntamente tiene un tumor, donde el método comprende:
(a) preparar la biblioteca de secuenciación a partir de la muestra de ADN;
(b) hibridar la biblioteca de secuenciación a una mezcla de secuencias de captura de blancos (TACS) de doble hebra, donde la mezcla de TACS comprende múltiples familias de TACS, cada una dirigida a una secuencia de interés biomarcadora tumoral diferente, donde cada familia de TACS comprende múltiples secuencias miembro, donde cada secuencia miembro se une a la misma secuencia de interés biomarcadora tumoral pero tiene diferentes posiciones de inicio y/o fin con respecto a un sistema de coordenadas de referencia de la secuencia biomarcadora tumoral y donde, además:
(i) cada secuencia miembro de cada familia de TACS tiene entre 150 y 260 pares de bases (bp) de longitud, y cada secuencia miembro tiene un extremo 5' y un extremo 3';
(ii) cada secuencia miembro se une a la misma secuencia biomarcadora tumoral de interés a una distancia de al menos 50 pares de bases, tanto en el extremo 5' como en el extremo 3', de regiones que presentan variaciones en el número de copias (CNV), duplicaciones segmentales o elementos de ADN repetitivo; y
(iii) el contenido de GC de la mezcla de TACS, que se determina calculando el contenido de GC de cada secuencia miembro de cada familia de TACs , se encuentra entre el 19 % y el 80 %;
(c) aislar aquellos miembros de la biblioteca de secuenciación que se unen a la mezcla de TACS para obtener una biblioteca enriquecida;
(d) amplificar y secuenciar la biblioteca enriquecida; y
(e) realizar análisis estadísticos de las secuencias de la biblioteca enriquecida para detectar un biomarcador tumoral en la muestra de ADN, donde las posiciones de inicio y/o fin de las secuencias miembro dentro de una familia de TACS con respecto a un sistema de coordenadas de referencia de la secuencia genómica de interés están escalonadas por entre 5 y 10 pares de bases.
En una realización, la muestra de ADN comprende ADN libre tumoral (ADNlt). En una realización, la muestra de ADN es una muestra de plasma, orina, líquido cefalorraquídeo, esputo, líquido peritoneal o líquido de un derrame pleural de un sujeto que tiene o presuntamente tiene un tumor (p. ej., una biopsia líquida). En otra realización, la muestra de ADN proviene de una muestra de tejido de un sujeto que tiene o presuntamente tiene un tumor.
El método puede aplicarse al análisis de esencialmente cualquier biomarcador tumoral conocido. Hay un extenso catálogo de mutaciones asociadas con el cáncer conocidas en la técnica llamado COSMIC (sigla en inglés de Catálogo de mutaciones somáticas en cáncer). Este se describe, por ejemplo, en Forbes, S.A. et al. (2016) Curr. Protocol Hum. Genetic 91:10.11.1-10.11.37; Forbes, S.A. et al. (2017) Nucl. Acids Res. 45:D777-D783; y Prior et al. (2012) Cancer Res. 72:2457-2467. La base de datos COSMIC está disponible públicamente en www.cancer.sanger.ac.uk. La base de datos incluye oncogenes que se han asociado con distintos tipos de cáncer, cualquiera de los cuales puede analizarse mediante el método de la divulgación. Además del catálogo COSMIC, se han descrito en la técnica otras compilaciones de biomarcadores tumorales, como el Proyecto ENCODE, que describe las mutaciones en los sitios de regulación de los oncogenes (véase, p. ej., Shar, N.A. et al. (2016) Mol. Canc. 15:76).
Para la detección de biomarcadores tumorales, se diseñan TACS sobre la base de los criterios de diseño que se describen en la presente, de las secuencias conocidas de los genes biomarcadores tumorales y de las mutaciones genéticas en ellos asociadas con el cáncer. En una realización, múltiples familias de TACS usadas en el método se unen a múltiples secuencias de interés biomarcadoras tumorales seleccionadas de entre el grupo que comprende ABL, AKT, AKT1, ALK, APC, AR, ARAF, ATM, BAP1, BARD1, BCL, BMPR1A, BRAF, BRCA, BRCA1, BRCA2, BRIP1, CDH1, CDKN, CHEK2, CTNNB1, DDB2, DDR2, DICER1, EGFR, EPCAM, ErbB, ErcC, ESR1, FANCA, FANCB, FANCC, FANCD2, FANCE, FANCF, FANCG, FANCI, FANCL, FANCM, FBXW7, FGFR, FLT, FLT3, FOXA1, FOXL2, GATA3, GNA11, GNAQ, GNAS, GREM1, HOX, HOXB13, HRAS, IDH1, JAK, JAK2, KEAP1, KIT, KRAS, MAP2Ks, MAP3Ks, MET, MLH1, MPL, MRE11A, MSH2, MSH6, MTOR, MUTYH, NBN, NPM1, NRAS, NTRK1, PALB2, PDGFRs, PI3KCs, PMS2, POLD1, POLE, POLH, PTEN, RAD50, RAD51C, RAD51D, RAF1, RB1, RET, RUNX1, SLX4, SMAD, SMAD4, SMARCA4, SPOP, STAT, STK11, TP53, VHL, XPA, XPC y combinaciones de las anteriores.
En una realización, las múltiples familias de TACS empleadas en el método se unen a múltiples secuencias de interés biomarcadoras tumorales seleccionadas de entre el grupo que —sin carácter taxativo— consiste de EGFR_6240, KRAS_521, EGFR_6225, NRAS_578, NRAS_580, PIK3CA_763, EGFR_13553, EGFR_18430, BRAF_476, KIT_1314, NRAS_584, EGFR_12378 y combinaciones de las anteriores.
En la Figura 17, se muestran ejemplos representativos sin carácter taxativo de posiciones cromosómicas de inicio y fin de TACS de amplificación que se unen a genes biomarcadores tumorales representativos, pero sin carácter taxativo: NRAS en el cromosoma 1, PI3KCA en el cromosoma 3, EGFR en el cromosoma 7 y KRAS en el cromosoma 12. Otras posiciones cromosómicas de inicio y fin para las TACS de amplificación, tanto para estos oncogenes como para otros, pueden ser fácilmente identificadas por una persona razonablemente versada en la técnica sobre la base de las enseñanzas de la presente.
En una realización del método, luego de la secuenciación de la biblioteca, la preparación y el enriquecimiento de las secuencias de interés mediante la hibridación de las TACS, el paso posterior de amplificar la biblioteca enriquecida se realiza en presencia de secuencias de bloqueo que inhiben la amplificación de secuencias no mutantes. Así, se sesga la amplificación hacia las secuencias biomarcadoras tumorales mutantes.
La mezcla de TACS y las familias de TACS usadas en el método para detectar biomarcadores tumorales pueden incluir cualquiera de las características de diseño que se describen en la presente en relación con el diseño de las TACS. Por ejemplo, en varias realizaciones, cada familia de TACS comprende al menos 2, al menos 3, al menos 4 o al menos 5 secuencias miembro diferentes. En una realización, cada familia de TACS comprende entre 4 secuencias miembro diferentes. En varias realizaciones, las posiciones de inicio y/o fin de las secuencias miembro dentro de una familia de TACS con respecto a un sistema de coordenadas de referencia están escalonadas por al menos 5 pares de bases, o por al menos 10 pares de bases, o por entre 5 y 10 pares de bases. En varias realizaciones, la mezcla de TACS comprende al menos 5, o al menos 10 o al menos 50 o al menos 100 familias de TACS diferentes, o más.
En los Ejemplos 6 a 8, se describen en más detalle análisis estadísticos adecuados para usar con muestras oncológicas y para la detección de biomarcadores tumorales.
El método para la detección de biomarcadores tumorales puede usarse en diversas situaciones clínicas en el campo de la oncología. Por ejemplo, el método puede usarse para realizar un diagnóstico inicial de cáncer en un sujeto que presuntamente padece la enfermedad. Así, en una realización, el método comprende, además, hacer un diagnóstico del sujeto sobre la base de la detección de al menos una secuencia biomarcadora tumoral.
Además, el método puede usarse para seleccionar un régimen de tratamiento adecuado para un paciente a quien se le ha diagnosticado cáncer, donde el régimen de tratamiento está diseñado para ser efectivo contra un tumor que tiene los biomarcadores tumorales detectados en el tumor del paciente (lo que se conoce en la técnica como medicina personalizada). Así, en otra realización, el método comprende, además, seleccionar un régimen de tratamiento para el sujeto sobre la base de la detección de al menos una secuencia biomarcadora tumoral.
Más aún, el método puede usarse para vigilar la eficacia de un régimen de tratamiento, donde los cambios en la detección de biomarcadores tumorales se usan como un indicador de la eficacia del tratamiento. Así, en otra realización, el método comprende, además, vigilar la eficacia de un régimen de tratamiento brindado al sujeto sobre la base de la detección de al menos una secuencia biomarcadora tumoral.
Condición de portadores de los padres y riesgo fetal de heredar alteraciones genéticas
En otro aspecto, los métodos de la divulgación pueden usarse para determinar la condición de los padres de ser portadores de anomalías genéticas hereditarias asociadas con alteraciones genéticas (p. ej., la condición de portadora de la madre y, si es necesario —en función de la condición de portadora de la madre— , también la condición de portador del padre); y, a partir de esta información, se puede determinar el riesgo fetal de heredar la alteración genética. Un ejemplo de este método se describe en el Ejemplo 10. Así, en otro aspecto, la invención refiere a un método para determinar el riesgo fetal de heredar una alteración genética, donde el método comprende:
(a) preparar una biblioteca de secuenciación a partir de una muestra que comprende ADN materno y fetal; (b) hibridar la biblioteca de secuenciación a una mezcla de secuencias de captura de blancos (TACS) de doble hebra, donde la mezcla de TACS comprende múltiples familias de TACS dirigidas a loci de alelos variantes asociados con diferentes alteraciones genéticas, donde cada familia de TACS comprende múltiples secuencias miembro, donde cada secuencia miembro se une al mismo locus de interés, pero tiene diferentes posiciones de inicio y/o fin con respecto a un sistema de coordenadas de referencia del locus de interés y donde, además:
(i) cada secuencia miembro de cada familia de TACS tiene entre 150 y 260 pares de bases (bp) de longitud, y cada secuencia miembro tiene un extremo 5' y un extremo 3';
(ii) cada secuencia miembro se une al mismo locus de interés a una distancia de al menos 50 pares de bases, tanto en el extremo 5' como en el extremo 3', de regiones que presentan variaciones en el número de copias (CNV), duplicaciones segmentales o elementos de a Dn repetitivo; y
(iii) el contenido de GC de la mezcla de TACS, que se determina calculando el contenido de GC de cada secuencia miembro de cada familia de TACS, se encuentra entre el 19 % y el 80 %;
(c) aislar aquellos miembros de la biblioteca de secuenciación que se unen a la mezcla de TACS para obtener una biblioteca enriquecida;
(d) amplificar y secuenciar la biblioteca enriquecida;
(e) realizar análisis estadísticos sobre las secuencias de la biblioteca enriquecida para determinar la condición de portadora de la madre en los loci de interés asociados con diferentes alteraciones genéticas donde, si la muestra arroja un resultado positivo en cuanto a la condición de portadora de la madre, el método comprende, además:
(f) obtener una muestra de ADN paterno y aplicar los pasos (a) al (e) a la muestra de ADN paterno para determinar la condición de portador del padre en aquellos loci en los que el resultado haya sido positivo en cuanto a la condición de portadora de la madre; y
(g) determinar el riesgo fetal de heredar una alteración genética sobre la base de la condición de portadora de la madre y, si se realiza el paso (f), la condición de portador del padre, donde las posiciones de inicio y/o fin de las secuencias miembro dentro de una familia de TACS con respecto a un sistema de coordenadas de referencia de la secuencia genómica de interés están escalonadas por entre 5 y 10 pares de bases.
En una realización, la muestra es una muestra de plasma materno.
En una realización, cada secuencia miembro de cada familia de TACS tiene al menos 160 pares de bases de longitud. La mezcla de TACS y las familias de TACS usadas en el método de determinación de la condición de portador y del riesgo de herencia fetal puede incluir cualquiera de las características de diseño que se describen en la presente en relación con el diseño de las TACS. Por ejemplo, en varias realizaciones, cada familia de TACS comprende al menos 2, al menos 3, al menos 4 o al menos 5 secuencias miembro diferentes. En una realización, cada familia de TACS comprende entre 4 secuencias miembro diferentes. En varias realizaciones, las posiciones de inicio y/o fin de las secuencias miembro dentro de una familia de TACS con respecto a un sistema de coordenadas de referencia están escalonadas por entre 5 y 10 pares de bases. En varias realizaciones, la mezcla de TACS comprende al menos 5, o al menos 10 o al menos 50 o al menos 100 familias de TACS diferentes o más.
El método de determinación de la condición de portador y del riesgo de herencia fetal puede combinarse con la detección de anomalías cromosómicas y estructurales en el ADN fetal, como se describe en los Ejemplos 1 al 4, en la misma muestra que contiene ADN materno y fetal (p. ej., la muestra de plasma materno). Esto significa que la determinación de la condición de portadora de la madre y la detección de anomalías cromosómicas fetales pueden evaluarse simultáneamente usando la misma muestra (p. ej., una muestra de plasma materno) mediante la inclusión de TACS adecuadas en la mezcla de TACS usadas en el método. Así, en una realización del método, la mezcla de TACS comprende, además, secuencias que se unen a los cromosomas de interés para detectar anomalías cromosómicas fetales y el paso (e) comprende, además, realizar análisis estadísticos de las secuencias de la biblioteca enriquecida para determinar el riesgo fetal de una anomalía cromosómica en el cromosoma de interés. En una realización, la anomalía cromosómica es una aneuploidía, como una trisomía o una monosomía. En la presente, se describen otros tipos de anomalías cromosómicas que pueden detectarse. En una realización, los cromosomas de interés incluyen los cromosomas 13, 18, 21, X e Y.
Para determinar la condición de portadores de los padres, las TACS están diseñadas para unirse a loci de alelos mutantes de interés asociados con alteraciones genéticas hereditarias. En una realización, la muestra (p. ej., una muestra de plasma materno) se analiza para determinar la condición de la madre de ser portadora de múltiples alelos mutantes, donde cada familia de TACS se une a un locus de alelo mutante asociado con una alteración genética. En una realización, los loci de alelos mutantes de interés están asociados con alteraciones genéticas seleccionadas de entre el grupo que consiste, sin carácter taxativo, de la acondroplasia, la deficiencia de alfa-1 antitripsina, el síndrome antifosfolipídico, el autismo, la enfermedad poliquística renal autosómica dominante, la enfermedad poliquística renal autosómica recesiva, el gen del cáncer de mama hereditario, la enfermedad de Charcot-Marie-Tooth, el gen del cáncer de colon hereditario, la enfermedad de Crohn, la fibrosis quística, la enfermedad de Dercum, el síndrome de Duane, la distrofia muscular de Duchenne, la trombofilia por factor V de Leiden, la hipercolesterolemia familiar, la fiebre mediterránea familiar, el síndrome del cromosoma X frágil, la enfermedad de Gaucher, la hemocromatosis, la hemofilia, la holoprosencefalia, la enfermedad de Hungtington, el síndrome de Marfan, la distrofia miotónica, la neurofibromatosis, el síndrome de Noonan, la osteogénesis imperfecta, la fenilcetonuria, el síndrome de Poland, la porfiria, el cáncer de próstata, la retinitis pigmentosa, la combinada inmunodeficiencia grave (IDCG), la anemia de células falciformes, la atrofia muscular espinal, la enfermedad de Tay-Sachs, la talasemia, el síndrome de WAGR, la enfermedad de Wilson y combinaciones de las anteriores.
En el caso de las muestras en las que se ha determinado que la madre es portadora de un alelo mutante asociado con una alteración genética hereditaria (condición de portadora positiva de la madre), puede evaluarse también una muestra de ADN paterno mediante el método para determinar la condición de portador del padre, lo que permite calcular el riesgo fetal de heredar una alteración genética. Así, en una realización, el método también comprende, si la muestra tiene un resultado positivo en cuanto a la condición de ser portadora de la madre, obtener una muestra de ADN paterna y aplicar los pasos (a) al (e) del método descrito anteriormente a la muestra de ADN paterna para determinar la condición de ser portador del padre, a fin de calcular una puntuación de riesgo de que el feto herede la alteración genética.
En el Ejemplo 10, se describe un ejemplo sin carácter taxativo del cálculo de una puntuación de riesgo fetal, en la que tanto la muestra materna como la paterna son portadoras de un alelo recesivo asociado con una enfermedad (heterocigotas en relación con el alelo recesivo asociado con la enfermedad), de manera que se calcula que el feto tiene una probabilidad del 25 % de heredar un genotipo homocigota asociado con la enfermedad recesiva. Otras puntuaciones de riesgo fetal en función de la condición de portadores de la madre y/o el padre y la recesividad o dominancia del alelo asociado con la enfermedad pueden ser fácilmente calculadas por una persona razonablemente versada en la técnica empleando el razonamiento de la genética mendeliana, bien establecido en la técnica.
Análisis de muestra de ADN fetal o embrionario
En otro aspecto, los métodos de la divulgación pueden usarse en el análisis de muestras de ADN fetales o embrionarias, por ejemplo, para detectar la presencia de anomalías genéticas, por ejemplo, para fines de detección genética previa a la implantación (PGS) y diagnóstico genético previo a la implantación (PGD) en tratamientos de fertilización in vitro (FIV). Los métodos pueden usarse con muestras de una o solo unas pocas células fetales o embrionarias. En el contexto de la presente, “unas pocas” células fetales o embrionarias hace referencia a 10 o menos células fetales o embrionarias. Así, los métodos permiten el análisis de cantidades muy pequeñas de ADN fetal o embrionario. La muestra de ADN fetal o embrionario contiene predominantemente o únicamente ADN fetal o embrionario, como se describió anteriormente en la subsección sobre la preparación de la muestra. En el Ejemplo 11, se describe un ejemplo del uso del método con muestras obtenidas de biopsias de 3 días o de 5 días. Así, en otro aspecto, la invención refiere a un método para evaluar el riesgo de una anomalía genética en una muestra de ADN que comprende predominantemente ADN fetal o embrionario y que comprende secuencias genómicas de interés, donde el método comprende:
(a) preparar la biblioteca de secuenciación a partir de la muestra de ADN que comprende predominantemente ADN fetal o embrionario;
(b) hibridar la biblioteca de secuenciación a una mezcla de secuencias de captura de blancos (TACS) de doble hebra, donde la mezcla de TACS comprende múltiples familias de TACS dirigidas a diferentes secuencias genómicas de interés, donde cada familia de TACS comprende múltiples secuencias miembro, donde cada secuencia miembro se une a la misma secuencia genómica de interés, pero tiene diferentes posiciones de inicio y/o fin con respecto a un sistema de coordenadas de referencia de la secuencia genómica de interés y donde, además:
(i) cada secuencia miembro de cada familia de TACS tiene entre 150 y 260 pares de bases (bp) de longitud, y cada secuencia miembro tiene un extremo 5' y un extremo 3';
(ii) cada secuencia miembro se une a la misma secuencia genómica de interés a una distancia de al menos 50 pares de bases, tanto en el extremo 5' como en el extremo 3', de regiones que presentan variaciones en el número de copias (CNV), duplicaciones segmentales o elementos de ADN repetitivo; y
(iii) el contenido de GC de la mezcla de TACS, que se determina calculando el contenido de GC de cada secuencia miembro de cada familia de TACS, se encuentra entre el 19 % y el 80 %;
(c) aislar aquellos miembros de la biblioteca de secuenciación que se unen a la mezcla de TACS para obtener una biblioteca enriquecida;
(d) amplificar y secuenciar la biblioteca enriquecida; y
(e) realizar análisis estadísticos de las secuencias de la biblioteca enriquecida para determinar el riesgo de una anomalía genética en la muestra de ADN, donde las posiciones de inicio y/o fin de las secuencias miembro dentro de una familia de TACS con respecto a un sistema de coordenadas de referencia de la secuencia genómica de interés están escalonadas por entre 5 y 10 pares de bases.
En una realización, la muestra de ADN es de un embrión antes de su implantación (p. ej., un embrión de 3 días o de 5 días derivado de FIV antes de su implantación). En otra realización, la muestra de ADN es de trofoblastos intactos recolectados de una prueba de Papanicolaou materna (Jain, C.V. et al (2016) Science Translational Medicine 8(363):363re4-363re4).
Este método puede usarse para evaluar si existen en el ADN fetal anomalías cromosómicas o estructurales o mutaciones puntuales, lo cual puede hacerse a lo largo de todo el genoma humano con una sola muestra gracias al uso de familias de TACS que abarquen todo el genoma humano. Así, en una realización, las múltiples familias de TACS comprenden miembros que se unen a los cromosomas 1-22, X e Y del genoma humano.
En una realización, cada secuencia miembro de cada familia de TACS tiene al menos 160 pares de bases de longitud.
La mezcla de TACS y las familias de TACS usadas en el método para analizar ADN fetal puede incluir cualquiera de las características de diseño que se describen en la presente en relación con el diseño de las TACS. Por ejemplo, en varias realizaciones, cada familia de TACS comprende al menos 2, al menos 3, al menos 4 o al menos 5 secuencias miembro diferentes. En una realización, cada familia de TACS comprende entre 4 secuencias miembro diferentes. En varias realizaciones, las posiciones de inicio y/o fin de las secuencias miembro dentro de una familia de TACS con respecto a un sistema de coordenadas de referencia están escalonadas por entre 5 y 10 pares de bases. En varias realizaciones, la mezcla de TACS comprende al menos 5, o al menos 10 o al menos 50 o al menos 100 familias de TACS diferentes o más.
En el Ejemplo 11, se describen en detalle enfoques de análisis estadístico adecuados para el análisis de muestras de ADN fetal. En una realización, el análisis estadístico comprende un algoritmo de segmentación. En una realización, el algoritmo de segmentación se selecciona de entre el grupo que consiste de la segmentación basada en la verosimilitud, la segmentación con ventanas pequeñas solapadas, la segmentación mediante pruebas paralelas de a pares y combinaciones de los anteriores. En una realización, el análisis estadístico comprende un algoritmo de clasificación basado en puntuaciones.
Análisis basado en fragmentos
En otro aspecto, la invención refiere al análisis basado en fragmentos de muestras, que se describe en mayor detalle en el Ejemplo 9. Hay evidencia en la literatura de que ciertos tipos específicos de cáncer pueden estar caracterizados por y/o asociados con fragmentos en el plasma que tienen un tamaño menor al tamaño esperado de los fragmentos provenientes de tejidos sanos (Jiang et al, (2015), Proceedings of the National Academy of Sciences, 112(11), pp. E1317-E1325). La misma hipótesis vale en el caso de los fragmentos que se originan en la placenta o el feto. Específicamente, los fragmentos derivados de la placenta suelen ser de menor tamaño que los que se originan de tejidos/células maternos. Con base en ello, se desarrolló y evaluó una prueba basada en los tamaños de los fragmentos, demostrándose su capacidad de identificar muestras que tienen anomalías cromosómicas.
La detección basada en fragmentos puede usarse para detectar anomalías en muestras combinadas con baja relación señal-ruido (como en el caso de la detección del cáncer).
Así, en una realización, se utiliza una prueba basada en fragmentos para detectar la presencia de aberraciones en el número de copias somáticas en una muestra de un paciente que presuntamente tiene cáncer. Por ejemplo, puede usarse una prueba binomial de proporciones, como se describe en el Ejemplo 4, para la detección de un aumento en la presencia de material de ácidos nucleicos proveniente de tejido no sano (p. ej., tejido tumoral) sobre la base del tamaño de los fragmentos. En particular, bajo la hipótesis nula de que la distribución de tamaños de fragmentos provenientes de células saludables y cancerosas es la misma, se puede usar una prueba binomial de proporciones (como se describe en el Ejemplo 4) con corrección de continuidad para cuantificar cualquier evidencia en contrario.
EJEMPLOS
Ejemplo 1: Obtención de las muestras maternas y preparación de las bibliotecas
En la Figura 1, se muestra de forma esquemática la metodología general para el enfoque de análisis paralelo multiplexado basado en TACS para la evaluación genética. En este ejemplo, se describen métodos para recolectar y procesar una muestra de plasma materno (que contiene ADN materno y fetal), seguido de la preparación de la biblioteca de secuenciación para su uso en la metodología de la Figura 1.
Obtención de las muestras
Se obtuvieron muestras de plasma anónimas de mujeres embarazadas luego de la 10.a semana de gestación. Los protocolos empleados para la obtención de muestras para nuestro estudio fueron aprobados por el Comité de Bioética Nacional de Chipre y se obtuvo el consentimiento informado de todas las participantes.
Extracción de las muestras
Se extrajo ADN acelular de 2 a 4 ml de plasma de cada individuo mediante un método de extracción manual o automático adecuado para aislar ADN acelular, como, por ejemplo —sin carácter taxativo— , el protocolo Qiasymphony adecuado para asilar Ad N fetal libre (Qiagen) (Koumbaris, G. et al. (2015) Clinical Chemistry, 62(6), pp. 848-855).
Preparación de las bibliotecas de secuenciación
El ADN extraído de las muestras de plasma materno se usó para la construcción de bibliotecas de secuenciación. Se usaron métodos estándar de preparación de las bibliotecas, con las siguientes modificaciones. Se preparó una biblioteca de extracción independiente como control negativo para evaluar toda contaminación introducida durante el experimento. Durante este paso, las salientes 5' y 3' se completaron agregando 12 unidades de polimerasa T4 (NEB) y se incorporaron fosfatos 5' usando 40 unidades de polinucleótido quinasa T4 (NEB) en una reacción de 100 pl con posterior incubación a 25 °C durante 15 minutos y, luego, 12 °C durante 15 minutos. Los productos de reacción se purificaron con el kit MinElute (Qiagen). Posteriormente, se ligaron los adaptadores P5 y P7 (ver la sección sobre la preparación de los adaptadores) diluidos 1:10 a ambos extremos del ADN con 5 unidades de ligasa de ADN T4 (T4 DNA ligase, NEB) en una reacción de 40 pl durante 20 minutos a temperatura ambiente, seguido por una purificación con el kit MinElute (Qiagen). Se eliminaron las hendiduras de hebra simple (nicks) en una reacción de relleno con 16 unidades de polimerasa Bst (NEB) en una reacción de 40 pl con posterior incubación a 65 °C durante 25 minutos y, luego, 12 °C durante 20 minutos. Los productos se purificaron con el kit MinElute (Qiagen). La amplificación de las bibliotecas se realizó con una polimerasa Fusion (Herculase II Fusion DNA polymerase de Agilent Technologies o Pfusion High Fidelity Polymerase de NEB) en reacciones de 50 pl con las siguientes condiciones de termociclado: 95 °C durante 3 min; seguido por 10 ciclos de 95 °C durante 30 s, 60 °C durante 30 s y 72 °C durante 30 s; y, por último, 72 °C durante 3 min (Koumbaris, G. et al. (2015) Clinical Chemistry, 62(6), pp. 848-855). Los productos finales de las bibliotecas se purificaron con el kit de purificación MinElute (Qiagen) y se midieron por espectrofotometría.
Preparación de los adaptadores
Se prepararon mezclas de hibridación de los adaptadores P5 y P7 por separado y se las incubó durante 10 s a 95 °C, seguido por una rampa de 95 °C a 12 °C a razón de 0,1° C/s. Las reacciones de P5 y P7 se combinaron para obtener una mezcla de adaptadores lista para usar (100 pM de cada adaptador). Las mezclas de hibridación se prepararon de la siguiente manera. La mezcla de reacción P5 contenía el adaptador P5_F (500 pM) a una concentración final de 200 pM y el adaptador P5+P7_R (500 pM) a una concentración final de 200 pM, con una solución amortiguadora de hibridación de oligonucleótidos en concentración 1 X. Por su parte, la mezcla de reacción P7 contenía el adaptador P7_F (500 pM) a una concentración final de 200 pM y el adaptador P5+P7_R (500 pM) a una concentración final de 200 pM, con una solución amortiguadora de hibridación de oligonucleótidos en concentración 1 X (Koumbaris, G. et al. (2015) Clinical Chemistry, 62(6), pp. 848-855). Las secuencias fueron las siguientes, donde * representa un enlace fosforotioato (PTO) (Integrated DNA Technologies):
adaptador P5_F:
A*C*A*C*TCTTTCCCTACACGACGCTCTTCCG*A*T*C*T (ID. DE SEC. N.° XX)
adaptador P7_F:
G*T*G*A*CTGGAGTTCAGACGTGTGCTCTTCCG*A*T*C*T (ID DE SEC. N.° YY),
adaptador P5+ P7_R:
A*G*A*T*CGGAA*G*A*G*C (ID DE SEC. N.° ZZ)
Ejemplo 2 : Diseño y preparación de secuencias de captura de blancos (TACS)
En este ejemplo, se describe la preparación de TACS personalizadas para la detección de anomalías cromosómicas totales o parciales en los cromosomas 13, 18, 21, X, Y o cualquier otro, así como otras anomalías genéticas, incluidas, sin carácter taxativo, síndromes asociados con microdeleciones o microduplicaciones, translocaciones, inversiones, inserciones y otras mutaciones puntuales o pequeñas. Los loci genómicos blanco usados para el diseño de las TACS se seleccionaron en función de su contenido de GC y su distancia a elementos repetitivos (distancia mínima de 50 bp). El tamaño de las TACS puede ser variable. En una realización del método, el tamaño de las TACS varía entre 100 y 500 bp y las TACS se generan mediante un método basado en la reacción en cadena de la polimerasa (PCR), que se describe a continuación. Las TACS se prepararon mediante una PCR símplex con polimerasa Taq estándar, cebadores diseñados para amplificar los loci blanco y ADN normal como molde. En la Figura 2, se muestran las regiones cromosómicas usadas para diseñar cebadores para amplificar loci adecuados en los cromosomas 13, 18, 21 y X, con el fin de preparar la mezcla de TACS para el análisis de los cromosomas 13, 18, 21 y X.
Todas las TACS personalizadas se generaron empleando las siguientes condiciones de termociclado: 95 °C durante 3 minutos; 40 ciclos de 95 °C durante 15 segundos, 60 °C durante 15 segundos, 72 °C durante 12 segundos; y 72 °C durante 12 segundos, seguido por la verificación mediante electroforesis en gel de agarosa y purificación mediante kits estándar de limpieza de productos de PCR, como el Qiaquick PCR Purification Kit (Qiagen), el NucleoSpin 96 PCR Clean-up Kit (Macherey-Nagel) o el kit Agencourt AMPure XP for PCR Purification (Beckman Coulter). La concentración se midió con un instrumento NanoDrop (Thermo Scientific).
Ejemplo 3 : Hibridación de las TACS y amplificación
En este ejemplo, se describen los pasos que se ilustran esquemáticamente en la Figura 1: captura de blancos por hibridación con TACS, seguida de la cuantificación de las secuencias capturadas mediante secuenciación de última generación (NGS).
Biotinilación de las TACS
Las TACS se prepararon para su hibridación de acuerdo con un protocolo descrito anteriormente (Koumbaris, G. et al. (2015) Clinical Chemistry, 62(6), pp. 848-855). Se comenzó por obtener extremos romos con el kit Quick Blunting Kit (NEB) y una incubación a temperatura ambiente durante 30 minutos. Posteriormente, los productos de la reacción se purificaron con el kit MinElute (Qiagen) y se ligaron a un adaptador de biotina mediante el kit Quick Ligation Kit (NEB) en una reacción de 40 pl a temperatura ambiente durante 15 minutos. Los productos de la reacción se purificaron con el kit MinElute (Qiagen) y se desnaturalizaron para obtener ADN de hebra simple antes de su inmovilización en microesferas magnéticas recubiertas con estreptavidina (Invitrogen).
Hibridación de TACS
Las bibliotecas amplificadas se mezclaron con oligonucleótidos de bloqueo (Koumbaris, G. et al. (2105) Clinical chemistry, 62(6), pp. 848-855) (200 mM), 5 pg de ADN Cot-1 (Cot-1 DNA, Invitrogen), 50 pg de ADN de esperma de salmón (Salmon Sperm DNA, Invitrogen), buffer de hibridación Agilent en concentración 2 X y agente bloqueador Agilent en concentración 10 X, y se calentaron a 95 °C durante 3 min para desnaturalizar las hebras de ADN. Luego de la desnaturalización, se realizó una incubación durante 30 minutos a 37 °C para bloquear los elementos repetitivos y las secuencias de los adaptadores. La mezcla resultante se agregó a las TACS biotiniladas. Todas las muestras se incubaron en un incubador giratorio durante 12 a 48 h a 66 °C. Luego de la incubación, las microesferas se lavaron como se describió anteriormente y el ADN se eluyó por calentamiento (Koumbaris, G. et al. (2105) Clinical Chemistry, 62(6), pp. 848-855). Los productos eluidos se amplificaron con cebadores de adaptadores dirigidos hacia fuera. Los productos amplificados enriquecidos se combinaron de forma equimolar y se secuenciaron en una plataforma adecuada.
Si corresponde, la amplificación puede sesgarse a favor de secuencias específicas/deseadas. En una realización del método, esto se hace cuando la amplificación se realiza en presencia de secuencias que hibridan con la secuencia de interés no deseada y, de este modo, bloquean la acción de la enzima polimerasa durante el proceso. Así, la acción de la enzima de amplificación se dirige hacia la secuencia de interés durante el proceso.
Ejemplo 4 : Análisis bioinformático de las muestras
En este ejemplo, se describen enfoques representativos de análisis estadístico para usar en la metodología que se ilustra en la Figura 1 ("Pipeline de análisis” en la Figura 1).
Alineación con el genoma humano
Por cada muestra, se aplicó la rutina bioinformática (pipeline) que se describe a continuación para alinear los fragmentos de ADN secuenciados de cada muestra con el genoma humano de referencia. Los fragmentos de lecturas apareadas dirigidas obtenidos de los resultados de la NGS se procesaron para eliminar las secuencias de adaptadores y las lecturas de baja calidad (puntuación Q < 25) con el software cutadapt (Martin, M. et al. (2011) EMB.netJournal 17.1). La calidad de las lecturas crudas y/o procesadas, junto con toda estadística descriptiva que ayudara a evaluar la calidad del resultado de la secuenciación de la muestra, se obtuvieron con el software FastQC (Babraham Institute (2015) FastQC) y/u otras herramientas de software propias. Las lecturas procesadas de al menos 25 bases de longitud se alinearon al genoma humano de referencia, versión hg19 (UCSC Genome Bioinformatics), con un algoritmo de alineación basado en la transformación de Burrows-Wheeler (Li, H. and Durbin, R. (2009) Bioinformatics 25:1754-1760), pero también pueden usarse otros algoritmos conocidos para la persona versada en la técnica. Si correspondía, las lecturas duplicadas se eliminaron luego de la alineación. En los casos en que correspondía, el resultado de la secuenciación obtenido de la misma muestra, pero procesado en distintas calles (lanes) de secuenciación, se combinó en un único archivo de salida. Los procedimientos de eliminación de lecturas duplicadas y combinación se realizaron con el paquete de herramientas de software Picard (Broad Institute (2015) Picard) y/o el paquete de herramientas de software Sambamba (Tarasov, Artem, et al. "Sambamba: fast processing of NGS alignment formats." Bioinformatics 31.12 (2015): 2032-2034).
El análisis de software anterior resultó en una versión final alineada de una muestra secuenciada contra el genoma humano de referencia, y todos los pasos ulteriores se basaron en esta versión alineada. La información relativa a los polimorfismos de nucleótidos individuales (SNP) en los loci de interés se obtuvo con la herramienta bcftools del paquete de software SAMtools (Li, H. et al. (2009) Bioinformatics 25:2078-2079) y/u otro software conocido para la persona versada en la técnica. La profundidad de lecturas por base en los loci de interés —denominada, en lo sucesivo, archivo mpileup— se obtuvo con la opción mpileup del paquete de software SAMtools. La información relativa al tamaño de los fragmentos alineados —denominada, en lo sucesivo, archivo de tamaños de fragmentos— se obtuvo con la opción view del paquete de software SAMtools y/u otro software conocido para la persona versada en la técnica.
El archivo mpileup y el archivo de tamaños de fragmentos se procesaron con interfaces de programación de aplicación (API) personalizadas escritas en los lenguajes de programación Python y R (Python Software Foundation (2015) Python; The R Foundation (2015) The R Project for Statistical Computing). Las API se usaron para determinar la ploidía de los cromosomas de interés mediante una serie de pasos (denominados colectivamente, en lo sucesivo, “el algoritmo”) y también para recopilar otras estadísticas descriptivas previstas para usar como métricas de control de calidad, tales como —sin carácter taxativo— la cuantificación de la fracción fetal (denominadas colectivamente, en lo sucesivo, “métricas de control de calidad”). Las API también pueden usarse para la evaluación de anomalías genéticas a partir de datos generados al aplicar el método descrito en casos de embarazos múltiples, así como otras anomalías genéticas, como —sin carácter taxativo— las microdeleciones, las microduplicaciones, las variaciones en el número de copias, las translocaciones, las inversiones, las inserciones, las mutaciones puntuales y los perfiles de mutaciones.
Métricas de control de calidad
Se emplearon métricas de control de calidad para inspeccionar las propiedades de una muestra alineada y decidir si la muestra era apta para clasificación. Estas métricas fueron, sin carácter taxativo, las siguientes:
(a) El enriquecimiento de una muestra. Los patrones de enriquecimiento son indicativos de si una muestra tiene un enriquecimiento adecuado entre los loci de interés en un experimento de secuenciación dado (denominado, en lo sucesivo, una "corrida"). Para evaluar esto, se consideran distintas métricas, que incluyen, sin carácter taxativo:
(i) la profundidad de lecturas específicas en la muestra en su conjunto;
(ii) el volumen de secuenciación específico de la muestra con relación a la cantidad total de lecturas mapeadas;
(iii) el rendimiento de TACS individuales en términos de la profundidad de lecturas alcanzada;
(iv) la curtosis y la asimetría estadística del enriquecimiento de TACS individuales;
(v) los momentos de curtosis y asimetría estadística que surgen de todas las TACS;
(vi) la distribución de tamaños de fragmentos;
(vii) el porcentaje de duplicación;
(viii) el porcentaje de lecturas apareadas; y
(ix) el porcentaje de lecturas alineadas,
si corresponde.
Las comprobaciones anteriores también se tienen en consideración en relación con el enriquecimiento del sesgo inducido por el contenido de GC. Las muestras que no cumplen con uno o más de los criterios mencionados anteriormente se identifican para su inspección ulterior antes de la clasificación.
(b) La fracción fetal de una muestra de interés. Las muestras con una fracción fetal o fracción de interés estimada por debajo de un umbral específico no se clasifican. Además, si corresponde, la fracción de interés puede calcularse usando más de un método y la concordancia entre los resultados obtenidos mediante los distintos métodos de estimación puede usarse como control de calidad adicional antes de la clasificación.
El algoritmo
El algoritmo es una colección de rutinas de procesamiento de datos y modelos matemáticos y estadísticos organizados como una serie de pasos. Los pasos del algoritmo buscan determinar la ploidía individual de un cromosoma de interés en relación con todos los demás cromosomas de la muestra secuenciada y se usan para la detección de anomalías cromosómicas totales o parciales en los cromosomas 13, 18, 21, X, Y o cualquier otro, así como otras anomalías genéticas como, por ejemplo —sin carácter taxativo—, los síndromes de microdeleciones/microduplicaciones y otras mutaciones puntuales o pequeñas. Así, el algoritmo puede usarse, sin carácter taxativo, para la detección de anomalías cromosómicas totales o parciales en los cromosomas 13, 18, 21, X, Y o cualquier otro, así como otras anomalías genéticas, incluidas, sin carácter taxativo, microdeleciones, microduplicaciones, variaciones en el número de copias, translocaciones, inversiones, inserciones, mutaciones puntuales y otros perfiles de mutaciones. El algoritmo realiza, sin carácter taxativo, dos tipos de evaluaciones, una relativa a la información sobre la profundidad de lecturas en cada muestra y otra relativa a la distribución de tamaños de fragmentos en regiones específicas de las TACS. A cada tipo de evaluación pueden asociarse una o más pruebas estadísticas, ejemplos no taxativos de los cuales se proveen en los métodos estadísticos descritos en la presente.
En caso de pruebas asociadas con la profundidad de lecturas, el algoritmo compara secuencialmente la profundidad de lecturas de los loci de cada cromosoma de interés (denominado, en lo sucesivo, cromosoma de prueba) contra la profundidad de lecturas de todos los demás loci (denominados, en lo sucesivo, loci de referencia) para determinar su ploidía. Por cada muestra, los pasos fueron, sin carácter taxativo, los siguientes:
(a) Eliminar los loci secuenciados de forma inadecuada. Se obtuvo la profundidad de lecturas de cada locus.
Los loci que no alcanzaron una cantidad mínima de lecturas se consideraron insuficientemente enriquecidos y se eliminaron antes de los pasos ulteriores.
(b) Mitigar el sesgo genético (sesgo inducido por el contenido de GC). El procedimiento de secuenciación puede introducir discrepancias en la profundidad de lecturas entre los loci de interés en función de su contenido de GC. Para considerar tal sesgo, se empleó un nuevo enfoque de apareamiento de secuencias que aumenta tanto la sensibilidad como la especificidad a la hora de detectar aneuploidías cromosómicas. Se identificó el contenido de GC de cada locus del cromosoma de prueba y se agruparon los loci genéticos similares para formar grupos genéticamente apareados. El procedimiento se repitió con los loci de referencia. Luego, los grupos genéticamente apareados del cromosoma de prueba se aparearon condicionalmente con sus grupos genéticamente apareados contrapartes en el/los cromosoma(s) de referencia. Los grupos pueden tener cualquier cantidad de miembros.
Luego, los grupos condicionalmente apareados se usaron para determinar la ploidía de los cromosomas de prueba. (c) Determinación de las anomalías genéticas. La determinación de la condición en cuanto a la ploidía u otras anomalías genéticas de interés, incluidas, sin carácter taxativo, las microdeleciones, las microduplicaciones, las variaciones en el número de copias, las translocaciones, las inversiones, las inserciones, las mutaciones puntuales y otros perfiles de mutaciones, se logró usando un único método estadístico y/o un enfoque de puntuaciones ponderadas aplicado a los resultados de los siguientes métodos estadísticos, sin carácter taxativo:
Método estadístico 1: Las diferencias en las profundidades de lecturas entre los grupos condicionalmente apareados se evaluaron para determinar su significación estadística con la fórmula de la prueba t:
Figure imgf000024_0001
donde t es el resultado de la prueba t, x es el promedio de las diferencias entre los grupos condicionalmente apareados, ^ es la profundidad de lecturas esperada y se fija en un valor que representa diferencias de profundidad de lecturas insignificantes entre ambos grupos, s es la desviación estándar de las diferencias entre los grupos condicionalmente apareados y n es la longitud del vector de las diferencias condicionalmente apareadas. La magnitud del estadístico t se usó para identificar la evidencia, si correspondía, contra la hipótesis nula de igualdad de ploidía entre los cromosomas de referencia y de prueba. Específicamente, t >= c1 (donde c1 es un umbral predefinido que pertenece al conjunto de todos los números positivos) indica evidencia en contra de la hipótesis nula de que no existen diferencias.
Método estadístico 2: Remuestreo bivariado no paramétrico. El método de remuestreo (bootstrap) depende de la relación entre las variables aleatorias X (profundidad de lecturas de los loci de referencia) e Y (profundidad de lecturas de los loci de prueba). Aquí, la profundidad de lecturas de los señuelos en el grupo de referencia (variable aleatoria denotada por X) fueron tratados como la covariable independiente. El primer paso del procedimiento iterativo involucró un muestreo al azar con remuestreo (bootstrapping) de las profundidades de lecturas de los loci en los cromosomas de referencia, es decir, (x1,g1), ..., (xn,gn), donde el parámetro g es conocido y representa el contenido de GC del señuelo escogido. Luego, por cada señuelo de referencia seleccionado aleatoriamente (xi,gi), se generó una profundidad de lecturas correspondiente para un locus genéticamente apareado, a saber, (y1,g1), ... (yn,gn). Así, se obtuvieron los datos bivariados (x1,y1), (x2,y2),... (xn,yn), condicionalmente apareados en función de su contenido de GC (parámetro gi). Las diferencias entre las profundidades de lecturas de los valores remuestreados genéticamente apareados xi e yi se usaron para calcular el estadístico de interés en cada iteración. En una realización, esta medida estadística puede ser, sin carácter taxativo, la moda, la media o la mediana de las diferencias registradas, y/o múltiplos de dichos valores. El procedimiento se repitió la cantidad de veces necesarias para construir la distribución del estadístico de interés a partir de estas diferencias. Se asignó a la muestra una puntuación que corresponde a un percentil específico de la distribución construida (p. ej., el 5.° percentil). Bajo la hipótesis nula, la ploidía es la misma entre los cromosomas de los grupos de referencia y de prueba. Así, las muestras en las que la puntuación de un cromosoma en particular era mayor a un umbral predefinido, notado c2, se clasificaron como muestras en las que era estadísticamente improbable que la ploidía fuera la misma que en la referencia. También pueden emplearse otras medidas estadísticas.
Método estadístico 3: Prueba de permutaciones estratificadas. El estadístico de interés es la profundidad de lecturas estimada del cromosoma de prueba, denotada por Yobs, que se calcula a partir de todos los loci de los grupos genéticamente apareados de los cromosomas de prueba de la siguiente manera:
Figure imgf000025_0001
donde yij es la profundidad de lecturas del loci i que forma parte del grupo genéticamente apareado j (es decir, los loci que pertenecen a un grupo específico en virtud de su contenido de GC), Nj es la cantidad de loci de prueba que son parte del grupo genéticamente apareado j y T es la cantidad de grupos genéticamente apareados.
A continuación, se construyó una distribución nula para evaluar ?o6s. Para hacerlo, por cada grupo j, los loci de prueba y de referencia se combinaron (intercambiabilidad bajo la hipótesis nula) y cada grupo j se muestreó aleatoriamente hasta Nj veces sin reposición (permutación estratificada). Esto creó un vector de valores, notado yi, del cual se calculó el valor promedio, notado <Yl . El procedimiento se repitió la cantidad de veces necesarias para construir la distribución nula. Por último, Yobs se studentizó respecto de la distribución nula con la siguiente fórmula:
Figure imgf000025_0002
donde f y oy son el primer momento y la raíz cuadrada del segundo momento de todos los valores estadísticos y¡ permutados. En las muestras cuyos valores de ZY0bs eran mayores de un umbral predefinido, notado c3, era estadísticamente menos probable que la ploidía fuera la misma entre los grupos de referencia y de prueba.
En el caso de las pruebas asociadas con los tamaños de fragmentos, el algoritmo calcula la proporción de fragmentos pequeños en los loci de prueba y la compara con la correspondiente proporción en los loci de referencia, como se describe en el método estadístico 4, a continuación.
Método estadístico 4: Proporciones de tamaños de fragmentos. Por cada muestra, se extrae la cantidad y el tamaño de los fragmentos alineados al genoma humano de referencia en las coordenadas correspondientes a las TACS. Posteriormente, los datos se filtran para eliminar los tamaños de fragmentos que se consideran valores estadísticamente atípicos usando el método de detección de valores atípicos basado en la mediana. Específicamente, se definen como valores atípicos aquellos fragmentos cuyo tamaño es mayor o menor a los umbrales Fthr, dados por la siguiente ecuación:
Figure imgf000026_0001
donde Fmedian es la mediana del tamaño de todos los fragmentos de una muestra, X es una variable que puede asumir valores en el conjunto R+ e IQR es el rango intercuartílico de los tamaños de fragmentos. Posteriormente, se realiza una prueba binomial de proporciones para buscar evidencia en contra de la hipótesis nula, H0, definida de la siguiente manera:
H0: La proporción de fragmentos pequeños en la región de prueba no difiere de la proporción de fragmentos pequeños en la región de referencia.
En varias realizaciones de la invención, los fragmentos pequeños se definen como aquellos fragmentos cuyo tamaño es menor o igual a un subconjunto de Z+ acotado superiormente por 160 bp. Si definimos como T el conjunto de todas las TACS, la región de prueba puede ser cualquier subconjunto propio S que defina la región investigada, y la región de referencia es el complemento relativo de S en T. Por ejemplo, en una realización de la invención, el conjunto S se define como el conjunto de todas las secuencias capturadas por TACS del cromosoma 21 y, por consiguiente, el conjunto de referencia se define como el conjunto de todos los fragmentos capturados por TACS en los cromosomas de referencia y/u otros loci de referencia.
La hipótesis alternativa, H1, se define de la siguiente manera:
H1: La proporción de fragmentos pequeños en la región de prueba difiere de la proporción de fragmentos pequeños en la región de referencia.
Así, teniendo en cuenta la corrección por continuidad, se calcula la siguiente puntuación (Brown et. al, Harrel):
Figure imgf000026_0002
donde
, _ (F 0.5)
^ (.N test + 1)
_ (Fref + 0.5)
Pref ~ { N „ f + 1)
F es la cantidad de fragmentos pequeños en la región de prueba, Fref es la cantidad de fragmentos pequeños en la región de referencia, Ntest es la cantidad total de fragmentos en la región de prueba y Nref es la cantidad total de fragmentos en la región de referencia.
Por cada muestra, el algoritmo contrasta secuencialmente la proporción de tamaños de fragmentos de las regiones investigadas (por ejemplo, sin carácter taxativo, el cromosoma 18, el cromosoma 21, el cromosoma 13 u otras regiones de interés [sub]cromosómicas) contra las regiones de referencia, es decir, aquellas no investigadas en la prueba. Por cada muestra, se asigna una puntuación por cada prueba. Las puntuaciones superiores a un umbral, notado c4, proveen evidencia en contra de la hipótesis nula.
Método de puntuación ponderada 1: En una realización del método, se atribuyó a cada una de las muestras una puntuación ponderada, calculada como la suma ponderada de todos los métodos estadísticos de acuerdo con la siguiente fórmula:
VS(R,F) = z1max{í?5,Fs} (1 — z-^minfós, Fs]
donde Rs es la puntuación corregida específica de la corrida obtenida de una contribución ponderada de cada método estadístico relacionado con la profundidad de lecturas de las muestras, que se define como:
Figure imgf000027_0001
y Rr es la mediana específica de la corrida, calculada a partir del vector de todas las puntuaciones no ajustadas ponderadas relacionadas con la profundidad de lecturas obtenidas de una única corrida de secuenciación, y ar es un múltiplo del desvío estándar de las puntuaciones R calculado a partir de un conjunto de referencia de 100 muestras euploides. Los términos max{Rs,Fs} y min{Rs,Fs} denotan los valores máximo y mínimo del conjunto entre llaves, respectivamente.
Fs es la puntuación corregida específica de la corrida obtenida del método estadístico relacionado con los tamaños de fragmentos y se define como:
( w test ~ R f )
Fs = O f
donde Wtest tiene la misma definición que antes, Rf es la mediana específica de la corrida, calculada a partir del vector de todas las puntuaciones estadísticas no ajustadas relacionadas con los fragmentos obtenidas de una única corrida de secuenciación, y oy es un múltiplo del desvío estándar de las puntuaciones F calculado a partir de un conjunto de referencia de 100 muestras euploides.
Una puntuación de clasificación única inferior a un valor predefinido indica que no hay evidencia en los datos observados de que una muestra tenga un riesgo significativo de aneuploidía.
Método de puntuación ponderada 2: En otra realización del método, la puntuación ponderada obtenida de los métodos estadísticos descritos anteriormente se usó para asignar a cada muestra una puntuación única de riesgo de anomalía genética de acuerdo con la siguiente fórmula:
Figure imgf000027_0002
donde R es el resultado de la puntuación ponderada, wy es el peso asignado al método j, t¡ es la puntuación observada resultante del método j, y Cj es el umbral del método j.
Una puntuación de clasificación única inferior a un valor predefinido indica que no hay evidencia en los datos observados de que una muestra tenga un riesgo significativo de aneuploidía.
Dado que se asumió que todas las profundidades de lecturas de los señuelos del grupo de referencia provenían de la misma población, y para tener un umbral universal, se emplearon ajustes específicos de cada corrida para aliviar los sesgos específicos de cada corrida.
El/los método(s) mencionado(s) también es/son adecuado(s) para la detección de otras anomalías genéticas, incluidas, sin carácter taxativo, las anomalías subcromosómicas. Un ejemplo no taxativo es la pérdida parcial contigua de material cromosómico que da lugar a una microdeleción, o la incorporación parcial contigua de material cromosómico que da lugar a una microduplicación. Un locus genético conocido sujeto a ambas anomalías es el 7q11.23. En una realización del método estadístico 1, se evaluaron muestras de plasma sintéticas con 5 %, 10 % y 20 % de material fetal para evaluar el aumento del riesgo de microdeleciones y/o microduplicaciones en el locus genético 7q11.23.
En el caso de las mutaciones puntuales, se realizan varias pruebas binomiales que consideran la estimación de la fracción fetal de la muestra, notada f, la profundidad de lecturas del alelo menor, notada r, y la profundidad de lecturas total de la base secuenciada, notada n. Dos ejemplos frecuentes, pero no taxativos, involucran la evaluación del riesgo cuando la anomalía genética es una mutación puntual recesiva o una mutación puntual dominante.
En el ejemplo no taxativo de una mutación puntual recesiva, la hipótesis nula evaluada es que tanto la madre como el feto son heterocigotas (es decir, la frecuencia del alelo menor es de 0,5), en tanto que la hipótesis alternativa es que el feto es homocigota (es decir, la frecuencia del alelo menor es de 0,5-f/2). Un valor p pequeño en la correspondiente prueba de cocientes de verosimilitudes (likelihood ratio) indicaría evidencia contraria a la hipótesis nula. En el ejemplo no taxativo de una mutación puntual dominante, la hipótesis nula evaluada es que tanto la madre como el feto son homocigotas en la posición dada, en tanto que la hipótesis alternativa es que solo el feto es heterocigota en la posición dada. Un valor p pequeño en la correspondiente prueba de cocientes de verosimilitudes (likelihood ratio) indicaría evidencia contraria a la hipótesis nula.
Además de los anteriores, se desarrollaron métodos de determinación del sexo, ejemplos no taxativos de los cuales se describen a continuación. En una realización de la invención, se asignó el sexo fetal a una muestra usando una prueba de Poisson dada por la siguiente fórmula:
Figure imgf000028_0001
donde ‘ ; y f es la fracción fetal estimada de la muestra, B es la cantidad de secuencias blanco en el cromosoma Y, p es la profundidad de lecturas de la muestra y k es la suma de las lecturas obtenidas de todos los blancos B. La hipótesis nula de la prueba de Poisson fue que la muestra era masculina. Un valor de Pr(ry ) menor a un umbral cy se consideró como evidencia suficiente para rechazar la hipótesis nula, es decir, concluir que la muestra no era masculina. En los casos en los que uno o más de los términos para calcular Pr(ry ) no estaban disponibles, el sexo de la muestra se clasificó como no disponible (NA).
En otra realización de la invención, el sexo fetal se asignó usando la profundidad de lecturas promedio de las secuencias blanco en el cromosoma Y. Si la profundidad de lecturas promedio de las secuencias blanco era superior a un umbral predefinido, donde tal umbral puede definirse en función de otras características específicas de la muestra, como la profundidad de lecturas y la fracción fetal estimada, el sexo fetal se clasificó como masculino. Si la profundidad de lecturas promedio era inferior a dicho umbral, la muestra se clasificó como femenina.
Estimación de la fracción fetal/de la fracción de interés
Se han desarrollado diversos métodos para estimar la fracción fetal que pueden aplicarse a embarazos simples y/o múltiples. Así, en función del tipo de embarazo, la fracción fetal estimada puede obtenerse de cualquiera de los métodos o como una estimación ponderada a partir de un subconjunto de los métodos desarrollados y/o de todos ellos. A continuación, se dan algunos ejemplos no taxativos.
En una realización, se desarrolló una técnica de aprendizaje computarizado basada en la inferencia bayesiana para calcular la distribución a posterior' de la fracción fetal de ADN empleando los recuentos alélicos en los loci heterocigotas del plasma materno de embarazos simples. Se utilizaron tres combinaciones informativas posibles de genotipos maternos/fetales dentro del modelo para identificar aquellos valores de fracción fetal de ADN con mayor respaldo de los datos observados.
Sea f la fracción fetal de ADN. Si la madre es heterocigota en un locus dado, el genotipo fetal puede ser heterocigota u homocigota, lo que resulta en frecuencias esperadas del alelo menor de 0,5 y 0,5-f/2, respectivamente. Si la madre es homocigota y el feto es heterocigota, la frecuencia esperada del alelo menor será de f/2. Se empleó un método de Monte Carlo basado en una cadena de Markov (algoritmo de Metropolis-Hastings) (The R Foundation (2015) The R Project for Statistical Computing) con una distribución a priori no informativa o informativa (es decir, que incorporara información adicional como la edad gestacional, el peso materno, etc.) para obtener una secuencia de muestras aleatorias de la distribución de probabilidad a posteriori de la fracción fetal de ADN basada en un modelo de mezclas finitas.
[0001] En otra realización, la fracción fetal estimada se calcula únicamente a partir del clúster de frecuencia del alelo menos frecuente (MAF) específico del feto, es decir, el clúster formado cuando la madre es homocigota y el feto es heterocigota en un locus genómico dado. Se asume que la media de la fracción fetal estimada tiene una distribución normal N (2x,a¿), donde x es la media de la MAF específica del feto y oy es el desvío estándar de la MAF específica del feto. Luego, la fracción fetal estimada se obtiene de los percentiles de la distribución calculada, N (2x,a¿).
En los embarazos de gestación múltiple —ejemplos no taxativos de los cuales incluyen los embarazos de gemelos monocigóticos y de mellizos dicigóticos, los embarazos de trillizos y distintos casos de donantes de óvulos y/o esperma— , la fracción fetal puede estimarse empleando información obtenida a partir de loci genéticos cuyo valor de MAF sea menor que un umbral, notado Mthresh, y derivada de posibles SNP específicos del feto. La persona razonablemente versada en la técnica apreciará que los SNP específicos del feto pueden originarse de cualquiera de los fetos, de cualquier combinación posible de los fetos o de todos los fetos de la gestación. Así, se ha desarrollado un algoritmo que estima la fracción fetal del feto con la menor contribución al contenido fetal total, teniendo en cuenta la contribución combinatoria de cada feto a los valores de MAF que definen los SNP específicos del feto, y también permite la contribución no homogénea de material fetal al contenido fetal total del material obtenido del plasma. Con este fin, el algoritmo emplea un enfoque de dos pasos.
En una realización del algoritmo, el embarazo múltiple considerado es un embarazo de mellizos dicigóticos. Como primer paso, la implementación algorítmica del modelo utiliza todos los SNP informativos y permite una contribución fetal no homogénea que puede explicarse con una diferencia relativa en las fracciones fetales estimadas respecto de un umbral definido, notado cf. Específicamente, si f1 y f2 representan las fracciones fetales de los fetos uno y dos, respectivamente, y f1 <= f2, la suposición es que f2 <= cf f1, donde cf es una constante real positiva mayor o igual a 1. Bajo esta hipótesis, los datos observados D, definidos como los recuentos de los alelos alternativo y de referencia en los loci de los SNP informativos, se suponen generados por una distribución combinada de tres binomiales (definidas por los parámetros f1/2, f2/2 y (f1+f2)/2), siendo la distribución a posteriori p(f1,f2|D) proporcional al modelo de observación, que puede expresarse como p(f1|f2,D) p(f2|D). La distribución a posteriori p(f1,f2|D) se muestra con un algoritmo de Metropolis-Hastings MCMC usando una distribución a priori uniforme. El enfoque de cuantiles empíricos se aplica al arreglo de datos generado para inferir las fracciones fetales.
Como segundo paso, el algoritmo ejecuta un algoritmo de agrupamiento (clustering) basado en un modelo (modelo de mezcla gausiana finita ajustado mediante el algoritmo EM; paquete mclust en R) para identificar si existe un clúster independiente de SNP atípicos del que se crea que está centrado en torno de f1/2. La existencia de tal clúster con una media que invalide la hipótesis cf >= f2/f1 lleva a la estimación de f1 usando únicamente SNP que son parte del clúster identificado.
Los métodos descritos anteriormente son adecuados para la determinación de la fracción de cualquier componente de interés que sea parte de una muestra combinada. Así, no debe entenderse que los métodos son aplicables únicamente a la estimación de la fracción fetal, sino que estos pueden aplicarse a la estimación de cualquier componente de interés que sea parte de una muestra combinada.
Ejemplo 5 : Enriquecimiento de blancos usando familias de TACS
En este ejemplo, una familia de TACS, que contenía múltiples miembros que se unían todos a la misma secuencia blanco de interés, se usó para el enriquecimiento, en lugar de usar una única TACS que se uniera a una secuencia blanco de interés. Cada miembro de la familia de TACS se unía a la misma secuencia blanco de interés, pero tenía diferentes coordenadas de inicio/fin con respecto a un sistema de coordenadas de referencia de dicha secuencia blanco (p. ej., la versión hg 19 del genoma humano de referencia). Así, cuando se alinea a la secuencia blanco, la familia de TACS exhibe un patrón de unión escalonado, como se muestra en la Figura 3. Normalmente, los miembros de la familia de TACS estaban escalonados aproximadamente entre 5 y 10 pares de bases.
Se preparó una familia de TACS que contenía cuatro miembros (es decir, cuatro secuencias que se unían a la misma secuencia blanco, pero con diferentes posiciones de inicio/fin, de modo que la unión de los miembros a la secuencia blanco era escalonada). También se preparó una hibridación de una TACS individual como control. Las TACS se fijaron a un sustrato sólido marcándolas con biotina y uniéndolas a microesferas magnéticas recubiertas con una sustancia que se une a la biotina (p. ej., estreptavidina o avidina), como se describió en el Ejemplo 3. Luego, la familia de TACS y la TACS individual se hibridaron a una biblioteca de secuencias, las secuencias unidas se eluyeron y amplificaron, y estos productos de amplificación enriquecidos se combinaron de forma equimolar y se secuenciaron en una plataforma de secuenciación adecuada, como se describió en el Ejemplo 3.
Las secuencias enriquecidas de la muestra con la familia de TACS y de la muestra con la TACS individual se analizaron para determinar la profundidad de lecturas. Los resultados se muestran en las Figuras 4A y 4B. Como se observa en la Figura 4A, las secuencias blanco de interés enriquecidas con la familia de cuatro TACS (puntos rojos) mostraron un cambio relativo en la profundidad de lecturas en comparación con las secuencias de control enriquecidas con una TACS individual (puntos azules). Para determinar el cambio relativo, se normalizó la profundidad de lecturas en cada locus por la profundidad de lecturas promedio de una muestra, donde la profundidad de lecturas promedio se calculó a partir de todos los loci enriquecidos con una TACS individual. Como se muestra en la Figura 4B, se observó un aumento promedio general del 54,7 % en la profundidad de lecturas con la familia de cuatro TACS.
Este ejemplo demuestra que el uso de una familia de TACS en lugar de una TACS individual mejora significativamente el enriquecimiento de una secuencia blanco de interés, lo que resulta en un aumento significativo de la profundidad de lecturas de esa secuencia.
Ejemplo 6 : Detección de biomarcadores tumorales en material de referencia
En este ejemplo, se usó la metodología de las TACS, que se muestra en la Figura 1, para la detección de biomarcadores tumorales en material de referencia certificado del que se sabe que contiene mutaciones genéticas particulares que son biomarcadores tumorales. Para la detección de las secuencias de interés biomarcadoras tumorales, se usaron familias de TACS, como se describió en el Ejemplo 5.
Una muestra de material de referencia certificado que contenía mutaciones genéticas conocidas asociadas con tumores se obtuvo comercialmente y se prepararon muestras para simular cargas tumorales del 0,1 %, 1,0 % y 5,0 %.
Se aplicó a las muestras la metodología de las TACS que se muestra en la Figura 1 usando familias de TACS que se unían a las siguientes mutaciones genéticas asociadas con tumores: EGFR_6240, KRAS_521, EGFR_6225, NRAS_578, NRAS_580, PIK3CA_763, EGFR_13553 y EGFR_18430.
Luego de la amplificación y secuenciación de los productos enriquecidos mediante TACS, se realizó el siguiente análisis de datos. Los productos de secuenciación se procesaron para eliminar las secuencias adaptadoras y las lecturas de baja calidad. Las lecturas cuya longitud era de al menos 25 bases luego de eliminar los adaptadores se alinearon contra una de las siguientes referencias:
(a) la versión hg19 del genoma humano de referencia; o
(b) un genoma artificial basado en la versión hg19 que contenía únicamente las secuencias de interés.
Si correspondía, las lecturas duplicadas se eliminaron luego de la alineación. En los casos en los que correspondía, el resultado de la secuenciación obtenido de la misma muestra, pero procesado en distintas calles (lanes) de secuenciación, se combinó en un único archivo de salida. El análisis de software anterior dio como resultado una versión final de una muestra secuenciada alineada contra el genoma de referencia (denominada aquí archivo BAM final), de la cual se puede extraer información sobre los polimorfismos de nucleótidos individuales (SNP), las variantes de nucleótidos individuales (SNV) y otras variaciones genéticas con respecto a una secuencia de referencia en los loci de interés, la profundidad de lecturas por base y el tamaño de los fragmentos alineados. Para obtener la información sobre SNP a partir del archivo BAM final, se pueden usar distintas herramientas conocidas para la persona versada en la técnica, incluida, sin carácter taxativo, bcftools, que es parte del paquete de software samtools. Esta información, que hace referencia a la secuencia y a la cantidad de veces que se detectó cada SNP presente en una muestra secuenciada, se usó para:
(a) inferir la presencia de una mutación genética; y
(b) estimar la carga tumoral usando el método de estimación de la fracción fetal/de la fracción de interés que se describe en el Ejemplo 4.
Además de la detección de la mutación genética, se asignó una confianza estadística a una mutación detectada mediante estadística binomial, usando la carga tumoral estimada de la muestra y la profundidad de lecturas de cada una de las variantes detectadas en una posición dada. Es posible emplear más de una prueba, a partir de las cuales uno puede calcular la probabilidad de obtener la información secuenciada; o bien obtener un intervalo de confianza del 95 %, que describe un rango de posibles profundidades de lecturas de la mutación genética; o evaluar si la proporción de lecturas que pueden asignarse a la mutación genética es consistente con la esperada dada la carga tumoral. Una prueba binomial de proporciones adecuada para ello se describe en el Ejemplo 4 (en el contexto de la clasificación de las anomalías cromosómicas).
Los resultados se muestran en la Figura 5. La línea ilustra la frecuencia del alelo menos frecuente (MAF) prevista para cada una de las cargas tumorales porcentuales (%). Las barras (eje x) ilustran la MAF detectada (eje y) correspondiente a las mutaciones genéticas indicadas en el material de referencia certificado. Se muestran dos réplicas técnicas del material de referencia.
Los datos demuestran que la metodología de las TACS detectó con éxito las mutaciones genéticas asociadas con tumores EGFR_6240, KRAS_521, EGFR_6225, NRAS_578, NRAS_580, PIK3CA_763, EGFR_13553 y EGFR_18430 en el caso de las cargas tumorales esperadas del 1,0 % y el 5,0 %. Las mutaciones EGFR_6240, NRAS_578, PIK3CA_763, EGFR_13553 y EFGR_18430 también se detectaron con éxito en el caso de la carga tumoral del 0,1 %.
Así, este ejemplo demuestra la detección exitosa de un amplio panel de biomarcadores tumorales diferentes usando la metodología de las TACS con cargas tumorales de apenas el 0,1 %.
Ejemplo 7 : Detección de biomarcadores tumorales en muestras de pacientes
En este ejemplo, se usó la metodología de las TACS, que se muestra en la Figura 1, para la detección de biomarcadores tumorales en muestras de tejido tumoral y plasma sanguíneo de pacientes con cáncer no tratado, pero con diagnóstico confirmado. Para la detección de las secuencias de interés biomarcadoras tumorales, se usaron familias de TACS, como se describió en el Ejemplo 5.
Muestras apareadas de sangre periférica y tejido tumoral de pacientes con cáncer no tratado se usaron para una validación ulterior del desempeño de la metodología de las TACS para la detección de biomarcadores tumorales en un paciente que tenía la mutación PIK3CA E545K (Paciente 1) y en un paciente que tenía la mutación TP53 K139 (Paciente 2). Los resultados se muestran en la Figura 6.
Como se muestra en la Figura 6, la aplicación de la metodología de las TACS a una muestra de tejido obtenida del Paciente 1, que tenía la mutación PIK3CA E545K (barras superiores), arrojó una frecuencia del alelo mutante (VAF) porcentual (es decir, la proporción en la que la mutación genética está presente en lugar del alelo normal) del ~62 %. Plasma obtenido de la sangre periférica del Paciente 1 se procesó de acuerdo con el método que se describe en el Ejemplo 1 y arrojó una VAF del 6,05 %. Del mismo modo, la aplicación de la metodología de las TACS a muestras obtenidas del Paciente 2, que tenía la mutación TP53 K139 (barras inferiores), arrojó una VAF del ~60 % en el caso del tejido tumoral y una VAF del 4,88 % en el caso del plasma obtenido de una muestra de sangre periférica.
Entonces, este ejemplo confirma la detección exitosa de biomarcadores tumorales en muestras de pacientes con cáncer, tanto a partir de muestras de tejido tumoral como a partir de muestras de plasma, lo que demuestra que la metodología de las TACS es adecuada para biopsias de tejidos y para la detección de biomarcadores tumorales no invasiva a partir de una biopsia líquida.
Ejemplo 8 : Detección de perfiles de mutaciones
Dada la capacidad de la metodología de las TACS que se ilustra en la Figura 1 de detectar diversas variaciones de nucleótidos individuales (SNV) somáticas, estas se pueden examinar en el contexto de los motivos, también conocidos como perfiles de mutaciones. La mayoría de las mutaciones somáticas en tumores pueden considerarse pasajeras y pueden no estar asociadas con la patogénesis si se examinan de forma individual. Sin embargo, examinar el perfil global de mutaciones detectadas puede ser útil para determinar y/o detectar un perfil de mutaciones asociadas con la patogénesis. Se han desarrollado diversos algoritmos para descomponer los motivos de mutación conocidos que operan en muchos tipos de cáncer. Como alternativa, pueden usarse para este fin otras métricas que utilizan características específicas, como el tipo de mutaciones detectadas en el contexto de sus bases vecinas. Los algoritmos desarrollados pueden inferir los escenarios más probables que explican los datos observados. La descomposición del número y los tipos de patrones/perfiles de mutaciones conocidos que más probablemente generaron el perfil de mutaciones observados se logró, sin carácter taxativo, usando al algoritmo de mínimos cuadrados no negativos de Lawson-Hanson.
En la Figura 7, se muestra el patrón observado de SNV somáticas en cáncer de mama usando datos descargados de la base de datos COSMIC. En el eje x, se muestra una mutación de una sola base observada en cáncer en el contexto de sus secuencias vecinas. Por ejemplo, A[C>A]T describe una mutación de una citosina (C) a adenina (A) aguas arriba de la cual hay una adenina y aguas abajo de la cual hay una timina. En el eje y, se muestra la frecuencia con la que ocurre esta mutación en cáncer de mama.
En la Figura 8, se muestran los resultados de un estudio de simulaciones en el que se generaron al azar perfiles de mutaciones muestreando en cada oportunidad un subconjunto de las SNV disponibles en la base de datos COSMIC, de modo de simular distintos individuos. Se aplicaron a los datos simulados los algoritmos de descomposición descritos anteriormente para detectar los probables motivos de mutaciones subyacentes. Las barras indican la frecuencia promedio estimada de los perfiles de mutaciones de mama calculados a partir de un conjunto de datos de 10 000 simulaciones. El algoritmo desarrollado muestra evidencia de detección de los perfiles de mutaciones, lo que demuestra que es posible detectar perfiles o motivos de mutaciones con los algoritmos desarrollados.
Ejemplo 9 : Pruebas basadas en los tamaños de los fragmentos
Hay evidencia en la literatura de que ciertos tipos específicos de cáncer pueden estar caracterizados por y/o asociados con fragmentos en el plasma que tienen un tamaño menor al tamaño esperado de los fragmentos provenientes de tejidos sanos (Jiang et al, (2015), Proceedings of the National Academy of Sciences, 112(11), pp. E1317-E1325). Así, se puede utilizar una prueba basada en los tamaños de fragmentos para detectar la presencia de variaciones en el número de copias (CNV) somáticas en individuos que presuntamente tienen cáncer. Para tal fin, puede usarse una prueba binomial de proporciones, como se describe en el Ejemplo 4, para la detección de un aumento en la presencia de material de ácidos nucleicos proveniente de tejido no sano (p. ej., tejido tumoral) sobre la base del tamaño de los fragmentos. En particular, bajo la hipótesis nula de que la distribución de tamaños de fragmentos provenientes de células saludables y de células no saludables es la misma, se puede usar una prueba binomial de proporciones (como se describe en el Ejemplo 4) con corrección de continuidad para cuantificar cualquier evidencia en contrario.
La misma hipótesis vale en el caso de los fragmentos que se originan en la placenta o el feto. Específicamente, los fragmentos derivados de la placenta suelen ser de menor tamaño que los que se originan de tejidos/células maternos. Así, la evaluación de la prueba basada en los tamaños de los fragmentos se realizó usando muestras de plasma materno (es decir, muestras combinadas en las que el ADN libre es de origen materno y fetal). El tamaño de los fragmentos que se alinearon con regiones enriquecidas con TACS puede obtenerse a partir de los datos alineados. Posteriormente, la proporción de fragmentos por debajo de un umbral específico en una región de prueba se compara con la proporción respectiva de fragmentos de una región de referencia en busca de evidencia contraria a la hipótesis nula H0, que es la siguiente: La proporción de fragmentos pequeños en la región de prueba no difiere de la proporción de fragmentos pequeños en la región de referencia.
En la Figura 9, se muestran resultados obtenidos al aplicar el método de los tamaños de fragmentos a la muestra combinada que contenía ADN materno y fetal. Los puntos negros son muestras individuales. En el eje x, se muestra el índice de la muestra. En el eje y, se muestra la puntuación que arroja el método basado en los fragmentos. Una puntuación mayor que el umbral (ilustrado con la línea gris) señala una desviación respecto del tamaño esperado de los fragmentos, lo que es indicativo de la presencia de una aneuploidía. Los resultados demuestran que una muestra aneuploide con una fracción fetal estimada de 2,8 % pudo identificarse correctamente, lo que ilustra que la detección basada en fragmentos puede usarse para detectar anomalías en muestras combinadas con baja relación señal-ruido (como en el caso de la detección del cáncer).
Así, este ejemplo demuestra la capacidad del método de detección basado en fragmentos de detectar con éxito anomalías genéticas en muestras combinadas con bajas relaciones señal-ruido, lo que confirma que la prueba basada en fragmentos es adecuada para el análisis de muestras de cáncer para fines oncológicos o de muestras maternas para NIPT.
Dado que los fragmentos pequeños están asociados con fragmentos de tejidos no saludables (Jiang et al, (2015), Proceedings of the National Academy of Sciences, 112(11), pp. E1317-E1325), también pueden aprovecharse para la detección de mutaciones pequeñas, como mutaciones puntuales y perfiles de mutaciones. Por ejemplo, uno podría usar solo los fragmentos pequeños en la estimación de la frecuencia de alelos mutantes que se describió en los Ejemplos 6 a 9, lo que aumentaría la relación señal-ruido.
Ejemplo 10: Cuantificación de alelos mutantes en muestras combinadas que
contienen ADN materno en lo c i asociados con alteraciones genéticas
Muestras combinadas que contenían tanto ADN fetal como ADN materno se procesaron como se describió en el Ejemplo 1. Se diseñaron familias de TACS para la detección de alteraciones genéticas hereditarias asociadas con 5 anomalías genéticas diferentes (p-talasemia, fenilcetonuria, fibrosis quística, enfermedad de Gaucher y enfermedad poliquística renal autosómica recesiva). Los miembros de las familias de TACS se diseñaron de tal manera que tuvieran posiciones de inicio/fin escalonadas para la unión a la secuencia blanco de interés, como se describió en el Ejemplo 5. Además, los miembros de las familias de TACS se diseñaron de modo que tuvieran características optimizadas en cuanto a su tamaño, su distancia a los elementos de ADN repetitivos y su contenido de GC, como se describió en el Ejemplo 2.
Se usó la metodología de las TACS que se ilustra en la Figura 1 (y que se describe en los Ejemplos 1 a 3) con las familias de TACS para un enriquecimiento superior de las secuencias blanco de interés que contenían secuencias específicas relevantes para la determinación de la condición de la madre de ser portadora de cinco alteraciones genéticas hereditarias (p-talasemia, fenilcetonuria, fibrosis quística, enfermedad de Gaucher y enfermedad poliquística renal autosómica recesiva). Para determinar la condición de la madre de ser portadora de estas alteraciones genéticas, se realizó un análisis de 157 loci que abarcaban 14 genes diferentes. Opcionalmente, la muestra materna se puede interrogar simultáneamente con TACS (o familias de TACS) para detectar anomalías cromosómicas fetales (p. ej., aneuploidías, como las de los cromosomas 13, 18, 21, X e Y, según se describe en la presente).
Los productos de secuenciación dirigida obtenidos a partir de resultados de secuenciación de última generación (NGS) se procesaron para eliminar las secuencias adaptadoras y las lecturas de baja calidad. Las lecturas cuya longitud era de al menos 25 bases luego de eliminar los adaptadores se alinearon contra la versión hg19 del genoma humano de referencia. Si correspondía, las lecturas duplicadas se eliminaron luego de la alineación. En los casos en los que correspondía, el resultado de la secuenciación obtenido de la misma muestra, pero procesado en distintas calles (lanes) de secuenciación, se combinó en un único archivo de salida. El análisis de software dio como resultado una versión final de una muestra secuenciada alineada contra el genoma de referencia humano, de la cual luego se puede extraer información sobre los polimorfismos de nucleótidos individuales (SNP), las variantes de nucleótidos individuales (SNV) y otras variaciones genéticas con respecto a una secuencia de referencia en los loci de interés, la profundidad de lecturas por base y el tamaño de los fragmentos alineados. La muestra materna puede procesarse completamente con el pipeline que se describe en los Ejemplos 1 al 4 para determinar la ploidía del feto. Además, se detectó información en términos de las SNV y las inserciones/deleciones (indels) en los loci de interés relacionados en cuanto a la cantidad de veces que cada SNV estaba presente en una muestra secuenciada, que se usó para inferir la presencia en la muestra materna y la condición de portadora de la madre usando estadística binomial, según se describió en la presente.
En la Figura 10, se presentan datos en la forma de frecuencias del alelo mutante (VAF) calculadas a partir de muestras combinadas, que contenían tanto ADN materno como ADN fetal. La frecuencia del alelo mutante se calculó como la cantidad de veces que se secuenció el alelo mutante sobre la cantidad de veces que se secuenció el locus. El eje x es un índice de las diferentes muestras analizadas. El eje y es el valor de la frecuencia porcentual del alelo mutante (VAF %). El valor de VAF se basa en la fracción materna presente en la muestra combinada. Se esperaría que un portador del alelo mutante tuviera una VAF de aproximadamente el 50 %. Sin embargo, en el caso de una mujer portadora embarazada, se esperaría que el valor de la VAF fuera de aproximadamente el 50 % menos la mitad del valor de la fracción fetal, dado que la muestra combinada contiene tanto ADN fetal como ADN materno. Así, por ejemplo, si una muestra combinada tiene una fracción fetal estimada del 10 %, la fracción materna es del 90 %. Así, en los autosomas (cromosomas no sexuales), se espera que una madre portadora tenga un valor de VAF cercano al 45 %. Un razonamiento similar puede usarse en el caso de las enfermedades vinculadas con el sexo, donde debe tenerse en cuenta el sexo del feto antes de estimar las VAF esperadas. Si una muestra tiene un valor de VAF muy bajo en una región dada (ilustrado por los puntos grises en valores muy pequeños, en la parte inferior del gráfico de la Figura 10), esto probablemente indica la ausencia del alelo mutante (es decir, que la mujer embarazada no es portadora de la alteración genética) o que las VAF provienen del feto, o bien puede ser el resultado de un error de secuenciación. Los valores de VAF elevados aparecen en la parte superior del gráfico, lo que indica la condición de portadora de la madre (puntos de colores). En el caso de las muestras combinadas de la madre y el feto en las que la condición de portadora de la madre es positiva, se procesa una muestra paterna para calcular la condición de portador del padre y determinar el riesgo fetal de heredar la alteración genética. También se aplica la metodología de las TACS, que se ilustra en la Figura 1 y se describe en la presente, a una muestra paterna (p. ej., una muestra de plasma) usando familias de TACS dirigidas a aquellos loci en relación con los cuales se ha determinado que la condición de portadora de la madre es positiva. Los datos de secuenciación se alinean como se describió en el caso de la muestra materna y se obtiene información en términos de las variantes de nucleótidos individuales (SNV) en los loci de interés, la profundidad de lecturas por base y el tamaño de los fragmentos alineados. Con base en esta información, se infiere la presencia en la muestra paterna y la condición de portador del padre mediante estadística binomial.
Por último, se calcula a partir de los datos, usando el razonamiento de la genética mendeliana, una puntuación de riesgo fetal de heredar las alteraciones genéticas detectadas. Un ejemplo de una puntuación de riesgo fetal se ilustra en la Tabla 3, a continuación, donde los algoritmos usados han detectado que la madre es portadora de una alteración genética recesiva dada, con secuencia alélica Aa, y también se ha determinado que el padre es portador de la misma alteración genética recesiva, con secuencia alélica Aa.
Tabla 3: Ejemplo de uso del razonamiento de la genética mendeliana para determinar el riesgo fetal
Figure imgf000033_0001
Así, con la combinación alélica Aa (donde “A” describe el alelo dominante y “a” el alelo recesivo asociado con la enfermedad, de modo que con “Aa” tanto la madre como el padre son portadores de la alteración), el feto tiene un 25 % de probabilidades de tener la alteración genética (genotipo homocigota recesivo “aa” en la esquina inferior derecha de la Tabla 3 anterior).
En resumen, este ejemplo demuestra que la metodología de las TACS puede usarse con éxito para determinar la condición de portadora de la madre (y, si es necesario en función de la condición de portadora de la madre, también el estado de portador del padre) de alteraciones genéticas hereditarias, lo que, a su vez, permite determinar el riesgo fetal de heredar las alteraciones genéticas.
Ejemplo 11: Análisis de muestras de ADN fetal a partir de una biopsia embrionaria
En este ejemplo, muestras de ADN fetal obtenidas de células fetales de una biopsia embrionaria se analizaron mediante la metodología de las TACS que se muestra en la Figura 1 a fin de detectar anomalías cromosómicas en las muestras fetales.
Obtención de las muestras fetales, preparación de las bibliotecas y enriquecimiento mediante TACS
Se aplicó a muestras de células fetales obtenidas de biopsias de embriones de 3 y 5 días, respectivamente, la metodología de las TACS que se muestra en la Figura 1 a fin de determinar la presencia de anomalías genéticas. Todas las muestras se sometieron previamente a detección genética previa a la implantación (PGS) y a hibridación genómica comparativa basada en microarreglos (aCGH) como parte de los estudios de rutina. Los resultados de la aCGH se usaron como patrón de referencia de los resultados obtenidos.
Las células fetales recolectadas se lisaron inicialmente y se extrajo el ADN usando el kit PicoPLEX WGA Kit de Rubicon Genomics (Liang, L. et al. (2013) PLoS One 8(4), p. e61838).
En el caso de ciertas muertas de las que debía realizarse secuenciación de genoma completo, el material lisado se sometió a amplificación de genoma completo usando kits comerciales diseñados para tal fin. Brevemente, luego de un paso de preamplificación, el material lisado se amplificó usando una enzima de amplificación y una solución amortiguadora suministrada por el fabricante. Posteriormente, el ADN se purificó y, a continuación, se fragmentó por sonicación. Luego, el ADN fragmentado se procesó mediante métodos estándar de preparación de bibliotecas de secuenciación, como se describió en el Ejemplo 1. Estos suelen involucrar la ligación de adaptadores en los extremos de los fragmentos de ADN libre, seguida de amplificación. Además de la descripción que se proporcionó en el Ejemplo 1, hay kits de preparación de bibliotecas de secuenciación disponibles comercialmente para este fin.
En el caso de las muestras a las que se les debía aplicar el enriquecimiento basado en TACS, la biblioteca de secuenciación obtenida mediante los métodos anteriores se sometió a hibridación con TACS, esencialmente de acuerdo con lo que se describió en el Ejemplo 3. Para enriquecer la(s) región/ones de interés del/de los cromosoma(s) de interés, se hizo la mezcla de TACS con la biblioteca de secuenciación y, a continuación, se aislaron las secuencias de la biblioteca de secuenciación que habían hibridado con las TACS. Para facilitar el aislamiento de las secuencias deseadas enriquecidas, las TACS generalmente se modificaron de tal manera que las secuencias que hibridaran con las TACS pudieran separarse de aquellas que no hibridaran con las TACS. Por lo general, esto se logró fijando las TACS a un sustrato sólido como se describió en el Ejemplo 3, lo que permitió la separación física de las secuencias que habían hibridado con las TACS de aquellas que no habían hibridado a las TACS. La mezcla de TACS usada puede contener múltiples TACS individuales que se unen a diferentes secuencias blanco de interés o, como alternativa, puede contener múltiples familias de TACS, cada una de las cuales contiene múltiples miembros que se unen a la misma secuencia blanco de interés, pero con diferentes posiciones de inicio y/o fin en la secuencia blanco, tal y como se describió en el Ejemplo 5.
Para el análisis de muestras de ADN fetal mediante enriquecimiento basado en TACS, la mezcla de TACS puede contener TACS dirigidas a un subconjunto de cromosomas de interés (p. ej., los cromosomas 13, 18, 21, X e Y). Más preferentemente, sin embargo, la mezcla de TACS contiene diversas TACS dirigidas a todos los cromosomas del genoma humano (los cromosomas 1 a 22, X e Y), de modo que se abarque todo el genoma, lo que permite la determinación de anomalías cromosómicas en cualquier cromosoma del genoma humano.
Por lo general, se usó secuenciación de última generación (NGS) para secuenciar las secuencias enriquecidas mediante TACS (o el genoma completo, en el caso de las muestras analizadas por secuenciación de genoma completo), lo que arrojó recuentos muy exactos, así como información sobre la secuencia. Los productos de las bibliotecas se combinaron de forma equimolar y, luego, se secuenciaron.
Análisis de los datos
Los datos obtenidos por NGS se procesaron para eliminar las secuencias adaptadoras y las lecturas de baja calidad. Las lecturas cuya longitud era de al menos 25 bases luego de eliminar los adaptadores se alinearon contra la versión hg19 del genoma humano de referencia. Si correspondía, las lecturas duplicadas se eliminaron luego de la alineación. En los casos en que correspondía, el resultado de la secuenciación obtenido de la misma muestra, pero procesado en distintas calles (lanes) de secuenciación, se combinó en un único archivo de salida. El análisis de software dio como resultado una versión final de una muestra secuenciada alineada contra el genoma de referencia humano, de la cual luego se extrajo información en términos de los polimorfismos de nucleótidos individuales (SNP) en los loci de interés, la profundidad de lecturas por base y el tamaño de los fragmentos alineados.
Tanto en el caso de la secuenciación de genoma completo como en la secuenciación de genoma completo basada en TACS, se obtuvo la profundidad de lecturas de regiones genómicas no solapadas de tamaño fijo (p. ej., 50 kb o 1 Mb) usando la herramienta bedcov del paquete samtools, que calcula la suma de todas las lecturas en una región genómica especificada. El valor obtenido se dividió entre la longitud de las ventanas. En el caso de la secuenciación dirigida basada en TACS, la profundidad de lecturas se obtuvo usando la herramienta mpileup del paquete samtools, que proporciona información sobre la profundidad de lecturas por base en secuencias contiguas especificadas o la herramienta bedcov. La mediana de los valores medidos se asignó como profundidad de lecturas de un locus determinado. Los valores atípicos de profundidad de lecturas se eliminaron usando un enfoque de detección de valores atípicos basado en la mediana o en la media. Por último, se mitigó el sesgo en la profundidad de lecturas inducido por el contenido de GC usando un método de ajuste polinomial local para estimar la profundidad de lecturas esperada de las regiones en función de su contenido de GC y, luego, normalizando las regiones respecto de este valor esperado. La profundidad de lecturas normalizada de todas las regiones se usó como entrada para
(a) distintos algoritmos de clasificación basados en la segmentación (que se describen en más detalle abajo) y/o
(b) algoritmos de clasificación basados en puntuaciones (que se describen en más detalle abajo),
los cuales luego se usaron para determinar la ploidía de las regiones interrogadas, así como el tamaño de las aneuploidías genéticas, en su caso. Los algoritmos de clasificación basados en puntuaciones se usaron únicamente con los datos de secuenciación tras enriquecimiento.
Determinación de la ploidía usando algoritmos de segmentación
Se desarrollaron tres tipos diferentes de algoritmos de segmentación y estos se aplicaron al análisis de muestras de ADN fetal: (i) segmentación basada en la verosimilitud; (ii) segmentación usando ventanas pequeñas solapadas; y (iii) segmentación usando pruebas paralelas de a pares. Cada uno de estos algoritmos se describe en mayor detalle abajo, junto con los resultados de su aplicación.
Cada algoritmo es una colección de rutinas de procesamiento de datos y modelado estadístico dispuestas como una serie de pasos con el fin de decidir si los datos de secuenciación observados contradicen la hipótesis nula H0, definida de la siguiente manera:
H0 = No hay desviaciones de ploidía respecto de la ploidía esperada.
En el caso de los genomas humanos, la ploidía esperada es la diploidía. El enfoque de segmentación busca descubrir quiebres en datos consecutivos donde exista una distinción clara entre las profundidades de lecturas a cada lado, lo cual, a su vez, indica un cambio en la ploidía. A continuación, se describen los algoritmos.
A. Segmentación basada en la verosimilitud
Dado un conjunto de puntos de datos ordenados [x_{1},x_{2},x_{3},x_{4},..,x_{N}}, que describen la profundidad de lecturas, el objetivo era inferir en qué punto x_{i} la distribución de los datos cambia (es decir, hay un cambio significativo y consecutivo en la profundidad de lecturas). Este punto se rotuló como punto de quiebre $_{1}. Por ejemplo, si la distribución de los datos cambia después de x_{3}, entonces $_{1}= x_{3}. Si hay más de un punto de quiebre, el algoritmo rotulará el siguiente punto de quiebre descubierto como $_{2}. Los pasos del algoritmo fueron los siguientes:
(a) Dada una secuencia de datos ( í ,x_{í }), donde i = 1..N, el algoritmo estima la cantidad de modos de los datos. Para este fin, se empleó un proceso conocido como estimación de densidad bivariada basada en núcleos. Por ejemplo, si había un único punto de quiebre, el algoritmo indicaba que había 2 modos en la distribución de los datos.
(b) Decidir la ubicación del/de los punto(s) de quiebre en los datos, si es que hay uno o más puntos de quiebre. Esto se logró con el siguiente algoritmo:
(1) En función de la cantidad de puntos de quiebre detectados en (a), definir la función de densidad de probabilidad (pdf) de los datos, que depende de los valores desconocidos de los puntos de quiebre. Esta puede ser, sin carácter taxativo, una combinación de distribuciones normales.
(2) Calcular la estimación de máxima verosimilitud de la pdf del paso (1) para un conjunto fijo de valores del/de los punto(s) de quiebre.
(3) Repetir el paso (2) para diferentes conjuntos de valores del/de los punto(s) de quiebre.
(4) Seleccionar como punto(s) de quiebre el/los valor(es) que maximizan el paso (2).
Nótese que el algoritmo hace esto asignando la pertenencia en todas las combinaciones de todos los puntos de quiebre estimados en la parte (a). A modo de ejemplo, si la verosimilitud es máxima cuando los puntos de datos x_{1} a x_{3} provienen de la primera distribución, entonces $_{1}= x_{3} y la pertenencia de x_{1} a x_{3} se asigna a la primera distribución y la de x_{4} a x_{N}, a la(s) siguiente(s) distribución/ones identificada(s). Si la verosimilitud es máxima cuando todos los puntos de datos x_{r} se asignan al mismo modo, significa que no hay un punto de quiebre definido y todos los puntos de datos se asignan a la misma distribución. Para la implementación de esto, pueden usarse distintas distribuciones y métodos computacionales conocidos para la persona versada en la técnica.
En la Figura 11, se muestran resultados representativos de análisis de ADN fetal realizados usando el algoritmo de segmentación basado en la verosimilitud. Estos resultados demuestran que el análisis de segmentación basado en la verosimilitud puede clasificar aberraciones a nivel de cromosomas completos en muestras de ADN fetal (p. ej., de productos de la concepción sometidos a PGD/PGS). En el panel superior de la Figura 11, se presenta una muestra sin anomalías de ploidía de la que se realizó secuenciación de genoma completo. La profundidad de lecturas esperada de cada cromosoma (barras horizontales azules) se encuentra entre las líneas rojas que indican el rango de valores correspondiente a la ploidía normal, decidido a partir de los datos. Incluso si los puntos de datos (puntos grises) caen ocasionalmente fuera de los intervalos de confianza, esto no constituye evidencia suficiente para concluir que existen aberraciones de ploidía de acuerdo con la métrica probabilística empleada. Por el contrario, si suficientes puntos de datos caen fuera de los intervalos de confianza, la medida probabilística empleada puede asignar otra ploidía. Un caso tal se presenta en la parte inferior de la Figura 11, donde se determinó que la muestra tiene monosomía 18 y monosomía 20.
De modo similar, la Figura 15 presenta resultados del algoritmo usando datos derivados de las coordenadas específicas de las TACS, combinados con datos de productos de complementariedad parcial con las TACS que alinean a coordenadas que no son de las TACS y producen una baja cobertura a lo largo de todo el genoma. En el panel superior de la Figura 15a, se presenta una muestra masculina normal, mientras que, en el panel inferior, la muestra masculina se clasifica como una muestra con trisomía del cromosoma 13 y monosomía del cromosoma 21.
En la Figura 16, se presentan resultados del algoritmo usando únicamente datos de coordenadas específicas de las TACS. Al igual que en la Figura 15, en el panel superior de la Figura 16a, se presenta una muestra masculina normal, mientras que, en el panel inferior, la muestra masculina se clasifica como una muestra con trisomía del cromosoma 13 y monosomía del cromosoma 21.
Así, puede observarse que el algoritmo clasifica exitosamente datos de enriquecimiento basado en TACS y de secuenciación de genoma completo basada en TACS, lo que permite la correcta clasificación de las anomalías cromosómicas y, al mismo tiempo, requiere significativamente menos secuenciación que los enfoques de secuenciación masiva paralela shotgun.
B. Segmentación con ventanas pequeñas solapadas
Dado un conjunto de puntos de datos, el objetivo era determinar la pertenencia de cada punto de datos a un conjunto de clústeres de acuerdo con un esquema de umbrales. Para hacerlo, el algoritmo sigue estos pasos:
(a) Dado un conjunto de datos de profundidad de lecturas consecutivos x_{i} (i=1 a N), los datos se dividen en ventanas de tamaño fijo que se solapan entre sí. Por ejemplo, si w_{1} = {x_{1}, ..., x{10}} denota la primera ventana, entonces w_{2} = {x_{2}, ..., x_{11}}, w_{3} = {x_{3}, ..., x_{12}}, etc.
(b) Por cada ventana w_{k}, se calcula una puntuación S(k) = (X_{k} - m)/m, donde X_{k} es la mediana de w_{k} y m es la mediana de todos los valores de x_{i} de todos los cromosomas.
(c) Asignar la pertenencia a un clúster sobre la base de un valor de umbral s, donde:
si S(k) < s, se asigna pertenencia al clúster 1;
si s <= S(k) < C_{1}s, se asigna pertenencia al clúster 2;
si 2s <= S(k) < C_{2}s, se asigna pertenencia al clúster 3; etc.,
donde C_{j} son valores reales positivos mayores de uno. Por ejemplo, si s es un valor umbral particular, entonces todas las w_{k} para las cuales S(k) < s se asignan al clúster 1. Todas las w_{k} para las cuales s <= S(k) < C_{1}s se asignan al clúster 2. Todas las w_{k} consecutivas para las cuales 2s <= S(k) < C_{2}s se asignan al clúster 3, etc. El umbral s puede determinarse a partir de los datos o tratarse como un parámetro de ajuste.
En la Figura 12, se muestran resultados representativos de la determinación de la ploidía de muestras de ADN fetal (p. ej., productos de la concepción sometidos a PGS/PGD). En el panel superior, se representa una muestra normal. Al igual que en la Figura 11, la profundidad de lecturas esperada de cada cromosoma (barras horizontales azules) se encuentra entre las líneas rojas, que indican el rango de valores correspondiente a la ploidía normal. La profundidad de lecturas esperada se calcula a partir de los puntos de datos individuales (puntos grises). La profundidad de lecturas promedio y los puntos de datos de los cromosomas X e Y se encuentran por debajo de la línea roja inferior, lo que indica que hay una única copia de cada cromosoma, tal y como se espera en una muestra masculina. En la parte inferior de la Figura 12, se presenta una muestra aneuploide, que se clasifica como una muestra con trisomía 13 y mosaicismo en el cromosoma 19.
C. Segmentación mediante pruebas paralelas de a pares
En este enfoque de segmentación, primero se realiza una determinación de la ploidía con cromosomas completos y, luego, una determinación de la ploidía a nivel subcromosómico, de la siguiente manera:
(a) Los datos sobre la profundidad de lecturas de un cromosoma candidato se comparan con los datos sobre la profundidad de lecturas de otros cromosomas usando pruebas estadísticas no paramétricas. El proceso se repite hasta haber probado todos los cromosomas candidatos.
(b) Los resultados se ajustan por comparaciones múltiples para evitar resultados falsos positivos.
(c) En función del resultado de la prueba estadística con los datos ajustados, se asigna la ploidía relevante a los cromosomas candidatos que muestran evidencia significativa en contra de la hipótesis nula.
(d) Una vez que se ha determinado la ploidía a nivel de cromosomas completos, se evalúa la ploidía a nivel subcromosómico, para lo cual se dividen las regiones de cada cromosoma en tamaños más pequeños, al azar. Luego, cada región subcromosómica se evalúa para detectar desviaciones significativas respecto de la profundidad de lecturas a nivel del cromosoma completo usando pruebas estadísticas similares a las de los pasos (a) al (c).
En la Figura 13, se muestran resultados representativos de la determinación de la ploidía de muestras de ADN fetal (p. ej., productos de la concepción sometidos a PGS/PGD). En el panel superior, se representa una muestra normal. Al igual que en el caso de las Figuras 11, 12, 15 y 16, la profundidad de lecturas esperada de cada cromosoma se muestra con barras azules horizontales. En este caso, se omitieron las barras correspondientes a los intervalos de confianza. En la parte superior de la Figura 13, se presenta una muestra normal, mientras que, en la parte inferior, se presenta una muestra con muchas anomalías.
Determinación de la ploidía mediante clasificación basada en puntuaciones
Además de analizarse con los algoritmos basados en segmentación que se describieron anteriormente, las muestras de ADN fetal pueden analizarse mediante clasificación basada en puntuaciones. En primer lugar, los datos sobre profundidad de lecturas se transformaron mediante transformaciones de raíz cuadrada o logarítmicas para minimizar los sesgos de varianza. Luego, se aplicaron métodos como los que se describieron en el Ejemplo 4 para determinar la ploidía de cada región evaluada (pueden evaluarse regiones cromosómicas o subcromosómicas).
En la Figura 14, se muestran resultados representativos de la aplicación de un sistema de clasificación basado en puntuaciones a muestras de ADN fetal (p. ej., productos de la concepción sometidos a PGS/PGD). Los puntos verdes indican muestras con ploidía normal, mientras que todos los demás que caen por encima o por debajo de los umbrales de ploidía normal indican algún tipo de anomalía. Específicamente, los puntos azules corresponden a muestras con trisomía, los puntos color cian corresponden a muestras con trisomía parcial y los puntos rojos corresponden a muestras con monosomía.
En resumen, este ejemplo demuestra el análisis exitoso de muestras de ADN (p. ej., productos de la concepción sometidos a PGS/PGD) en busca de anomalías cromosómicas usando secuenciación de genoma completo o enriquecimiento basado en TACS, así como una variedad de enfoques de análisis estadístico.

Claims (15)

REIVINDICACIONES
1. Un método para evaluar el riesgo de una anomalía genética en una muestra de ADN que comprende secuencias genómicas de interés, donde el método comprende:
(a) preparar la biblioteca de secuenciación a partir de la muestra de ADN;
(b) hibridar la biblioteca de secuenciación con una mezcla de secuencias de captura de blancos (TACS) de doble hebra, donde la mezcla de TACS comprende múltiples familias de TACS dirigidas a diferentes secuencias genómicas de interés, donde cada familia de TACS comprende múltiples secuencias miembro, donde cada secuencia miembro se une a la misma secuencia genómica de interés, pero tiene diferentes posiciones de inicio y/o fin con respecto a un sistema de coordenadas de referencia de la secuencia genómica de interés y donde, además:
(i) cada secuencia miembro de cada familia de TACS tiene entre 150 y 260 pares de bases (bp) de longitud, y cada secuencia miembro tiene un extremo 5' y un extremo 3';
(ii) cada secuencia miembro se une a la misma secuencia genómica de interés a una distancia de al menos 50 pares de bases, tanto en el extremo 5' como en el extremo 3', de regiones que presentan variaciones en el número de copias (CNV), duplicaciones segmentales o elementos de ADN repetitivo; y
(iii) el contenido de GC de la mezcla de TACS, que se determina calculando el contenido de GC de cada secuencia miembro de cada familia de TACS, se encuentra entre el 19 % y el 80 %;
(c) aislar aquellos miembros de la biblioteca de secuenciación que se unen a la mezcla de TACS para obtener una biblioteca enriquecida;
(d) amplificar y secuenciar la biblioteca enriquecida; y
(e) realizar análisis estadísticos sobre las secuencias de la biblioteca enriquecida para determinar el riesgo de una anomalía cromosómica en la muestra de ADN,
donde las posiciones de inicio y/o fin de las secuencias miembro dentro de una familia de TACS con respecto a un sistema de coordenadas de referencia están escalonadas por entre 5 y 10 pares de bases.
2. El método de la reivindicación 1, donde la muestra de ADN es una muestra de plasma que comprende ADN libre (ADNl) o donde la muestra de ADN es una muestra de plasma materno que comprende ADN materno y ADN fetal libre (ADNfl).
3. El método de la reivindicación 1, donde la muestra de ADN comprende ADN libre tumoral (ADNlt), y cada secuencia miembro de una familia de TACS se une a una secuencia biomarcadora tumoral de interés, donde, opcionalmente, la muestra de ADN se selecciona de entre el grupo que consiste de una muestra de plasma, una muestra de orina, una muestra de esputo, una muestra de líquido cefalorraquídeo, una muestra de líquido peritoneal y una muestra de líquido pleural de un sujeto que tiene o presuntamente tiene un tumor.
4. El método de cualquiera de las reivindicaciones 1 a 3, donde la mezcla de TACS se une a múltiples secuencias de interés biomarcadoras tumorales seleccionadas de entre el grupo que comprende AKT1, ALK, APC, AR, ARAF, ATM, BAP1, BARD1, BMPR1A, BRAF, BRCA1, BRCA2, BRIP1, CDH1, CHEK2, CTNNB1, DDB2, DDR2, DICER1, EGFR, EPCAM, ESR1, FANCA, FANCB, FANCC, FANCD2, FANCE, FANCF, FANCG, FANCI, FANCL, FANCM, FBXW7, FLT3, FOXA1, FOXL2, GATA3, GNA11, GNAQ, GNAS, GREM1, HOXB13, IDH1, JAK2, KEAP1, KIT, KRAS, MET, MLH1, MPL, MRE11A, MSH2, MSH6, MTOR, MUTYH, NBN, NPM1, NRAS, NTRK1, PALB2, PMS2, POLD1, POLE, POLH, PTEN, RAD50, RAD51C, RAD51D, RAF1, RB1, RET, RUNX1, SLX4, SMAD4, SMARCA4, SPOP, STAT, STK11, TP53, VHL, XPA, XPC y combinaciones de las anteriores.
5. Un método para determinar el riesgo fetal de heredar una alteración genética, donde el método comprende:
(a) preparar una biblioteca de secuenciación a partir de una muestra que comprende ADN materno y fetal;
(b) hibridar la biblioteca de secuenciación con una mezcla de secuencias de captura de blancos (TACS) de doble hebra, donde la mezcla de TACS comprende múltiples familias de TACS dirigidas a diferentes secuencias genómicas de interés, donde cada familia de TACS comprende múltiples secuencias miembro, donde cada secuencia miembro se une a la misma secuencia genómica de interés que incluye loci de alelos mutantes de interés asociados con diferentes alteraciones genéticas, pero tiene diferentes posiciones de inicio y/o fin con respecto a un sistema de coordenadas de referencia del locus de interés y donde, además:
(i) cada secuencia miembro de cada familia de TACS tiene entre 150 y 260 pares de bases (bp) de longitud, y cada secuencia miembro tiene un extremo 5' y un extremo 3';
(ii) cada secuencia miembro se une al mismo locus de interés a una distancia de al menos 50 pares de bases, tanto en el extremo 5' como en el extremo 3', de regiones que presentan variaciones en el número de copias (CNV), duplicaciones segmentales o elementos de ADN repetitivo; y
(iii) el contenido de GC de la mezcla de TACS, que se determina calculando el contenido de GC de cada secuencia miembro de cada familia de TACS, se encuentra entre el 19 % y el 80 %;
(c) aislar aquellos miembros de la biblioteca de secuenciación que se unen a la mezcla de TACS para obtener una biblioteca enriquecida;
(d) amplificar y secuenciar la biblioteca enriquecida;
(e) realizar análisis estadísticos sobre las secuencias de la biblioteca enriquecida para determinar la condición de portadora de la madre en los loci de interés asociados con diferentes alteraciones genéticas donde, si la muestra arroja un resultado positivo en cuanto a la condición de portadora de la madre, el método comprende, además:
(f) obtener una muestra de ADN paterno y aplicar los pasos (a) al (e) a la muestra de ADN paterno para determinar la condición de portador del padre de aquellas enfermedades en las que el resultado haya sido positivo en cuanto a la condición de portadora de la madre; y (g) determinar el riesgo fetal de heredar una alteración genética sobre la base de la condición de portadora de la madre y, en los casos en los que se realiza el paso (f), de la condición de portador del padre,
donde las posiciones de inicio y/o fin de las secuencias miembro dentro de una familia de TACS con respecto a un sistema de coordenadas de referencia están escalonadas por entre 5 y 10 pares de bases.
6. El método de la reivindicación 5, donde los loci de alelos mutantes de interés están asociados con alteraciones genéticas seleccionadas de entre un grupo que comprende la abetalipoproteinemia; la artrogriposis con retraso mental y convulsiones; la enfermedad poliquística renal autosómica recesiva; el síndrome 12 de Bardet-Biedl; la beta-talasemia; la enfermedad de Canavan; la coreoacantocitosis; el síndrome de Crigler-Najjar de tipo I; la fibrosis quística; la trombofilia por factor V de Leiden; la deficiencia de factor XI; la disautonomía familiar; la fiebre mediterránea familiar; la anemia de Fanconi (relacionada con el gen FANCG); la encefalopatía por glicina (relacionada con el gen GLDC); la enfermedad por almacenamiento de glucógeno, tipo 3; la enfermedad por almacenamiento de glucógeno, tipo 7; el síndrome GRACILE; la miositis por cuerpos de inclusión, tipo 2; la acidemia isovalérica; el síndrome de Joubert, tipo 2; la epidermólisis ampollosa juntural, tipo Herlitz; la amaurosis congénita de Leber (relacionada con el gen LCA5); la hipoplasia de células de Leydig (resistencia a la hormona luteinizante); la distrofia muscular de la cintura y las extremidades, tipo 2E; la deficiencia de lipoamida deshidrogenasa (enfermedad de la orina con olor a jarabe de arce, tipo 3); la deficiencia de lipoproteinlipasa; la deficiencia de 3-hidroxiacil CoA-deshidrogenasa de cadena larga; la enfermedad de la orina con olor a jarabe de arce, tipo IB; la acidemia metilmalónica (relacionada con el gen MMAA); la deficiencia múltiple de sulfatasas; la neurohepatopatía de Navajo (síndrome del agotamiento de ADN mitocondrial hepatocerebral relacionado con el gen MPV17); la lipofuscinosis neuronal ceroidea (relacionada con el gen MFSD8); el síndrome de rotura de Nijmegen; la deficiencia de ornitina translocasa (síndrome de hiperornitinemia, hiperamonemia y homocitrulinuria [HHH]); los trastornos de la biogénesis del peroxisoma del espectro del síndrome de Zellweger (relacionados con el gen PEX1); los trastornos de la biogénesis del peroxisoma del espectro del síndrome de Zellweger (relacionados con el gen PEX2); la fenilcetonuria; la hipoplasia pontocerebelosa, tipo 2E; la picnodisostosis; la deficiencia de piruvato deshidrogenasa (relacionada con el gen PDHB); la distrofia de retina (relacionada con el gen RLBP1) (distrofia retinal de Bothnia); la retinitis pigmentosa (relacionada con el gen DHDDS); el síndrome de Sanfilippo, tipo D (mucopolisacaridosis IIID); la anemia de células falciformes; el síndrome de Sjogren-Larsson; la enfermedad de Tay-Sachs; el síndrome de Usher, tipo IF; la deficiencia de 3-metilcrotonil-CoA carboxilasa, tipo 1; la deficiencia de 3-metilcrotonil-CoA carboxilasa, tipo 2; y combinaciones de las anteriores.
7. Un método para evaluar el riesgo de una anomalía genética en una muestra de ADN que comprende predominantemente ADN fetal o embrionario y que comprende secuencias genómicas de interés, donde el método comprende:
(a) preparar la biblioteca de secuenciación a partir de la muestra de ADN que comprende predominantemente ADN fetal o embrionario;
(b) hibridar la biblioteca de secuenciación a una mezcla de secuencias de captura de blancos (TACS) de doble hebra, donde la mezcla de TACS comprende múltiples familias de TACS dirigidas a diferentes secuencias genómicas de interés, donde cada familia de TACS comprende múltiples secuencias miembro, donde cada secuencia miembro se une a la misma secuencia genómica de interés, pero tiene diferentes posiciones de inicio y/o fin con respecto a un sistema de coordenadas de referencia de la secuencia genómica de interés y donde, además:
(i) cada secuencia miembro de cada familia de TACS tiene entre 150 y 260 pares de bases (bp) de longitud, y cada secuencia miembro tiene un extremo 5' y un extremo 3';
(ii) cada secuencia miembro se une a la misma secuencia genómica de interés a una distancia de al menos 50 pares de bases, tanto en el extremo 5' como en el extremo 3', de regiones que presentan variaciones en el número de copias (CNV), duplicaciones segmentales o elementos de ADN repetitivo; y
(iii) el contenido de GC de la mezcla de TACS, que se determina calculando el contenido de GC de cada secuencia miembro de cada familia de TACS, se encuentra entre el 19 % y el 80 %;
(c) aislar aquellos miembros de la biblioteca de secuenciación que se unen a la mezcla de TACS para obtener una biblioteca enriquecida;
(d) amplificar y secuenciar la biblioteca enriquecida; y
(e) realizar análisis estadísticos sobre las secuencias de la biblioteca enriquecida para determinar el riesgo de una anomalía cromosómica en la muestra de ADN,
donde las posiciones de inicio y/o fin de las secuencias miembro dentro de una familia de TACS con respecto a un sistema de coordenadas de referencia están escalonadas por entre 5 y 10 pares de bases.
8. El método de la reivindicación 7, donde la muestra de ADN es de un embrión antes de su implantación, de trofoblastos intactos recolectados de una prueba de Papanicolaou materna o de células fetales halladas en el plasma materno, donde la muestra de ADN se obtiene directamente del tejido fetal, del líquido amniótico, de las vellosidades coriónicas o de productos de la concepción.
9. El método de cualquiera de las reivindicaciones anteriores, donde las múltiples familias de TACS comprenden miembros que se unen a los cromosomas 1-22, X e Y del genoma humano.
10. El método de una cualquiera de las reivindicaciones anteriores, donde la mezcla de TACS comprende al menos 5 familias de TACS diferentes, donde, opcionalmente, cada familia de TACS comprende al menos 3 secuencias miembro.
11. El método de cualquiera de las reivindicaciones anteriores, donde la anomalía genética es una aneuploidía cromosómica o donde la anomalía genética es una anomalía estructural, incluidas, sin carácter taxativo, las variaciones en el número de copias, incluidas las microdeleciones y las microduplicaciones, las inserciones, las deleciones, las translocaciones, las inversiones y las mutaciones pequeñas, incluidas las mutaciones puntuales y los perfiles de mutaciones.
12. El método de una cualquiera de las reivindicaciones anteriores, donde la secuenciación de la biblioteca enriquecida provee una profundidad de lecturas correspondiente a las secuencias genómicas de interés y profundidades de lecturas correspondientes a los loci de referencia y donde el análisis estadístico comprende aplicar un algoritmo que contrasta secuencialmente la profundidad de lecturas de los loci de las secuencias genómicas de interés contra la profundidad de lecturas de los loci de referencia, donde el algoritmo comprende pasos para: (a) eliminar los loci secuenciados de forma inadecuada; (b) mitigar el sesgo inducido por el contenido de GC; y (c) determinar la ploidía, donde, opcionalmente, el sesgo inducido por el contenido de GC se mitiga agrupando loci con contenidos de GC equiparables.
13. El método de una cualquiera de las reivindicaciones anteriores, donde la secuenciación de la biblioteca enriquecida provee el número y el tamaño de los fragmentos secuenciados correspondientes a coordenadas específicas de cada TACS y donde el análisis estadístico comprende aplicar un algoritmo que contrasta secuencialmente la proporción de tamaños de fragmentos de la secuencia genómica de interés contra la proporción de tamaños de fragmentos de los loci de referencia, donde el algoritmo comprende pasos para: (a) eliminar los valores atípicos de tamaños de fragmentos; (b) calcular la proporción de tamaños de fragmentos; y (c) determinar la ploidía.
14. El método de una cualquiera de las reivindicaciones anteriores, donde la mezcla de TACS se fija a un sustrato sólido, donde, opcionalmente, las TACS están biotiniladas y se unen a microesferas magnéticas recubiertas con estreptavidina.
15. El método de una cualquiera de las reivindicaciones anteriores, donde el análisis estadístico comprende un algoritmo de segmentación, donde, opcionalmente, el algoritmo de segmentación se selecciona de entre el grupo que consiste de la segmentación basada en verosimilitud, la segmentación con ventanas pequeñas solapadas, la segmentación con pruebas paralelas de a pares y combinaciones de los anteriores
ES18745508T 2017-07-07 2018-07-06 Enriquecimiento de regiones genómicas blanco para análisis paralelo multiplexado Active ES2920280T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201762529667P 2017-07-07 2017-07-07
PCT/EP2018/068402 WO2019008148A1 (en) 2017-07-07 2018-07-06 ENRICHMENT OF TARGETED GENOMIC REGIONS FOR MULTIPLEXED PARALLEL ANALYSIS

Publications (1)

Publication Number Publication Date
ES2920280T3 true ES2920280T3 (es) 2022-08-02

Family

ID=63012984

Family Applications (1)

Application Number Title Priority Date Filing Date
ES18745508T Active ES2920280T3 (es) 2017-07-07 2018-07-06 Enriquecimiento de regiones genómicas blanco para análisis paralelo multiplexado

Country Status (11)

Country Link
US (1) US20200157602A1 (es)
EP (1) EP3649257B1 (es)
AU (1) AU2018296568A1 (es)
CA (1) CA3068198A1 (es)
CY (1) CY1125226T1 (es)
DK (1) DK3649257T3 (es)
ES (1) ES2920280T3 (es)
PL (1) PL3649257T3 (es)
PT (1) PT3649257T (es)
WO (1) WO2019008148A1 (es)
ZA (1) ZA201908614B (es)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK3649259T3 (da) 2017-07-07 2022-08-15 Nipd Genetics Public Company Ltd Target-beriget multiplekset parallel analyse til vurdering af risiko for genetiske tilstande
AU2018298437A1 (en) 2017-07-07 2020-01-16 Medicover Public Co Ltd Target-enriched multiplexed parallel analysis for assessment of fetal DNA samples
CN113621692B (zh) * 2021-10-12 2022-02-22 北京求臻医疗器械有限公司 人类fgfr1基因拷贝数变异核酸标准物质及其制备方法、及试剂盒

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2429408T5 (es) 2006-02-02 2020-01-16 Univ Leland Stanford Junior Examen genético fetal no invasivo mediante análisis digital
US20080194414A1 (en) * 2006-04-24 2008-08-14 Albert Thomas J Enrichment and sequence analysis of genomic regions
WO2008027548A2 (en) * 2006-09-01 2008-03-06 Dana-Farber Cancer Institute, Inc. Microarray-based global chromatin structure mapping
EP3378951B1 (en) 2008-09-20 2020-05-13 The Board of Trustees of the Leland Stanford Junior University Noninvasive diagnosis of aneuploidy by sequencing
US20110039304A1 (en) * 2009-08-12 2011-02-17 President And Fellows Of Harvard College Methods to Generate Oligonucleotide Pools and Enrich Target Nucleic Acid Sequences
US20110160076A1 (en) * 2009-12-31 2011-06-30 Ventana Medical Systems, Inc. Methods for producing uniquely specific nucleic acid probes
US20120270739A1 (en) 2010-01-19 2012-10-25 Verinata Health, Inc. Method for sample analysis of aneuploidies in maternal samples
EP2366031B1 (en) 2010-01-19 2015-01-21 Verinata Health, Inc Sequencing methods in prenatal diagnoses
US20130123120A1 (en) * 2010-05-18 2013-05-16 Natera, Inc. Highly Multiplex PCR Methods and Compositions
EP3760731A1 (en) * 2011-02-09 2021-01-06 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US20150203907A1 (en) * 2014-01-17 2015-07-23 Florida State University Research Foundation Genome capture and sequencing to determine genome-wide copy number variation
GB201414451D0 (en) * 2014-08-14 2014-10-01 Oxford Gene Technology Operations Ltd Hybridisation column for nucleic acid enrichment
WO2016040446A1 (en) * 2014-09-10 2016-03-17 Good Start Genetics, Inc. Methods for selectively suppressing non-target sequences
ES2790533T3 (es) 2015-05-22 2020-10-28 Nipd Genetics Public Company Ltd Análisis paralelo múltiplex de regiones genómicas blanco para análisis prenatales no invasivos

Also Published As

Publication number Publication date
PT3649257T (pt) 2022-05-19
US20200157602A1 (en) 2020-05-21
PL3649257T3 (pl) 2022-07-18
EP3649257B1 (en) 2022-03-30
DK3649257T3 (da) 2022-07-04
WO2019008148A9 (en) 2019-05-16
WO2019008148A1 (en) 2019-01-10
EP3649257A1 (en) 2020-05-13
ZA201908614B (en) 2022-07-27
CA3068198A1 (en) 2019-01-10
AU2018296568A1 (en) 2020-01-16
CY1125226T1 (el) 2024-09-20

Similar Documents

Publication Publication Date Title
JP7510913B2 (ja) 高度多重pcr法および組成物
TWI611186B (zh) 多重妊娠之分子檢驗
TWI727156B (zh) Dna混合物中之組織甲基化模式分析
TWI732771B (zh) Dna混合物中組織之單倍型甲基化模式分析
TWI458976B (zh) 由母體之生物樣本分析胎兒之基因體
BR112020027023A2 (pt) Métodos para detecção de dna livre de células derivado de doador
ES2790533T3 (es) Análisis paralelo múltiplex de regiones genómicas blanco para análisis prenatales no invasivos
ES2924548T3 (es) Análisis paralelo multiplexado con enriquecimiento de blancos para la evaluación tumoral
US20140206552A1 (en) Methods for preimplantation genetic diagnosis by sequencing
BR112013020220B1 (pt) Método para determinar o estado de ploidia de um cromossomo em um feto em gestação
ES2920280T3 (es) Enriquecimiento de regiones genómicas blanco para análisis paralelo multiplexado
CN118613594A (zh) 用于非侵入性产前测试的方法
US20240200138A1 (en) Target-Enriched Multiplexed Parallel Analysis For Assessment Of Risk For Genetic Conditions
TW201823472A (zh) 基於單倍型之通用非侵入性單基因疾病產前檢測
ES2924224T3 (es) Análisis paralelo multiplexado con enriquecimiento de blancos para la evaluación de muestras de ADN fetal
ES2625079T3 (es) Composiciones y métodos por PCR altamente multiplexada