ES2915399T3 - Detección de expansiones de repetición con datos de secuenciación de lectura corta - Google Patents

Detección de expansiones de repetición con datos de secuenciación de lectura corta Download PDF

Info

Publication number
ES2915399T3
ES2915399T3 ES15771527T ES15771527T ES2915399T3 ES 2915399 T3 ES2915399 T3 ES 2915399T3 ES 15771527 T ES15771527 T ES 15771527T ES 15771527 T ES15771527 T ES 15771527T ES 2915399 T3 ES2915399 T3 ES 2915399T3
Authority
ES
Spain
Prior art keywords
reads
repeat
sequence
test sample
paired
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES15771527T
Other languages
English (en)
Inventor
Michael A Eberle
Richard Shaw
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Illumina Cambridge Ltd
Original Assignee
Illumina Cambridge Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Illumina Cambridge Ltd filed Critical Illumina Cambridge Ltd
Application granted granted Critical
Publication of ES2915399T3 publication Critical patent/ES2915399T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

Un método implementado por ordenador para determinar la presencia o ausencia de una expansión de repetición de una secuencia de repetición de interés en una muestra de prueba que comprende ácidos nucleicos, en donde la secuencia de repetición de interés comprende repeticiones de una unidad repetitiva de nucleótidos, comprendiendo el método: (a) obtener lecturas de extremos emparejados de la muestra de prueba, y alinear las lecturas de extremos emparejados a una secuencia de referencia que comprende la secuencia de repetición de interés, obteniendo de este modo lecturas alineadas y lecturas no alineadas, en donde las lecturas alineadas se alinean con una determinada ubicación en la secuencia de referencia, y en donde las lecturas no alineadas incluyen lecturas que no pueden alinearse o que están mal alineadas con la secuencia de referencia; (b) identificar lecturas de anclaje en las lecturas de extremos emparejados identificando lecturas alineadas que están alineadas con la secuencia de repetición de interés o con una ubicación situada a no más de aproximadamente 5000 pb de la secuencia de repetición de interés como las lecturas de anclaje, e identificar lecturas ancladas en las lecturas de extremos emparejados identificando lecturas no alineadas que están emparejadas con las lecturas de anclaje como las lecturas ancladas; y (c) determinar si es probable que la expansión de repetición esté presente en la muestra de prueba basándose al menos en parte en los números de repeticiones de la unidad repetitiva en las lecturas de anclaje identificadas, en donde (c) comprende: obtener el número de lecturas de anclaje identificadas que son lecturas de alto recuento, en donde las lecturas de alto recuento comprenden lecturas que tienen más repeticiones que un valor umbral; y comparar el número de lecturas de alto recuento en la muestra de prueba con un criterio de llamada, y en donde el valor umbral para las lecturas de alto recuento es de aproximadamente el 80 % del número máximo de repeticiones, máximo que se calcula a partir de la longitud de las lecturas de extremos emparejados y la longitud de la unidad repetitiva.

Description

DESCRIPCIÓN
Detección de expansiones de repetición con datos de secuenciación de lectura corta
Antecedentes
Las expansiones de repetición son una clase especial de variantes microsatélites y minisatélites que implican polimorfismos por repeticiones cortas en tándem (STR). Las expansiones de repetición también se conocen como mutaciones dinámicas debido a su inestabilidad cuando las repeticiones cortas en tándem se expanden más allá de determinados tamaños. Los trastornos genéticos causados por expansiones de repetición inestables incluyen, entre otros, síndrome X frágil (FXS), la enfermedad de Huntington y la esclerosis lateral amiotrófica (ELA).
La identificación de expansiones de repetición es importante en el diagnóstico y el tratamiento de determinados trastornos genéticos. Sin embargo, es difícil determinar secuencias de repetición usando lecturas cortas que no atraviesan totalmente la secuencia de repetición. Por lo tanto, es deseable desarrollar métodos que usen lecturas cortas para identificar expansiones de repetición médicamente relevantes. “ Rapid detection of expanded short tandem repeats in personal genomics using hybrid sequencing” , Doi et. al., Bioinformatics, vol. 30 n°. 6 2014 propone procedimientos ab initio para detectar y localizar STR largas usando frecuencia de ocurrencias de 100 pb.
Resumen
Las implementaciones descritas se refieren a métodos, aparatos, sistemas y productos de programas informáticos para determinar expansiones de repetición de interés, tales como expansiones de secuencias de repetición que están relacionadas con trastornos genéticos. Las implementaciones descritas usan secuenciación de extremos emparejadados. Se proporcionan métodos para detectar repeticiones de una o más unidades repetitivas en una región genética local. Si una región local de una muestra de prueba tiene más repeticiones que una población no afectada, la muestra de prueba puede identificarse como una muestra que tiene la expansión de repetición considerada.
Los aspectos se definen en las reivindicaciones adjuntas.
Aunque los ejemplos en la presente memoria se refieren a seres humanos y el lenguaje se dirige principalmente a aspectos humanos, los conceptos descritos en la presente memoria son aplicables a genomas de cualquier planta o animal. Estos y otros objetos y características de la presente descripción serán más plenamente evidentes a partir de la siguiente descripción y las reivindicaciones adjuntas, o pueden aprenderse mediante la práctica de la descripción como se expone a continuación.
Breve descripción de los dibujos
La Figura 1A es un diagrama esquemático que ilustra dificultades en el alineamiento de lecturas de secuencia con una secuencia de repetición en una secuencia de referencia.
La Figura 1B es un diagrama esquemático que ilustra el alineamiento de lecturas de secuencia usando lecturas de extremos emparejados según determinadas implementaciones descritas para superar las dificultades que se muestran en la Figura 1A.
La Figura 2 es un diagrama de flujo que proporciona una representación de alto nivel de un ejemplo de un método para determinar la presencia o ausencia de una expansión de una secuencia de repetición en una muestra.
Las Figuras 3 y 4 son diagramas de flujo que ilustran ejemplos de métodos para detectar una expansión de repetición usando lecturas de extremos emparejados.
La Figura 5 es un diagrama de flujo de un método que usa lecturas no alineadas no asociadas con cualquier secuencia de repetición de interés para determinar una expansión de repetición.
La Figura 6 es un diagrama de bloques de un sistema disperso para procesar una muestra de prueba.
La Figura 7 muestra la distribución de los recuentos de triplete CGG en lecturas de extremos emparejados alineadas o ancladas al gen FMR1 de 1013 muestras de control.
La Figura 8 muestra una distribución de valores de p de la prueba de rangos de Mann-Whitney (MW) para las muestras de control.
La Figura 9 muestra la distribución del número de repeticiones de la muestra que tiene la puntuación de prueba de rangos de MW más alto y el valor p más bajo.
La Figura 10 muestra datos para una muestra de paciente hembra que se sabe tiene la expansión de repetición de gen FMR1 y síndrome de X frágil.
La Figura 11 muestra datos para una muestra macho de paciente frágil X que tiene 645 copias del triplete CGG en el cromosoma X.
La Figura 12 muestra la misma distribución de valores de p de la prueba de rangos de Mann-Whitney para las muestras de control que la Figura 8, con la indicación adicional de cuatro de las muestras hembra de puntuación más alta y cuatro de las muestras macho de puntuación más alta.
La Figura 13 muestra los números de muestras que tienen diversos números de lecturas de alto recuento, incluidas muestras que tienen síndrome de X frágil mostradas en barras en sombreado.
La Figura 14 muestra la distribución simulada teórica del número esperado de lecturas totalmente dentro de una secuencia de repetición de 60 tripletes.
La Figura 15 muestra la media, el 5° percentil y el 95° percentil del número esperado de lecturas totalmente en la secuencia de repetición que tiene varios números de tripletes basados en simulaciones con las mismas condiciones experimentales que en la Figura 14.
La Figura 16 muestra los mismos datos que la Figura 15, mientras se identifica la observación de tener 20 lecturas totalmente en la secuencia de repetición.
La Figura 17 muestra los números de muestras que tienen varios números de lecturas de alto recuento, incluidas muestras que tienen esclerosis lateral amiotrófica (ELA) mostradas en barras en sombreado.
Descripción detallada
La descripción se refiere a métodos, aparatos, sistemas y productos de programas informáticos para identificar expansiones de repetición de interés, tales como expansiones de secuencias de repetición que son médicamente significativas. Los ejemplos de expansiones de repetición incluyen, aunque no de forma limitativa, expansiones asociadas con trastornos genéticos tales como síndrome X frágil, ELA, enfermedad de Huntington, ataxia de Friedreich, ataxia espinocerebelosa, atrofia muscular espino-bulbar, distrofia miotónica, enfermedad de Machado-Joseph, y atrofia dentatorubro-pálido-luisiana.
Salvo que se indique lo contrario, la práctica de los métodos y sistemas descritos en la presente memoria implica técnicas y aparatos convencionales comúnmente utilizados en biología molecular, microbiología, purificación de proteínas, ingeniería de proteínas, secuenciación de proteínas y ADN, y campos de ADN recombinante que están dentro de los conocimientos de la técnica. Dichas técnicas y aparatos son conocidos por los expertos en la técnica y se describen en numerosos textos y trabajos de referencia (véase, por ejemplo, Sambrook et al., “ Molecular Cloning: A Laboratory Manual,” tercera edición (Cold Spring Harbor), [2001]); y Ausubel et al., “Current Protocols in Molecular Biology” [1987]).
Los intervalos numéricos incluyen los números que definen el intervalo. Se pretende que cada limitación numérica máxima dada a lo largo de esta memoria descriptiva incluya cada limitación numérica inferior, como si dichas limitaciones numéricas inferiores se escribieran expresamente en la presente memoria. Cada limitación numérica mínima dada a lo largo de esta memoria descriptiva incluirá cada limitación numérica más alta, como si tales limitaciones numéricas superiores estuvieran expresamente escritas en la presente memoria. Cada intervalo numérico dado a lo largo de esta memoria descriptiva incluirá cada intervalo numérico más estrecho que se encuentre dentro de dicho intervalo numérico más amplio, como si dichos intervalos numéricos más estrechos estuvieran expresamente escritos en la presente memoria.
Los títulos proporcionados en la presente memoria no pretenden limitar la descripción.
Salvo que se defina de cualquier otra manera en la presente memoria, todos los términos técnicos y científicos utilizados en la presente memoria tienen el significado que entiende comúnmente un experto en la técnica. Diversos diccionarios científicos que incluyen los términos incluidos en la presente memoria son bien conocidos y están disponibles para los expertos en la técnica. Aunque cualquier método y materiales similares o equivalentes a los descritos en la presente memoria encuentran uso en la práctica o prueba de las realizaciones descritas en la presente memoria, se describen algunos métodos y materiales.
Los términos definidos inmediatamente a continuación se describen más totalmente por referencia a la memoria descriptiva en su conjunto. Debe entenderse que esta descripción no se limita a la metodología, protocolos y reactivos particulares descritos, ya que estos pueden variar, dependiendo del contexto en que los expertos en la técnica los usen.
Definiciones
Como se utiliza en la presente memoria, los términos singulares “un(o)” , “una” y “el/la” incluyen la referencia plural salvo que el contexto indique claramente algo distinto.
Salvo que se indique lo contrario, los ácidos nucleicos se escriben de izquierda a derecha en orientación de 5' a 3' y las secuencias de aminoácidos se escriben de izquierda a derecha en orientación de amino a carboxilo, respectivamente.
El término “pluralidad” se refiere a más de un elemento. Por ejemplo, el término se usa en la presente memoria en referencia a una serie de moléculas de ácido nucleico o lecturas de secuencia que es suficiente para identificar diferencias significativas en las expansiones de repetición en muestras de prueba y muestras de control usando los métodos descritos en la presente memoria.
El término “secuencia de repetición” se refiere a una secuencia de ácido nucleico más larga que incluye casos de repetición de una secuencia más corta. La secuencia más corta se denomina “unidad repetitiva” en la presente memoria. Los casos de repetición de la unidad repetitiva se denominan “ repeticiones” o “copias” de la unidad repetitiva. En muchos contextos, una secuencia de repetición está asociada con un gen que codifica una proteína. En otras situaciones, una secuencia de repetición puede estar en una región no codificante. Las unidades repetitivas pueden producirse en la secuencia de repetición con o sin roturas entre las unidades repetitivas. Por ejemplo, en muestras normales, el gen FMR1 tiende a incluir una rotura AGG en las repeticiones CGG, por ejemplo, (CGG)10 (AGG) (CGG)9. Las muestras que carecen de una rotura, así como secuencias de repetición largas que tienen pocas roturas, son propensas a repetir la expansión del gen asociado, lo que puede conducir a enfermedades genéticas ya que las repeticiones se expanden por encima de un determinado número. En diversas realizaciones de la descripción, el número de repeticiones se cuenta como repeticiones in-frame -(o, “en marco” , es decir, con conservación del marco de lectura) independientemente de las roturas. Los métodos para estimar repeticiones in-frame se describen en más detalle a continuación en la memoria.
En diversas realizaciones, las unidades repetitivas incluyen de 2 a 100 nucleótidos. Muchas unidades repetitivas estudiadas ampliamente son unidades de trinucleótidos o hexanucleótidos. Otras unidades repetitivas que se han estudiado bien y son aplicables a las realizaciones descritas en la presente memoria incluyen, aunque no de forma limitativa, unidades de 4, 5, 6, 8, 12, 33 o 42 nucleótidos. Véase, por ejemplo, Richards (2001) Human Molecular Genetics, Vol. 10, No. 20, 2187-2194. Las aplicaciones de la descripción no se limitan al número específico de bases de nucleótidos descritas anteriormente, siempre que sean relativamente cortas en comparación con la secuencia de repetición que tiene múltiples repeticiones o copias de las unidades repetitivas. Por ejemplo, una unidad repetitiva puede incluir al menos 3, 6, 8, 10, 15, 20, 30, 40, 50 nucleótidos. Alternativa o adicionalmente, una unidad repetitiva puede incluir como máximo aproximadamente 100, 90, 80, 70, 60, 50, 40, 30, 20, 10, 6 o 3 nucleótidos.
Una secuencia de repetición puede expandirse en evolución, desarrollo y condiciones mutagénicas, creando más copias de la misma unidad repetitiva. Esto se denomina “expansión de repetición” en el campo. Este proceso también se denomina “ mutación dinámica” debido a la naturaleza inestable de la expansión de la unidad repetitiva. Se ha demostrado que algunas expansiones de repetición están asociadas con trastornos genéticos y síntomas patológicos. Otras expansiones de repetición no se conocen o estudian bien. Los métodos descritos en la presente memoria pueden usarse para identificar tanto las expansiones de repetición previamente conocidas como otras nuevas. En algunas realizaciones, una secuencia de repetición que tiene una expansión de repetición tiene una longitud mayor que aproximadamente 500 pares de bases (pb). En algunas realizaciones, una secuencia de repetición que tiene la expansión de repetición tiene una longitud mayor que aproximadamente 1000 pb, 2000 pb, 3000 pb, 4000 pb o 5000 pb, etc.
La expresión “ lecturas de extremos emparejados” se refiere a las lecturas obtenidas de la secuenciación de extremos emparejados que obtiene una lectura de cada extremo de un fragmento nucleico. La secuenciación de extremos emparejados implica fragmentar el ADN en secuencias denominadas insertos. En algunos protocolos tales como algunos usados por Illumina, las lecturas de insertos más cortos (por ejemplo, del orden de decenas a cientos de pb) se denominan lecturas de extremos emparejados de inserto corto o simplemente lecturas de extremos emparejados o paired end. Por el contrario, las lecturas de insertos más largos (por ejemplo, del orden de varios miles de pb) se denominan lecturas mate-pair o de pares de parejas. En esta descripción, pueden usarse lecturas de extremos emparejados de inserción corta y lecturas de pares de parejas de insertos largos y no se diferencian con respecto al proceso para analizar expansiones de repetición. Por lo tanto, la expresión “ lecturas de extremos emparejados” puede referirse tanto a lecturas de extremos emparejados de inserción corta como a lecturas de pares de parejas de insertos largos, que se describen en más detalle a continuación en la memoria. En algunas realizaciones, las lecturas de extremos emparejados incluyen lecturas de aproximadamente 20 pb a 1000 pb. En algunas realizaciones, las lecturas de extremos emparejados incluyen lecturas de aproximadamente 50 pb a 500 pb, de aproximadamente 80 pb a 150 pb, o de aproximadamente 100 pb. Se entenderá que las dos lecturas en un extremo emparejado no tienen por qué estar ubicadas en el extremo del fragmento que se secuencia. Más bien, una o ambas lecturas pueden estar próximas al extremo del fragmento. Además, los métodos ilustrados en la presente memoria en el contexto de lecturas de extremos emparejados pueden llevarse a cabo con cualquiera de entre una variedad de lecturas emparejadas con independencia de si las lecturas se derivan del extremo de un fragmento u otra parte de un fragmento.
Como se utiliza en la presente memoria, los términos “alineamiento” y “alinear” se refieren al proceso de comparar una lectura con una secuencia de referencia y, por lo tanto, determinar si la secuencia de referencia contiene la secuencia de lectura. Un proceso de alineamiento intenta determinar si una lectura se puede cartografiar (o correlacionar) a una secuencia de referencia, pero no siempre da como resultado una lectura alineada con la secuencia de referencia. Si la secuencia de referencia contiene la lectura, la lectura puede cartografiarse a la secuencia de referencia o, en determinadas realizaciones, a una ubicación particular en la secuencia de referencia. En algunos casos, el alineamiento simplemente dice si una lectura es o no un miembro de una secuencia de referencia particular (es decir, si la lectura está presente o ausente en la secuencia de referencia). Por ejemplo, el alineamiento de una lectura con la secuencia de referencia para el cromosoma 13 humano indicará si la lectura está presente en la secuencia de referencia para el cromosoma 13. Una herramienta que proporciona esta información puede llamarse un analizador de pertenencia de conjunto. En algunos casos, un alineamiento indica adicionalmente una ubicación en la secuencia de referencia donde la lectura se cartografía. Por ejemplo, si la secuencia de referencia es la secuencia del genoma humano completo, un alineamiento puede indicar que una lectura está presente en el cromosoma 13, y puede indicar además que la lectura está en una cadena y/o sitio particular del cromosoma 13.
Las lecturas alineadas son una o más secuencias que se identifican como una coincidencia en términos del orden de sus moléculas de ácido nucleico a una secuencia de referencia conocida, tal como un genoma de referencia. Una lectura alineada y su ubicación determinada en la secuencia de referencia constituyen una marcador de secuencia. El alineamiento puede realizarse manualmente, aunque de forma típica se implementa mediante un algoritmo informático, ya que sería imposible alinear las lecturas en un período de tiempo razonable para implementar los métodos descritos en la presente memoria. Un ejemplo de un algoritmo de secuencias de alineamiento es el programa informático de alineamiento local eficiente de datos de nucleótidos (ELAND) distribuido como parte del flujo de trabajo de análisis genómico de Illumina. Alternativamente, se puede emplear un filtro de Bloom o un analizador de pertenencia de conjunto similar para alinear las lecturas con los genomas de referencia. Véase la solicitud de patente de EE. UU. n°. 14/354.528, presentada el 25 de abril de 2014. La coincidencia de una secuencia leída en alineamiento puede ser una coincidencia de secuencia del 100 % o menos del 100 % (es decir, una coincidencia no perfecta).
El término “cartografía” usado en la presente memoria se refiere a asignar una secuencia leída a una secuencia más grande, por ejemplo, un genoma de referencia, mediante alineamiento.
En algunos casos, una lectura final de dos lecturas de extremos emparejados se alinea con una secuencia de repetición de una secuencia de referencia, mientras que la otra lectura final de las dos lecturas de extremos emparejados no está alineada. En tales casos, la lectura emparejada que está alineada con una secuencia de repetición de una secuencia de referencia se denomina “ lectura de anclaje” Una lectura de extremo emparejado no alineada con la secuencia de repetición pero que está emparejada con la lectura de anclaje se denomina lectura anclada. Como tal, una lectura no alineada puede anclarse y asociarse con la secuencia de repetición. En algunas realizaciones, las lecturas no alineadas incluyen las lecturas que no pueden estar alineadas con la secuencia de referencia y las lecturas que están mal alineadas con una secuencia de referencia. Cuando una lectura se alinea con una secuencia de referencia con una serie de bases no coincidentes por encima de un determinado criterio, la lectura se considera mal alineada. Por ejemplo, en diversas realizaciones, una lectura se considera mal alineada cuando está alineada con al menos aproximadamente 1,2, 3, 4, 5, 6, 7, 8, 9 o 10 emparejamientos erróneos. En algunos casos, ambas lecturas de un par están alineadas con una secuencia de referencia. En tales casos, ambas lecturas pueden analizarse como “ lecturas de anclaje” en diversas implementaciones.
Los términos “ polinucleótido” , “ácido nucleico” y “ moléculas de ácido nucleico” se usan indistintamente y se refieren a una secuencia de nucleótidos unida covalentemente (es decir, ribonucleótidos para el ARN y desoxirribonucleótidos para el ADN) en la que la posición 3' de la pentosa de un nucleótido está unida por un grupo fosfodiéster a la posición 5' de la pentosa del siguiente. Los nucleótidos incluyen secuencias de cualquier forma de ácido nucleico, incluidas, aunque no de forma limitativa, moléculas de ARN y ADN tales como moléculas de ADN libre de células (ADNlc). El término “ polinucleótido” incluye, sin limitación, polinucleótidos monocatenarios y bicatenarios.
El término “muestra de prueba” en la presente memoria se refiere a una muestra, de forma típica derivada de un fluido biológico, célula, tejido, órgano u organismo, que incluye un ácido nucleico o una mezcla de ácidos nucleicos que tienen al menos una secuencia de ácido nucleico que se va a analizar en términos de variación del número de copias. En determinadas realizaciones, la muestra tiene al menos una secuencia de ácido nucleico cuyo número de copias se sospecha que tiene una variación. Dichas muestras incluyen, aunque no de forma limitativa, esputo/fluido oral, líquido amniótico, sangre, una fracción de sangre, o muestras de biopsia con aguja fina, orina, fluido peritoneal, líquido pleural y similares. Aunque la muestra a menudo se toma de un sujeto humano (por ejemplo, un paciente), los ensayos se pueden usar para variación en el número de copias (CNV) en muestras de cualquier mamífero, incluidos, aunque no de forma limitativa, perros, gatos, caballos, cabras, ovejas, ganado vacuno, cerdos, etc. La muestra puede usarse directamente tal como se obtiene de la fuente biológica o después de un pretratamiento para modificar el carácter de la muestra. Por ejemplo, dicho pretratamiento puede incluir preparar plasma a partir de sangre, diluir fluidos viscosos, etc. Los métodos de pretratamiento también pueden implicar, aunque no de forma limitativa, filtración, precipitación, dilución, destilación, mezcla, centrifugación, congelación, liofilización, concentración, amplificación, fragmentación de ácido nucleico, inactivación de componentes interferentes, la adición de reactivos, lisis, etc. Si dichos métodos de pretratamiento se emplean con respecto a la muestra, dichos métodos de pretratamiento son de forma típica tales que el(los) ácido(s) nucleico(s) de interés permanecen en la muestra de prueba, a veces en una concentración proporcional a la de una muestra de prueba no tratada (por ejemplo, a saber, una muestra que no se somete a ninguno de dicho(s) método(s) de pretratamiento). Dichas muestras “tratadas” o “procesadas” siguen siendo consideradas muestras “de prueba” biológicas con respecto a los métodos descritos en la presente memoria.
Una muestra de control puede ser una muestra de control negativo o positivo. Una “ muestra de control negativo” o “ muestra no afectada” se refiere a una muestra que incluye ácidos nucleicos que se sabe o se espera que tengan una secuencia de repetición con una serie de repeticiones dentro de un intervalo que no sea patógeno. Se conoce o se espera que una “ muestra de control positivo” o “ muestra afectada” tenga una secuencia de repetición con una serie de repeticiones dentro de un intervalo que sea patógeno. Las repeticiones de la secuencia de repetición en una muestra de control negativo de forma típica no se han expandido más allá de un intervalo normal, mientras que las repeticiones de una secuencia de repetición en una muestra de control positivo se han expandido de forma típica más allá de un intervalo normal. Como tal, los ácidos nucleicos en una muestra de prueba pueden compararse con una o más muestras de control.
El término “secuencia de interés” en la presente memoria se refiere a una secuencia de ácido nucleico que está asociada con una diferencia en la representación de secuencia en individuos sanos frente a enfermos. Una secuencia de interés puede ser una secuencia de repetición en un cromosoma que está expandida en una enfermedad o afección genética. Una secuencia de interés puede ser una parte de un cromosoma, un gen, una secuencia codificante o no codificante.
El término “secuenciación de próxima generación (NGS)” en la presente memoria se refiere a métodos de secuenciación que permiten la secuenciación masivamente en paralelo de moléculas clonalmente amplificadas y de moléculas de ácido nucleico individuales. Los ejemplos no limitativos de NGS incluyen secuenciación por síntesis usando terminadores de colorante reversibles y secuenciación por ligación.
El término “ parámetro” en la presente memoria se refiere a un valor numérico que caracteriza una propiedad física. Con frecuencia, un parámetro caracteriza numéricamente un conjunto de datos cuantitativos y/o una relación numérica entre conjuntos de datos cuantitativos. Por ejemplo, una relación (o función de una relación) entre el número de marcadores de secuencia cartografiadas a un cromosoma y la longitud del cromosoma al que se cartografían los marcadores, es un parámetro.
El término “criterio de llamada” en la presente memoria se refiere a cualquier número o cantidad que se usa como un valor de corte para caracterizar una muestra tal como una muestra de prueba que contiene un ácido nucleico de un organismo sospechoso de tener una afección médica. El umbral puede compararse con un valor de parámetro para determinar si una muestra que da lugar a dicho valor de parámetro sugiere que el organismo tiene la afección médica. En determinadas realizaciones, un valor umbral se calcula usando un conjunto de datos de control y sirve como un límite del diagnóstico de una expansión de repetición en un organismo. En algunas implementaciones, si se supera un umbral mediante los resultados obtenidos de los métodos descritos en la presente memoria, puede diagnosticarse que un sujeto tiene una expansión de repetición. Los valores umbral apropiados para los métodos descritos en la presente memoria pueden identificarse analizando los valores calculados para un conjunto de entrenamiento de muestras o muestras de control. Los valores de umbral también pueden calcularse a partir de parámetros empíricos tales como profundidad de secuenciación, longitud de lectura, longitud de secuencia de repetición, etc. Alternativamente, también se pueden usar muestras afectadas que se sabe tienen expansión de repetición para confirmar que los umbrales elegidos son útiles para diferenciar muestras afectadas de las no afectadas en un conjunto de prueba. La elección de un umbral depende del nivel de confianza con que el usuario desea realizar la clasificación. En algunas realizaciones, el conjunto de entrenamiento usado para identificar valores de umbral apropiados comprende al menos 10, al menos 20, al menos 30, al menos 40, al menos 50, al menos 60, al menos 70, al menos 80, al menos 90, al menos 100, al menos 200, al menos 300, al menos 400, al menos 500, al menos 600, al menos 700, al menos 800, al menos 900, al menos 1000, al menos 2000, al menos 3000, al menos 4000 o más muestras calificadas. Puede ser ventajoso usar conjuntos más grandes de muestras calificadas para mejorar la utilidad de diagnóstico de los valores umbral.
El término “ lectura” se refiere a una secuencia leída de una parte de una muestra de ácido nucleico. De forma típica, aunque no necesariamente, una lectura representa una secuencia corta de pares de bases contiguos en la muestra. La lectura puede representarse simbólicamente mediante la secuencia de pares de bases (en ATCG) de la parte de muestra. Puede almacenarse en un dispositivo de memoria y procesarse según sea apropiado para determinar si coincide con una secuencia de referencia o cumple otros criterios. Se puede obtener una lectura directamente de un aparato de secuenciación o indirectamente a partir de información de secuencia almacenada con respecto a la muestra. En algunos casos, una lectura es una secuencia de ADN de longitud suficiente (por ejemplo, al menos aproximadamente 25 pb) que puede usarse para identificar una secuencia o región más grande, por ejemplo, que puede alinearse y cartografiarse a un cromosoma o región genómica o gen.
El término “ lectura genómica” se usa en referencia a una lectura de cualquier segmento en todo el genoma de un individuo.
El término “ sitio” se refiere a una posición única (es decir, ID cromosómica, posición y orientación cromosómica) en un genoma de referencia. En algunas realizaciones, un sitio puede ser un residuo, una marcador de secuencia o una posición de segmento en una secuencia.
Como se utiliza en la presente memoria, la expresión “genoma de referencia” o “secuencia de referencia” se refiere a cualquier secuencia de genoma conocida, ya sea parcial o completa, de cualquier organismo o virus que pueda usarse para referenciar secuencias identificadas de un sujeto. Por ejemplo, un genoma de referencia usado para sujetos humanos, así como muchos otros organismos, se encuentra en el Centro Nacional de Información Biotecnológica en ncbi.nlm.nih.gov. Un “genoma” se refiere a la información genética completa de un organismo o virus, expresada en secuencias de ácido nucleico.
En diversas realizaciones, la secuencia de referencia es significativamente más grande que las lecturas con las que están alineadas. Por ejemplo, puede ser al menos aproximadamente 100 veces mayor, o al menos aproximadamente 1000 veces mayor, o al menos aproximadamente 10.000 veces mayor, o al menos aproximadamente 105 veces mayor, o al menos aproximadamente 106 veces mayor, o al menos aproximadamente 107 veces mayor.
En un ejemplo, la secuencia de referencia es la de un genoma humano de longitud completa. Dichas secuencias pueden denominarse secuencias de referencia genómicas. En otro ejemplo, la secuencia de referencia se limita a un cromosoma humano específico tal como el cromosoma 13. En algunas realizaciones, un cromosoma Y de referencia es la secuencia cromosómica Y de la versión del genoma humano hg 19. Dichas secuencias pueden denominarse secuencias de referencia cromosómicas. Otros ejemplos de secuencias de referencia incluyen genomas de otras especies, así como cromosomas, regiones subcromosómicas (tales como cadenas), etc., de cualquier especie.
En algunas realizaciones, una secuencia de referencia para el alineamiento puede tener una longitud de secuencia de aproximadamente 1 a aproximadamente 100 veces la longitud de una lectura. En tales realizaciones, el alineamiento y la secuenciación se consideran un alineamiento o secuenciación específicos, en lugar de un alineamiento o secuenciación del genoma completo. En estas realizaciones, la secuencia de referencia de forma típica incluye un gen y/o una secuencia de repetición de interés.
En diversas realizaciones, la secuencia de referencia es una secuencia de consenso u otra combinación derivada de múltiples individuos. Sin embargo, en determinadas aplicaciones, la secuencia de referencia puede tomarse de un determinado individuo.
La expresión “secuencia clínicamente relevante” en la presente memoria se refiere a una secuencia de ácido nucleico que se conoce o se sospecha que está asociada o está implicada con una afección genética o enfermedad. La determinación de la ausencia o presencia de una secuencia clínicamente relevante puede ser útil para determinar un diagnóstico o confirmar un diagnóstico de una afección médica, o proporcionar un pronóstico para el desarrollo de una enfermedad.
El término “obtenido” cuando se usa en el contexto de un ácido nucleico o una mezcla de ácidos nucleicos, en la presente memoria se refiere a los medios por los cuales se obtienen el(los) ácido(s) nucleico(s) de la fuente de la que se originan. Por ejemplo, en una realización, una mezcla de ácidos nucleicos que se deriva de dos genomas diferentes significa que los ácidos nucleicos, por ejemplo, ADNlc, fueron liberados naturalmente por las células a través de procesos naturales tales como necrosis o apoptosis. En otra realización, una mezcla de ácidos nucleicos que se deriva de dos genomas diferentes significa que los ácidos nucleicos se extrajeron de dos tipos diferentes de células de un sujeto.
El término “basado en” cuando se usa en el contexto de obtener un valor cuantitativo específico, en la presente memoria se refiere al uso de otra cantidad como entrada para calcular el valor cuantitativo específico como una salida.
El término “ muestra del paciente” en la presente memoria se refiere a una muestra biológica obtenida de un paciente, es decir, un receptor de atención médica, cuidado o tratamiento. La muestra del paciente puede ser cualquiera de las muestras descritas en la presente memoria. En determinadas realizaciones, la muestra del paciente se obtiene mediante procedimientos no invasivos, por ejemplo, muestra de sangre periférica o una muestra de heces. Los métodos descritos en la presente memoria no tienen por qué limitarse a seres humanos. Por lo tanto, se contemplan diversas aplicaciones veterinarias en cuyo caso la muestra del paciente puede ser una muestra de un mamífero no humano (por ejemplo, un felino, un porcino, un equino, un bovino, y similares).
El término “fluido biológico” en la presente memoria se refiere a un líquido tomado de una fuente biológica e incluye, por ejemplo, sangre, suero, plasma, esputo, líquido de lavado, líquido cefalorraquídeo, orina, semen, sudor, lágrimas, saliva y similares. Como se utiliza en la presente memoria, los términos “sangre” , “plasma” y “suero” abarcan expresamente fracciones o porciones procesadas de la misma. De manera similar, cuando se toma una muestra de una biopsia, un hisopo, un frotis, etc., la “ muestra” abarca expresamente una fracción o parte procesada derivada de la biopsia, hisopado, frotis, etc.
Como se utiliza en la presente memoria, el término “correspondiente a” a veces se refiere a una secuencia de ácido nucleico, por ejemplo, un gen o un cromosoma, que está presente en el genoma de diferentes sujetos, y que no tiene necesariamente la misma secuencia en todos los genomas, pero sirve para proporcionar la identidad en lugar de la información genética de una secuencia de interés, por ejemplo, un gen o cromosoma.
Como se utiliza en la presente memoria, el término “cromosoma” se refiere al portador hereditario del gene que porta una célula viva, que se deriva de cadenas de cromatina que comprenden componentes de ADN y proteína (especialmente histonas). En la presente memoria se utiliza el sistema convencional de numeración de cromosomas del genoma humano individual reconocido internacionalmente.
Como se utiliza en la presente memoria, el término “ longitud polinucleotídica” se refiere al número absoluto de subunidades monoméricas de ácido nucleico (nucleótidos) en una secuencia o en una región de un genoma de referencia. El término “ longitud cromosómica” se refiere a la longitud conocida del cromosoma dada en pares de bases, por ejemplo, proporcionada en el conjunto NCB136/hg18 del cromosoma humano que se encuentra en la red en |genome|.|ucsc|.|edu/cgi-bin/hgTracks?hgsid=167155613&chromInfoPage=.
El término “sujeto” en la presente memoria se refiere a un sujeto humano así como a un sujeto no humano tal como un mamífero, un invertebrado, un vertebrado, un hongo, una levadura, una bacteria y un virus. Aunque los ejemplos de la presente memoria se refieren a seres humanos y el lenguaje se dirige principalmente a aspectos humanos, los conceptos descritos en la presente memoria son aplicables a genomas de cualquier planta o animal, y son útiles en los campos de la medicina veterinaria, las ciencias animales, los laboratorios de investigación y similares.
El término “cebador” , como se utiliza en la presente memoria, se refiere a un oligonucleótido aislado que es capaz de actuar como un punto del inicio de la síntesis cuando se coloca en condiciones inductivas a la síntesis de un producto de extensión (por ejemplo, las condiciones incluyen nucleótidos, un agente inductor tal como ADN polimerasa y una temperatura y pH adecuados). El cebador puede ser preferentemente monocatenario para la máxima eficiencia en la amplificación, pero alternativamente puede ser bicatenario. Si es bicatenario, el cebador se trata primero para separar sus cadenas antes de usarse para preparar productos de extensión. El cebador puede ser un oligodesoxirribonucleótido. El cebador es suficientemente largo para cebar la síntesis de productos de extensión en presencia del agente inductor. Las longitudes exactas de los cebadores dependerán de muchos factores, incluida la temperatura, la fuente del cebador, el uso del método y los parámetros utilizados para el diseño del cebador.
Introducción
Las expansiones de repetición son una clase especial de variantes de tipo microsatélite y minisatélite que implican polimorfismos STR. Las expansiones de repetición también se conocen como mutaciones dinámicas debido a su inestabilidad cuando las repeticiones cortas en tándem se expanden más allá de determinados tamaños. Los trastornos genéticos causados por expansiones de repetición inestables incluyen el síndrome X frágil, la enfermedad de Huntington y la ELA. La Tabla 1 ilustra un pequeño número de expansiones de repetición patógenas que son diferentes de las secuencias de repetición en muestras normales. Las columnas muestran genes asociados con las secuencias de repetición, las secuencias de ácido nucleico de las unidades repetitivas, el número de repeticiones de las unidades repetitivas para secuencias normales y patógenas, y las enfermedades asociadas con las expansiones de repetición.
Tabla 1. Ejemplos de expansiones de repetición patógenas
Figure imgf000008_0001
Los trastornos genéticos que implican expansiones de repetición son heterogéneos en muchos aspectos. El tamaño de la unidad repetitiva, el grado de expansión, la ubicación con respecto al gen afectado y el mecanismo patógeno pueden variar de un trastorno a otro. Por ejemplo, la ELA implica una expansión de repetición de hexanucleótidos de los nucleótidos GGGGCC en el gen C9orf72 ubicado en el brazo corto del marco de lectura abierto 72 del cromosoma 9. Por el contrario, el síndrome de X frágil está asociado con la expansión de la repetición de trinucleótidos CGG (repetición del triplete) que afecta al gen de retraso mental X frágil 1 (FMR1) en el cromosoma X. Una expansión de las repeticiones CGG puede dar como resultado un fallo de expresión de la proteína de retraso mental X frágil (FMRP), que se requiere para el desarrollo neuronal normal. Dependiendo de la longitud de la repetición de CGG, un alelo puede clasificarse como normal (no afectado por el síndrome), una premutación (en riesgo de trastornos asociados a X frágil), o mutación completa (normalmente afectada por el síndrome). De acuerdo con diversas estimaciones, hay de 230 a 4000 repeticiones de CGG en genes de FMR1 mutados que causan un síndrome de X frágil en pacientes afectados, en comparación con 60 a 230 repeticiones en portadores propensos a ataxia, y de 5 a 54 repeticiones en individuos no afectados. La expansión de repetición del gen FMR1 es una causa de autismo, ya que aproximadamente un 5 % de los individuos autistas tienen la expansión de repetición FMR1. McLennan, et al. (2011), Fragile X Syndrome, Current Genomics 12 (3): 216-224. Un diagnóstico definitivo del síndrome de X frágil implica pruebas genéticas para determinar el número de repeticiones de CGG.
Se han identificado diversas propiedades generales de enfermedades relacionadas con la expansión de repetición en múltiples estudios. La expansión de repetición o la mutación dinámica generalmente se manifiesta como un aumento en el número de repeticiones, estando relacionada la tasa de mutación con el número de repeticiones. Los eventos raros tales como la pérdida de interrupción de repetición pueden dar lugar a alelos que tienen una mayor probabilidad de expansión, siendo conocidos tales eventos como eventos fundadores. Puede haber una relación entre el número de repeticiones en la secuencia de repetición y la gravedad y/o aparición de la enfermedad causada por la expansión de repetición.
Por lo tanto, la identificación y la llamada de expansiones de repetición es importante en el diagnóstico y el tratamiento de diversas enfermedades. Sin embargo, identificar secuencias de repetición, especialmente usando lecturas que no atraviesan totalmente la secuencia de repetición, conlleva diversos desafíos. Primero, es difícil alinear repeticiones a una secuencia de referencia porque no hay una clara correlación de uno a uno entre la lectura y el genoma de referencia. De forma adicional, incluso si una lectura se alinea con una secuencia de referencia, las lecturas a menudo son demasiado cortas para cubrir totalmente una secuencia de repetición médicamente relevante. Por ejemplo, las lecturas pueden ser de aproximadamente 100 pb. En comparación, una expansión de repetición puede abarcar cientos de miles de pares de bases. En el síndrome de X frágil, por ejemplo, el gen FMR1 puede tener bastantes más de 1000 repeticiones, y hasta más de 3000 pb. Por lo tanto, una lectura de 100 pb no permite cartografiar la longitud completa de la expansión de repetición. Además, es posible que el ensamblado de lecturas cortas en una secuencia más larga no logre vencer el problema de lectura corta frente a repetición larga, porque es difícil ensamblar lecturas cortas en una secuencia más larga debido al alineamiento ambiguo de repeticiones en una lectura con repeticiones en otra lectura.
El alineamiento es la principal causa de pérdida de información ya sea debido a que la secuencia de referencia no es completa, a que la correspondencia entre una lectura y sitios de la secuencia de referencia no es única, o desviaciones significativas de la secuencia de referencia. Los errores de secuenciación sistemática y otros problemas que influyen en la precisión de la lectura son un factor secundario cuando no se consiguen detectar secuencias de repetición. En algunos protocolos experimentales, aproximadamente 7 % de lecturas están desalineadas o tienen una puntuación MAPQ de 0. Incluso a medida que los investigadores trabajan para mejorar la tecnología de secuenciación y las herramientas de análisis, siempre habrá una cantidad significativa de lecturas no alineables y mal alineadas. Las implementaciones de los métodos en la presente memoria se basan en lecturas no alineables o mal alineadas para identificar expansiones de repetición.
Los métodos en los que se usan lecturas largas para detectar la expansión de repetición conllevan sus propios desafíos. En la secuenciación de próxima generación, las tecnologías actualmente disponibles en las que se usan lecturas más largas son más lentas y más propensas a producir errores que las tecnologías en las que se usan lecturas más cortas. Además, las lecturas largas no son factibles para algunas aplicaciones, tales como la secuenciación de ADN libre de células. El ADN libre de células obtenido en sangre materna puede usarse para el diagnóstico genético prenatal. El ADN libre de células existe como fragmentos de forma típica de longitud inferior a 200 pb. Como tales, los métodos en los que se usan lecturas largas no son factibles para el diagnóstico genético prenatal usando ADN libre de células. Las implementaciones de los métodos descritos en la presente memoria usan lecturas cortas para identificar expansiones de repetición que son médicamente relevantes.
En algunas implementaciones, los métodos descritos abordan los desafíos mencionados anteriormente en la identificación y llamada de expansiones de repetición mediante la utilización de secuenciación de extremos emparejados. La secuenciación de extremos emparejados implica fragmentar el ADN en secuencias denominadas insertos. En algunos protocolos tales como algunos usados por Illumina, las lecturas de insertos más cortos (por ejemplo, del orden de decenas a cientos de pb) se denominan lecturas de extremos emparejados de inserto corto o simplemente lecturas de extremos emparejados. Por el contrario, las lecturas de insertos más largos (por ejemplo, del orden de varios miles de pb) se denominan lecturas de pares de parejas. Como se ha señalado anteriormente, las lecturas de extremos emparejados de inserción corta y las lecturas de pares de parejas de insertos largos pueden usarse en diversas implementaciones de los métodos descritos en la presente memoria.
La Figura 1A es una ilustración esquemática que muestra determinadas dificultades para alinear lecturas de secuencia con una secuencia de repetición en una secuencia de referencia, especialmente cuando se alinean lecturas de secuencia obtenidas de una muestra de una secuencia de repetición larga que tiene una expansión de repetición. En la parte inferior de la Figura 1A hay una secuencia de referencia 101 que tiene una secuencia de repetición relativamente corta 103 ilustrada por líneas en sombreado verticales. En el centro de la figura hay una secuencia hipotética 105 de una muestra de paciente que tiene una secuencia de repetición larga 107 que alberga una expansión de repetición, también ilustrada por líneas en sombreado verticales. En la parte superior de la figura se ilustran lecturas de secuencia 109 y 111 mostradas en ubicaciones de los sitios correspondientes de la secuencia de muestra 105. En algunas de estas lecturas de secuencia, por ejemplo, las lecturas 111, algunos pares de bases se originan a partir de la secuencia de repetición larga 107, como se ilustra también mediante líneas en sombreado verticales y queda resaltado en un círculo. Las lecturas 111 que tienen estas repeticiones son potencialmente difíciles de alinear a la secuencia de referencia 101, porque las repeticiones no tienen ubicaciones correspondientes claras en la secuencia de referencia 101. Debido a que estas lecturas potencialmente no alineadas no pueden asociarse claramente con la secuencia de repetición 103 en la secuencia de referencia 101, es difícil obtener información sobre la secuencia de repetición y la expansión de la secuencia de repetición de estas lecturas potencialmente no alineadas 111. Además, debido a que estas lecturas tienden a ser más cortas que la secuencia de repetición larga 107 que alberga la expansión de repetición, no pueden proporcionar directamente información definitiva sobre la identidad o ubicación de la secuencia de repetición 107. De forma adicional, las repeticiones de las lecturas 111 las hacen difíciles de ensamblar debido a sus ubicaciones correspondientes ambiguas en la secuencia de referencia 101 y la relación ambigua entre las lecturas 111. Las lecturas que proceden en parte de la secuencia de repetición larga 107 en la muestra, las ilustradas como semisombreadas y en negro semirelleno, pueden ser alineadas por las bases que se originan fuera de la secuencia de repetición 107. Si las lecturas tienen una cantidad demasiado baja de pares de bases fuera de la secuencia de repetición 107, las lecturas pueden quedar mal alineadas o pueden no quedar alineadas. Por lo tanto, algunas de estas lecturas con repeticiones parciales pueden analizarse como lecturas de anclaje y otras analizarse como lecturas ancladas como se describe en más detalle a continuación.
La Figura 1B es un diagrama esquemático que ilustra cómo se pueden utilizar lecturas de extremos emparejados en algunas realizaciones descritas para superar las dificultades mostradas en la Figura 1A. En la secuenciación de extremos emparejados, la secuenciación se produce a partir de ambos extremos de fragmentos de ácidos nucleicos en una muestra de prueba. En la parte inferior de la Figura 1B se ilustran una secuencia de referencia 101 y una secuencia de muestra 105, así como lecturas 109 y 111 equivalentes a las mostradas en la Figura 1A. En la parte superior de la Figura 1B se ilustra un fragmento 125 derivado de una secuencia de muestra de prueba 105 y una región 131 de cebador de lectura 1 y una región 133 de cebador de lectura 2 para obtener dos lecturas 135 y 137 de las lecturas de extremos emparejados. El fragmento 125 también se denomina inserto para las lecturas de extremos emparejados. En algunas realizaciones, los insertos pueden amplificarse con o sin PCR. Algunas secuencias de repetición, tales como las que incluyen un gran número de repeticiones de GC o GCC, no pueden secuenciarse bien con métodos tradicionales que incluyen la amplificación por PCR. Para tales secuencias, la amplificación podría ser sin PCR. Para otras secuencias, la amplificación puede realizarse con PCR.
El inserto 125 ilustrado en la Figura 1B corresponde, o se deriva de, una sección de la secuencia de muestra 105 flanqueada por dos flechas verticales ilustradas en la mitad inferior de la figura. Específicamente, el inserto 125 alberga una sección de repetición 127 que corresponde a parte de la repetición larga 107 en la secuencia de muestra 105. La longitud de los insertos se puede ajustar para diversas aplicaciones. En algunas realizaciones, los insertos pueden ser algo más cortos que la secuencia de repetición de interés o la secuencia de repetición que tiene la expansión de repetición. En otras realizaciones, los insertos pueden tener una longitud similar a la secuencia de repetición o la secuencia de repetición que tiene una expansión de repetición. En otras realizaciones adicionales, los insertos pueden incluso ser algo más largos que la secuencia de repetición o la secuencia de repetición que tiene la expansión de repetición. Dichos insertos pueden ser insertos largos para la secuenciación de pares de parejas en algunas realizaciones descritas en más detalle a continuación. De forma típica, las lecturas obtenidas de los insertos son más cortas que la secuencia de repetición. Debido a que los insertos son más largos que las lecturas, las lecturas de extremos emparejados pueden capturar mejor señales de un tramo más largo de secuencia de repetición en la muestra que las lecturas de extremo único.
El inserto 125 ilustrado tiene dos regiones de cebadores de lectura 131 y 133 en dos extremos del inserto. En algunas realizaciones, las regiones de cebador de lectura son inherentes al inserto. En otras realizaciones, las regiones de cebador se introducen en el inserto mediante ligación o extensión. En el extremo izquierdo del inserto se ilustra una región 131 de cebador de lectura 1 que permite la hibridación de un cebador 132 de lectura 1 al inserto 125. La extensión del cebador 132 de lectura 1 genera una primera lectura, o lectura 1, marcada como 135. En el extremo derecho del inserto 125 se ilustra una región 133 de cebador de lectura 2 que permite la hibridación de un cebador 134 de lectura 2 al inserto 125, iniciando la segunda lectura, o lectura 2, marcada como 137. En algunas realizaciones, el inserto 125 también puede incluir regiones de código de barras índice (no mostradas en la figura aquí), proporcionando un mecanismo para identificar diferentes muestras en un proceso de secuenciación multiplexada. En algunas realizaciones, las lecturas de extremos emparejados 135 y 137 pueden obtenerse por secuenciación de Illumina mediante plataformas de síntesis. Un ejemplo de un proceso de secuenciación implementado en dicha plataforma se describe en más detalle a continuación en la sección de métodos de secuenciación, proceso que crea dos lecturas de extremos emparejados y dos lecturas de índice.
Las lecturas de extremos emparejados obtenidas como se ilustra en la Figura 1B pueden entonces alinearse con la secuencia de referencia 101 que tiene una secuencia de repetición relativamente corta 103. Como tal, se conocen la ubicación relativa y la dirección de un par de lecturas. Esto permite asociar indirectamente una lectura no alineable o mal alineada tal como las que se muestran en el círculo 111 con la secuencia de repetición 107 relativamente larga en la secuencia de muestra 105 a través de la lectura 109 emparejada correspondiente de lectura como se ve en la parte inferior de la Figura 1B. En un ejemplo ilustrativo, las lecturas obtenidas de secuenciación de extremos emparejados son de aproximadamente 100 pb y los insertos son de aproximadamente 500 pb. En esta configuración de ejemplo, las ubicaciones relativas de las dos lecturas de extremos emparejados son de aproximadamente 300 pares de bases separadas de sus extremos 3', y tienen direcciones opuestas. La relación entre los pares de lectura permite asociar mejor las lecturas a regiones de repetición. En algunos casos, una primera lectura en un par se alinea con una secuencia que no es de repetición que flanquea la región de repetición en una secuencia de referencia, y la segunda lectura en el par no se alinea correctamente con la referencia. Véase, por ejemplo, el par de lecturas 109a y 111a ilustradas en la mitad inferior de la Figura 1B, siendo la de la izquierda 109a del par la primera lectura, y siendo la de la derecha 111a la segunda lectura. Dado el emparejamiento de las dos lecturas 109a y 111a, la segunda lectura 111a puede asociarse con la región de repetición 107 en la secuencia de muestra 105, a pesar del hecho de que la segunda lectura 111a no puede alinearse con la secuencia de referencia 101. Conociendo la distancia y la dirección de la segunda lectura 111a con respecto a la primera lectura 109a, se puede determinar además la ubicación de la segunda lectura 111a dentro de la región 107 de repetición larga. Si existe una rotura entre repeticiones en la segunda lectura 111a, también se puede determinar la ubicación de rotura con respecto a la secuencia de referencia 101. Una lectura tal como la lectura 109a de la izquierda que está alineada con la referencia se denomina una lectura de anclaje en esta descripción. Una lectura tal como la de la derecha 111a que no está alineada con la secuencia de referencia pero está emparejada con una lectura de anclaje se denomina lectura anclada. Como tal, una secuencia no alineada puede fijarse a y asociarse con la expansión de repetición. De esta manera, se pueden usar lecturas cortas para detectar expansiones de repetición largas. Aunque el desafío de detectar expansiones de repetición de forma típica aumenta con la longitud de la expansión debido a la mayor dificultad de secuenciación, los métodos descritos en la presente memoria pueden detectar una señal más alta de secuencias de expansión de repetición más largas que de secuencias de expansión de repetición más cortas. Esto es así porque a medida que la secuencia de repetición o la expansión de repetición se alarga, más lecturas se anclarán a la región de expansión, más lecturas pueden caer totalmente en la región de repetición, y pueden producirse más repeticiones por lectura.
En algunas realizaciones, los métodos descritos implican analizar la distribución de frecuencia de los números de repeticiones encontrados en las lecturas de anclaje y en las ancladas. En algunas realizaciones, solo se analizan las lecturas ancladas. En otras realizaciones, se analizan tanto las lecturas de anclaje como las ancladas. La distribución de una muestra de prueba puede compararse con un criterio obtenido empíricamente o teóricamente que separa las muestras no afectadas de las muestras afectadas. De esta manera, se puede determinar si la muestra de prueba tiene o no la expansión de repetición en consideración, y hacer una llamada clínicamente relevante.
Los métodos y aparatos descritos en la presente memoria pueden emplear tecnología de secuenciación de nueva generación (Ng S), que permite la secuenciación masivamente en paralelo. En determinadas realizaciones, las plantillas de ADN amplificadas clonalmente o moléculas de ADN individuales se secuencian en una forma masivamente en paralelo dentro de una celda de flujo (por ejemplo, como se describe en Volkerding et al. Clin Chem 55:641-658 [2009]; Metzker M Nature Rev 11:31-46 [2010]). Las tecnologías de secuenciación de NGS incluyen, aunque no de forma limitativa, pirosecuenciación, secuenciación por síntesis con terminadores de colorante reversibles, secuenciación por ligadura de sonda de oligonucleótido y secuenciación de semiconductores de iones. El ADN de muestras individuales puede secuenciarse individualmente (es decir, secuenciación singleplex) o el ADN de múltiples muestras puede agruparse y secuenciarse como moléculas genómicas indexadas (es decir, secuenciación multiplexada) en una sola tanda de secuenciación, para generar hasta varios cientos de millones de lecturas de secuencias de ADN. A continuación se describen en más detalle ejemplos de tecnologías de secuenciación que pueden usarse para obtener la información de secuencia de acuerdo con el presente método.
Diversos análisis de expansión de repetición en los que se usan muestras de ADN implican alinear o cartografiar lecturas de secuencia de un secuenciador con una secuencia de referencia. Una secuencia de referencia puede ser la secuencia de un genoma completo, la secuencia de un cromosoma, la secuencia de una región subcromosómica, etc. Desde una perspectiva computacional, las repeticiones crean ambigüedades en el alineamiento, que, a su vez, pueden producir sesgos y errores incluso en el nivel de recuento de cromosomas completo. Las lecturas de extremos emparejados acopladas con una longitud de inserto ajustable en diversas realizaciones pueden ayudar a eliminar la ambigüedad en el alineamiento de secuencias de repetición y la detección de expansión de repetición.
identificación de expansiones de repetición
Usando las realizaciones descritas en la presente memoria, se pueden determinar diversas afecciones genéticas relacionadas con la expansión de repetición con alta eficiencia, sensibilidad y/o selectividad en relación con los métodos convencionales. Algunas realizaciones de la invención proporcionan métodos para identificar y llamar expansiones de repetición médicamente relevantes tales como la expansión de repetición CGG que provoca retraso mental en el síndrome de X frágil usando lecturas de secuencia que no atraviesan totalmente la secuencia de repetición. Las lecturas cortas tales como las lecturas de 100 pb no son lo suficientemente largas como para secuenciar a través de muchas expansiones de repetición. Sin embargo, cuando se analizan con los métodos descritos, las muestras con una expansión de repetición muestran un exceso estadísticamente significativo de lecturas que contienen un gran número de la secuencia de repetición. De forma adicional, las expansiones de repetición extremadamente grandes contienen pares de lecturas no alineadas donde ambas lecturas están totalmente o casi totalmente compuestas de la secuencia de repetición. Las muestras normales se usan para identificar las expectativas de fondo.
La creencia convencional es que una expansión de repetición no puede detectarse sin lecturas que abarquen toda la repetición. Los enfoques anteriores para detectar expansiones de repetición usan secuenciación dirigida con lecturas largas y, en algunos casos, no han tenido éxito debido a las lecturas que no son lo suficientemente largas como para abarcar la secuencia de repetición. Los resultados de algunas realizaciones descritas se han recibido con sorpresa en parte porque usan datos de secuencia normales (no dirigidos) y una longitud de lectura de tan solo aproximadamente 100 pb, pero dan como resultado una sensibilidad muy alta para detectar expansiones de repetición. Los métodos expuestos en la presente memoria pueden detectar el número de unidades repetitivas en una expansión de repetición usando lecturas emparejadas que tienen una longitud de inserción (es decir, dos lecturas de secuencia y secuencia intermedia) que es más corta que la longitud de toda la secuencia de repetición.
Volviendo a los detalles de los métodos para determinar la presencia de expansión de repetición de acuerdo con algunas realizaciones, la Figura 2 muestra un diagrama de flujo que proporciona una representación de alto nivel de realizaciones para determinar la presencia o ausencia de una expansión de repetición de una secuencia de repetición en una muestra. La secuencia de repetición es una secuencia de ácido nucleico que incluye la aparición repetitiva de una secuencia corta denominada unidad repetitiva. La Tabla 1 anterior proporciona ejemplos de unidades repetitivas, el número de repeticiones de las unidades repetitivas en las secuencias de repetición para secuencias normales y patógenas, los genes asociados con las secuencias de repetición y las enfermedades asociadas con la expansión de repetición. El proceso 200 en la Figura 2 comienza obteniendo lecturas de extremos emparejados de una muestra de prueba. Véase el bloque 202. Las lecturas de extremos emparejados se han procesado para alinearlas con una secuencia de referencia que incluye una secuencia de repetición de interés. En algunos contextos, el proceso de alineamiento también se denomina proceso de cartografiado. La muestra de prueba incluye ácido nucleico y puede estar en forma de fluidos corporales, tejidos, etc., tal como se describe en más detalle más adelante en la sección de muestras. Las lecturas de secuencia se han sometido a un proceso de alineamiento para ser cartografiadas a una secuencia de referencia. Pueden usarse diversas herramientas y algoritmos de alineamiento para intentar alinear las lecturas a la secuencia de referencia como se describe en otra parte de la descripción. Como es habitual, en los algoritmos de alineamiento, algunas lecturas se alinean con éxito con la secuencia de referencia, mientras que otras pueden no alinearse con éxito o pueden quedar mal alineadas con la secuencia de referencia. Las lecturas que se alinean sucesivamente con la secuencia de referencia se asocian con sitios en la secuencia de referencia. Las lecturas alineadas y sus sitios asociados también se denominan marcadores de secuencia. Como se ha explicado anteriormente, algunas lecturas de secuencia que contienen un gran número de repeticiones tienden a ser más difíciles de alinear con la secuencia de referencia. Cuando una lectura se alinea con una secuencia de referencia con una serie de bases no coincidentes por encima de un determinado criterio, la lectura se considera mal alineada. En diversas realizaciones, las lecturas se consideran mal alineadas cuando están alineadas con al menos aproximadamente 1, 2, 3, 4, 5, 6, 7, 8, 9, o 10 emparejamientos erróneos. En otras realizaciones, las lecturas se consideran mal alineadas cuando están alineadas con al menos aproximadamente 5 % emparejamientos erróneos. En otras realizaciones, las lecturas se consideran mal alineadas cuando están alineadas con al menos aproximadamente 10 %, 15 % o 20 % de bases no coincidentes.
Como se ilustra en la Figura 2, el proceso 200 procede para identificar lecturas de anclaje y lecturas ancladas en las lecturas de extremos emparejados. Véase el bloque 204. Las lecturas de anclaje son lecturas entre las lecturas de extremos emparejados que están alineadas con o cerca de la secuencia de repetición de interés. Por ejemplo, una lectura de anclaje puede alinearse con una ubicación en una secuencia de referencia que está separada de una secuencia de repetición por una longitud de secuencia que es menor que la longitud de secuencia del inserto. La longitud de separación puede ser más corta. Por ejemplo, la lectura de anclaje puede alinearse a una ubicación en una secuencia de referencia que está separada de una secuencia de repetición por una longitud de secuencia que es menor que la longitud de secuencia de la lectura de anclaje o menor que la longitud de secuencia combinada de la lectura de anclaje y la secuencia que conecta la lectura de anclaje a la lectura anclada (es decir, la longitud del inserto menos la longitud de la lectura anclada). En algunas realizaciones, la secuencia de repetición de interés puede ser la secuencia de repetición en el gen FMR1 que incluye repeticiones de la unidad repetitiva CGG. En una secuencia de referencia normal, la secuencia de repetición en el gen FMR1 incluye aproximadamente 6-32 repeticiones de la unidad repetitiva CGG. A medida que las repeticiones se expanden a más de 200 copias, la expansión de repetición tiende a ser patogénica, lo que provoca el síndrome de X frágil. En algunas realizaciones, las lecturas se consideran alineadas cerca de la secuencia de interés cuando está alineada a no más de 1000 pb de la secuencia de repetición de interés. En otras realizaciones, este parámetro puede ajustarse, tal como no más de aproximadamente 100 pb, 200 pb, 300 pb, 400 pb, 500 pb, 600 pb, 700 pb, 800 pb, 900 pb, 1500 pb, 2000 pb, 3000 pb, 5000 pb, etc. De forma adicional, el proceso también identifica lecturas ancladas, que son lecturas emparejadas con lecturas de anclaje, pero que están mal alineadas para o no pueden alinearse con su secuencia de referencia. Los detalles adicionales de las lecturas mal alineadas se han descrito anteriormente.
El proceso 200 implica además determinar si es probable que la expansión de repetición de la secuencia de repetición esté presente en la muestra de prueba basándose al menos en parte en las lecturas ancladas identificadas. Véase el bloque 206. Esta etapa de determinación puede implicar diversos análisis y cálculos adecuados como se describe en más detalle a continuación. En algunas realizaciones, el proceso utiliza las lecturas de anclaje identificadas, así como las lecturas ancladas, para determinar si es probable que esté presente la expansión de repetición. En algunas realizaciones, los números de las repeticiones en el anclaje identificado y las lecturas ancladas se analizan y se comparan con uno o más criterios derivados teóricamente o derivados de datos empíricos de una muestra de control afectada.
En diversas realizaciones descritas en la presente memoria, se obtienen repeticiones como repeticiones in-frame, donde dos repeticiones de la misma unidad repetitiva se encuentran en el mismo marco de lectura. Un marco de lectura es una forma de dividir la secuencia de nucleótidos en una molécula de ácido nucleico (ADN o ARN) en un conjunto de tripletes consecutivos no superpuestos. Durante la traducción, los tripletes codifican aminoácidos y se denominan codones. Por lo tanto, cualquier secuencia particular tiene tres posibles marcos de lectura. En algunas realizaciones, las repeticiones se cuentan de acuerdo con tres marcos de lectura diferentes, y se determina que el mayor de los tres recuentos es el número de repeticiones correspondientes para la lectura.
Un ejemplo de un proceso que implica operación y análisis adicionales se ilustra en la Figura 3. La Figura 3 muestra un diagrama de flujo que ilustra un proceso 300 para detectar una expansión de repetición usando lecturas de extremos emparejados que tienen un gran número de repeticiones. El proceso 300 incluye acciones aguas arriba adicionales para procesar la muestra de prueba. El proceso comienza mediante la secuenciación de una muestra de prueba que incluye ácidos nucleicos para obtener lecturas de extremos emparejados. Véase el bloque 302. En algunas realizaciones, la muestra de prueba puede obtenerse y prepararse de varias maneras como se describe en más detalle más adelante en la sección de muestras. Por ejemplo, la muestra de prueba puede ser un fluido biológico, por ejemplo, plasma, o cualquier muestra adecuada como se describe a continuación. La muestra puede obtenerse usando un procedimiento no invasivo tal como una simple extracción de sangre. En algunas realizaciones, una muestra de prueba contiene una mezcla de moléculas de ácido nucleico, por ejemplo, moléculas de ADNlc. En algunas realizaciones, la muestra de prueba es una muestra de plasma materno que contiene una mezcla de moléculas de ADNlc fetales y maternas.
Antes de la secuenciación, los ácidos nucleicos se extraen de la muestra. Los procesos y aparatos de extracción adecuados se describen en otra parte de la presente memoria. En algunas implementaciones, el aparato procesa ADN de múltiples muestras juntas para proporcionar bibliotecas multiplexadas y datos de secuencia. En algunas realizaciones, el aparato procesa el ADN de ocho o más muestras de prueba en paralelo. Como se describe más adelante, un sistema de secuenciación puede procesar ADN extraído para producir una biblioteca de fragmentos de ADN codificados (por ejemplo, codificados por barras).
En algunas realizaciones, los ácidos nucleicos en la muestra de prueba pueden procesarse adicionalmente para preparar bibliotecas de secuenciación para la secuenciación multiplexada o singleplex, como se describe en más detalle más adelante en la sección de preparación de la biblioteca de secuenciación. Después de procesar y preparar las muestras, la secuenciación del ácido nucleico puede realizarse mediante diversos métodos. En algunas realizaciones, se pueden emplear diversas plataformas y protocolos de secuenciación de próxima generación, que se describen en más detalle más adelante en la sección de métodos de secuenciación.
Independientemente de la plataforma y el protocolo de secuenciación específicos, en el bloque 302, al menos una parte de los ácidos nucleicos contenidos en la muestra se secuencian para generar decenas de miles, cientos de miles, o millones de lecturas de secuencia, por ejemplo, lecturas de 100 pb. En algunas realizaciones, las lecturas incluyen lecturas de extremos emparejados. En otras realizaciones, tales como las descritas a continuación con referencia a la Figura 5, además de lecturas de extremos emparejados, pueden usarse lecturas largas de un solo extremo que incluyen más de cientos, miles o decenas de miles de bases para determinar una secuencia de repetición. En algunas realizaciones, las lecturas de secuencia comprenden aproximadamente 20 pb, aproximadamente 25 pb, aproximadamente 30 pb, aproximadamente 35 pb, aproximadamente 36 pb, aproximadamente 40 pb, aproximadamente 45 pb, aproximadamente 50 pb, aproximadamente 55 pb, aproximadamente 60 pb, aproximadamente 65 pb, aproximadamente 70 pb, aproximadamente 75 pb, aproximadamente 80 pb, aproximadamente 85 pb, aproximadamente 90 pb, aproximadamente 95 pb, aproximadamente 100 pb, aproximadamente 110 pb, aproximadamente 120 pb, aproximadamente 130, aproximadamente 140 pb, aproximadamente 150 pb, aproximadamente 200 pb aproximadamente 250 pb, aproximadamente 300 pb, aproximadamente 350 pb, aproximadamente 400 pb aproximadamente 450 pb, o aproximadamente 500 pb. Se espera que los avances tecnológicos permitan lecturas de un solo extremo de más de 500 pb y permitiendo lecturas de más de aproximadamente 1000 pb cuando se generen lecturas de extremos emparejados.
El proceso 300 procede para alinear las lecturas de extremos emparejados obtenidas del bloque 302 con una secuencia de referencia que incluye una secuencia de repetición. Véase el bloque 304. En algunas realizaciones, la secuencia de repetición es propensa a la expansión. En algunas realizaciones, se sabe que la expansión de repetición está asociada con un trastorno genético. En otras realizaciones, la expansión de repetición de la secuencia de repetición no ha sido previamente estudiada para establecer una asociación con un trastorno genético. Los métodos descritos en la presente memoria permiten la detección de una secuencia de repetición y expansión de repetición independientemente de cualquier patología asociada. En algunas realizaciones, las lecturas se alinean con un genoma de referencia, por ejemplo, hg 18. En otras realizaciones, las lecturas se alinean con una parte de un genoma de referencia, por ejemplo, un cromosoma o un segmento cromosómico. Las lecturas que se asignan de manera única al genoma de referencia se conocen como marcadores de secuencia. En una realización, al menos aproximadamente 3 x 106 marcadores de secuencia calificados, al menos aproximadamente 5 x 106 marcadores de secuencia calificados, al menos aproximadamente 8 x 106 marcadores de secuencia calificados, al menos aproximadamente 10 x 106 marcadores de secuencia calificados, al menos aproximadamente 15 x 106 marcadores de secuencia calificados, al menos aproximadamente 20 x 106 marcadores de secuencia calificados, al menos aproximadamente 30 x 106 marcadores de secuencia calificados, al menos aproximadamente 40 x 106 marcadores de secuencia calificados, o al menos aproximadamente 50 x 106 marcadores de secuencia calificados se obtienen de las lecturas que se cartografían de forma única con un genoma de referencia.
En algunas realizaciones, el proceso puede filtrar lecturas de secuencia antes del alineamiento. En algunas realizaciones, el filtrado de lectura es un proceso de filtrado de calidad habilitado por programas de software implementados en el secuenciador para filtrar lecturas erróneas y de baja calidad. Por ejemplo, el software de control de secuenciación de Illumina (SCS) y la evaluación de consenso de los programas de software de secuencia y variación filtran las lecturas erróneas y de baja calidad convirtiendo datos de imagen sin procesar generados por las reacciones de secuenciación en puntuaciones de intensidad, llamadas de bases, alineamientos con puntuación de calidad y formatos adicionales para proporcionar información biológicamente relevante para el análisis aguas abajo.
En determinadas realizaciones, las lecturas producidas por el aparato de secuenciación se proporcionan en un formato electrónico. El alineamiento se logra usando un aparato informático como se describe a continuación. Las lecturas individuales se comparan con el genoma de referencia, que es a menudo de gran tamaño (millones de pares de bases) para identificar sitios donde las lecturas se corresponden de manera única con el genoma de referencia. En algunas realizaciones, el procedimiento de alineamiento permite limitar los emparejamientos erróneos entre lecturas y el genoma de referencia. En algunos casos, se permite que 1, 2, 3 o más pares de bases de una lectura no queden emparejadas correctamente con pares de bases correspondientes en un genoma de referencia, realizándose no obstante una cartografía. En algunas realizaciones, las lecturas se consideran lecturas alineadas cuando las lecturas se alinean con la secuencia de referencia con no más de 1, 2, 3 o 4 pares de bases. En consecuencia, las lecturas no alineadas son lecturas que no pueden estar alineadas o están mal alineadas. Las lecturas mal alineadas son lecturas que tienen más emparejamientos erróneos que las lecturas alineadas. En algunas realizaciones, las lecturas se consideran lecturas alineadas cuando las lecturas se alinean con la secuencia de referencia con no más del 1 %, 2 %, 3 %, 4 %, 5 % o 10 % de pares de bases.
Después de alinear las lecturas de extremos emparejados con la secuencia de referencia que incluye la secuencia de repetición de interés, el proceso 300 procede para identificar lecturas de anclaje y lecturas ancladas entre las lecturas de extremos emparejados. Véase el bloque 306. Como se ha mencionado anteriormente, las lecturas de anclaje son lecturas de extremos emparejados alineadas con o cerca de la secuencia de repetición. En algunas realizaciones, las lecturas de anclaje son lecturas de extremos emparejados que están alineadas a no más de 1 kb de la secuencia de repetición. Las lecturas ancladas se emparejan con lecturas de anclaje, pero no pueden quedar o quedan mal alineadas con la secuencia de referencia como se ha explicado anteriormente.
El proceso 300 analiza los números de repeticiones de unidades repetitivas en el anclaje identificado y/o lecturas ancladas para determinar la presencia o ausencia de una expansión de la secuencia de repetición. Más específicamente, el proceso 300 implica usar el número de repeticiones en lecturas para obtener números de lecturas de alto recuento en lecturas de anclaje y/o ancladas. Las lecturas de alto recuento son lecturas que tienen más repeticiones que un valor umbral. En algunas realizaciones, las lecturas de recuento alto se obtienen solo de las lecturas ancladas. En otras realizaciones, las lecturas de alto recuento se obtienen tanto de las lecturas de anclaje como de las ancladas. En algunas realizaciones, si el número de repeticiones está cerca del número máximo de repeticiones posibles para una lectura, la lectura se considera una lectura de recuento alto. Por ejemplo, si una lectura es de 100 pb, y una unidad repetitiva en consideración es de 3 pb, el número máximo de repeticiones sería 33. En otras palabras, el máximo se calcula a partir de la longitud de las lecturas de extremos emparejados y la longitud de la unidad repetitiva. Específicamente, el número máximo de repeticiones puede obtenerse dividiendo la longitud de lectura por la longitud de la unidad repetitiva y redondeando el número a la baja. En este ejemplo, diversas implementaciones pueden identificar lecturas de 100 pb que tienen al menos aproximadamente 28, 29, 30, 31, 32 o 33 repeticiones como lecturas de recuento alto. El número de repeticiones puede ajustarse hacia arriba o hacia abajo para lecturas de alto recuento en base a consideraciones y factores empíricos. En diversas realizaciones, el valor umbral para lecturas de recuento alto es al menos aproximadamente 80 %, 85 %, 90 % o 95 % del número máximo de repeticiones.
El proceso 300 determina entonces si probablemente se presente una expansión de repetición de la secuencia de repetición basándose en el número de lecturas de recuento alto. Véase el bloque 310. En algunas realizaciones, el análisis compara las lecturas obtenidas de recuento alto con un criterio de llamada, y determina que la expansión de repetición probablemente esté presente si se supera el criterio. En algunas realizaciones, el criterio de llamada se obtiene a partir de una distribución de lecturas de alto recuento de muestras de control. Por ejemplo, se analiza una pluralidad de muestras de control que se sabe tienen o se sospecha que tienen una secuencia de repetición normal, y se obtienen lecturas de recuento alto para las muestras de control de la misma manera que se ha descrito anteriormente. Se puede obtener la distribución de lecturas de recuento alto para las muestras de control, y se puede estimar la probabilidad de que una muestra no afectada tenga lecturas de recuento alto por encima de un valor determinado. Esta probabilidad permite la determinación de la sensibilidad y la selectividad dado un criterio de llamada establecido en este valor particular. En algunas realizaciones, el criterio de llamada se establece en un valor umbral de manera que la probabilidad de que una muestra no afectada tenga lecturas de recuento alto por encima del valor umbral sea inferior a 5 %. En otras palabras, el valor p es inferior a 0,05. En estas realizaciones, a medida que las repeticiones se expanden, la secuencia de repetición se alarga, se pueden originar más lecturas totalmente dentro de la secuencia de repetición, y se pueden obtener más lecturas de recuento alto para una muestra. En diversas implementaciones alternativas, se puede elegir un criterio de llamada más conservador de manera que la probabilidad de que una muestra no afectada tenga más lecturas de recuento alto que el valor umbral sea inferior a aproximadamente 1 %, 0,1 %, 0,01 %, 0,001 %, 0,0001 %, etc. Se apreciará que el criterio de llamada puede ajustarse hacia arriba o hacia abajo en base a los diversos factores y la necesidad de aumentar la sensibilidad o selectividad de la prueba.
En algunas realizaciones, en lugar de o además de obtener empíricamente un criterio de llamada del número de lecturas de recuento alto a partir de muestras de control, se puede obtener un criterio de llamada teóricamente para determinar una expansión de repetición. Es posible calcular el número esperado de lecturas que están totalmente dentro de una repetición dado un número de parámetros que incluyen la longitud de las lecturas de extremos emparejados, la longitud de una secuencia que tiene la expansión de repetición y una profundidad de secuenciación. Por ejemplo, se puede usar una profundidad de secuenciación para calcular la separación promedio entre las lecturas en el genoma alineado. Si se ha secuenciado una muestra individual a una profundidad de 30x, las bases totales secuenciadas son iguales al tamaño del genoma multiplicado por la profundidad. Para los seres humanos, esto sería aproximadamente 3x109x30 = 9x1010. Si cada lectura tiene 100 pb de largo, entonces se requieren un total de 9x108 lecturas para lograr esta profundidad. Dado que un genoma es diploide, la mitad de estas lecturas son la secuenciación de un cromosoma/haplotipo, y el resto está secuenciando el otro cromosoma/haplotipo. Por haplotipo hay 4,5x108 lecturas y dividiendo el tamaño total del genoma por este número se obtiene la separación promedio entre las posiciones iniciales de cada lectura— es decir, 3x109 / 4,5x108 = 1 lectura por cada 6,7 pb en promedio. Se puede usar este número para estimar el número de lecturas que estarán totalmente dentro de una secuencia de repetición en base al tamaño de esa secuencia de repetición en un determinado individuo. Si el tamaño de secuencia de repetición total es de 300 pb, entonces cualquier lectura que comience dentro de los primeros 200 pb de esa secuencia de repetición estará totalmente dentro de la secuencia de repetición (cualquier lectura que comience dentro de los últimos 100 pb estará, al menos, parcialmente fuera de la secuencia de repetición basada en longitudes de lectura de 100 pb). Dado que se espera que una lectura se alinee cada 6,7 pb, se esperan 200 pb/(6,7 pb/lectura) = 30 lecturas para el alineamiento completo dentro de la secuencia de repetición. Aunque habrá variabilidad alrededor de este número, esto permite estimar las lecturas totales que estarán totalmente dentro de la secuencia de repetición para cualquier tamaño de expansión. La repetición de longitudes de secuencia y los correspondientes números esperados de lecturas totalmente alineadas en la secuencia de repetición calculados según este método se proporcionan más adelante en la Tabla 2 del Ejemplo 1.
En algunas realizaciones, un criterio de llamada se calcula a partir de la distancia entre la primera y última observación de la secuencia de repetición dentro de las lecturas, permitiendo así mutaciones en la secuencia de repetición y errores de secuenciación.
En algunas realizaciones, el proceso puede incluir además diagnosticar que el individuo del que se obtiene la muestra de prueba tiene un riesgo elevado de tener un trastorno genético tal como síndrome de X frágil, ELA, enfermedad de Huntington, ataxia de Friedreich, ataxia espinocerebelosa, atrofia muscular espino-bulbar, distrofia miotónica, enfermedad de Machado-Joseph, atrofia dentato-rubro-pálido-luisiana, etc. Dicho diagnóstico puede estar basado en la determinación de que la expansión de repetición está probablemente presente en la muestra de prueba, y en el gen y la secuencia de repetición asociados con la expansión de repetición. En otras realizaciones, cuando no se conoce un trastorno genético, algunas realizaciones pueden detectar recuentos anormalmente altos de repeticiones para la identificación inicial de causas genéticas de una enfermedad.
La Figura 4 es un diagrama de flujo que ilustra otro proceso para detectar la expansión de repetición de acuerdo con algunas realizaciones. El proceso 400 usa los número de repeticiones en las lecturas de extremos emparejados de la muestra de prueba en lugar de lecturas de recuento alto para determinar la presencia de la expansión de repetición. El proceso 400 comienza mediante la secuenciación de una muestra de prueba que incluye ácido nucleico para obtener lecturas de extremos emparejados. Véase el bloque 402, que es equivalente al bloque 302 del proceso 300. El proceso 400 continúa alineando las lecturas de extremos emparejados en una secuencia de referencia que incluye la secuencia de repetición. Véase el bloque 404, que es equivalente al bloque 304 del proceso 300. El proceso procede identificando el anclaje y las lecturas de anclaje en las lecturas de extremos emparejados, siendo las lecturas de anclaje lecturas alineadas a o cerca de la secuencia de repetición, y siendo las lecturas ancladas lecturas no alineadas que están emparejadas con las lecturas de anclaje. En algunas realizaciones, las lecturas no alineadas incluyen tanto lecturas que no pueden alinearse con la secuencia de referencia como lecturas que están mal alineadas con ella.
Después de identificar las lecturas de anclaje y las ancladas, el proceso 400 obtiene el número de repeticiones en las lecturas de anclaje y/o en las ancladas de la muestra de prueba. Véase el bloque 408. El proceso obtiene entonces una distribución del número de repeticiones para todas las lecturas de anclaje y/o las ancladas obtenidas de la muestra de prueba. En algunas realizaciones, solo se analiza el número de repeticiones de lecturas ancladas. En otras realizaciones, se analizan repeticiones tanto de lecturas ancladas como de lecturas de anclaje. A continuación, la distribución del número de repeticiones de la muestra de prueba se compara con una distribución de una o más muestras de control. Véase el bloque 410. En algunas realizaciones, el proceso determina que la expansión de repetición de la secuencia de repetición está presente en la muestra de prueba si la distribución de la muestra de prueba difiere de forma estadísticamente significativa de la distribución de las muestras de control. Véase el bloque 412. El proceso 400 analiza los números de repeticiones para las lecturas, incluidas lecturas de alto recuento así como lecturas de bajo recuento, lo cual difiere de un proceso que analiza solo lecturas de recuento alto, tal como se ha descrito anteriormente con respecto al proceso 300.
En algunas realizaciones, la comparación de la distribución de la muestra de prueba y la distribución de las muestras de control implica el uso de una prueba de rangos de Mann-Whitney para determinar si las dos distribuciones son significativamente diferentes. En algunas realizaciones, el análisis determina que la expansión de repetición probablemente está presente en la muestra de prueba si la distribución de la muestra de prueba está sesgada más hacia un número más alto de repeticiones en comparación con las muestras de control, y el valor p para la prueba de rangos de Mann-Whitney es menor que aproximadamente 0,0001 o 0,00001. El valor p puede ajustarse según sea necesario para mejorar la selectividad o la sensibilidad de la prueba.
Los procesos para detectar la expansión de repetición descritos anteriormente con respecto a las Figuras 2-4 usan lecturas ancladas, que son lecturas no alineadas que están emparejadas con lecturas alineadas a una secuencia de repetición de interés. Las variaciones en estos procesos podrían incluir la búsqueda a través de las lecturas no alineadas para pares de lecturas que están casi totalmente compuestas por algún tipo de secuencia de repetición para descubrir nuevas expansiones de repetición previamente no identificadas que pueden ser médicamente relevantes. Este método no cuantifica el número exacto de repeticiones, sino que es potente para identificar expansiones o valores atípicos de repetición extremas que deben marcarse para una cuantificación adicional. Combinado con lecturas más largas, este método puede ser capaz tanto de identificar como de cuantificar repeticiones de una longitud total de hasta 200 pb o más.
La Figura 5 ilustra un diagrama de flujo de un proceso 500 que usa lecturas no alineadas no asociadas con ninguna secuencia de repetición de interés para identificar una expansión de repetición. El proceso 500 puede usar lecturas no alineadas del genoma completo para detectar la expansión de repetición. El proceso comienza mediante la secuenciación de una muestra de prueba que incluye ácidos nucleicos para obtener lecturas de extremos emparejados. Véase el bloque 502. El proceso 500 procede alineando las lecturas de extremos emparejados en un genoma de referencia. Véase el bloque 504. El proceso luego identifica lecturas no alineadas para todo el genoma. Las lecturas no alineadas incluyen lecturas de extremos emparejados que no pueden estar alineadas o están mal alineadas con la secuencia de referencia. Véase el bloque 506. El proceso analiza a continuación los números de repeticiones de una unidad repetitiva en las lecturas no alineadas para determinar si una expansión de repetición está probablemente presente en la muestra de prueba. Este análisis puede ser agnóstico de toda secuencia de repetición en particular. El análisis puede aplicarse a diversas unidades repetitivas posibles, y el número de repeticiones para diferentes unidades repetitivas de una muestra de prueba puede compararse con las de una pluralidad de muestras de control. En este análisis se pueden aplicar técnicas de comparación entre una muestra de prueba y las muestras de control descritas anteriormente. Si la comparación muestra que una muestra de prueba tiene un número anormalmente alto de repeticiones de una unidad repetitiva, se puede realizar un análisis adicional para determinar si la muestra de prueba incluye la expansión de repetición de la secuencia de repetición particular de interés. Véase el bloque 510.
En algunas realizaciones, el análisis adicional implica lecturas de secuencia muy largas que potencialmente pueden abarcar secuencias de repetición largas que tienen expansiones de repetición que son médicamente relevantes. Las lecturas en este análisis adicional son más largas que las lecturas de extremos emparejados. En algunas realizaciones, se usan secuenciación de molécula única o secuenciación sintética de lectura larga para obtener lecturas largas. En algunas realizaciones, la relación entre la expansión de repetición y un trastorno genético es conocida en la técnica. Sin embargo, en otras realizaciones, no es necesario establecer en la técnica la relación entre la expansión de repetición y un trastorno genético.
En algunas realizaciones, analizar los números de repeticiones de la unidad repetitiva en las lecturas no alineadas de la operación 510 implica un análisis de alto recuento comparable al de la operación 308 de la Figura 3. El análisis incluye obtener el número de lecturas de alto recuento, en donde las lecturas de alto recuento son lecturas no alineadas que tienen más repeticiones que un valor umbral; y comparar el número de lecturas de recuento alto en la muestra de prueba con un criterio de llamada. En algunas realizaciones, el valor umbral para lecturas de recuento alto es al menos aproximadamente 80 % del número máximo de repeticiones, máximo que se calcula como la relación de la longitud de las lecturas de extremos emparejados a lo largo de la longitud de la unidad repetitiva. En algunas realizaciones, las lecturas de alto recuento también incluyen lecturas que están emparejadas con las lecturas no alineadas y tienen más repeticiones que el valor umbral.
En algunas realizaciones, antes del análisis adicional de la operación 510, el proceso implica además (a) identificar lecturas de extremos emparejados que están emparejadas con las lecturas no alineadas y están alineadas con o cerca de una secuencia de repetición en el genoma de referencia; y (b) proporcionar la secuencia de repetición como la secuencia de repetición particular de interés para la operación 510. Después, en el análisis adicional de la secuencia de repetición de interés se puede emplear cualquiera de los métodos descritos anteriormente en asociación con las Figuras 2-4.
Muestras
Las muestras que se usan para determinar la expansión de repetición pueden incluir muestras tomadas de cualquier célula, fluido, tejido u órgano, incluidos ácidos nucleicos en los que se debe determinar la expansión de repetición para una o más secuencias de repetición de interés. En algunas realizaciones que implican diagnósticos en fetos, es ventajoso obtener ácidos nucleicos libres de células, por ejemplo, ADN libre de células (ADNlc), de fluido corporal materno. Los ácidos nucleicos libres de células, incluido el ADN libre de células, pueden obtenerse mediante diversos métodos conocidos en la técnica a partir de muestras biológicas que incluyen, aunque no de forma limitativa, plasma, suero y orina (véase, por ejemplo, Fan et al., Proc Natl Acad Sci 105:16266-16271 [2008]; Koide et al., Prenatal Diagnosis 25:604-607 [2005]; Chen et al., Nature Med. 2: 1033­ 1035 [1996]; Lo et al., Lancet 350: 485-487 [1997]; Botezatu et al., Clin Chem. 46: 1078-1084, 2000; y Su et al., J Mol. Diagn. 6: 101-107 [2004]).
En diversas realizaciones, los ácidos nucleicos (por ejemplo, ADN o ARN) presentes en la muestra pueden enriquecerse específicamente o no específicamente antes de su uso (por ejemplo, antes de preparar una biblioteca de secuenciación). El ADN se usa como un ejemplo de ácidos nucleicos en los ejemplos ilustrativos a continuación. El enriquecimiento no específico de ADN de muestra se refiere a la amplificación del genoma completo de los fragmentos de ADN genómico de la muestra que pueden usarse para aumentar el nivel del ADN de la muestra antes de preparar una biblioteca de secuenciación de ADNlc. Los métodos para la amplificación del genoma completo son conocidos en la técnica. La PCR cebada con oligonucleótidos degenerados (DOP), la técnica de PCR de extensión por cebadores (PEP) y la amplificación por desplazamiento múltiple (MDA) son ejemplos de métodos de amplificación del genoma completo. En algunas realizaciones, la muestra es no enriquecida para el ADN.
La muestra que incluye los ácidos nucleicos a los que se aplican los métodos descritos en la presente memoria incluye de forma típica una muestra biológica (“ muestra de prueba” ) como se ha descrito anteriormente. En algunas realizaciones, los ácidos nucleicos a analizar para la expansión de repetición se purifican o se aíslan mediante cualquiera de varios métodos bien conocidos.
Por consiguiente, en determinadas realizaciones la muestra incluye o consiste esencialmente en un polinucleótido purificado o aislado, o puede incluir muestras tales como una muestra de tejido, una muestra de fluido biológico, una muestra celular y lo similar. Las muestras de fluido biológico adecuadas incluyen, aunque no de forma limitativa, plasma, suero, sudor, lágrimas, esputo, orina, esputo, flujo del oído, linfa, saliva, líquido cefalorraquídeo, desechos, suspensión de médula ósea, flujo vaginal, lavado trans-cervical, líquido cerebral, ascitis, leche, secreciones de los tractos respiratorios, intestinales y genitourinario, líquido amniótico, leche y muestras de leucoforesis. En algunas realizaciones, la muestra es una muestra que se puede obtener fácilmente mediante procedimientos no invasivos, por ejemplo, sangre, plasma, suero, sudor, lágrimas, esputo, orina, esputo, flujo del oído, saliva o heces. En determinadas realizaciones, la muestra es una muestra de sangre periférica o las fracciones de plasma y/o de suero de una muestra de sangre periférica. En otras realizaciones, la muestra biológica es un hisopo o frotis, una muestra de biopsia o un cultivo celular. En otra realización, la muestra es una mezcla de dos o más muestras biológicas, por ejemplo, una muestra biológica puede incluir dos o más de una muestra de fluido biológico, una muestra de tejido y una muestra de cultivo celular. Como se utiliza en la presente memoria, los términos “sangre” , “plasma” y “suero” abarcan expresamente fracciones o porciones procesadas de la misma. De manera similar, cuando se toma una muestra de una biopsia, un hisopo, un frotis, etc., la “ muestra” abarca expresamente una fracción o parte procesada derivada de la biopsia, hisopado, frotis, etc.
En determinadas realizaciones, las muestras pueden obtenerse de fuentes, que incluyen, aunque no de forma limitativa, muestras de diferentes individuos, muestras de diferentes etapas de desarrollo del mismo o diferentes individuos, muestras de diferentes individuos enfermos (por ejemplo, individuos que se sospecha tienen un trastorno genético), individuos normales, muestras obtenidas en diferentes etapas de una enfermedad en un individuo, muestras obtenidas de un individuo sometido a diferentes tratamientos para una enfermedad, muestras de individuos sometidos a diferentes factores ambientales, muestras de individuos con predisposición a una patología, muestras individuales con exposición a un agente de enfermedad infecciosa, y lo similar.
En una realización ilustrativa, pero no limitativa, la muestra es una muestra materna que se obtiene de una hembra embarazada, por ejemplo, una mujer embarazada. En este caso, la muestra puede analizarse usando los métodos descritos en la presente memoria para proporcionar un diagnóstico prenatal de posibles anomalías cromosómicas en el feto. La muestra materna puede ser una muestra de tejido, una muestra de fluido biológico o una muestra celular. Un fluido biológico incluye, como ejemplos no limitativos, sangre, plasma, suero, sudor, lágrimas, esputo, orina, esputo, flujo del oído, linfa, saliva, líquido cefalorraquídeo, desechos, suspensión de médula ósea, flujo vaginal, lavado transcervical, líquido cerebral, ascitis, leche, secreciones de los tractos respiratorios, intestinal y genitourinario, y muestras de leucoforesis.
En determinadas realizaciones, también se pueden obtener muestras de tejidos cultivados in vitro, células u otras fuentes que contienen polinucleótidos. Las muestras cultivadas pueden tomarse de fuentes que incluyen, aunque no de forma limitativa, cultivos (por ejemplo, tejido o células) mantenidas en diferentes medios y condiciones (por ejemplo, pH, presión o temperatura), cultivos (por ejemplo, tejido o células) mantenidos durante diferentes períodos de longitud, cultivos (por ejemplo, tejido o células) tratados con diferentes factores o reactivos (por ejemplo, un candidato a fármaco, o un modulador), o cultivos de diferentes tipos de tejido y/o células.
Los métodos para aislar ácidos nucleicos de fuentes biológicas son bien conocidos y diferirán dependiendo de la naturaleza de la fuente. Un experto en la técnica puede aislar fácilmente ácidos nucleicos de una fuente según sea necesario para el método descrito en la presente memoria. En algunos casos, puede ser ventajoso fragmentar las moléculas de ácido nucleico en la muestra de ácido nucleico. La fragmentación puede ser al azar, o puede ser específica, como se logra, por ejemplo, usando digestión con endonucleasas de restricción. Los métodos de fragmentación al azar son bien conocidos en la técnica e incluyen, por ejemplo, digestión con ADNasa limitada, tratamiento con álcali y cizallamiento físico.
Preparación de la biblioteca de secuenciación
En diversas realizaciones, la secuenciación puede realizarse en diversas plataformas de secuenciación que requieren la preparación de una biblioteca de secuenciación. La preparación implica de forma típica fragmentar el ADN (sonicación, nebulización o cizallamiento), seguido de reparación de ADN y pulido final (extremo romo o extremo colgante de A) y ligación de adaptador específico de plataforma. En una realización, los métodos descritos en la presente memoria pueden utilizar tecnologías de secuenciación de próxima generación (NGS), que permiten secuenciar múltiples muestras individualmente como moléculas genómicas (es decir, secuenciación singleplex) o como muestras agrupadas que comprenden moléculas genómicas indexadas (por ejemplo, secuenciación multiplexada) en una sola tanda de secuenciación. Estos métodos pueden generar hasta varios cientos de millones de lecturas de secuencias de ADN. En diversas realizaciones, las secuencias de ácidos nucleicos genómicos y/o de ácidos nucleicos genómicos indexados se pueden determinar usando, por ejemplo, las tecnologías de secuenciación de próxima generación (NGS) descritas en la presente memoria. En diversas realizaciones, el análisis de la cantidad masiva de datos de secuencia obtenidos usando NGS puede realizarse usando uno o más procesadores como se describe en la presente memoria.
En diversas realizaciones, el uso de tales tecnologías de secuenciación no implica la preparación de bibliotecas de secuenciación.
Sin embargo, en determinadas realizaciones, los métodos de secuenciación contemplados en la presente memoria implican la preparación de bibliotecas de secuenciación. En un enfoque ilustrativo, la preparación de la biblioteca de secuenciación implica la producción de una colección al azar de fragmentos de ADN modificados con adaptador (por ejemplo, polinucleótidos) que están listos para ser secuenciados. Las bibliotecas de secuenciación de polinucleótidos pueden prepararse a partir de ADN o ARN, incluidos equivalentes, análogos de ADN o ADNc, por ejemplo, ADN o ADNc, que es Ad N complementario o copia producido a partir de un molde de ARN, por la acción de la transcriptasa inversa. Los polinucleótidos pueden originarse en forma bicatenaria (por ejemplo, ADNbc tales como fragmentos de ADN genómico, ADNc, productos de amplificación por PCR y similares) o, en determinadas realizaciones, los polinucleótidos pueden originarse en forma monocatenaria (por ejemplo, ADNmc, ARN, etc.) y se han convertido en forma de ADNbc. A modo de ilustración, en determinadas realizaciones, las moléculas de ARNm monocatenario pueden copiarse en ADNc bicatenarios adecuados para su uso en la preparación de una biblioteca de secuenciación. La secuencia precisa de las moléculas de polinucleótidos primarios generalmente no es parte esencial del método de preparación de bibliotecas, y puede ser conocida o desconocida. En una realización, las moléculas de polinucleótido son moléculas de ADN. Más particularmente, en determinadas realizaciones, las moléculas de polinucleótido representan todo el complemento genético de un organismo o sustancialmente el complemento genético completo de un organismo, y son moléculas de ADN genómico (por ejemplo, ADN celular, ADN libre de células (ADNlc), etc.), que de forma típica incluyen tanto secuencia de intrones como secuencia de exones (secuencia codificante), así como secuencias reguladoras no codificantes tales como secuencias promotoras y potenciadoras. En determinadas realizaciones, las moléculas de polinucleótidos primarios comprenden moléculas de ADN genómico humano, por ejemplo, moléculas de ADNlc presentes en sangre periférica de una sujeto embarazada.
La preparación de bibliotecas de secuenciación para algunas plataformas de secuenciación de NGS se facilita mediante el uso de polinucleótidos que comprenden un intervalo específico de tamaños de fragmentos. La preparación de dichas bibliotecas implica de forma típica la fragmentación de polinucleótidos grandes (por ejemplo, ADN genómico celular) para obtener polinucleótidos en el intervalo de tamaño deseado.
Las lecturas de extremos emparejados se usan para los métodos y sistemas descritos en la presente memoria para determinar la expansión de repetición. La longitud del fragmento o inserto es mayor que la longitud de lectura, y de forma típica más larga que la suma de las longitudes de las dos lecturas.
En algunas realizaciones ilustrativas, el(los) ácido(s) nucleico(s) de muestra se obtienen como ADN genómico, que se somete a fragmentación en fragmentos de aproximadamente 100 o más, aproximadamente 200 o más, aproximadamente 300 o más, aproximadamente 400 o más, o aproximadamente 500 o más pares de bases, y a los que pueden aplicarse fácilmente métodos de NGS. En algunas realizaciones, las lecturas de extremos emparejados se obtienen de insertos de aproximadamente 100-5000 pb. En algunas realizaciones, los insertos tienen una longitud de aproximadamente 100-1000 pb. Estos se implementan a veces como lecturas de extremos emparejados de corta inserción normales. En algunas realizaciones, los insertos tienen una longitud de aproximadamente 1000-5000 pb. Estos a veces se implementan como lecturas emparejadas por parejas de inserto largo como se ha descrito anteriormente.
En algunas implementaciones, se diseñan insertos largos para evaluar secuencias de repetición expandidas muy largas. En algunas implementaciones, las lecturas de pares de parejas pueden aplicarse para obtener lecturas que están separadas por miles de pares de bases. En estas implementaciones, los insertos o fragmentos varían de cientos a miles de pares de bases, con dos adaptadores de unión a biotina en los dos extremos de un inserto. A continuación, los adaptadores de unión a biotina unen los dos extremos del inserto para formar una molécula circularizada, que a continuación se fragmenta adicionalmente. Un subfragmento que incluye los adaptadores de unión a biotina y los dos extremos del inserto original se selecciona para la secuenciación en una plataforma que está diseñada para secuenciar fragmentos más cortos.
La fragmentación se puede lograr mediante cualquiera de entre diversos métodos conocidos por los expertos en la técnica. Por ejemplo, la fragmentación puede lograrse mediante medios mecánicos incluidos, aunque no de forma limitativa, nebulización, sonicación e hidrocizallamiento. Sin embargo, la fragmentación mecánica escinde de forma típica la cadena principal de ADN en enlaces C-O, P-O y C-C dando lugar a una mezcla heterogénea de extremos romos y colgantes en 3' y 5' con enlaces C-O, P-O y/ C-C rotos (véase, por ejemplo, Alnemri y Liwack, J Biol. Chem 265:17323-17333 [1990]; Richards y Boyer, J Mol Biol 11:327-240 [1965]) que pueden tener que repararse ya que pueden carecer del fosfato 5’ necesario para las reacciones enzimáticas posteriores, por ejemplo, ligación de adaptadores de secuenciación, que se requieren para preparar el ADN para la secuenciación.
Por el contrario, el ADNlc existe de forma típica como fragmentos de menos de aproximadamente 300 pares de bases y, por consiguiente, no es de forma típica necesaria la fragmentación para generar una biblioteca de secuenciación usando muestras de ADNlc.
De forma típica, si los polinucleótidos se fragmentan a la fuerza (por ejemplo, se fragmentan in vitro), o existen naturalmente como fragmentos, se convierten en ADN de extremo romo que tiene fosfatos en 5' e hidroxilo en 3'. Los protocolos estándar, por ejemplo, protocolos para la secuenciación usando, por ejemplo, la plataforma Illumina como se describe en otra parte en la presente memoria, instruyen a los usuarios cómo realizar la reparación final de ADN de muestra, para purificar los productos sometidos a reparación final antes de la adición de cola de dA (dAMP), y purificar los productos de adición de cola de dA antes de las etapas de ligación del adaptador de la preparación de biblioteca.
Varias realizaciones de métodos de preparación de bibliotecas de secuencias descritas en la presente memoria no suponen la necesidad realizar una o más de las etapas de forma típica exigidas por los protocolos estándar para obtener un producto de ADN modificado que puede secuenciarse mediante NGS. Un método abreviado (método ABB), un método de 1 etapa y un método de 2 etapas son ejemplos de métodos para la preparación de una biblioteca de secuenciación, que se pueden encontrar en la solicitud de patente 13/555.037, presentada el 20 de julio de 2012.
Métodos de secuenciación
Como se ha indicado anteriormente, las muestras preparadas (por ejemplo, bibliotecas de secuenciación) se secuencian como parte del procedimiento para identificar variación o variaciones del número de copias. Se puede utilizar cualquiera de una serie de tecnologías de secuenciación.
Algunas tecnologías de secuenciación están disponibles comercialmente, tales como la plataforma de secuenciación por hibridación de Affymetrix Inc. (Sunnyvale, CA) y las plataformas de secuenciación por síntesis de 454 Life Sciences (Bradford, CT), Illumina/Solexa (San Diego, CA) y Helicos Biosciences (Cambridge, MA), y la plataforma de secuenciación por ligación de Applied Biosystems (Foster City, CA), como se describe a continuación. Además de la secuenciación de una sola molécula realizada usando secuenciación por síntesis de Helicos Biosciences, otras tecnologías de secuenciación de molécula única incluyen, aunque no de forma limitativa, la tecnología SMRTTM de Pacific Biosciences, la tecnología ION TORRENT™ y la secuenciación por nanoporos desarrollada, por ejemplo, por Oxford Nanopore Technologies.
Aunque el método de Sanger automatizado se considera una tecnología de “ primera generación” , la secuenciación de Sanger que incluye la secuenciación automatizada de Sanger, también puede emplearse en los métodos descritos en la presente memoria. Los métodos de secuenciación adecuados adicionales incluyen, aunque no de forma limitativa, tecnologías de obtención de imágenes de ácidos nucleicos, por ejemplo, microscopía de fuerza atómica (AFM) o microscopía electrónica de transmisión (MET). Las tecnologías de secuenciación ilustrativas se describen con mayor detalle a continuación.
En algunas realizaciones, los métodos descritos implican obtener información de secuencia para los ácidos nucleicos en la muestra de prueba mediante secuenciación masivamente en paralelo de millones de fragmentos de ADN usando secuenciación por síntesis de Illumina y química de secuenciación basada en terminador reversible (por ejemplo, como se describe en Bentley et al., Nature 6:53-59 [2009]). El ADN de plantilla puede ser ADN genómico, por ejemplo, ADN celular o ADNlc. En algunas realizaciones, el ADN genómico de células aisladas se usa como plantilla, y se fragmenta en longitudes de varios cientos de pares de bases. En otras realizaciones, se usa como plantilla ADNlc, y no se requiere fragmentación, ya que el ADNlc existe como fragmentos cortos. Por ejemplo, el ADNlc fetal circula en el torrente sanguíneo como fragmentos de una longitud de aproximadamente 170 pares de bases (pb) (Fan et al., Clin Chem 56:1279-1286 [2010]), y no se requiere fragmentación del ADN antes de la secuenciación. La tecnología de secuenciación de Illumina se basa en la unión del ADN genómico fragmentado a una superficie plana ópticamente transparente en la que se unen anclajes oligonucleotídicos. El ADN de plantilla se somete a reparación de extremo para generar extremos 5'-fosforilados romos, y la actividad polimerasa del fragmento de Klenow se usa para añadir una única base A al extremo 3' de los fragmentos de ADN fosforilados romos. Esta adición prepara los fragmentos de ADN para la ligación a adaptadores de oligonucleótidos, que tienen un extremo colgante de una única base de T en su extremo 3’ para aumentar la eficiencia de ligación. Los oligonucleótidos adaptadores son complementarios a los oligonucleótidos de anclaje de célula de flujo (no confundir con las lecturas de anclaje/ancladas en el análisis de expansión de repetición). En condiciones de dilución limitante, se añade ADN molde monocatenario modificado con adaptador a la celda de flujo y se inmoviliza mediante hibridación con los oligonucleótidos de anclaje. Se extienden fragmentos de ADN unidos y se amplifican con puentes para crear una celda de flujo de secuenciación de densidad ultra alta con cientos de millones de clústeres (o grupos), conteniendo cada uno aproximadamente 1.000 copias de la misma plantilla. En una realización, el ADN genómico fragmentado al azar se amplifica usando PCR antes de someterlo a amplificación por clúster. Alternativamente, se usa una preparación de biblioteca genómica libre de amplificación, y el ADN genómico fragmentado al azar se enriquece usando la amplificación de clústeres solo (Kozarewa et al., Nature Methods 6:291-295 [2009]). Las plantillas se secuencian usando una tecnología robusta de secuenciación por síntesis de ADN de cuatro colores que emplea terminadores reversibles con colorantes fluorescentes extraíbles. La detección de fluorescencia de alta sensibilidad se logra utilizando excitación láser y óptica de reflexión interna total. Las lecturas de secuencia corta que van de aproximadamente decenas a unos cuantos cientos de pares de bases se alinean contra un genoma de referencia y la cartografía única de las lecturas de secuencia corta con el genoma de referencia se identifican usando un software de proceso de análisis de datos especialmente desarrollado. Después de completar la primera lectura, las plantillas se pueden regenerar in situ para permitir una segunda lectura desde el extremo opuesto de los fragmentos. Por lo tanto, puede usarse una secuenciación de extremo único o de extremos emparejados de los fragmentos de ADN.
En varias realizaciones de la descripción se puede usar secuenciación por síntesis que permite la secuenciación de extremos emparejados. En algunas realizaciones, la secuenciación por plataforma de síntesis de Illumina implica fragmentos de agrupamiento (formación de clústers). La agrupación es un proceso en el que cada molécula de fragmento se amplifica isotérmicamente. En algunas realizaciones, como el ejemplo descrito aquí, el fragmento tiene dos adaptadores diferentes unidos a los dos extremos del fragmento, permitiendo que los adaptadores se hibriden con los dos oligonucleótidos diferentes en la superficie de un carril de celda de flujo. El fragmento además incluye o está conectado a dos secuencias de índice en dos extremos del fragmento, secuencias de índice que proporcionan marcadores para identificar diferentes muestras en secuenciación multiplexada. En algunas plataformas de secuenciación, un fragmento a secuenciar también se denomina inserto.
En alguna implementación, una celda de flujo para el agrupamiento en la plataforma Illumina es un portaobjetos de vidrio con carriles. Cada carril es un canal de vidrio recubierto con un césped de dos tipos de oligonucleótidos. La hibridación se habilita mediante el primero de los dos tipos de oligonucleótidos en la superficie. Este oligonucleótido es complementario a un primer adaptador en un extremo del fragmento. Una polimerasa crea una cadena del complemento del fragmento hibridado. La molécula bicatenaria se desnaturaliza y la cadena de plantilla original se elimina por lavado. La cadena restante, en paralelo con muchas otras cadenas restantes, se amplifica clonalmente a través de la aplicación de puente.
En la amplificación con puente, una segunda región adaptadora en un segundo extremo de la cadena se hibrida con el segundo tipo de oligonucleótidos en la superficie de la celda de flujo. Una polimerasa genera una cadena complementaria, formando una molécula de puente bicatenaria. Esta molécula bicatenaria se desnaturaliza dando como resultado dos moléculas monocatenarias unidas a la celda de flujo a través de dos oligonucleótidos diferentes. Después, el proceso se repite una y otra vez, y se produce simultáneamente para millones de clústers dando como resultado la amplificación clonal de todos los fragmentos. Después de la amplificación por puente, las cadenas inversas se escinden y se retiran mediante lavado, dejando solo las cadenas directas. Los extremos 3' se bloquean para evitar el cebado no deseado.
Después del agrupamiento, la secuenciación comienza con la extensión de un primer cebador de secuenciación para generar la primera lectura. Con cada ciclo, los nucleótidos marcados con fluorescencia compiten por la adición a la cadena de crecimiento. Solo se incorpora uno en función de la secuencia de la plantilla. Después de la adición de cada nucleótido, el clúster se excita con una fuente de luz y se emite una señal fluorescente característica. El número de ciclos determina la longitud de la lectura. La longitud de onda de emisión y la intensidad de señal determinan la llamada de base. Para un clúster dado, todas las cadenas idénticas se leen simultáneamente. Cientos de millones de clústers se secuencian de manera masivamente en paralelo. Al finalizar la primera lectura, el producto leído se retira mediante lavado.
En la siguiente etapa de los protocolos que implican dos cebadores de índice, se introduce un cebador de índice 1 y se hibrida con una región índice 1 en la plantilla. Las regiones de índice proporcionan la identificación de fragmentos, que es útil para demultiplexar muestras en un proceso de secuenciación multiplexada. La lectura del índice 1 se genera similar a la primera lectura. Después de completar la lectura de índice 1, el producto leído se retira mediante lavado y el extremo 3’ de la cadena se desprotege. La cadena de plantilla se pliega a continuación y se une a un segundo oligonucleótido en la celda de flujo. Una secuencia de índice 2 se lee de la misma manera que una de índice 1. A continuación, un producto de lectura de índice 2 se retira mediante lavado al finalizar la etapa.
Después de leer dos índices, la lectura 2 se inicia usando polimerasas para extender los segundos oligonucleótidos de células de flujo, formando un puente de doble cadena. Este ADN bicatenario se desnaturaliza y el extremo 3’ se bloquea. La cadena directa original se escinde y se retira mediante lavado, dejando la cadena inversa. La lectura 2 comienza con la introducción de un cebador de secuenciación de lectura 2. Al igual que con la lectura 1, las etapas de secuenciación se repiten hasta que se logra la longitud deseada. El producto de lectura 2 se retira mediante lavado. Este proceso completo genera millones de lecturas, que representan todos los fragmentos. Las secuencias de las bibliotecas de muestras agrupadas se separan en función de los índices únicos introducidos durante la preparación de la muestra. Para cada muestra, las lecturas de tramos similares de llamadas de base se agrupan localmente. Las lecturas directas e inversas se emparejan creando secuencias contiguas. Estas secuencias contiguas se alinean con el genoma de referencia para la identificación de la variante.
El ejemplo de secuenciación por síntesis arriba descrito implica lecturas de extremos emparejados, lo que se usa en muchas de las realizaciones de los métodos descritos. La secuenciación de extremos emparejados implica 2 lecturas de los dos extremos de un fragmento. Las lecturas de extremos emparejados se usan para resolver alineamientos ambiguos. La secuenciación de extremos emparejados permite a los usuarios elegir la longitud del inserto (o el fragmento que se va a secuenciar) y secuenciar cualquiera de los extremos del inserto, generando datos de secuencia alineables de alta calidad. Debido a que se conoce la distancia entre cada lectura emparejada, los algoritmos de alineamiento pueden usar esta información para cartografiar lecturas sobre regiones repetitivas con mayor precisión. Esto da lugar a un mejor alineamiento de las lecturas, especialmente a través de regiones repetitivas difíciles de secuenciar del genoma. La secuenciación de extremos emparejados puede detectar reordenamientos, incluidas inserciones y deleciones (indeles) e inversiones.
Las lecturas de extremos emparejados pueden usar insertos de diferente longitud (es decir, un tamaño de fragmento diferente a secuenciar). Como significado predeterminado en esta descripción, las lecturas de extremos emparejados se usan para referirse a las lecturas obtenidas a partir de diversas longitudes de inserto. En algunos casos, para distinguir las lecturas de extremos emparejados de insertos cortos de las lecturas de extremos emparejados de insertos largos, estas últimas se denominan específicamente lecturas de pares de parejas. En algunas realizaciones que implican lecturas de pares de parejas, dos adaptadores de unión a biotina se unen primero a dos extremos de un inserto relativamente largo (por ejemplo, de varios kb). Los adaptadores de unión a biotina unen entonces los dos extremos del inserto para formar una molécula circularizada. Un subfragmento que abarca los adaptadores de unión a biotina se puede obtener a continuación fragmentando adicionalmente la molécula circularizada. El subfragmento que incluye los dos extremos del fragmento original en orden de secuencia opuesto puede secuenciarse a continuación mediante el mismo procedimiento que para la secuenciación de extremos emparejados de inserción corta descrita anteriormente. Detalles adicionales de la secuenciación de pares de parejas usando una plataforma Illumina se muestran en una publicación en línea en la siguiente dirección: res.ilumina.com/documentos/products/teclnotas/techno_nextera_matepair_data_procesing.pdf
Después de la secuenciación de los fragmentos de ADN, las lecturas de secuencia de longitud predeterminada, por ejemplo, 100 pb, se cartografían o se alinean con un genoma de referencia conocido. Las lecturas cartografiadas o alineadas y sus ubicaciones correspondientes en la secuencia de referencia también se denominan marcadores. Los análisis de muchas realizaciones descritas en la presente memoria para determinar la expansión de repetición hacen uso de lecturas que o bien están mal alineadas o bien no pueden alinearse, así como lecturas alineadas (marcadores). En una realización, la secuencia del genoma de referencia es la secuencia NCBI36/hg18, que está disponible en la red en genome.ucsc.edu/cgibin/hgGateway?org=Human&db=hg18&hgsid=166260105). Alternativamente, la secuencia del genoma de referencia es GRCh37/hg19, que está disponible en la red en genome.ucsc.edu/cgi-bin/hgGateway. Otras fuentes de información de secuencia pública incluyen GenBank, dbEST, dbSTS, EMBL (el Laboratorio Europeo de Biología Molecular), y DDBJ (la base de datos de ADN de Japón). Hay disponibles varios algoritmos informáticos para alinear secuencias, incluidos, sin limitarse a ellos, BLAST (Altschul et al., 1990), BLITZ (MPsrch) (Sturrock & Collins, 1993), FASTA (Person & Lipman, 1988), Bo Wt IE (Langmead et al., Genome Biology 10:R25.1-R25.10 [2009]), o ELAND (Illumina, Inc., San Diego, CA, EE. UU.). En una realización, un extremo de las copias clonalmente expandidas de las moléculas de ADNlc de plasma se secuencia y procesa mediante análisis de alineamiento bioinformático para el analizador de genoma Illumina, que usa el software de Alineacion Eficiente a Gran Escala de Bases de Datos de Nucleotidos (ELAND).
En una realización ilustrativa, pero no limitativa, los métodos descritos en la presente memoria comprenden obtener información de secuencia para los ácidos nucleicos en una muestra de prueba, usando tecnología de secuenciación de una sola molécula de la tecnología de secuenciación de molécula única verdadera Helicos (tSMS) (por ejemplo, como se describe en Harris T.D. et al., Science 320:106-109 [2008]). En la técnica tSMS, una muestra de ADN se escinde en cadenas de aproximadamente 100 a 200 nucleótidos, y se añade una secuencia de poliA al extremo 3’ de cada cadena de ADN. Cada hebra se marca mediante la adición de un nucleótido de adenosina marcado con fluorescencia. Después, las hebras de ADN se hibridan a una celda de flujo, que contiene millones de sitios de captura de oligo-T que se inmovilizan en la superficie de la celda de flujo. En determinadas realizaciones, las plantillas pueden estar a una densidad de aproximadamente 100 millones de plantillas/cm2. La celda de flujo se carga a continuación en un instrumento, por ejemplo un secuenciador HeliScopeTM, y con un láser se ilumina la superficie de la celda de flujo, lo que revela la posición de cada molde. Una cámara CCD puede mapear la posición de los moldes en la superficie de la celda de flujo. Después, el molde de etiqueta fluorescente se escinde y retira por lavado. La reacción de secuenciación comienza introduciendo una ADN polimerasa y un nucleótido marcado de manera fluorescente. El ácido nucleico de oligo-T funciona como cebador. La polimerasa incorpora los nucleótidos marcados al cebador de una manera dirigida por molde. La polimerasa y los nucleótidos no incorporados se retiran. Las plantillas que tienen la incorporación dirigida del nucleótido con marcado fluorescente se detectan mediante la obtención de imágenes de la superficie de la celda de flujo. Después de la obtención de imágenes, una etapa de escisión retira la etiqueta fluorescente, y el procedimiento se repite con otros nucleótidos marcados con fluorescencia hasta que se logra la longitud de lectura deseada. La información de secuencia se recoge con cada etapa de adición de nucleótidos. La secuenciación del genoma completo mediante tecnologías de secuenciación de una sola molécula excluye o de forma típica evita la amplificación basada en PCR en la preparación de las bibliotecas de secuenciación, y los métodos permiten la medición directa de la muestra, en lugar de la medición de copias de esa muestra.
En otra realización ilustrativa, pero no limitativa, los métodos descritos en la presente memoria comprenden obtener información de secuencia para los ácidos nucleicos en la muestra de prueba, usando la secuenciación 454 (Roche) (por ejemplo, como se describe en Margules, M. et al. Nature 437:376-380 [2005]). La secuenciación 454 implica de forma típica dos etapas. En la primera etapa, el ADN se cizalla en fragmentos de aproximadamente 300-800 pares de bases, y los fragmentos son de extremos romos. Después, los adaptadores oligonucleotídicos se ligan a los extremos de los fragmentos. Los adaptadores sirven como cebadores para la amplificación y secuenciación de los fragmentos. Los fragmentos se pueden unir a perlas de captura de ADN, por ejemplo, perlas recubiertas con estreptavidina usando, por ejemplo, adaptador B, que contiene marcador de 5'-biotina. Los fragmentos unidos a las perlas se amplifican mediante PCR dentro de gotículas de una emulsión de aceite-agua. El resultado son múltiples copias de fragmentos de ADN amplificados clonalmente en cada perla. En la segunda etapa, las perlas se capturan en pocillos (por ejemplo, pocillos de tamaño de picolitros). La pirosecuenciación se realiza en cada fragmento de ADN en paralelo. La adición de uno o más nucleótidos genera una señal de luz registrada por una cámara CCD en un instrumento de secuenciación. La intensidad de la señal es proporcional al número de nucleótidos incorporados. La pirosecuenciación hace uso de pirofosfato (PPi) que se libera tras la adición de nucleótidos. El PPi es convertido en ATP por la ATP sulfurilasa en presencia de adenosina 5'-fosfosulfato. La luciferasa utiliza ATP para convertir luciferina a oxiluciferina, y esta reacción genera luz que se mide y se analiza.
En otra realización ilustrativa, pero no limitativa, los métodos descritos en la presente memoria comprenden obtener información de secuencia para los ácidos nucleicos en la muestra de prueba, usando la tecnología SOLiDTM (Applied Biosystems). En la secuenciación por ligación SOLiDTM, el ADN genómico se corta en fragmentos y los adaptadores se unen a los extremos 5’ y 3' de los fragmentos para generar una biblioteca de fragmentos. Alternativamente, se pueden introducir adaptadores internos ligando adaptadores a los extremos 5' y 3' de los fragmentos, circularizando los fragmentos, digiriendo el fragmento circularizado para generar un adaptador interno, y uniendo los adaptadores a los extremos 5' y 3' de los fragmentos resultantes para generar una biblioteca emparejada por parejas. A continuación, se preparan poblaciones de perlas clonales en microrreactores que contienen perlas, cebadores, plantilla y componentes de PCR. Después de la PCR, las plantillas se desnaturalizan y las perlas se enriquecen para separar las perlas con plantillas extendidas. Las plantillas en las perlas seleccionadas se someten a una modificación en extremo 3' que permite la unión a un portaobjetos de vidrio. La secuencia puede determinarse mediante hibridación secuencial y ligamiento de oligonucleótidos parcialmente al azar con una base central determinada (o par de bases) que se identifica mediante un fluoróforo específico. Después de registrar un color, el oligonucleótido ligado se escinde y se elimina y a continuación se repite el proceso.
En otra realización ilustrativa, pero no limitativa, los métodos descritos en la presente memoria comprenden obtener información de secuencia para los ácidos nucleicos en la muestra de prueba, usando la tecnología de secuenciación de molécula única en tiempo real (SMRTTM) de Pacific Biosciences. En la secuenciación SMRT, la incorporación continua de nucleótidos marcados con colorante se somete a toma de imágenes durante la síntesis del ADN. Las moléculas de ADN polimerasa individuales se unen a la superficie inferior de detectores individuales de longitud de onda de modo cero (detectores de ZMW) que obtienen información de secuencia mientras se incorporan nucleótidos fosfoligados a la cadena de cebador en crecimiento. Un detector de ZMW comprende una estructura de confinamiento que permite la observación de la incorporación de un solo nucleótido por ADN polimerasa contra un fondo de nucleótidos fluorescentes que se difunden rápidamente dentro y fuera de la ZMW (por ejemplo, en microsegundos). De forma típica cuesta varios milisegundos incorporar un nucleótido en una cadena en crecimiento. Durante este tiempo, la etiqueta fluorescente se excita y produce una señal fluorescente, y la etiqueta fluorescente se escinde. La medición de la fluorescencia correspondiente del colorante indica qué base se ha incorporado. El proceso se repite para proporcionar una secuencia.
En otra realización ilustrativa, pero no limitativa, los métodos descritos en la presente memoria comprenden obtener información de secuencia para los ácidos nucleicos en la muestra de prueba, usando secuenciación por nanoporos (por ejemplo, como se describe en Soni GV y Meller A. Clin Chem 53: 1996-2001 [2007]). Las técnicas de análisis de ADN de secuenciación de nanoporos se desarrollan por varias empresas, incluidas, por ejemplo, Oxford Nanopore Technologies (Oxford, Reino Unido), Sequenom, NABsys y similares. La secuenciación por nanoporos es una tecnología de secuenciación de una sola molécula mediante la cual una sola molécula de ADN se secuencia directamente a medida que pasa a través de un nanoporo. Un nanoporo es un pequeño agujero, de forma típica del orden de 1 nanómetro de diámetro. La inmersión de un nanoporo en un fluido conductor y la aplicación de un potencial (tensión eléctrica) a través del mismo da lugar a una ligera corriente eléctrica debido a la conducción de iones a través del nanoporo. La cantidad de corriente que fluye es sensible al tamaño y la forma del nanoporo. A medida que una molécula de ADN pasa a través de un nanoporo, cada nucleótido en la molécula de ADN obstruye el nanoporo en un grado diferente, cambiando la magnitud de la corriente a través del nanoporo en diferentes grados. Por lo tanto, este cambio en la corriente a medida que la molécula de ADN pasa a través del nanoporo proporciona una lectura de la secuencia de ADN.
En otra realización ilustrativa, pero no limitativa, los métodos descritos en la presente memoria comprenden obtener información de secuencia para los ácidos nucleicos en la muestra de prueba, usando la matriz de transistor de efecto de campo químicamente sensible (chemFET) (por ejemplo, como se describe en el documento de publicación de solicitud de patente de EE. UU. n.° 2009/0026082). En un ejemplo de esta técnica, las moléculas de ADN se pueden colocar en cámaras de reacción, y las moléculas de plantilla pueden hibridarse a un cebador de secuenciación unido a una polimerasa. La incorporación de uno o más trifosfatos en una nueva cadena de ácido nucleico en el extremo 3’ del cebador de secuenciación puede detectarse como un cambio en la corriente mediante un chemFET. Una matriz puede tener múltiples sensores chemFET. En otro ejemplo, los ácidos nucleicos sencillos se pueden unir a perlas, y los ácidos nucleicos pueden amplificarse en la perla, y las perlas individuales pueden transferirse a cámaras de reacción individuales en una matriz chemFET, teniendo cada cámara un sensor chemFET, y los ácidos nucleicos pueden secuenciarse.
En otra realización, la tecnología de secuenciación de ADN es la secuenciación de molécula única Ion Torrent, que acopla la tecnología de semiconductores con una simple metodología química de secuenciación para traducir directamente la información codificada químicamente (A, C, G, T) en información digital (0, 1) en un chip semiconductor. En la naturaleza, cuando una polimerasa incorpora un nucleótido en una cadena de ADN, se libera un ion de hidrógeno como subproducto. Ion Torrent usa una matriz de alta densidad de pocillos micromecanizados para realizar el proceso bioquímico de una manera masivamente en paralelo. Cada pocillo contiene una molécula de a Dn diferente. Debajo de los pocillos hay una capa sensible a iones y debajo de eso un sensor de iones. Cuando un nucleótido, por ejemplo, una C, se añade a una plantilla de ADN y, a continuación, se incorpora en una cadena de ADN, se liberará un ion de hidrógeno. La carga de ese ion cambiará el pH de la solución, que puede detectarse mediante un sensor de iones de Ion Torrent. El secuenciador— esencialmente el medidor de pH de estado sólido más pequeño del mundo— llama a la base, yendo directamente de la información química a la información digital. A continuación, el secuenciador Ion personal Genome Machine (PGMTM) inunda secuencialmente el chip con un nucleótido después de otro. Si el siguiente nucleótido que inunda el chip no es una coincidencia, no se grabará ningún cambio de tensión y no se llamará ninguna base. Si hay dos bases idénticas en la hebra de ADN, la tensión será doble y el chip registrará dos bases idénticas identificadas. La detección directa permite la grabación de la incorporación de nucleótidos en segundos.
En otra realización, el presente método comprende obtener información de secuencia para los ácidos nucleicos en la muestra de prueba, usando secuenciación mediante hibridación. La secuenciación por hibridación comprende poner en contacto la pluralidad de secuencias de polinucleótidos con una pluralidad de sondas de polinucleótidos, en donde cada una de la pluralidad de sondas de polinucleótidos puede unirse, opcionalmente, a un sustrato. El sustrato puede ser una superficie plana que comprende una matriz de secuencias de nucleótidos conocidas. El patrón de hibridación al alineamiento puede usarse para determinar las secuencias de polinucleótidos presentes en la muestra. En otras realizaciones, cada sonda se une a una perla, por ejemplo, una perla magnética o similar. La hibridación a las perlas puede determinarse y usarse para identificar la pluralidad de secuencias de polinucleótidos dentro de la muestra.
En algunas realizaciones de los métodos descritos en la presente memoria, las lecturas de secuencia tienen aproximadamente 20 pb, aproximadamente 25 pb, aproximadamente 30 pb, aproximadamente 35 pb, aproximadamente 40 pb, aproximadamente 45 pb, aproximadamente 50 pb, aproximadamente 55 pb, aproximadamente 60 pb, aproximadamente 65 pb, aproximadamente 70 pb, aproximadamente 75 pb, aproximadamente 80 pb, aproximadamente 85 pb, aproximadamente 90 pb, aproximadamente 95 pb, aproximadamente 100 pb, aproximadamente 110 pb, aproximadamente 120 pb, aproximadamente 130, aproximadamente 140 pb, aproximadamente 150 pb, aproximadamente 200 pb, aproximadamente 250 pb, aproximadamente 300 pb, aproximadamente 350 pb, aproximadamente 400 pb, aproximadamente 450 pb, o aproximadamente 500 pb. Se espera que los avances tecnológicos permitan lecturas de un solo extremo de más de 500 pb permitiendo lecturas de más de aproximadamente 1000 pb cuando se generen lecturas de extremos emparejados. En algunas realizaciones, se usan lecturas de extremos emparejados para determinar la expansión de repetición, lo que comprende lecturas de secuencia que tienen de aproximadamente 20 pb a 1000 pb, de aproximadamente 50 pb a 500 pb, o de 80 pb a 150 pb. En diversas realizaciones, las lecturas de extremos emparejados se usan para evaluar una secuencia que tiene una expansión de repetición. La secuencia que tiene la expansión de repetición es más larga que las lecturas. En algunas realizaciones, la secuencia que tiene la expansión de repetición es más larga de aproximadamente 100 pb, 500 pb, 1000 pb o 4000 pb. La cartografía de las lecturas de secuencia se logra comparando la secuencia de las lecturas con la secuencia de la referencia para determinar el origen cromosómico de la molécula de ácido nucleico secuenciada, y no se necesita información de secuencia genética específica. Se puede permitir que se dé un pequeño grado de emparejamientos erróneos (0-2 emparejamientos erróneos por lectura) para polimorfismos minoritarios que pueden existir entre el genoma de referencia y los genomas en la muestra mixta. En algunas realizaciones, se usan lecturas que están alineadas con la secuencia de referencia como lecturas de anclaje, y se usan lecturas emparejadas a las lecturas de anclaje pero que no pueden alinearse o se alinean mal a la referencia como lecturas ancladas. En algunas realizaciones, las lecturas mal alineadas pueden tener un número relativamente grande de porcentaje de emparejamientos erróneos por lectura, por ejemplo, al menos aproximadamente 5 %, al menos aproximadamente 10 %, al menos aproximadamente 15 %, o al menos aproximadamente 20 % de emparejamientos erróneos por lectura.
De forma típica, se obtiene una pluralidad de marcadores de secuencia (es decir, lecturas alineadas a una secuencia de referencia) por muestra. En algunas realizaciones, al menos aproximadamente 3 x 106 marcadores de secuencia, al menos aproximadamente 5 x 106 marcadores de secuencia, al menos aproximadamente 8 x 106 marcadores de secuencia, al menos aproximadamente 10 x 106 marcadores de secuencia, al menos aproximadamente 15 x 106 marcadores de secuencia, al menos aproximadamente 20 x 106 marcadores de secuencia, al menos aproximadamente 30 x 106 marcadores de secuencia, al menos aproximadamente 40 x 106 marcadores de secuencia, o al menos aproximadamente 50 x 106 marcadores de secuencia de, por ejemplo, 100 pb, se obtienen de las lecturas que se cartografían con el genoma de referencia por muestra. En algunas realizaciones, todas las lecturas de secuencia se cartografían a todas las regiones del genoma de referencia, proporcionando lecturas de todo el genoma. En otras realizaciones, las lecturas cartografiadas a una secuencia de interés, por ejemplo, un cromosoma, un segmento de un cromosoma, o una secuencia de repetición de interés.
Aparato y sistemas para determinar la expansión de repetición
El análisis de los datos de secuenciación y el diagnóstico derivado de los mismos se realizan de forma típica usando diversos algoritmos y programas ejecutados por ordenador. Por lo tanto, determinadas realizaciones emplean procesos que implican datos almacenados en o transferidos a través de uno o más sistemas informáticos u otros sistemas de procesamiento. Las realizaciones descritas en la presente memoria también se refieren al aparato para realizar estas operaciones. Este aparato puede construirse especialmente para los fines requeridos, o puede ser un ordenador de propósito general (o un grupo de computadoras) activado o reconfigurado selectivamente por un programa informático y/o una estructura de datos almacenada en el ordenador. En algunas realizaciones, un grupo de procesadores realiza algunas o todas las operaciones analíticas enumeradas colaborativamente (por ejemplo, a través de una red o informática en la nube) y/o en paralelo. Un procesador o grupo de procesadores para realizar los métodos descritos en la presente memoria puede ser de diversos tipos, incluidos microcontroladores y microprocesadores, tales como dispositivos programables (por ejemplo, CPLD y FPGA) y dispositivos no programables, tales como ASIC de matriz de puertas o microprocesadores de propósito general.
Una realización proporciona un sistema para su uso en la determinación de la presencia o ausencia de una expansión de repetición en una muestra de prueba que incluye ácidos nucleicos, incluyendo el sistema un secuenciador para recibir una muestra de ácido nucleico y proporcionar información de secuencia de ácidos nucleicos de la muestra; un procesador; y un medio de almacenamiento legible por máquina que tiene almacenadas en el mismo instrucciones para ejecución en dicho procesador para evaluar el número de copias en la muestra de prueba: (a) alineando lecturas de extremos emparejados en una secuencia de referencia que comprende la secuencia de repetición; (b) identificando lecturas de anclaje y lecturas ancladas en las lecturas de extremos emparejados, en donde las lecturas de anclaje son lecturas alineadas a o cerca de la secuencia de repetición, y las lecturas ancladas son lecturas no alineadas que están emparejadas con las lecturas de anclaje; y (c) determinando si es probable que la expansión de repetición esté presente en la muestra de prueba basándose al menos en parte en las lecturas ancladas identificadas. (c) implica determinar si es probable que la expansión de repetición esté presente en la muestra de prueba basándose al menos en parte en los números de repeticiones de la unidad repetitiva en las lecturas de anclaje y/o lecturas ancladas identificadas. En algunas realizaciones, (c) implica: obtener el número de lecturas de anclaje y/o ancladas que son lecturas de recuento alto, en donde las lecturas de alto recuento comprenden lecturas que tienen más repeticiones que un valor umbral; y comparar el número de lecturas de recuento alto en la muestra de prueba con un criterio de llamada.
En algunas realizaciones de cualquiera de los sistemas proporcionados en la presente memoria, el secuenciador está configurado para realizar la secuenciación de próxima generación (NGS). En algunas realizaciones, el secuenciador está configurado para realizar una secuenciación masivamente en paralelo usando secuenciación por síntesis con terminadores de colorante reversibles. En otras realizaciones, el secuenciador está configurado para realizar la secuenciación por ligación. En otras realizaciones adicionales, el secuenciador está configurado para realizar secuenciación de una sola molécula.
Además, determinadas realizaciones se refieren a medios legibles por ordenador tangibles y/o no transitorios o productos de programa informático que incluyen instrucciones de programa y/o datos (incluidas estructuras de datos) para realizar diversas operaciones implementadas por ordenador. Los ejemplos de medios legibles por ordenador incluyen, aunque no de forma limitativa, dispositivos de memoria de semiconductores, medios magnéticos tales como unidades de disco, cinta magnética, medios ópticos tales como CD, medios magneto-ópticos y dispositivos de hardware que están configurados especialmente para almacenar y ejecutar instrucciones de programa, tales como dispositivos de memoria de solo lectura (ROM) y memoria de acceso aleatorio (RAM). Los medios legibles por ordenador pueden ser controlados directamente por un usuario final o los medios pueden ser controlados indirectamente por el usuario final. Los ejemplos de medios controlados directamente incluyen los medios ubicados en una instalación de usuario y/o medios que no se comparten con otras entidades. Los ejemplos de medios controlados indirectamente incluyen medios que son indirectamente accesibles para el usuario a través de una red externa y/o mediante un servicio que proporciona recursos compartidos tales como la “nube” . Los ejemplos de instrucciones de programa incluyen tanto código de máquina, tales como las producidas por un compilador, y archivos que contienen código de nivel superior que puede ejecutarse por el ordenador usando un intérprete.
En diversas realizaciones, los datos o información empleada en los métodos y aparatos descritos se proporciona en un formato electrónico. Dichos datos o información pueden incluir lecturas y marcadores derivadas de una muestra de ácido nucleico, secuencias de referencia (incluidas secuencias de referencia que proporcionan únicamente o principalmente polimorfismos), llamadas, tales como llamadas de expansión de repetición, recomendaciones de asesoramiento, diagnósticos y similares. Como se utiliza en la presente memoria, los datos u otra información proporcionada en formato electrónico está disponible para su almacenamiento en una máquina y transmisión entre máquinas. Convencionalmente, los datos en formato electrónico se proporcionan digitalmente y pueden almacenarse como bits y/o bytes en diversas estructuras de datos, listas, bases de datos, etc. Los datos pueden incorporarse electrónicamente, ópticamente, etc.
Una realización proporciona un producto de programa informático para generar una salida que indica la presencia o ausencia de una expansión de repetición en una muestra de prueba. El producto informático puede contener instrucciones para realizar uno cualquiera o más de los métodos descritos anteriormente para determinar una expansión de repetición. Como se explica, el producto informático puede incluir un medio legible por ordenador no transitorio y/o tangible que tiene una lógica ejecutable por ordenador o compilable (por ejemplo, instrucciones) grabada en el mismo para permitir que un procesador determine la lectura anclada y repeticiones en lecturas ancladas, y si una expansión de repetición está presente o ausente. En un ejemplo, el producto informático comprende un medio legible por ordenador que tiene una lógica ejecutable por ordenador o compilable (por ejemplo, instrucciones) grabada en el mismo para permitir que un procesador diagnostique una expansión de repetición que comprende: un procedimiento de recepción para recibir datos de secuenciación de al menos una parte de moléculas de ácido nucleico de una muestra biológica, en donde dichos datos de secuenciación comprenden lecturas de extremos emparejados que se han sometido a alineamiento a una secuencia de repetición; lógica asistida por ordenador para analizar una expansión de repetición a partir de dichos datos recibidos; y un procedimiento de salida para generar una salida que indique la presencia, ausencia o tipo de dicha expansión de repetición.
La información de secuencia de la muestra en consideración puede cartografiarse a secuencias de referencia de cromosomas para identificar lecturas de extremos emparejados alineadas o ancladas a una secuencia de repetición de interés y para identificar una expansión de repetición de la secuencia de repetición. En diversas realizaciones, las secuencias de referencia se almacenan en una base de datos tal como una base de datos relacional u objeto.
Debe entenderse que no es práctico, o incluso posible en la mayoría de los casos, que un ser humano sin ayuda realice las operaciones computacionales de los métodos descritos en la presente memoria. Por ejemplo, la correlación de una única lectura de 30 pb a partir de una muestra a uno cualquiera de los cromosomas humanos puede requerir años de esfuerzo sin la ayuda de un aparato informático. Por supuesto, el problema se complica debido a que las llamadas de expansión de repetición fiables generalmente requieren cartografiar miles (por ejemplo, al menos aproximadamente 10.000) o incluso millones de lecturas en uno o más cromosomas.
Los métodos descritos en la presente memoria pueden realizarse usando un sistema para la evaluación de la expansión de repetición de una secuencia de repetición de interés en una muestra de prueba. El sistema puede incluir: (a) un secuenciador para recibir ácidos nucleicos de la muestra de prueba que proporciona información de secuencia de ácidos nucleicos de la muestra; (b) un procesador; y (c) uno o más medios de almacenamiento legibles por ordenador que tienen almacenadas en el mismo instrucciones para su ejecución en dicho procesador para evaluar una expansión de repetición en la muestra de prueba. En algunas realizaciones, los métodos son instruidos por un medio legible por ordenador que tiene almacenadas en el mismo instrucciones legibles por ordenador para llevar a cabo un método para identificar cualquier expansión de repetición. Por lo tanto, una realización proporciona un producto de programa informático que incluye un medio legible por máquina no transitorio que almacena código de programa que, cuando se ejecuta por uno o más procesadores de un sistema informático, hace que el sistema informático implemente un método para identificar una expansión de repetición de una secuencia de repetición en una muestra de prueba que incluye ácidos nucleicos, en donde la secuencia de repetición incluye repeticiones de una unidad repetitiva de nucleótidos. El código de programa puede incluir: (a) código para obtener lecturas de extremos emparejados de la muestra de prueba que se han procesado para alinearlas con una secuencia de referencia que comprende la secuencia de repetición; (b) código para identificar lecturas de anclaje y/o ancladas en las lecturas de extremos emparejados, en donde las lecturas de anclaje son lecturas alineadas a o cerca de la secuencia de repetición, y las lecturas ancladas son lecturas no alineadas que están emparejadas con las lecturas de anclaje; y (c) código para determinar si es probable que la expansión de repetición esté presente en la muestra de prueba basándose al menos en parte en las lecturas de anclaje identificadas y/o lecturas ancladas.
En algunas realizaciones, (c) incluye códigos para analizar tanto lecturas de anclaje como ancladas. En algunas realizaciones, (c) incluye códigos para analizar los números de repeticiones de la unidad repetitiva en las lecturas de anclaje y/o ancladas identificadas. En algunas realizaciones, (c) incluye códigos para obtener el número de lecturas de anclaje y/o ancladas que son lecturas de recuento alto, y comparar el número de lecturas de recuento alto en la muestra de prueba con un criterio de llamada.
En algunas realizaciones, las instrucciones pueden incluir además registrar automáticamente información pertinente al método tal como repeticiones y lecturas ancladas, y la presencia o ausencia de una expansión de repetición en un registro médico del paciente para un sujeto humano que proporciona la muestra de prueba. El registro médico del paciente puede ser mantenido, por ejemplo, por un laboratorio, consultorio médico, hospital, organización de mantenimiento de la salud, compañía de seguros o un sitio web de registro médico personal. Además, basándose en los resultados del análisis implementado por procesador, el método puede implicar además prescribir, iniciar y/o alterar el tratamiento de un sujeto humano del que se ha tomado la muestra de prueba. Esto puede implicar realizar una o más pruebas o análisis adicionales en muestras adicionales tomadas del sujeto.
Los métodos descritos también pueden realizarse usando un sistema de procesamiento informático que está adaptado o configurado para realizar un método para identificar cualquier expansión de repetición. Una realización proporciona un sistema de procesamiento informático que está adaptado o configurado para realizar un método como se describe en la presente memoria. En una realización, el aparato incluye un dispositivo de secuenciación adaptado o configurado para secuenciar al menos una parte de las moléculas de ácido nucleico en una muestra para obtener el tipo de información de secuencia descrita en otra parte de la presente memoria. El aparato también puede incluir componentes para procesar la muestra. Dichos componentes se describen en otra parte de la presente memoria.
La secuencia u otros datos pueden introducirse en un ordenador o almacenarse en un medio legible por ordenador, ya sea directa o indirectamente. En una realización, un sistema informático se acopla directamente a un dispositivo de secuenciación que lee y/o analiza secuencias de ácidos nucleicos de muestras. Las secuencias u otra información obtenida de dichas herramientas se proporcionan al sistema informático mediante una interfaz. Alternativamente, las secuencias procesadas por el sistema se proporcionan desde una fuente de almacenamiento de secuencia, tal como una base de datos u otro repositorio. Una vez disponible para el aparato de procesamiento, un dispositivo de memoria o un dispositivo de almacenamiento masivo recoge o almacena, al menos temporalmente, secuencias de los ácidos nucleicos. Además, el dispositivo de memoria puede almacenar recuentos de marcadores para diversos cromosomas o genomas, etc. La memoria también puede almacenar diversas rutinas y/o programas para analizar la presentación de la secuencia o los datos cartografiados. Tales programas/rutinas pueden incluir programas para realizar análisis estadísticos, etc.
En un ejemplo, un usuario proporciona una muestra en un aparato de secuenciación. Los datos se recopilan y/o analizan mediante el aparato de secuenciación que está conectado a un ordenador. El software en el ordenador permite la recopilación y/o el análisis de datos. Los datos pueden almacenarse, mostrarse (a través de un monitor u otro dispositivo similar), y/o enviarse a otra ubicación. El ordenador puede estar conectado a internet, que se usa para transmitir datos a un dispositivo portátil utilizado por un usuario remoto (por ejemplo, un médico, científico o analista). Se entiende que los datos pueden almacenarse y/o analizarse antes de transmitirlos. En algunas realizaciones, los datos sin procesar se recopilan y envían a un usuario o aparato remoto que analizará y/o almacenará los datos. La transmisión puede realizarse a través de internet, pero también puede producirse mediante satélite u otra conexión. Alternativamente, los datos pueden almacenarse en un medio legible por ordenador y el medio puede enviarse a un usuario final (por ejemplo, mediante correo). El usuario remoto puede estar en la misma ubicación geográfica o diferente, incluidos, aunque no de forma limitativa, un edificio, ciudad, estado, país o continente.
En algunas realizaciones, los métodos también incluyen recopilar datos con respecto a una pluralidad de secuencias de polinucleótidos (por ejemplo, lecturas, marcadores y/o secuencias cromosómicas de referencia) y enviar los datos a un ordenador u otro sistema informático. Por ejemplo, el ordenador puede estar conectado a un equipo de laboratorio, por ejemplo, un aparato de recolección de muestras, un aparato de amplificación de nucleótidos, un aparato de secuenciación de nucleótidos o un aparato de hibridación. El ordenador puede entonces recopilar datos aplicables recopilados por el dispositivo de laboratorio. Los datos pueden almacenarse en un ordenador en cualquier etapa, por ejemplo, mientras se recopilan en tiempo real, antes del envío, durante o junto con el envío, o siguiendo el envío. Los datos pueden almacenarse en un medio legible por ordenador que puede extraerse del ordenador. Los datos recogidos o almacenados pueden transmitirse desde el ordenador hasta una ubicación remota, por ejemplo, a través de una red local o una red de área amplia tal como internet. En la ubicación remota, los datos transmitidos se pueden someter a diversas operaciones, como se describe a continuación.
Entre los tipos de datos con formato electrónico que pueden almacenarse, transmitirse, analizarse y/o manipularse en los sistemas, aparatos y métodos descritos en la presente memoria se hallan los siguientes: Lecturas obtenidas mediante secuenciación de ácidos nucleicos en una muestra de prueba
Marcadores obtenidos alineando las lecturas con un genoma de referencia u otra secuencia o secuencias de referencia
El genoma o secuencia de referencia
Umbrales para llamar a una muestra de prueba, ya sea afectada, no afectada o sin llamada
Las llamadas reales de expansión de repetición
Diagnóstico (condición clínica asociada a las llamadas)
Recomendaciones para pruebas adicionales derivadas de las llamadas y/o diagnósticos
Tratamiento y/o planes de monitorización derivados de las llamadas y/o diagnósticos
Estos diversos tipos de datos pueden obtenerse, almacenarse, transmitirse, analizarse y/o manipularse en una o más ubicaciones usando un aparato distinto. Las opciones de procesamiento abarcan un amplio espectro. En un extremo del espectro, toda o gran parte de esta información se almacena y se usa en la ubicación donde la muestra de prueba se procesa, por ejemplo, una consulta médica u otro entorno clínico. En otro extremo, la muestra se obtiene en una ubicación, se procesa y se secuencia opcionalmente en una ubicación diferente, las lecturas se alinean y las llamadas se realizan en una o más ubicaciones diferentes, y los diagnósticos, recomendaciones y/o planes se preparan en otra ubicación (que puede ser una ubicación donde se obtuvo la muestra).
En diversas realizaciones, las lecturas se generan con el aparato de secuenciación y luego se transmiten a un sitio remoto donde se procesan para producir llamadas de expansión de repetición. En esta ubicación remota, a modo de ejemplo, las lecturas se alinean con una secuencia de referencia para producir lecturas de anclaje y ancladas. Entre las operaciones de procesamiento que pueden emplearse en diferentes ubicaciones se hallan las siguientes:
Recolección de muestras
Procesamiento de muestra preliminar a la secuenciación
Secuenciación
Análisis de datos de secuencia y obtención de llamadas de expansión de repetición
Diagnóstico
Informe acerca de un diagnóstico y/o una llamada al paciente o proveedor de atención sanitaria
Desarrollo de un plan para tratamiento, prueba y/o monitorización adicionales
Ejecución del plan
Asesoramiento
Cualquiera o más de estas operaciones pueden automatizarse como se describe en otra parte de la presente memoria. De forma típica, la secuenciación y el análisis de los datos de secuencia y la obtención de llamadas de expansión de repetición se realizarán por medios informáticos. Las otras operaciones pueden realizarse manual o automáticamente.
La Figura 6 muestra una implementación de un sistema disperso para producir una llamada o diagnóstico a partir de una muestra de prueba. Se usa una ubicación de recolección de muestras 01 para obtener una muestra de prueba de un paciente. Las muestras se proporcionaron a continuación a una ubicación de procesamiento y secuenciación 03 donde la muestra de prueba puede procesarse y secuenciarse como se ha descrito anteriormente. La ubicación 03 incluye un aparato para procesar la muestra así como un aparato para secuenciar la muestra procesada. El resultado de la secuenciación, como se describe en otra parte de la presente memoria, es una colección de lecturas que de forma típica se proporcionan en un formato electrónico y se proporcionan a una red tal como Internet, lo que se indica por el número de referencia 05 en la Figura 6.
Los datos de secuencia se proporcionan a una ubicación remota 07 donde se realizan el análisis y la generación de llamadas. Esta ubicación puede incluir uno o más dispositivos informáticos potentes tales como ordenadores o procesadores. Una vez que los recursos computacionales en la ubicación 07 han completado su análisis y generado una llamada desde la información de secuencia recibida, la llamada se retransmite a la red 05. En algunas implementaciones, no solo se genera una llamada en la ubicación 07, sino que también se genera un diagnóstico asociado. La llamada y/o el diagnóstico se transmiten a continuación a través de la red y de vuelta a la ubicación de recolección de muestras 01 como se ilustra en la Figura 6. Como se ha explicado, esta es simplemente una de muchas variaciones de cómo las diversas operaciones asociadas con la generación de una llamada o diagnóstico pueden dividirse entre diversas ubicaciones. Una variante común implica proporcionar recolección y procesamiento de muestras y secuenciación en una única ubicación. Otra variación implica proporcionar procesamiento y secuenciación en la misma ubicación que el análisis y la generación de llamadas.
Experimentos
Ejemplo 1
Determinación de la expansión de repetición relacionada con el síndrome de X frágil
Este ejemplo presenta un estudio destinado a determinar la expansión de repetición relacionada con el síndrome de X frágil usando lecturas de extremos emparejados relativamente cortas de una longitud de lectura de 100 pb. El síndrome de X frágil (FXS) está asociado a una unidad repetitiva del triplete CGG en FMR1 en el cromosoma X. Es un rasgo ligado al cromosoma X con una incidencia de 1 de cada 4.000 individuos macho y 1 de cada 6.000 individuos hembra. Cuando la repetición es menor que 60 copias, el fenotipo suele ser normal, teniendo los genes más comunes aproximadamente 30 repeticiones en la secuencia de repetición. En algunos estudios, 60-200 copias o repeticiones de la unidad repetitiva constituye una premutación, lo que puede producir el síndrome de ataxia y temblor asociado a X frágil. El trastorno de presentación tardía de X frágil se caracteriza por problemas con el movimiento y la capacidad cognitiva. El riesgo de expansión aumenta exponencialmente con el número de repeticiones por encima de 65. Más de 200 copias del triplete de repetición de forma típica producen un síndrome de X frágil con retraso mental de leve a grave. Lo que se representa en el genoma de referencia son (CGG)10 (AGG) (CGG)9. Se cree que la presencia del AGG en la repetición es protectora manteniendo la estabilidad de la repetición. Se cree que los tractos de más de 30 tripletes CGG adyacentes son más propensos a la expansión. Los tractos más largos sin un AGG son más propensos a la expansión de próxima generación.
Si bien puede parecer intuitivamente que las lecturas deben abarcar toda la secuencia de repetición para determinar si un individuo secuenciado tiene una expansión de repetición médicamente significativa, pueden usarse lecturas mucho más cortas que la secuencia de repetición para determinar si está presente una expansión de repetición. Usando los métodos descritos en la presente memoria, en presencia de una expansión de repetición, existe un gran número de pares de lecturas donde una lectura se alinea en la secuencia flanqueante fuera de la repetición y la otra se alinea totalmente dentro de la repetición. Esto no se produce en muestras normales o solo se produce en un pequeño número de pares de lecturas. De forma adicional, las expansiones de repetición extremadamente largas tendrán un número de pares de lecturas donde cada lectura está compuesta casi por completo por una unidad repetitiva. Estas lecturas terminarán sin estar alineadas y no deberían existir en muestras normales. La expectativa para cada tipo de secuencia de repetición puede cuantificarse examinando datos de secuenciación del genoma completo de un grupo aleatorio de muestras normales.
Usando los métodos descritos anteriormente, se examinaron los datos de secuencia de dos muestras de síndrome de X frágil que tienen repeticiones de triplete de 193 y 645 copias, respectivamente. Como se ha indicado anteriormente, una muestra normal tiene aproximadamente 30 repeticiones y se consideran médicamente relevantes expansiones de repetición que tienen más de 60 repeticiones. En comparación con las muestras normales, se identificó un exceso de lecturas con un gran número de la repetición de CGG en las muestras de X frágil. De forma adicional, ambas muestras de X frágil mostraron un exceso de pares de lecturas mostrando ambas lecturas las repeticiones. Las Figuras 7-13, que se describen a continuación, muestran la comparación de las muestras de X frágil con muestras normales para el análisis localizado y el análisis del genoma completo. Una prueba de rangos de Mann-Whitney muestra que las distribuciones de las muestras de X frágil tienen significativamente más repeticiones que las muestras normales (p=2x10-7 y p=2x10,13)
En este ejemplo, para cada muestra, se extrajeron los ácidos nucleicos y se realizó la secuenciación de extremos emparejados, seguido del alineamiento para identificar las lecturas de anclaje y las lecturas no alineadas ancladas, siendo las lecturas de anclaje lecturas alineadas con la secuencia de referencia a no más de 1kb de la secuencia de repetición del gen FMR1 y siendo las lecturas ancladas lecturas emparejadas con una lectura de anclaje que no se ha podido alinear o se ha alineado mal. Para cada una de las lecturas de anclaje o ancladas en una muestra, se calculó el número de CGG dentro del marco. A continuación, la distribución de la muestra correspondiente a los números de CGG en el marco se comparó con una distribución nula de muestras de control seleccionadas al azar para determinar si había un exceso de lecturas con muchas CGG. La distribución nula se calculó a partir de 1.013 muestras no afectadas.
Parte del análisis en este ejemplo implica dos muestras de X frágil. Una es una muestra hembra marcada como NA20239 (20+193), que indica una longitud de repetición de 20 copias en un cromosoma y 193 en el otro. La segunda muestra de X frágil es una muestra macho marcada como NA04025 (645), que indica una longitud de repetición de 645 para la una copia del gen en el cromosoma X único.
La Figura 7 muestra la distribución de los recuentos de triplete de CGG en lecturas de extremos emparejados alineadas o ancladas al gen FMR1 de las 1.013 muestras de control. La Figura 7 muestra los porcentajes de los diferentes números de repeticiones in-frame. Debido a que la longitud de lectura es 100 pb, el número máximo posible de repeticiones de los tripletes para una lectura es 33. Como es evidente desde el lado derecho de la Figura 7, muy pocas lecturas tienen 30 o más repeticiones. Esto puede deberse al efecto protector de los tripletes AGG que limitan las repeticiones máximas encontradas en las muestras normales. Como se ha mencionado anteriormente, en muestras normales, un triplete AGG se encuentra a menudo intercalado entre repeticiones de CGG, tal como en la secuencia (CGG)10 (AGG) (CGG)9. Se cree que la presencia del AGG en las repeticiones de CGG es protectora al mantener la estabilidad de la secuencia.
La Figura 8 muestra la distribución de valores de p de la prueba de rangos de Mann-Whitney para las muestras de control. La prueba de rangos de MW es una prueba estadística no paramétrica, que compara las frecuencias clasificadas de las repeticiones de un individuo con las frecuencias clasificadas de las muestras de control, proporcionando un valor p que indica la probabilidad de una llamada positiva falsa. La figura muestra que solo tres de las 1.013 muestras de control tienen p < 10-4. Por lo tanto, el mismo análisis que usa un valor p de 10-4 permite identificar muestras de prueba que tienen una expansión de repetición del gen FMR1.
La Figura 9 muestra la distribución de los números de repeticiones de la muestra que tiene la puntuación de prueba MW más alto y el valor p más bajo, p = 2,7x10-5. La distribución de la muestra de puntuación más alta se muestra junto con las muestras de control, mostrándose la distribución de la muestra de puntuación más alta mediante barras en sombreado y las muestras de control mediante barras negras rellenas. La muestra de puntuación más alta tiene porcentajes más bajos de repeticiones de bajo recuento y mayores porcentajes de repeticiones de recuento alto. Sin embargo, no tiene lecturas que contengan más de 30 repeticiones. Esto puede deberse a la presencia de tripletes AGG en la secuencia de repetición.
La Figura 10 muestra datos similares para una muestra de paciente hembra, NA20239 (20+193), que se sabe que tiene la expansión de repetición del gen FMR1 y síndrome de X frágil. Los datos de la muestra del paciente se muestran en barras en sombreado y los controles en barras negras rellenas. La muestra tiene 193 copias del triplete CGG en uno de los dos cromosomas X. Como se muestra en el extremo derecho de la figura, la muestra tiene un gran porcentaje de lecturas que tienen 31, 32 o 33 repeticiones. El exceso en esta región aparentemente se debe a lecturas totalmente dentro de una secuencia de repetición expandida que tiene pocas roturas o no tiene. La prueba de MW muestra que la muestra tiene un valor p de 3,8x10-7.
La Figura 11 muestra datos para una muestra de paciente de X frágil macho, NA04025(645), que tiene 645 copias del triplete CGG en el cromosoma X. Los datos de la muestra del paciente se muestran en barras en sombreado y los controles en barras negras rellenas. Como se muestra en el lado derecho de la figura, esta muestra tiene porcentajes incluso mayores de lecturas que tienen 32 y 33 repeticiones que la muestra de paciente hembra NA20239. Más del 30 por ciento de todas las lecturas tienen 32 o 33 repeticiones. La prueba de MW muestra que la muestra tiene un valor p de 2,2x10-13.
El análisis adicional de las dos muestras de pacientes junto con otras muestras que tienen un gran número límite de repeticiones reveló un sesgo de género utilizando el enfoque de análisis de datos arriba descrito. La Figura 12 muestra la misma distribución de valores de p de la prueba de rangos de Mann-Whitney para las muestras de control que la Figura 8, con la indicación adicional de cuatro de las muestras hembra de puntuación más alta y cuatro de las muestras macho de puntuación más alta. Como muestran las flechas, las cuatro muestras hembra tienen un — log 10(valor p) inferior a ocho, y las cuatro muestras macho tienen un— log10 (valor p) mayor de ocho. Esto no es sorprendente porque las muestras hembra tienen dos copias de los genes FMR1, teniendo una de las dos copias un número normal de repeticiones por debajo de 30. Esta copia del gen FMR1 normal desvía la distribución de las muestras hembra hacia la de las muestras de control.
Usando los métodos descritos anteriormente, se puede calcular el número esperado de repeticiones parciales y repeticiones completas dada la longitud de una secuencia de repetición, una profundidad de secuenciación y la longitud de las lecturas de extremos emparejados. La Tabla 2 enumera los números esperados aproximados de repeticiones parciales y repeticiones completas para diversas longitudes de secuencias de repetición (mostradas como copias de triplete). Las secuencias de repetición que tienen un gran número de copias de repetición son médicamente relevantes, y las muestras hembra afectadas, que tienen dos cromosomas X, tienden a tener una secuencia de repetición larga y una secuencia de repetición corta.
Tabla 2. Expectativas de repetición haploide aproximadas frente a longitud de triplete
Figure imgf000030_0001
*Repetición parcial/completa indica si la lectura está parcial o totalmente dentro de la repetición
Se diseñó un nuevo análisis para centrarse en secuencias de repetición largas, tales como secuencias que tienen 100 copias de triplete, correspondientes a 30 o más repeticiones en una lectura. La Figura 13 muestra que dicho análisis de hecho elimina los sesgos de género. La Figura 13 muestra los números de muestras que tienen varios números de lecturas de recuento alto, donde una lectura de recuento alto es una lectura que contiene más de 29 repeticiones de CGG. Sorprendentemente, la mayoría de las muestras de control tienen muy pocas lecturas de alto recuento. Más específicamente, 828 de las 1.013 muestras de control tienen cero lecturas de recuento alto; 85 de las 1.013 muestras de control tienen una; y 33 tienen dos. Obsérvese que las tres barras situadas más a la izquierda están truncadas en la figura. Las cuatro muestras hembra de puntuación más alta y las cuatro muestras macho de puntuación más alta que se muestran en la Figura 12 tienen los números más grandes de lecturas de recuento alto. Estas muestras se indican mediante las barras en sombreado en el extremo derecho de la figura, que tienen 18 a 30 lecturas de recuento alto. Las muestras de control, excepto las muestras de puntuación más altas, se indican mediante barras grises rellenas. Lo que es más importante aún, las muestras macho y hembra de alta puntuación están combinadas en el intervalo de 18 a 30. Basándose en la distribución empírica de lecturas de alto recuento de la muestra de control, y los números esperados de repeticiones completas para diversas copias de triplete, se puede elegir un criterio de decisión para diferenciar una secuencia de repetición normal y una secuencia de repetición que tiene una expansión de repetición patogénica. Por ejemplo, 60 copias de triplete corresponden a 12 repeticiones completas. Usando 12 como valor de corte para las lecturas de alto recuento, se puede identificar los pacientes macho y hembra conocidos, y siete muestras de control de puntuación más altas. Usando 17 repeticiones completas como el valor del criterio de llamada, se puede descartar la muestra con la 7a puntuación más alta. El valor del criterio de llamada puede ajustarse basándose en diversas consideraciones tales como las necesidades de sensibilidad y selectividad.
Como se muestra en la Tabla 2, las expectativas de repetición haploide varían en función de la diferencia en longitud de triplete. Por ejemplo, el número esperado de lecturas que están totalmente en la secuencia de repetición de 60 tripletes es 12 bajo las condiciones experimentales dadas. Estas lecturas totalmente en la secuencia de repetición constituirían lecturas de recuento alto en el análisis presentado en la presente memoria. Si una muestra de prueba tiene muchas más lecturas de recuento alto que este valor esperado, de tal modo que la cantidad de lecturas de la muestra de alto recuento se encuentra fuera de una distribución de muestras de control (cuya secuencia de repetición tiene 60 tripletes), se puede inferir que la muestra de prueba tiene una secuencia de repetición con una longitud mayor que 60 tripletes (es decir, una expansión de repetición). Por lo tanto, es posible obtener un umbral para llamar a una expansión de repetición a partir de una distribución de lectura de alto recuento de muestras de control. La Figura 14 muestra la distribución simulada teórica del número esperado de lecturas totalmente dentro de una secuencia de repetición de 60 tripletes. En el eje x se muestra el número de lecturas que se hallan totalmente en la secuencia de repetición. El eje y indica el porcentaje de muestras que tienen un número particular de lecturas. La línea vertical izquierda indica el 5° percentil y la línea vertical derecha el 95° percentil con respecto al número de lecturas. Por lo tanto, el 90 % de las muestras que tienen una secuencia de repetición de 60 tripletes se encontrarían en el intervalo situado entre las dos líneas verticales en términos del número de lecturas que se hallan totalmente en la secuencia de repetición. Se puede usar esta distribución para asignar intervalos de confianza para llamar a una expansión de repetición. Por ejemplo, se puede establecer 19 como el umbral para llamar a una expansión de repetición que tiene más de 60 tripletes, y el intervalo de confianza sería superior al 95 %.
La Figura 15 muestra la media, el 5° percentil y el 95° percentil del número esperado de lecturas totalmente en la secuencia de repetición que tiene varios números de tripletes basados en simulaciones con las mismas condiciones experimentales de la Figura 14. La Figura 15 incluye los puntos de datos relevantes de la Figura 14 y los expande a secuencias de repetición que tienen un intervalo de recuentos de repetición triplete. En el eje x se muestra el número de recuentos de repetición triplete. En el eje y se muestra el número de lecturas que se hallan totalmente en la secuencia de repetición. La media se muestra como una línea continua, y el 5° percentil y el 95° percentil se muestran como líneas discontinuas que flanquean la media. La línea vertical indica recuentos de triplete repetidos de 60, correspondientes al recuento de triplete repetido de la Figura 14. En algunas implementaciones, los valores del 95° percentil pueden usarse para llamar a una expansión de repetición por encima de los recuentos de repetición indicados. Por ejemplo, un criterio de aproximadamente 40 lecturas totalmente en la secuencia de repetición puede establecerse para llamar a una expansión de una secuencia de repetición de 100 tripletes.
La Figura 16 muestra los mismos datos simulados que en la Figura 15, mientras se identifica la observación de tener 20 lecturas totalmente en la secuencia de repetición. La figura muestra que un 95 % de las muestras que tienen una secuencia de repetición de 61 tripletes tendrían menos de 20 lecturas totalmente en la repetición. En otras palabras, se puede llamar a una expansión de repetición más allá de 61 repeticiones triplete con un 95 % de confianza cuando se observa que 20 lecturas están totalmente dentro de la repetición. Además, el 5 % de las muestras que tienen una secuencia de repetición de 92 tripletes tendrían más de 20 lecturas totalmente en la repetición.
Ejemplo 2
Determinación de expansión de repetición relacionada con la ELA
Este ejemplo presenta datos para pacientes con esclerosis lateral amiotrófica (ELA) que se analizaron de la misma manera que la descrita en el Ejemplo 1. En un porcentaje bastante alto de los pacientes, la ELA familiar implica una expansión de repetición de hexanucleótidos de los nucleótidos GGGGCC en el gen C9ofr72 ubicado en el brazo corto del marco de lectura abierto 72 del cromosoma 9.
El análisis al que se refiere la Figura 17 es comparable al análisis de la Figura 13. La Figura 17 muestra los números de muestras que tienen varios números de lecturas de recuento alto, donde una lectura de recuento alto es una lectura que contiene más de 13 copias de hexanucleótidos GGGGCC. Las muestras de control se muestran mediante barras grises rellenas y las muestras de pacientes mediante barras en sombreado. La mayoría de las muestras de control tienen muy pocas lecturas de alto recuento. De hecho, más del 96 % de las muestras de control tienen cero lecturas de recuento alto. Obsérvese que la barra situada más a la izquierda está truncada en la figura. Un paciente de ELA familiar tiene 24 lecturas de recuento alto, y otro (no se muestra en la figura) tiene 35 lecturas de recuento alto.
Este ejemplo demuestra que los métodos descritos en la presente memoria pueden usarse para detectar eficazmente la expansión de repetición en pacientes con ELA.
La presente descripción puede realizarse en otras formas específicas sin apartarse de sus características esenciales. Las realizaciones descritas deben considerarse en todos los aspectos solo como ilustrativas y no restrictivas. Por lo tanto, el alcance de la descripción queda indicado por las reivindicaciones adjuntas más que por la descripción anterior. Todos los cambios que entran dentro del significado y el rango de equivalencia de las reivindicaciones deben estar incluidos dentro de su alcance.

Claims (1)

  1. REIVINDICACIONES
    Un método implementado por ordenador para determinar la presencia o ausencia de una expansión de repetición de una secuencia de repetición de interés en una muestra de prueba que comprende ácidos nucleicos, en donde la secuencia de repetición de interés comprende repeticiones de una unidad repetitiva de nucleótidos, comprendiendo el método:
    (a) obtener lecturas de extremos emparejados de la muestra de prueba, y alinear las lecturas de extremos emparejados a una secuencia de referencia que comprende la secuencia de repetición de interés, obteniendo de este modo lecturas alineadas y lecturas no alineadas, en donde las lecturas alineadas se alinean con una determinada ubicación en la secuencia de referencia, y en donde las lecturas no alineadas incluyen lecturas que no pueden alinearse o que están mal alineadas con la secuencia de referencia;
    (b) identificar lecturas de anclaje en las lecturas de extremos emparejados identificando lecturas alineadas que están alineadas con la secuencia de repetición de interés o con una ubicación situada a no más de aproximadamente 5000 pb de la secuencia de repetición de interés como las lecturas de anclaje, e identificar lecturas ancladas en las lecturas de extremos emparejados identificando lecturas no alineadas que están emparejadas con las lecturas de anclaje como las lecturas ancladas; y
    (c) determinar si es probable que la expansión de repetición esté presente en la muestra de prueba basándose al menos en parte en los números de repeticiones de la unidad repetitiva en las lecturas de anclaje identificadas,
    en donde (c) comprende:
    obtener el número de lecturas de anclaje identificadas que son lecturas de alto recuento, en donde las lecturas de alto recuento comprenden lecturas que tienen más repeticiones que un valor umbral; y
    comparar el número de lecturas de alto recuento en la muestra de prueba con un criterio de llamada, y en donde el valor umbral para las lecturas de alto recuento es de aproximadamente el 80 % del número máximo de repeticiones, máximo que se calcula a partir de la longitud de las lecturas de extremos emparejados y la longitud de la unidad repetitiva.
    El método de la reivindicación 1, en donde:
    (i) el criterio de llamada se obtiene a partir de una distribución de lecturas de alto recuento de muestras de control;
    (ii) el criterio de llamada se calcula a partir de la longitud de las lecturas de extremos emparejados, una longitud de una secuencia que tiene la expansión de repetición, y una profundidad de secuencia; o
    (iii) el criterio de llamada se calcula a partir de la distancia entre la primera y la última observación de la secuencia de repetición dentro de las lecturas.
    Un método implementado por ordenador para determinar la presencia o ausencia de una expansión de repetición de una secuencia de repetición de interés en una muestra de prueba que comprende ácidos nucleicos, en donde la secuencia de repetición de interés comprende repeticiones de una unidad repetitiva de nucleótidos, comprendiendo el método:
    (a) obtener lecturas de extremos emparejados de la muestra de prueba, y alinear las lecturas de extremos emparejados a una secuencia de referencia que comprende la secuencia de repetición de interés, obteniendo de este modo lecturas alineadas y lecturas no alineadas, en donde las lecturas alineadas se alinean con una determinada ubicación en la secuencia de referencia, y en donde las lecturas no alineadas incluyen lecturas que no pueden alinearse o que están mal alineadas con la secuencia de referencia;
    (b) identificar lecturas de anclaje en las lecturas de extremos emparejados identificando lecturas alineadas que están alineadas con la secuencia de repetición de interés o con una ubicación situada a no más de aproximadamente 5000 pb de la secuencia de repetición de interés como las lecturas de anclaje, e identificar lecturas ancladas en las lecturas de extremos emparejados identificando lecturas no alineadas que están emparejadas con las lecturas de anclaje como las lecturas ancladas; y
    (c) determinar si es probable que la expansión de repetición esté presente en la muestra de prueba basándose al menos en parte en los números de repeticiones de la unidad repetitiva en las lecturas de anclaje identificadas,
    en donde (c) comprende comparar una distribución de números de repeticiones de la unidad repetitiva en las lecturas identificadas para la muestra de prueba y una distribución de números de repeticiones para una o más muestras de control.
    4. El método de la reivindicación 3, en donde comparar la distribución para la muestra de prueba con la distribución para las muestras de control comprende:
    usar una prueba de rangos de Mann-Whitney para determinar si la distribución de la muestra de prueba difiere de forma estadísticamente significativa de la distribución de las muestras de control, y
    opcionalmente, determinar que la expansión de repetición probablemente esté presente en la muestra de prueba si la distribución de la muestra de prueba está sesgada más hacia números más altos de repeticiones que las muestras de control, y el valor p para la prueba de rangos de Mann-Whitney es menor que aproximadamente 0,0001.
    5. El método de cualquiera de las reivindicaciones anteriores, en donde las lecturas de anclaje son lecturas alineadas a no más de aproximadamente 100 pb, 200 pb, 300 pb, 400 pb, 500 pb, 600 pb, 700 pb, 800 pb, 900 pb, 1000 pb, 1500 pb, 2000 pb, o 3000 pb, de la secuencia de repetición de interés.
    6. El método de cualquiera de las reivindicaciones anteriores, en donde (c) comprende determinar si es probable que la expansión de repetición esté presente en la muestra de prueba a partir de los números de repeticiones de la unidad repetitiva en las lecturas de anclaje identificadas y las lecturas ancladas identificadas.
    7. El método de cualquiera de las reivindicaciones anteriores, que comprende además determinar que un individuo del que se obtiene la muestra de prueba tiene un riesgo elevado de uno entre el síndrome de X frágil, esclerosis lateral amiotrófica (ELA), enfermedad de Huntington, ataxia de Friedreich, ataxia espinocerebelosa, atrofia muscular espino-bulbar, distrofia miotónica, enfermedad de Machado-Joseph o atrofia dentato-rubro-pálido-luisiana.
    8. El método de cualquiera de las reivindicaciones anteriores, en donde los números de repeticiones son números de repeticiones in-frame.
    9. El método de cualquiera de las reivindicaciones anteriores, en donde:
    (i) las lecturas de extremos emparejados son más cortas que una secuencia de repetición que tiene la expansión de repetición; o
    (ii) las lecturas de extremos emparejados se obtienen a partir de insertos de aproximadamente 100-5000 pb.
    10. El método de la reivindicación 9, en donde:
    (i) las lecturas de extremos emparejados comprenden lecturas de aproximadamente 20 pb a 1000 pb; o
    (ii) una secuencia que tiene la expansión de repetición tiene una longitud mayor que aproximadamente 100 pb.
    11. Un sistema para determinar la presencia o ausencia de una expansión de repetición de una secuencia de repetición de interés en una muestra de prueba que comprende ácidos nucleicos, en donde la secuencia de repetición de interés comprende repeticiones de una unidad repetitiva, comprendiendo el sistema:
    un secuenciador para secuenciar ácidos nucleicos de la muestra de prueba; un procesador; y uno o más medios de almacenamiento legibles por ordenador que tienen almacenadas en el mismo instrucciones para su ejecución en dicho procesador para implementar el método de una cualquiera de las reivindicaciones 1-10.
ES15771527T 2014-09-12 2015-09-11 Detección de expansiones de repetición con datos de secuenciación de lectura corta Active ES2915399T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201462049925P 2014-09-12 2014-09-12
PCT/EP2015/070902 WO2016038220A1 (en) 2014-09-12 2015-09-11 Detecting repeat expansions with short read sequencing data

Publications (1)

Publication Number Publication Date
ES2915399T3 true ES2915399T3 (es) 2022-06-22

Family

ID=54207462

Family Applications (1)

Application Number Title Priority Date Filing Date
ES15771527T Active ES2915399T3 (es) 2014-09-12 2015-09-11 Detección de expansiones de repetición con datos de secuenciación de lectura corta

Country Status (11)

Country Link
US (2) US10699801B2 (es)
EP (2) EP4092680A1 (es)
CN (2) CN113362891A (es)
AU (2) AU2015314114B2 (es)
DK (1) DK3191993T3 (es)
ES (1) ES2915399T3 (es)
HU (1) HUE058678T2 (es)
LT (1) LT3191993T (es)
PL (1) PL3191993T3 (es)
PT (1) PT3191993T (es)
WO (1) WO2016038220A1 (es)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9892230B2 (en) 2012-03-08 2018-02-13 The Chinese University Of Hong Kong Size-based analysis of fetal or tumor DNA fraction in plasma
EP3889272A1 (en) 2014-07-18 2021-10-06 The Chinese University of Hong Kong Methylation pattern analysis of tissues in dna mixture
LT3191993T (lt) * 2014-09-12 2022-05-25 Illumina Cambridge Limited Pasikartojančių išsiplėtimų aptikimas naudojant trumpos rodmenų sekos duomenis
US10364467B2 (en) 2015-01-13 2019-07-30 The Chinese University Of Hong Kong Using size and number aberrations in plasma DNA for detecting cancer
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
US10508305B2 (en) 2016-02-28 2019-12-17 Damoun Nashtaali DNA sequencing and processing
CN110088840B (zh) * 2016-11-10 2023-07-25 生命科技股份有限公司 校正核酸序列读数的重复区域中的碱基调用的方法、系统和计算机可读媒体
EP3548632A4 (en) 2016-11-30 2020-06-24 The Chinese University Of Hong Kong ANALYSIS OF CELLULAR DNA IN URINE AND OTHER SAMPLES
WO2019028189A2 (en) * 2017-08-01 2019-02-07 Human Longevity, Inc. DETERMINING THE STR LENGTH BY SHORT READ SEQUENCING
JP6710427B2 (ja) * 2017-12-29 2020-06-17 アクト ゲノミクス (アイピー) カンパニー リミテッド 配列アライメントおよびバリアントコールのための方法およびシステム
EP3856903A4 (en) 2018-09-27 2022-07-27 Grail, LLC METHYLATION MARKER AND TARGETED METHYLATION PROBE PANEL
WO2020181254A1 (en) * 2019-03-07 2020-09-10 Illumina, Inc. Sequence-graph based tool for determining variation in short tandem repeat regions
US11210554B2 (en) 2019-03-21 2021-12-28 Illumina, Inc. Artificial intelligence-based generation of sequencing metadata
US11347965B2 (en) 2019-03-21 2022-05-31 Illumina, Inc. Training data generation for artificial intelligence-based sequencing
US11593649B2 (en) 2019-05-16 2023-02-28 Illumina, Inc. Base calling using convolutions
GB2605736B (en) 2020-02-05 2023-05-24 Univ Hong Kong Chinese Molecular analyses using long cell-free fragments in pregnancy
US11475981B2 (en) 2020-02-18 2022-10-18 Tempus Labs, Inc. Methods and systems for dynamic variant thresholding in a liquid biopsy assay
US11211147B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing
US11211144B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Methods and systems for refining copy number variation in a liquid biopsy assay
EP4107735A2 (en) 2020-02-20 2022-12-28 Illumina, Inc. Artificial intelligence-based many-to-many base calling
US20220336054A1 (en) 2021-04-15 2022-10-20 Illumina, Inc. Deep Convolutional Neural Networks to Predict Variant Pathogenicity using Three-Dimensional (3D) Protein Structures
CA3222329A1 (en) * 2021-06-11 2022-12-15 Sai CHEN Determining pathogenic rfc1 expansions from sequencing data
CN114807331B (zh) * 2022-05-12 2024-06-18 中国海洋大学 一种短链dna的纳米孔测序方法
WO2024073278A1 (en) * 2022-09-26 2024-04-04 Illumina, Inc. Detecting and genotyping variable number tandem repeats

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
WO2013041577A1 (en) * 2011-09-20 2013-03-28 Vib Vzw Methods for the diagnosis of amyotrophic lateral sclerosis and frontotemporal lobar degeneration
KR101795124B1 (ko) * 2012-04-05 2017-12-01 비지아이 다이어그노시스 씨오., 엘티디. 복제 수 변이를 검측하기 위한 방법 및 시스템
CN102766688B (zh) * 2012-04-17 2014-04-02 盛司潼 一种检测基因序列的方法
US9916416B2 (en) * 2012-10-18 2018-03-13 Virginia Tech Intellectual Properties, Inc. System and method for genotyping using informed error profiles
LT3191993T (lt) * 2014-09-12 2022-05-25 Illumina Cambridge Limited Pasikartojančių išsiplėtimų aptikimas naudojant trumpos rodmenų sekos duomenis

Also Published As

Publication number Publication date
DK3191993T3 (da) 2022-07-25
EP3191993A1 (en) 2017-07-19
PL3191993T3 (pl) 2022-06-20
LT3191993T (lt) 2022-05-25
AU2015314114A1 (en) 2017-03-30
CN107077537A (zh) 2017-08-18
AU2015314114B2 (en) 2021-01-21
WO2016038220A1 (en) 2016-03-17
AU2021202149B2 (en) 2023-03-02
US10699801B2 (en) 2020-06-30
EP3191993B1 (en) 2022-04-20
US20200335178A1 (en) 2020-10-22
US20170249421A1 (en) 2017-08-31
PT3191993T (pt) 2022-06-20
EP4092680A1 (en) 2022-11-23
AU2021202149A1 (en) 2021-05-06
HUE058678T2 (hu) 2022-09-28
CN107077537B (zh) 2021-06-22
CN113362891A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
ES2915399T3 (es) Detección de expansiones de repetición con datos de secuenciación de lectura corta
ES2961338T3 (es) Supresión de errores en fragmentos de ADN secuenciados utilizando lecturas redundantes con índices moleculares únicos (UMI)
KR20210138556A (ko) 짧은 탠덤 반복 영역에서의 변이를 결정하기 위한 서열-그래프 기반 툴
JP2023552507A (ja) ゲノムの反復領域内のショートリードを可視化するための方法及びシステム
RU2799654C2 (ru) Инструмент на основе графов последовательностей для определения вариаций в областях коротких тандемных повторов