ES2892349T3 - Algoritmo de secuenciación - Google Patents

Algoritmo de secuenciación Download PDF

Info

Publication number
ES2892349T3
ES2892349T3 ES19755421T ES19755421T ES2892349T3 ES 2892349 T3 ES2892349 T3 ES 2892349T3 ES 19755421 T ES19755421 T ES 19755421T ES 19755421 T ES19755421 T ES 19755421T ES 2892349 T3 ES2892349 T3 ES 2892349T3
Authority
ES
Spain
Prior art keywords
nucleic acid
template nucleic
target template
mutated
acid molecule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES19755421T
Other languages
English (en)
Inventor
Michael Imelfort
Leigh G Monahan
Joyce To
Catherine M Burke
Aaron E Darling
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Longas Technologies Pty Ltd
Original Assignee
Longas Technologies Pty Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB1813171.4A external-priority patent/GB201813171D0/en
Priority claimed from GBGB1907101.8A external-priority patent/GB201907101D0/en
Application filed by Longas Technologies Pty Ltd filed Critical Longas Technologies Pty Ltd
Application granted granted Critical
Publication of ES2892349T3 publication Critical patent/ES2892349T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
  • Oscillators With Electromechanical Resonators (AREA)

Abstract

Un método para determinar una secuencia de al menos una molécula de ácido nucleico molde diana, que comprende: (a) proporcionar un par de muestras, comprendiendo cada muestra al menos una molécula de ácido nucleico molde diana; (b) secuenciar regiones de al menos una molécula de ácido nucleico molde diana en una primera del par de muestras para proporcionar lecturas de secuencias no mutadas; (c) introducir mutaciones en la al menos una molécula de ácido nucleico molde diana en una segunda del par de muestras para proporcionar al menos una molécula de ácido nucleico molde diana mutada; (d) secuenciar regiones de la al menos una molécula de ácido nucleico molde diana mutada para proporcionar lecturas de secuencias mutadas; (e) analizar las lecturas de secuencias mutadas, y usar la información obtenida a partir del análisis de las lecturas de secuencias mutadas para ensamblar una secuencia para al menos una porción de al menos una molécula de ácido nucleico molde diana a partir de las lecturas de secuencias no mutadas; en donde la etapa (e) comprende preparar un gráfico de ensamblaje, en donde el gráfico de ensamblaje comprende nodos calculados a partir de lecturas de secuencias no mutadas, y cada ruta válida a través del gráfico de ensamblaje que comprende los nodos representa la secuencia de al menos una porción de al menos una molécula de ácido nucleico molde diana; en donde usar información obtenida del análisis de las lecturas de secuencias mutadas para ensamblar una secuencia para al menos una porción de al menos una molécula de ácido nucleico molde diana a partir de las lecturas de secuencias no mutadas comprende identificar nodos que forman parte de una ruta válida a través del gráfico de ensamblaje mediante el uso de información obtenida mediante el análisis de las lecturas de secuencias mutadas; y en donde identificar nodos que forman parte de una ruta válida a través del gráfico de ensamblaje mediante el uso de la información obtenida al analizar las lecturas de secuencias mutadas comprende: (i) calcular nodos a partir de lecturas de secuencias no mutadas; (ii) mapear las lecturas de secuencias mutadas en el gráfico de ensamblaje; (iii) identificar lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma al menos una molécula de ácido nucleico molde diana mutada; y (iv) identificar nodos que se unen por lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma al menos una molécula de ácido nucleico molde diana mutada, en donde los nodos que se unen por lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma al menos una molécula de ácido nucleico molde diana mutada forman parte de una ruta válida a través del gráfico de ensamblaje.

Description

DESCRIPCIÓN
Algoritmo de secuenciación
Campo de la invención
La invención se refiere a un método para determinar una secuencia de al menos una molécula de ácido nucleico molde diana mediante el uso de lecturas de secuencias no mutadas y lecturas de secuencias mutadas.
Antecedentes de la invención
La capacidad de secuenciar moléculas de ácido nucleico es una herramienta que es muy útil en una gran variedad de aplicaciones diferentes. Sin embargo, puede ser difícil determinar secuencias exactas para moléculas de ácido nucleico que comprenden estructuras problemáticas, tales como moléculas de ácido nucleico que comprenden regiones de repetición. Además, puede ser difícil resolver variantes estructurales, tales como la estructura del haplotipo de organismos diploides y poliploides.
Muchas de las técnicas más modernas (denominadas técnicas de secuenciación de nueva generación) sólo son capaces de secuenciar moléculas de ácido nucleico cortas con exactitud. Las técnicas de secuenciación de nueva generación pueden usarse para secuenciar secuencias de ácido nucleico más largas, pero esto es difícil a menudo. Las técnicas de secuenciación de nueva generación pueden usarse para generar lecturas de secuencias cortas, que corresponden a secuencias de porciones de la molécula de ácido nucleico, y la secuencia completa puede ensamblarse a partir de las lecturas de secuencias cortas. Cuando la molécula de ácido nucleico comprende regiones de repetición, puede resultar poco claro para el usuario si dos lecturas de secuencia que tienen secuencias similares corresponden a secuencias de dos repeticiones dentro de una secuencia más larga, o dos réplicas de la misma secuencia. De manera similar, el usuario puede desear secuenciar simultáneamente dos moléculas de ácido nucleico similares, y puede ser difícil determinar si dos lecturas de secuencia que tienen secuencias similares corresponden a secuencias de la misma molécula de ácido nucleico original o de dos moléculas de ácido nucleico originales diferentes.
El ensamblaje de secuencias a partir de lecturas de secuencias cortas puede ayudarse mediante el uso de secuenciación asistida por técnicas de mutagénesis (SAM). Generalmente, s Am implica introducir mutaciones en las secuencias de ácido nucleico molde diana. Los patrones de mutaciones que se introducen pueden ayudar al usuario del método a ensamblar las secuencias de moléculas de ácido nucleico a partir de lecturas de secuencias cortas.
Por ejemplo, cuando las moléculas de ácido nucleico molde contienen regiones de repetición, las repeticiones pueden distinguirse una de otra por diferentes patrones de mutaciones, lo que permite de ese modo que las regiones de repetición se resuelvan y ensamblen correctamente.
Generalmente, las técnicas SAM implican mutar copias de una molécula de ácido nucleico molde diana y luego ensamblar secuencias para las copias mutadas basándose en sus patrones de mutaciones. Luego, el usuario puede crear una secuencia consenso a partir de las secuencias de las copias mutadas. Dado que las diferentes copias mutadas comprenderán mutaciones en diferentes posiciones, la secuencia consenso puede ser representativa de la molécula de ácido nucleico molde original. Sin embargo, la secuencia consenso puede comprender artefactos procedentes del proceso de mutación. Además, crear la secuencia consenso implica usar programas informáticos que son complicados y de procesamiento intensivo.
El documento WO 02/079502 se refiere al uso de secuencias secundarias que varían con respecto a una secuencia primaria para deducir información acerca de la secuencia primaria. El documento WO 2014/013218 describe sistemas y métodos de caracterización de haplotipos en una muestra de ácido nucleico mediante la introducción de polimorfismos en fragmentos de un ácido nucleico y la secuenciación de las moléculas de ácido nucleico mutadas resultantes y el ensamblaje de una secuencia para las moléculas de ácido nucleico mutadas. El documento WO 2016/057947 describe la introducción de mutaciones de nucleótidos al azar en una molécula de ácido nucleico diana y el ensamblaje de lecturas de secuencias solapantes a partir de las moléculas de ácido nucleico mutadas.
Por consiguiente, persiste la necesidad de métodos para determinar una secuencia de al menos una molécula de ácido nucleico molde diana en donde las lecturas de secuencia puedan ensamblarse, de manera exacta, rápida y eficiente.
Resumen de la invención
Los presentes inventores han desarrollado nuevos métodos mejorados para determinar una secuencia de al menos una molécula de ácido nucleico molde diana. Por tanto, en un primer aspecto de la invención, se proporciona un método para determinar una secuencia de al menos una molécula de ácido nucleico molde diana, que comprende: (a) proporcionar un par de muestras, comprendiendo cada muestra al menos una molécula de ácido nucleico molde diana;
(b) secuenciar regiones de al menos una molécula de ácido nucleico molde diana en una primera del par de muestras para proporcionar lecturas de secuencias no mutadas;
(c) introducir mutaciones en la al menos una molécula de ácido nucleico molde diana en una segunda del par de muestras para proporcionar al menos una molécula de ácido nucleico molde diana mutada;
(d) secuenciar regiones de la al menos una molécula de ácido nucleico molde diana mutada para proporcionar lecturas de secuencias mutadas;
(e) analizar las lecturas de secuencias mutadas, y usar la información obtenida a partir del análisis de las lecturas de secuencias mutadas para ensamblar una secuencia para al menos una porción de al menos una molécula de ácido nucleico molde diana a partir de las lecturas de secuencias no mutadas;
en donde la etapa (e) comprende preparar un gráfico de ensamblaje, en donde el gráfico de ensamblaje comprende nodos calculados a partir de lecturas de secuencias no mutadas, y cada ruta válida a través del gráfico de ensamblaje que comprende los nodos representa la secuencia de al menos una porción de al menos una molécula de ácido nucleico molde diana;
en donde usar información obtenida del análisis de las lecturas de secuencias mutadas para ensamblar una secuencia para al menos una porción de al menos una molécula de ácido nucleico molde diana a partir de las lecturas de secuencias no mutadas comprende identificar nodos que forman parte de una ruta válida a través del gráfico de ensamblaje mediante el uso de información obtenida mediante el análisis de las lecturas de secuencias mutadas; y
en donde identificar nodos que forman parte de una ruta válida a través del gráfico de ensamblaje mediante el uso de la información obtenida al analizar las lecturas de secuencias mutadas comprende:
(i) calcular nodos a partir de lecturas de secuencias no mutadas;
(ii) mapear las lecturas de secuencias mutadas en el gráfico de ensamblaje;
(iii) identificar lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma al menos una molécula de ácido nucleico molde diana mutada; y
(iv) identificar nodos que se unen por lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma al menos una molécula de ácido nucleico molde diana mutada,
en donde los nodos que se unen por lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma al menos una molécula de ácido nucleico molde diana mutada forman parte de una ruta válida a través del gráfico de ensamblaje.
En un segundo aspecto de la invención, se proporciona un método implementado por ordenador para generar una secuencia de al menos una molécula de ácido nucleico molde diana, que comprende:
(a) obtener datos que comprenden:
(i) lecturas de secuencias no mutadas; y
(ii) lecturas de secuencias mutadas;
(b) analizar las lecturas de secuencias mutadas, y usar la información obtenida a partir del análisis de las lecturas de secuencias mutadas para ensamblar una secuencia para al menos una porción de al menos una molécula de ácido nucleico molde diana a partir de las lecturas de secuencias no mutadas;
en donde la etapa (b) comprende preparar un gráfico de ensamblaje, en donde el gráfico de ensamblaje comprende nodos calculados a partir de lecturas de secuencias no mutadas, y cada ruta válida a través del gráfico de ensamblaje que comprende los nodos representa la secuencia de al menos una porción de al menos una molécula de ácido nucleico molde diana;
en donde usar información obtenida del análisis de las lecturas de secuencias mutadas para ensamblar una secuencia para al menos una porción de al menos una molécula de ácido nucleico molde diana a partir de las lecturas de secuencias no mutadas comprende identificar nodos que forman parte de una ruta válida a través del gráfico de ensamblaje mediante el uso de información obtenida mediante el análisis de las lecturas de secuencias mutadas; y
en donde identificar nodos que forman parte de una ruta válida a través del gráfico de ensamblaje mediante el uso de la información obtenida al analizar las lecturas de secuencias mutadas comprende:
(i) calcular nodos a partir de lecturas de secuencias no mutadas;
(ii) mapear las lecturas de secuencias mutadas en el gráfico de ensamblaje;
(iii) identificar lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma al menos una molécula de ácido nucleico molde diana mutada; y
(iv) identificar nodos que se unen por lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma al menos una molécula de ácido nucleico molde diana mutada,
en donde los nodos que se unen por lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma al menos una molécula de ácido nucleico molde diana mutada forman parte de una ruta válida a través del gráfico de ensamblaje.
En un tercer aspecto de la invención, se proporciona un medio legible por ordenador que comprende un programa informático adaptado para realizar los métodos de la invención.
En un cuarto aspecto de la invención, se proporciona un método implementado por ordenador que comprende los métodos de la invención.
Breve descripción de las figuras
La figura 1 muestra el nivel de mutación logrado con tres polimerasas diferentes en presencia o ausencia de dPTP. El panel A muestra los datos obtenidos mediante el uso de Taq (Jena Biosciences), el panel B muestra los datos obtenidos mediante el uso de LongAmp (New England Biolabs) y el panel C muestra los datos mediante el uso de Primestar GXL (Takara). Las barras de color gris oscuro muestran los resultados obtenidos en ausencia de dPTP y las barras de color gris pálido muestran los resultados obtenidos en presencia de dPTP 0,5 mM.
La figura 2 describe las tasas de mutaciones obtenidas mediante mutagénesis de dPTP mediante el uso de una polimerasa de Thermococcus (Primestar GXL; Takara) en moldes con diversos contenidos de G+C. La mediana de la tasa de mutaciones observado fue de ~7 % para los moldes de bajo contenido de GC de S. aureus (33 % de GC), mientras que la mediana para los otros moldes fue de aproximadamente el 8 %.
La figura 3 es una lista de secuencias.
La figura 4 describe las longitudes de los fragmentos obtenidos mediante el uso de los métodos descritos en el ejemplo 5. La figura 5 describe la distribución de valores mediante el uso de inferencia variacional en datos simulados. El panel A muestra los valores de M deducidos mediante el uso de inferencia variacional en datos simulados. Los valores verdaderos son de 0,895 para las identidades ([1,1], [2,2], [3,3], [4,4]) y 0,1 para las transiciones ([1,3],[2,4],[3,1],[4,2]) y 0,005 para las transversiones (todas las demás entradas). El panel B muestra los valores de z deducidos mediante el uso de inferencia variacional en datos simulados. Los valores verdaderos de z son de 1 para el mismo[1:5] y 0 para el mismo[91:95].
La figura 6 es un gráfico de recuerdo de precisión para datos simulados que usan valores de punto de corte que oscilan entre 100 y 10.000 en escalones de 100. Se realizaron 2.000 pruebas para cada umbral que incluían 1.000 pares de lecturas que se originaron a partir del mismo molde y 1.000 que no lo hicieron.
La figura 7 es un diagrama de flujo, que ilustra un método para determinar una secuencia de al menos una molécula de ácido nucleico molde diana.
La figura 8 es un diagrama de flujo, que ilustra un método para generar una secuencia de al menos una molécula de ácido nucleico molde diana.
La figura 9 representa un gráfico de ensamblaje en el panel A y la asignación de lecturas de secuencias mutadas en el gráfico de ensamblaje en el panel B.
La figura 10 representa los tamaños de moléculas de ácido nucleico diana amplificadas mediante el uso de adaptadores que se aparean entre sí (línea a la derecha) o mediante el uso de adaptadores convencionales (línea a la izquierda).
La figura 11 es un gráfico que describe una relación lineal entre el factor de dilución de muestra y el número observado de moldes únicos. Una muestra inicial de moléculas de ácido nucleico molde diana se diluyó en serie y se realizó la secuenciación de extremos para identificar y cuantificar el número de moldes únicos en cada dilución.
La figura 12 es un gráfico que muestra la normalización de los recuentos de moldes entre muestras individuales en una combinación. (A) muestra recuentos de moldes únicos para 66 genomas bacterianos con códigos de barras, determinados a partir de una muestra combinada antes de la normalización. (B) muestra los recuentos de moldes para las mismas muestras después de la normalización (expresados por Megabase (Mb) del contenido genómico) que muestran mucha menos variabilidad.
La figura 13 muestra un flujo de trabajo para el ensamblaje de genomas bacterianos.
La figura 14 muestra las estadísticas de ensamblaje de comparación de 65 genomas bacterianos para el ensamblaje de lecturas convencional en comparación con el ensamblaje de la presente invención (ensamblajes de Morphoseq).
La figura 15 muestra métricas de ensamblaje a modo de ejemplo para el ensamblaje de un genoma bacteriano para el ensamblaje de lecturas cortas en comparación con el ensamblaje.
La figura 16 muestra un flujo de trabajo ilustrativo de la presente invención para generar lecturas largas sintéticas. (a) Preparación de moldes mutados largos. El ADN genómico de interés se somete a tagmentación en primer lugar para producir moldes largos que contienen adaptadores de extremo. Luego se amplifican los moldes en presencia del análogo de nucleótido mutagénico dPTP, que se incorpora al azar opuesto a los residuos de A y G en ambas hebras de producto (PCR de mutagénesis). Esta etapa también introduce (i) etiquetas de muestra y (ii) una secuencia adaptadora adicional en los extremos del molde para facilitar la amplificación aguas abajo de los productos que contienen la base P. Se realiza una amplificación adicional en ausencia de dPTP (PCR de recuperación), durante la cual los residuos P de molde se reemplazan por nucleótidos naturales para generar mutaciones de transición (que se muestran como líneas de color rojo). Luego, la muestra se selecciona por tamaño (8-10 kb), se restringe a un número fijo de moldes únicos y se enriquece selectivamente para crear muchas copias de cada molécula única. (b) Preparación, secuenciación y análisis de bibliotecas de lecturas cortas. Los moldes mutados largos se procesan para la secuenciación de lecturas cortas a través de tagmentación adicional y amplificación de la biblioteca. Durante esta etapa, los fragmentos derivados de los extremos finales de los moldes de longitud completa se amplifican y añaden códigos de barras por separado de fragmentos “ internos” al azar mediante el uso de distintos cebadores que seleccionan como diana los adaptadores originales de los extremos del molde (color gris oscuro) y los adaptadores internos de tagmentación (color gris claro). Ambas bibliotecas se secuencian, junto con una biblioteca de referencia sin mutar generada en paralelo, y se usa un algoritmo personalizado para reconstruir lecturas largas sintéticas. Esto implica crear un gráfico de ensamblaje a partir de los datos de referencia, en los cuales se mapean lecturas mutadas y se ligan entre sí a través de distintos patrones de mutaciones solapantes. La lectura larga sintética final corresponde a una trayectoria identificada a través del gráfico de ensamblaje sin mutar.
Descripción detallada de la invención
Definiciones generales
A menos que se defina de otro modo, los términos técnicos y científicos usados en el presente documento tienen el mismo significado que el entendido habitualmente por un experto en la técnica a la que pertenece esta invención.
Generalmente, el término “ que comprende” pretende significar incluyendo, pero sin limitarse a. Por ejemplo, la expresión “ un método para determ inar una secuencia de a l menos una molécula de ácido nucleico molde diana que comprende [ciertas etapas]” debe interpretarse que significa que el método incluye las etapas mencionadas, pero que pueden realizarse etapas adicionales.
En algunas realizaciones de la invención, la expresión “que comprende” se reemplaza por la expresión “que consiste en” . El término “ que consiste en” pretende ser limitativo. Por ejemplo, debe entenderse que la expresión “ un método para determinar una secuencia de al menos una molécula de ácido nucleico molde diana que consiste en [ciertas etapas] ” significa que el método incluye las etapas mencionadas, y que no se realizan etapas adicionales.
Un método para determinar una secuencia de al menos una molécula de ácido nucleico molde diana
En algunos aspectos, la descripción proporciona un método para determinar una secuencia de al menos una molécula de ácido nucleico molde diana o un método para generar una secuencia de al menos una molécula de ácido nucleico molde diana.
Con los propósitos de la presente invención, los términos “ determinar” y “generar’ pueden usarse indistintamente. Sin embargo, un método para “determinar” una secuencia comprende generalmente etapas tales como etapas de secuenciación, mientras que un método para “generar” una secuencia puede restringirse a etapas que pueden implementarse por ordenador.
El método puede usarse para determinar o generar una secuencia completa de la al menos una molécula de ácido nucleico molde diana. Alternativamente, el método puede usarse para determinar o generar una secuencia parcial, es decir, una secuencia de una porción de la al menos una molécula de ácido nucleico molde diana. Por ejemplo, si no es posible o no es sencillo determinar una secuencia completa, el usuario puede decidir que la secuencia de una porción de la al menos una molécula de ácido nucleico molde diana es útil o incluso suficiente para su propósito.
Con los propósitos de la presente invención, una “ molécula de ácido nucleico” se refiere a una forma polimérica de nucleótidos de cualquier longitud. Los nucleótidos pueden ser desoxirribonucleótidos, ribonucleótidos o análogos de los mismos. Preferiblemente, la al menos una molécula de ácido nucleico molde diana está compuesta de desoxirribonucleótidos o ribonucleótidos. Incluso más preferiblemente, la al menos una molécula de ácido nucleico molde diana está compuesta por desoxirribonucleótidos, es decir, la al menos una molécula de ácido nucleico molde diana es una molécula de ADN.
Al menos una “ molécula de ácido nucleico molde diana” puede ser cualquier molécula de ácido nucleico que al usuario le gustaría secuenciar. La al menos una “ molécula de ácido nucleico molde diana” puede ser monocatenaria, o puede formar parte de un complejo bicatenario. Si la al menos una molécula de ácido nucleico molde diana está compuesta por desoxirribonucleótidos, puede formar parte de un complejo de ADN bicatenario. En cuyo caso, se considerará que una hebra (por ejemplo, la hebra codificante) es la al menos una molécula de ácido nucleico molde diana, y la otra hebra es una molécula de ácido nucleico que es complementaria a la al menos una molécula de ácido nucleico molde diana. Al menos una molécula de ácido nucleico molde diana puede ser una molécula de ADN correspondiente a un gen, puede comprender intrones, puede ser una región intergénica, puede ser una región intragénica, puede ser una región genómica que abarca múltiples genes o puede ser, de hecho, un genoma completo de un organismo.
Los términos “ al menos una molécula de ácido nucleico molde diana” y “ al menos una molécula de ácido nucleico molde diana” se consideran sinónimos y pueden usarse indistintamente en el presente documento.
En los métodos de la invención, cualquier número de al menos una molécula de ácido nucleico molde diana puede secuenciarse simultáneamente. Por tanto, en una realización de la invención, la al menos una molécula de ácido nucleico molde diana comprende una pluralidad de moléculas de ácido nucleico molde diana. Opcionalmente, la al menos una molécula de ácido nucleico molde diana comprende al menos 10, al menos 20, al menos 50, al menos 100 o al menos 250 moléculas de ácido nucleico molde diana. Opcionalmente, la al menos una molécula de ácido nucleico molde diana comprende entre 10 y 1000, entre 20 y 500 o entre 50 y 100 moléculas de ácido nucleico molde diana.
El método para determinar una secuencia de al menos una molécula de ácido nucleico molde diana de la invención comprende las etapas de:
(a) proporcionar un par de muestras, comprendiendo cada muestra al menos una molécula de ácido nucleico molde diana;
(b) secuenciar regiones de al menos una molécula de ácido nucleico molde diana en una primera del par de muestras para proporcionar lecturas de secuencias no mutadas;
(c) introducir mutaciones en la al menos una molécula de ácido nucleico molde diana en una segunda del par de muestras para proporcionar al menos una molécula de ácido nucleico molde diana mutada;
(d) secuenciar regiones de la al menos una molécula de ácido nucleico molde diana mutada para proporcionar lecturas de secuencias mutadas;
(e) analizar las lecturas de secuencias mutadas, y usar información obtenida a partir del análisis de las lecturas de secuencias mutadas para ensamblar una secuencia para al menos una porción de al menos una molécula de ácido nucleico molde diana a partir de las lecturas de secuencias no mutadas.
El método implementado por ordenador para generar una secuencia de al menos una molécula de ácido nucleico molde diana de la invención comprende las etapas de:
(a) obtener datos que comprenden:
(i) lecturas de secuencias no mutadas; y
(ii) lecturas de secuencias mutadas;
(b) analizar las lecturas de secuencias mutadas, y usar información obtenida a partir del análisis de las lecturas de secuencias mutadas para ensamblar una secuencia para al menos una porción de al menos una molécula de ácido nucleico molde diana a partir de las lecturas de secuencias no mutadas.
Proporcionar un par de muestras, comprendiendo cada muestra al menos una molécula de ácido nucleico molde diana
El método para determinar una secuencia de al menos una molécula de ácido nucleico molde diana puede comprender una etapa de proporcionar un par de muestras, comprendiendo cada muestra al menos una molécula de ácido nucleico molde diana.
Los métodos de la invención usan información obtenida mediante el análisis de lecturas de secuencias mutadas para ensamblar una secuencia para al menos una porción de al menos una molécula de ácido nucleico molde diana a partir de lecturas de secuencias no mutadas. Los métodos de la invención comprenden una etapa de introducir mutaciones en la al menos una molécula de ácido nucleico molde diana en una segunda del par de muestras. Por tanto, secuenciar regiones de la al menos una molécula de ácido nucleico molde diana mutada en la segunda del par de muestras puede usarse para proporcionar lecturas de secuencias mutadas, y secuenciar regiones de la al menos una molécula de ácido nucleico molde diana no mutada en la primera del par de muestras puede usarse para proporcionar lecturas de secuencias no mutadas.
Para que el usuario pueda usar la información obtenida mediante el análisis de lecturas de secuencias mutadas de la segunda muestra para ensamblar una secuencia que comprende predominantemente secuencias no mutadas de la primera muestra, algunas de las lecturas de secuencias mutadas y algunas de las lecturas de secuencias no mutadas corresponderán a la misma molécula de ácido nucleico molde diana original.
Por ejemplo, si el usuario desea determinar la secuencia de moléculas de ácido nucleico molde diana A y B, entonces la primera muestra comprenderá moléculas de ácido nucleico molde A y B y la segunda muestra comprenderá moléculas de ácido nucleico molde A y B. A y B en la primera muestra pueden secuenciarse para proporcionar lecturas de secuencias no mutadas de A y B, y A y B en la segunda muestra pueden mutarse y secuenciarse para proporcionar lecturas de secuencias mutadas de A y B.
Dado que la primera del par de muestras y la segunda del par de muestras comprenden la al menos una molécula de ácido nucleico molde diana, el par de muestras puede derivarse del mismo organismo diana o tomarse de la misma muestra original.
Por ejemplo, si el usuario pretende secuenciar la al menos una molécula de ácido nucleico molde diana en una muestra, el usuario puede tomar un par de muestras de la misma muestra original.
Opcionalmente, el usuario puede replicar la al menos una molécula de ácido nucleico molde diana en la muestra original antes de tomar el par de muestras de la misma. El usuario puede intentar secuenciar diversas moléculas de ácido nucleico de un organismo particular, tal como E. coli. Si este es el caso, la primera del par de muestras puede ser una muestra de E. coli de una fuente y la segunda del par de muestras puede ser una muestra de E. coli de una segunda fuente.
El par de muestras puede originarse a partir de cualquier fuente que comprende, o se sospecha que comprende, la al menos una molécula de ácido nucleico molde diana. El par de muestras puede comprender una muestra de moléculas de ácido nucleico derivadas de un ser humano, por ejemplo, una muestra extraída de un hisopo de piel de un paciente humano. Alternativamente, el par de muestras puede derivarse de otras fuentes tales como un suministro de agua. Tales muestras podrían contener miles de millones de moléculas de ácido nucleico molde. Sería posible secuenciar cada una de estas miles de millones de moléculas de ácido nucleico molde diana simultáneamente mediante el uso de los métodos de la invención y, por tanto, no hay límite superior en el número de moléculas de ácido nucleico molde diana que podrían usarse en los métodos de la invención.
En una realización, pueden proporcionarse múltiples pares de muestras. Por ejemplo, pueden proporcionarse 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 15, 20, 25, 50, 75 o 100 pares de muestras. Opcionalmente, se proporcionan menos de 100, menos de 75, menos de 50, menos de 25, menos de 20, menos de 15, menos de 11, menos de 10, menos de 9, menos de 8, menos de 7, menos de 6, menos de 5 o menos de 4 muestras. Opcionalmente, se proporcionan entre 2 y 100, 2 y 75, 2 y 50, entre 2 y 25, entre 5 y 15 o entre 7 y 15 pares de muestras.
Cuando se proporcionan múltiples pares de muestras, la al menos una molécula de ácido nucleico molde diana en diferentes pares de muestras puede marcarse con diferentes etiquetas de muestra. Por ejemplo, si el usuario pretende proporcionar 2 pares de muestras, la totalidad o sustancialmente la totalidad de la al menos una molécula de ácido nucleico molde diana en el primer par de muestras puede marcarse con la etiqueta de muestra A, y la totalidad o sustancialmente la totalidad de la al menos una molécula de ácido nucleico molde diana en el segundo par de muestras puede marcarse con la etiqueta de muestra B. Las etiquetas de muestra se describen con mayor detalle bajo el título “etiquetas de muestra y códigos de barra".
Control del número de moléculas de ácido nucleico molde diana en una muestra
Tal como se describió anteriormente, los métodos de secuenciación de la presente invención comprenden ensamblar una secuencia para al menos una porción de al menos una molécula de ácido nucleico molde diana a partir de lecturas no mutadas mediante el uso de información obtenida del análisis de las lecturas de secuencias mutadas correspondientes. Normalmente, las moléculas de ácido nucleico molde diana en una muestra pueden ensamblarse para generar la secuencia de una molécula o moléculas de ácido nucleico más grandes presentes en una muestra. A modo de una realización representativa, las moléculas de ácido nucleico molde diana pueden ensamblarse para generar la secuencia de un genoma. Realizar una ejecución de secuenciación genera una cierta cantidad finita de datos, en forma de las lecturas de secuenciación que se obtienen. Con el fin de ensamblar la secuencia de una molécula de ácido nucleico molde diana a partir de las lecturas de secuenciación obtenidas de la misma (y, por tanto, ensamblar las moléculas de ácido nucleico molde diana para generar la secuencia de una molécula o moléculas de ácido nucleico molde diana más grandes), es preferible garantizar que la cobertura de las moléculas de ácido nucleico molde diana entre las lecturas de secuenciación sea adecuada (es decir, suficiente para ensamblar la secuencia) sin generar un grado excesivo de lecturas de secuenciación redundantes (es decir, duplicativas) para cada molécula de ácido nucleico molde diana. Por ejemplo, si una muestra contiene demasiadas moléculas de ácido nucleico molde diana para generar un número suficiente de lecturas de secuenciación a partir de cada molécula de ácido nucleico molde diana, puede no ser posible ensamblar la secuencia de cada molécula de ácido nucleico molde diana (es decir, puede no haber datos suficientes para cada molde). Por otra parte, si una muestra contiene muy pocas moléculas de ácido nucleico molde diana, aunque puede ser posible ensamblar cada molécula de ácido nucleico molde diana, puede no ser posible ensamblar las moléculas de ácido nucleico molde diana para generar la secuencia de una molécula de ácido nucleico molde más grande, por ejemplo puede no ser posible generar la secuencia de un genoma (es decir, puede haber un exceso de datos para cada molde y, por tanto, datos insuficientes para la muestra en su totalidad).
Con estas consideraciones en mente, es ventajoso que el usuario sea capaz de controlar el número de moléculas de ácido nucleico molde diana únicas que están presentes en la primera del par de muestras y/o la segunda del par de muestras. Entonces, el usuario puede seleccionar el número óptimo de moléculas de ácido nucleico molde diana únicas que están presentes en la primera del par de muestras y/o la segunda del par de muestras. El número óptimo de moléculas de ácido nucleico molde diana únicas puede depender de varios factores diferentes, que apreciará el usuario. Por ejemplo, si las moléculas de ácido nucleico molde diana son más largas, estas serán más difíciles de secuenciar y el usuario puede desear seleccionar un menor número de moléculas de ácido nucleico molde diana únicas.
Por consiguiente, los métodos de la invención pueden comprender una etapa de proporcionar un par de muestras, comprendiendo cada muestra al menos una molécula de ácido nucleico molde diana, etapa que comprende controlar el número de moléculas de ácido nucleico molde diana en una primera y/o una segunda del par de muestras.
Puede ser útil controlar el número de moléculas de ácido nucleico molde diana en la primera del par de muestras. Sin embargo, se prefiere particularmente que se controle el número de moléculas de ácido nucleico molde diana en la segunda del par de muestras para la segunda del par de muestras (es decir, la muestra que comprende al menos una molécula de ácido nucleico molde diana en donde se introducirán mutaciones). En los métodos de la invención, se muta la al menos una molécula de ácido nucleico molde diana en la segunda del par de muestras, y se usa para reconstruir la secuencia de una molécula de ácido nucleico molde diana. En este contexto, el número de moléculas de ácido nucleico molde diana en la segunda del par de muestras puede ser crucial. Por tanto, puede ser particularmente ventajoso controlar el número de moléculas de ácido nucleico molde diana en la segunda del par de muestras.
De manera similar, se describe en el presente documento un método para determinar una secuencia de al menos una molécula de ácido nucleico molde diana, que comprende:
(a) proporcionar al menos una muestra que comprende la al menos una molécula de ácido nucleico molde diana;
(b) secuenciar regiones de la al menos una molécula de ácido nucleico molde diana; y
(c) ensamblar una secuencia de la al menos una molécula de ácido nucleico molde diana a partir de las secuencias de las regiones de la al menos una molécula de ácido nucleico molde diana, en donde la etapa de proporcionar al menos una muestra que comprende la al menos una molécula de ácido nucleico molde diana comprende controlar el número de moléculas de ácido nucleico molde diana en la al menos una muestra.
De manera similar, se describe en el presente documento un método para determinar una secuencia de al menos una molécula de ácido nucleico molde diana, que comprende:
(a) proporcionar al menos una muestra que comprende la al menos una molécula de ácido nucleico molde diana;
(b) secuenciar regiones de al menos una porción de la al menos una molécula de ácido nucleico molde diana; y
(c) ensamblar una secuencia de la al menos una molécula de ácido nucleico molde diana a partir de las secuencias de las regiones de la al menos una molécula de ácido nucleico molde diana, en donde la etapa de proporcionar al menos una muestra que comprende la al menos una molécula de ácido nucleico molde diana comprende controlar el número de moléculas de ácido nucleico molde diana en la al menos una muestra.
Con los propósitos de la presente solicitud, la expresión “ controlar el número de moléculas de ácido nucleico molde diana" en una muestra se refiere a proporcionar un número de moléculas de ácido nucleico molde diana que se desea en la muestra. Según ciertas realizaciones particulares, esto puede comprender manipular o ajustar la muestra de tal manera que contenga el número deseado de moléculas de ácido nucleico molde diana (por ejemplo, diluyendo la muestra o combinando la muestra con otra muestra que también comprende moléculas de ácido nucleico molde diana).
Se apreciará que “ controlar el número de moléculas de ácido nucleico molde diana" puede no ser completamente preciso ya que, por ejemplo, es difícil lograr un número preciso de moléculas de ácido nucleico molde diluyendo una muestra mediante el uso de técnicas convencionales. Sin embargo, si el usuario encuentra que la muestra comprende aproximadamente el doble de moléculas de ácido nucleico molde diana según se desee, el usuario puede diluir la muestra y lograr una muestra diluida que comprende aproximadamente la mitad del número de moléculas de ácido nucleico molde diana presentes en la muestra original (por ejemplo, entre el 45 % y el 55 % del número de moléculas de ácido nucleico molde diana presentes en la muestra original).
Controlar el número de moléculas de ácido nucleico molde diana puede comprender medir el número de moléculas de ácido nucleico molde diana en la muestra (por ejemplo, el usuario puede medir el número de moléculas de ácido nucleico molde diana en la primera del par de muestras, la segunda del par de muestras o la al menos una muestra). El término “ medir" puede sustituirse en el presente documento por el término “ estimar". Generalmente, medir el número de moléculas de ácido nucleico molde diana en la muestra se usa como parte de una etapa para controlar el número de moléculas de ácido nucleico molde diana en una muestra, y la etapa de controlar el número de moléculas de ácido nucleico molde diana en una muestra puede usarse para ayudar al usuario a garantizar que la muestra comprenda un número de moléculas de ácido nucleico molde diana que sea apropiada (es decir, dentro de un rango deseado) para su uso en un método de secuenciación particular. Sin embargo, no existe ningún requerimiento para que tal etapa de controlar el número de moléculas de ácido nucleico molde diana sea completamente exacta. Un método para controlar aproximadamente el número de moléculas de ácido nucleico molde diana en la muestra sería útil para mejorar un método de secuenciación de una molécula de ácido nucleico molde diana. En una realización, “ medir el número de moléculas de ácido nucleico molde diana" se refiere a determinar el número de moléculas de ácido nucleico molde diana en una muestra dentro de al menos el orden de magnitud correcto, es decir, dentro de un factor de 10, o más preferiblemente dentro de un factor de 5, 4, 3 o 2 en comparación con el número verdadero. Más preferiblemente, el número de moléculas de ácido nucleico molde diana en una muestra puede determinarse dentro de al menos el 50 % o al menos el 40 % o al menos el 30 % o al menos el 25 % o al menos el 20 % o al menos el 15 % o al menos el 10 % del número verdadero. Puede usarse cualquier método para medir el número de moléculas de ácido nucleico molde diana en la muestra.
Una muestra (por ejemplo, la primera del par de muestras, la segunda del par de muestras, o la al menos una muestra) puede diluirse antes de o en el transcurso de medir el número de moléculas de ácido nucleico molde diana en la muestra. Por ejemplo, si el usuario cree que la muestra comprende un gran número de moléculas de ácido nucleico molde diana, puede desear diluir la muestra para obtener una muestra que tenga un número adecuado de moléculas de ácido nucleico molde diana para medir con exactitud, por ejemplo, mediante secuenciación. Por tanto, puede proporcionarse una muestra diluida. Por consiguiente, el número de moléculas de ácido nucleico molde diana puede medirse en una muestra diluida, para determinar de ese modo el número de moléculas de ácido nucleico molde diana en una muestra.
Según ciertas realizaciones, puede ser ventajoso preparar más de una muestra diluida, cada una a un factor de dilución diferente. Por ejemplo, si el usuario no tiene una idea acertada de cuántas moléculas de ácido nucleico molde diana están presentes en la muestra, puede desear preparar una serie de diluciones y medir el número de moléculas de ácido nucleico molde diana en cada dilución (es decir, en cada muestra diluida). Por tanto, medir el número de moléculas de ácido nucleico molde diana puede comprender preparar una serie de dilución en la primera del par de muestras, la segunda del par de muestras, o la al menos una muestra para proporcionar una serie de dilución que comprende muestras diluidas. Una serie de diluciones puede comprender entre 1 y 50, entre 1 y 25, entre 1 y 20, entre 1 y 15, entre 1 y 10, entre 1 y 5 muestras diluidas, entre 5 y 25, entre 5 y 20, entre 5 y 15 o entre 5 y 10 muestras diluidas.
Tal serie de diluciones puede prepararse realizando una dilución en serie. Opcionalmente, las muestras pueden diluirse entre 2 veces y 20 veces, entre 5 veces y 15 veces, o aproximadamente 10 veces. Por ejemplo, para obtener una serie de diluciones de 10 muestras cada una diluida 10 veces, el usuario preparará una dilución de 10 veces de la muestra, luego aislará una porción de la muestra diluida y la diluirá 10 veces más y así sucesivamente hasta que se obtengan 10 muestras diluidas.
El usuario puede preparar 10 muestras diluidas, pero sólo determinar el número de moléculas de ácido nucleico molde diana en menos de 10 de las muestras diluidas. Por ejemplo, si el usuario determina el número de moléculas de ácido nucleico molde diana en 5 de las muestras diluidas, y determina el número de moléculas de ácido nucleico molde diana con exactitud en la quinta muestra diluida, no hay necesidad de determinar adicionalmente el número de moléculas de ácido nucleico molde diana en cualquiera de las otras muestras diluidas. En aún otras realizaciones, el usuario puede correlacionar los resultados de múltiples muestras diluidas para que sean más fiables en el resultado. Ventajosamente, esto también puede proporcionar al usuario información con respecto al rango dinámico sobre el cual el número de moléculas de ácido nucleico molde diana en la muestra puede determinarse con exactitud en un conjunto dado de condiciones. Sin embargo, el usuario puede realizar una única dilución para determinar con exactitud el número de moléculas de ácido nucleico molde diana en una muestra.
Según ciertas realizaciones particulares, el número de moléculas de ácido nucleico molde diana en una muestra (o una muestra diluida) puede medirse mediante la determinación de la concentración molar de las moléculas de ácido nucleico molde diana en la muestra. Esto puede realizarse, por ejemplo, mediante electroforesis. Según una realización particular, el número de moléculas de ácido nucleico molde diana en una muestra puede determinarse mediante electroforesis microfluídica de alta resolución, mediante la cual una muestra puede cargarse en un microcanal y las moléculas de ácido nucleico molde diana pueden separarse de manera electroforética, y detectarse por su fluorescencia. Los sistemas adecuados para determinar el número de moléculas de ácido nucleico molde diana de esta manera incluyen el bioanalizador 2100 de Agilent y Tapestation 4200 de Agilent.
En realizaciones alternativas, el número de moléculas de ácido nucleico molde diana puede medirse al secuenciar las moléculas de ácido nucleico molde diana en la primera del par de muestras, la segunda del par de muestras, la al menos una muestra o una o más de las muestras diluidas.
Según una realización particular, el método puede comprender medir el número de moléculas de ácido nucleico molde diana mediante la secuenciación de las moléculas de ácido nucleico molde diana en una o más de las muestras diluidas.
Los ácidos nucleicos molde diana pueden secuenciarse mediante el uso de cualquier método de secuenciación. Los ejemplos de posibles métodos de secuenciación incluyen la secuenciación de Maxam-Gilbert, secuenciación de Sanger, secuenciación que comprende amplificación en puente (tal como PCR en puente), o cualquier método de secuenciación de alto rendimiento (HTS, por sus siglas en inglés) tal como se describe en Maxam A M, Gilbert W (febrero de 1977), “A new method for sequencing DNA” , Proc. Natl. Acad. Sci. U. S. A. 74 (2): 560-4, Sanger F, Coulson A R (mayo de 1975), “A Rapid method for determining sequences in DNA by primed synthesis with DNA polymerase” , J. Mol. Biol. 94 (3): 441 -8; y Bentley DR, Balasubramanian S, y col. (2008), “Accurate whole human genome sequencing using reversible terminator chemistry’, Nature, 456 (7218): 53-59. Medir el número de moléculas de ácido nucleico molde diana puede comprender amplificar y luego secuenciar las moléculas de ácido nucleico molde diana (u visto de otra manera, las moléculas de ácido nucleico molde diana amplificadas) en la primera del par de muestras, la segunda del par de muestras, la al menos una muestra, o una o más de las muestras diluidas. Amplificar las moléculas de ácido nucleico molde diana proporciona al usuario múltiples copias de las moléculas de ácido nucleico molde diana, lo que permite al usuario secuenciar la molécula de ácido nucleico molde diana con mayor exactitud (ya que la tecnología de secuenciación no es completamente precisa, la secuenciación de múltiples copias de la secuencia de ácido nucleico molde diana y el cálculo posterior de una secuencia consenso a partir de las secuencias de las copias mejora la exactitud). Realizar múltiples copias de un número fijo de moléculas de ácido nucleico molde diana únicas en una muestra y secuenciar una fracción de la muestra total (amplificada) permite obtener información de secuencia de la totalidad de las moléculas de ácido nucleico molde diana.
Se conocen en la técnica métodos adecuados para amplificar la al menos una molécula de ácido nucleico molde diana. Por ejemplo, la PCR se usa habitualmente. La PCR se describe con mayor detalle a continuación bajo el título “ introducir mutaciones en la a l menos una molécula de ácido nucleico molde diana” .
En una realización típica, la etapa de secuenciación puede incluir amplificación en puente. Opcionalmente, la etapa de amplificación en puente se lleva a cabo mediante el uso de un tiempo de extensión mayor de 5, mayor de 10, mayor de 15, o mayor de 20 segundos. Un ejemplo del uso de amplificación en puente es en los secuenciadores del analizador de genoma Illumina. Preferiblemente, se usa la secuenciación de ambos extremos.
Medir el número de moléculas de ácido nucleico molde diana puede comprender fragmentar las moléculas de ácido nucleico molde diana en la primera del par de muestras, la segunda del par de muestras, la al menos una muestra o una o más de las muestras diluidas. Esto puede ser particularmente ventajoso, por ejemplo, cuando una plataforma de secuenciación excluye el uso de una molécula larga de ácido nucleico como molde. La fragmentación puede realizarse mediante el uso de cualquier técnica adecuada. Por ejemplo, la fragmentación puede llevarse a cabo mediante el uso de digestión de restricción o mediante el uso de PCR con cebadores complementarios a al menos una región interna de la al menos una molécula de ácido nucleico diana mutada. Preferiblemente, la fragmentación se lleva a cabo mediante el uso de una técnica que produce fragmentos arbitrarios. El término “ fragmento arbitrario” se refiere a un fragmento generado al azar, por ejemplo, un fragmento generado mediante tagmentación. Los fragmentos generados mediante el uso de enzimas de restricción no son “ arbitrarios” ya que la digestión de restricción se produce en secuencias de ADN específicas definidas por la enzima de restricción que se usa. Incluso más preferiblemente, la fragmentación se lleva a cabo mediante tagmentación. Si la fragmentación se lleva a cabo mediante tagmentación, la reacción de tagmentación introduce, opcionalmente, una región adaptadora en las moléculas de ácido nucleico molde diana. Esta región adaptadora es una secuencia corta de ADN que puede codificar, por ejemplo, para adaptadores para permitir que la al menos una molécula de ácido nucleico diana se secuencie mediante el uso de la tecnología Illumina.
En realizaciones particulares, medir el número de moléculas de ácido nucleico molde diana comprende amplificar y fragmentar las moléculas de ácido nucleico molde diana, y luego secuenciar las moléculas de ácido nucleico molde diana (o visto de otra manera, las moléculas de ácido nucleico molde diana amplificadas y fragmentadas) en la primera del par de muestras, la segunda del par de muestras, la al menos una muestra o una o más de las muestras diluidas. La amplificación y fragmentación pueden realizarse en cualquier orden antes de la secuenciación. En una realización, medir el número de moléculas de ácido nucleico molde diana puede comprender amplificar, entonces fragmentar y luego secuenciar las moléculas de ácido nucleico molde diana en la primera del par de muestras, la segunda del par de muestras, la al menos una muestra o una o más de las muestras diluidas. Alternativamente, medir el número de moléculas de ácido nucleico molde diana puede comprender fragmentar, entonces amplificar, y luego secuenciar las moléculas de ácido nucleico molde diana en la primera del par de muestras, la segunda del par de muestras, la al menos una muestra o una o más de las muestras diluidas. Alternativamente, la amplificación y fragmentación pueden realizarse simultáneamente, es decir, en una única etapa. Puede ser útil que el método comprenda fragmentar y luego amplificar las moléculas de ácido nucleico molde diana cuando las moléculas de ácido nucleico molde diana son muy largas (por ejemplo, demasiado largas para secuenciarse mediante el uso de tecnología convencional).
Medir el número de moléculas de ácido nucleico molde diana puede comprender identificar el número total de moléculas de ácido nucleico molde diana en una muestra. Preferiblemente, sin embargo, medir el número de moléculas de ácido nucleico molde diana comprende identificar el número de secuencias de molécula de ácido nucleico molde diana únicas en la primera del par de muestras, la segunda del par de muestras, la al menos una muestra o una o más de las muestras diluidas. Tal como se describió anteriormente, determinar una secuencia de al menos una secuencia de ácido nucleico molde diana es más difícil cuando la al menos una secuencia de ácido nucleico molde diana forma parte de una muestra que comprende muchas secuencias de ácido nucleico molde diana diferentes. Por tanto, reducir el número de moléculas de ácido nucleico molde diana únicas hace más simple un método para determinar una secuencia de al menos una molécula de ácido nucleico molde diana.
Tal como se describe en otra parte del presente documento, introducir mutaciones en una secuencia de ácido nucleico molde diana puede facilitar el ensamblaje de al menos una porción de la secuencia de un ácido nucleico molde diana. Mutar moléculas de ácido nucleico molde diana puede ser particularmente beneficioso, por ejemplo, para identificar si es probable que las lecturas de secuencia se hayan originado a partir de la misma molécula de ácido nucleico molde diana, o si es probable que las lecturas de secuencia se hayan originado a partir de moléculas de ácido nucleico molde diana diferentes. Según ciertas realizaciones del presente aspecto de la invención, por tanto, puede ser beneficioso introducir mutaciones en las moléculas de ácido nucleico molde diana cuando el número de moléculas de ácido nucleico molde diana va a medirse mediante secuenciación. Por tanto, en tales realizaciones particulares, medir el número de moléculas de ácido nucleico molde diana puede comprender mutar las moléculas de ácido nucleico molde diana.
Mutar las moléculas de ácido nucleico molde diana puede realizarse mediante cualquier medio conveniente. Particularmente, mutar las moléculas de ácido nucleico molde diana puede llevarse a cabo tal como se describe en otra parte del presente documento. Según una realización particularmente preferida, pueden introducirse mutaciones mediante el uso de una ADN polimerasa de bajo sesgo. En realizaciones adicionales o alternativas, mutar las moléculas de ácido nucleico molde diana puede comprender amplificar las moléculas de ácido nucleico molde diana en presencia de un análogo de nucleótido, por ejemplo, dPTP.
Según realizaciones preferidas, medir el número de moléculas de ácido nucleico molde diana puede comprender:
(i) mutar las moléculas de ácido nucleico molde diana para proporcionar moléculas de ácido nucleico molde diana mutadas;
(ii) secuenciar regiones de las moléculas de ácido nucleico molde diana mutadas; y
(iii) identificar el número de moléculas de ácido nucleico molde diana mutadas únicas basándose en el número de secuencias de molécula de ácido nucleico molde diana mutadas únicas.
Para cuantificar el número de moléculas de ácido nucleico molde diana en la muestra, el usuario no requiere una secuencia completa para cada molécula de ácido nucleico molde diana. Más bien, todo lo que se requiere es suficiente información sobre la secuencia de las moléculas de ácido nucleico molde diana diferentes en la muestra (o cuando sea aplicable, moléculas de ácido nucleico molde diana amplificadas y fragmentadas) para permitir que el usuario estime el número total de moléculas de ácido nucleico molde diana y/o el número de moléculas de ácido nucleico molde diana únicas. Por este motivo, el usuario puede optar por secuenciar solamente una región de cada molécula de ácido nucleico molde diana. Por ejemplo, en ciertas realizaciones, el usuario puede optar por secuenciar una región de extremo de cada molécula de ácido nucleico molde diana única o moléculas de ácido nucleico molde diana fragmentadas como parte de la etapa de medir el número de moléculas de ácido nucleico molde diana únicas. Por tanto, el usuario puede secuenciar la región del extremo 3' y/o la región del extremo 5’ de las moléculas de ácido nucleico molde diana o moléculas de ácido nucleico molde diana fragmentadas como parte de la etapa de medir el número de moléculas de ácido nucleico molde diana. Una región de extremo de una molécula de ácido nucleico molde diana abarca el nucleótido terminal (por ejemplo, el extremo terminal 5' o 3') en una molécula de ácido nucleico molde diana (es decir, el nucleótido más en 5' o más en 3' en una molécula de ácido nucleico molde diana) y el tramo contiguo de nucleótidos adyacentes al mismo de la longitud deseada.
Según ciertas realizaciones representativas, medir el número de moléculas de ácido nucleico molde diana puede comprender introducir códigos de barras (también denominados etiquetas moleculares únicas o identificadores moleculares únicos en el presente documento, tal como se describe a continuación) o un par de códigos de barras en las moléculas de ácido nucleico molde diana (o dicho de otra manera, marcar las moléculas de ácido nucleico molde diana con códigos de barras o un par de códigos de barras) para proporcionar moléculas de ácido nucleico molde diana con códigos de barras. Tal como se describe en otra parte del presente documento, los códigos de barras están degenerados adecuadamente que sustancialmente cada molécula de ácido nucleico molde diana puede comprender una secuencia única o sustancialmente única, de tal manera que cada (o sustancialmente cada) molécula de ácido nucleico molde diana se marca con una secuencia de código de barras diferente. La introducción de códigos de barras en moléculas de ácido nucleico molde diana puede realizarse tal como se describe en otra parte del presente documento. En realizaciones particulares, las secuencias de código de barras pueden introducirse en los extremos de las moléculas de ácido nucleico molde diana, es decir, como secuencias adicionales en 5’ al extremo terminal 5’ (o más en 5') o 3' al nucleótido terminal 3' (o más en 3') en una molécula de ácido nucleico molde diana.
En una realización preferida, las moléculas de ácido nucleico molde diana marcadas con secuencias de código de barras pueden secuenciarse con el fin de medir el número de moléculas de ácido nucleico molde diana en una muestra. Más particularmente, las regiones de las moléculas de ácido nucleico molde diana que comprenden las secuencias de código de barras pueden secuenciarse con el fin de medir el número de moléculas de ácido nucleico molde diana en una muestra. Las secuencias de código de barras son sustancialmente únicas y el marcaje de moléculas de ácido nucleico molde diana con secuencias de código de barras introduce, por tanto, secuencias sustancialmente únicas (y, por tanto, contables) en las moléculas de ácido nucleico molde diana. Por tanto, el número de códigos de barras únicos que se identifican mediante secuenciación según tal realización puede permitir la determinación del número de moléculas de ácido nucleico molde diana únicas en la muestra.
Por tanto, según ciertas realizaciones, medir el número de moléculas de ácido nucleico molde diana puede comprender:
(i) secuenciar regiones de las moléculas de ácido nucleico molde diana con códigos de barras que comprenden los códigos de barras o los pares de códigos de barras; y
(ii) identificar el número de moléculas de ácido nucleico molde diana con códigos de barras únicas basándose en el número de códigos de barras o pares de códigos de barras únicos.
Según aún otras realizaciones, puede no ser necesario usar un código de barras o códigos de barras con el fin de determinar el número de moléculas de ácido nucleico molde diana presentes en una muestra. En una realización representativa particular, el número de moléculas de ácido nucleico molde diana puede determinarse mediante la secuenciación de regiones de extremo de las moléculas de ácido nucleico molde diana. Opcionalmente, el usuario identifica entonces el número de secuencias de extremo únicas presentes y/o el usuario luego mapea las secuencias de las regiones de extremo contra una secuencia de referencia, por ejemplo, un genoma de referencia. Sin desear estar limitados por la teoría, se cree que tal enfoque puede permitir que el número de moléculas de ácido nucleico molde diana se determine ya que la secuencia para cada molécula de ácido nucleico molde diana puede comenzar en un sitio diferente en la secuencia de referencia.
Además, la etapa de secuenciación según este aspecto de la invención puede ser una etapa de secuenciación “ aproximada” , ya que el usuario puede no necesitar información precisa de secuencia para poder medir el número de moléculas de ácido nucleico molde diana en una muestra. A modo de ejemplo representativo, la etapa de secuenciación puede realizarse en un conjunto de moléculas mal amplificadas, lo que puede permitir que esta etapa se realice más rápidamente y/o a menor coste.
Opcionalmente, medir el número de moléculas de ácido nucleico molde diana únicas en una muestra puede comprender secuenciar regiones de extremo de moléculas de ácido nucleico molde diana que comprenden códigos de barras o pares de códigos de barras. Por tanto, la referencia a la secuenciación de las regiones de extremo de moléculas de ácido nucleico molde diana puede abarcar la secuenciación de las regiones de extremo de moléculas de ácido nucleico molde diana que pueden comprender un código de barras o un par de códigos de barras.
Una vez que se mide el número de moléculas de ácido nucleico molde diana únicas en una muestra, la muestra puede ajustarse para controlar el número de moléculas de ácido nucleico molde diana en la muestra, de tal manera que la muestra comprenda un número deseado de moléculas de ácido nucleico molde diana únicas. Según ciertas realizaciones, esto puede comprender una etapa de diluir la muestra. Por tanto, controlar el número de moléculas de ácido nucleico molde diana en una muestra puede comprender determinar el número de moléculas de ácido nucleico molde diana en la muestra, y diluir la muestra de tal manera que la muestra comprenda un número deseado de moléculas de ácido nucleico molde diana.
Tal como se mencionó anteriormente, la muestra según este aspecto de la invención puede ser cualquier muestra y, particularmente, puede ser una primera o una segunda muestra según los métodos de la presente invención. Por tanto, según realizaciones particulares, controlar la cantidad de moléculas de ácido nucleico molde diana en una primera de un par de muestras y/o una segunda de un par de muestras a comprende determinar la cantidad de moléculas de ácido nucleico molde diana y diluir la primera del par de muestras y/ o la segunda del par de muestras de tal manera que la primera del par de muestras y/o la segunda del par de muestras comprenda un número deseado de moléculas de ácido nucleico molde diana.
Combinación de subconjuntos para proporcionar una muestra
Una muestra puede proporcionarse combinando varias submuestras. Esto puede permitir que las moléculas de ácido nucleico molde diana de múltiples muestras (por ejemplo, de múltiples fuentes) se secuencien simultáneamente, lo que puede permitir a su vez que se logre un mayor rendimiento de muestra, lo que reduce el coste y tiempo requeridos para determinar las secuencias de moléculas de ácido nucleico molde diana.
Por tanto, los métodos de la presente invención pueden realizarse en muestras proporcionadas combinando dos o más submuestras. Según ciertas realizaciones, la primera del par de muestras puede proporcionarse combinando dos o más submuestras. En realizaciones adicionales, la segunda del par de muestras puede proporcionarse combinando dos o más submuestras. Por tanto, la primera y/o la segunda muestras pueden proporcionarse combinando dos o más submuestras. Alternativamente, las muestras primera y segunda pueden tomarse de una muestra combinada y someterse a los métodos de la presente invención.
Por tanto, este aspecto de la presente invención permite la secuencia de al menos una molécula de ácido nucleico molde diana de cada una de las dos o más muestras más pequeñas que se combinan para proporcionar la muestra que va a determinarse.
Un problema asociado con la combinación de muestras para secuenciación es que cada muestra puede contener un número diferente de moléculas de ácido nucleico diana. Por tanto, puede ser beneficioso que una muestra combinada contenga moléculas de ácido nucleico molde diana de cada una de sus submuestras constituyentes en una cantidad deseada y, más particularmente, en una razón deseada. Dicho de otra manera, puede ser beneficioso que una muestra combinada comprenda un número de moléculas de ácido nucleico molde diana únicas de cada una de sus submuestras que sea apropiada (es decir, dentro de un rango deseado), de tal manera que pueda usarse un método de secuenciación particular para secuenciar las moléculas de ácido nucleico molde diana de cada una de las submuestras en la muestra combinada.
A modo de ejemplo representativo, pueden proporcionarse dos submuestras independientes, la muestra Y y la muestra Z. Si el número total de moléculas de ácido nucleico molde diana en la muestra Y es 100 veces mayor que el número total de moléculas de ácido nucleico molde diana en la muestra Z, combinando las muestras Y y Z en cantidades iguales y sometiendo la muestra combinada a un método de secuenciación, se esperaría que el número de lecturas de secuenciación que surgen de moléculas de ácido nucleico molde diana en la muestra Y sea 100 veces mayor que el número de lecturas de secuenciación que surgen de moléculas de ácido nucleico molde diana en la muestra Z. Por tanto, la combinación de muestras de esta manera no sólo puede dar como resultado lecturas de secuenciación insuficientes que surgen de la muestra Z para permitir que se realice una etapa de ensamblaje de secuencias mediante el uso de lecturas de secuencias obtenidas de la muestra Z, sino que también puede complicar la realización de una etapa de ensamblaje de secuencias en lecturas de secuenciación obtenidas de la muestra Y.
Por tanto, los métodos de la invención pueden comprender una etapa de normalizar el número de moléculas de ácido nucleico molde diana en cada una de las submuestras que se combinan para proporcionar la primera del par de muestras y/o la segunda del par de muestras.
Además, en el presente documento se describe un método para determinar una secuencia de al menos una molécula de ácido nucleico molde diana, que comprende:
(a) proporcionar al menos una muestra que comprende la al menos una molécula de ácido nucleico molde diana;
(b) secuenciar regiones de la al menos una molécula de ácido nucleico molde diana; y
(c) ensamblar una secuencia de la al menos una molécula de ácido nucleico molde diana a partir de las secuencias de las regiones de la al menos una molécula de ácido nucleico molde diana, en donde la al menos una muestra se proporciona combinando dos o más submuestras y se normaliza el número de moléculas de ácido nucleico molde diana en cada una de las submuestras.
Las expresiones “ se normaliza el número de moléculas de ácido nucleico molde diana en cada una de las submuestras" y “normalizar el número de moléculas de ácido nucleico molde diana en cada una de las submuestras que se combinan" se refiere a combinar submuestras de tal manera que el número total de moléculas de ácido nucleico molde diana en la muestra combinada que deriva de cada una de las submuestras se proporcione en una cantidad deseada. En algunas realizaciones, se normaliza el número de moléculas de ácido nucleico molde diana únicas. Las “ moléculas de ácido nucleico molde diana únicas" son moléculas de ácido nucleico molde diana que comprenden secuencias de ácido nucleico diferentes. Opcionalmente, cada una de la al menos una molécula de ácido nucleico molde diana es una molécula de ácido nucleico molde diana única. Las moléculas de ácido nucleico molde diana únicas pueden diferir en tan sólo un único nucleótido en la secuencia, o pueden ser sustancialmente diferentes entre sí.
Una etapa de normalización puede permitir ventajosamente que el número de moléculas de ácido nucleico molde diana de cada una de las submuestras se proporcionen en una razón deseada. Según ciertas realizaciones, esto puede comprender manipular o ajustar cada una de las submuestras de tal manera que, cuando se combinan, la muestra combinada contiene el número deseado de moléculas de ácido nucleico molde diana de cada una de las submuestras. Visto de otra manera, esta etapa puede considerarse que permite que se controle el número de moléculas de ácido nucleico molde diana en una muestra combinada que son de cada una de las dos o más submuestras, o controlar el número de moléculas de ácido nucleico molde diana en la al menos una muestra de cada una de las dos o más submuestras.
También se describe en el presente documento un método para determinar la secuencia de al menos una molécula de ácido nucleico molde diana, que comprende:
(a) proporcionar al menos una muestra que comprende la al menos una molécula de ácido nucleico molde diana;
(b) secuenciar regiones de la al menos una molécula de ácido nucleico molde diana; y
(c) ensamblar una secuencia de la al menos una molécula de ácido nucleico molde diana a partir de las secuencias de las regiones de la al menos una molécula de ácido nucleico molde diana, en donde la etapa de proporcionar al menos una muestra que comprende la al menos una molécula de ácido nucleico molde diana comprende combinar dos o más submuestras y controlar el número de moléculas de ácido nucleico molde diana en la al menos una muestra de cada una de las dos o más submuestras.
Según ciertas realizaciones, normalizar el número de moléculas de ácido nucleico molde diana en cada una de las submuestras puede comprender proporcionar un número similar de moléculas de ácido nucleico molde diana en la muestra combinada de cada una de las submuestras (es decir, en una razón de aproximadamente 1:1). Tal realización puede ser particularmente útil, por ejemplo, cuando cada submuestra se deriva de una muestra que contiene genoma(s) de tamaño similar. En realizaciones alternativas, sin embargo, el número de moléculas de ácido nucleico molde diana puede proporcionarse en una cantidad diferente, es decir, el número de moléculas de ácido nucleico molde diana de una primera submuestra puede proporcionarse en una abundancia mayor que el número de moléculas de ácido nucleico molde diana de una segunda submuestra. Tal realización puede ser deseable, por ejemplo, si una primera submuestra se deriva de un genoma más grande y una segunda submuestra se deriva de una muestra que contiene un genoma más pequeño.
Se entenderá que “ normalizar el número de moléculas de ácido nucleico molde diana en cada una de las submuestras que se combinan" puede no ser completamente preciso, ya que, por ejemplo, puede ser difícil medir el número de moléculas de ácido nucleico molde diana en cada una de las submuestras. Sin embargo, si el usuario encuentra que una submuestra contiene aproximadamente el doble de moléculas de ácido nucleico molde diana según se desee, el usuario puede normalizar el número de moléculas de ácido nucleico molde diana en la submuestra de tal manera que el número de moléculas de ácido nucleico molde diana en la muestra combinada sea aproximadamente la mitad del número de moléculas de ácido nucleico molde diana presentes en la submuestra (por ejemplo, entre el 45 % y el 55 % del número de moléculas de ácido nucleico molde diana presentes en la submuestra).
En su sentido más amplio, la normalización del número de moléculas de ácido nucleico molde diana en cada una de las submuestras puede verse como correspondiente al control del número de moléculas de ácido nucleico molde diana de cada una de las submuestras que se proporcionan en una muestra combinada. Por tanto, la normalización del número de moléculas de ácido nucleico molde diana puede comprender determinar el número de moléculas de ácido nucleico molde diana en cada una de las submuestras.
Según ciertas realizaciones, el número de moléculas de ácido nucleico molde diana en una submuestra puede medirse tal como se describe en otra parte del presente documento, particularmente en el contexto de los métodos para controlar el número de moléculas de ácido nucleico molde diana en una muestra.
En realizaciones preferidas, normalizar el número de moléculas de ácido nucleico molde diana en cada una de las submuestras puede comprender marcar moléculas de ácido nucleico molde diana de diferentes submuestras con diferentes etiquetas de muestra. Una etiqueta de muestra es una etiqueta que se usa para etiquetar una porción sustancial o la totalidad de la al menos una molécula de ácido nucleico molde diana en una muestra. Marcar las moléculas de ácido nucleico molde diana en diferentes submuestras con diferentes etiquetas de muestra puede permitir que se distingan moléculas de ácido nucleico diana de molde derivadas de diferentes submuestras. Por tanto, las etiquetas de muestra pueden ser de particular utilidad en este aspecto de la presente invención, ya que su uso puede permitir que se mida simultáneamente el número de moléculas de ácido nucleico molde diana en cada una de dos o más submuestras. Particularmente, las etiquetas de muestra pueden permitir que el número de moléculas de ácido nucleico molde diana en cada una de dos o más submuestras se mida en una única muestra. Preferiblemente, las moléculas de ácido nucleico molde diana pueden marcarse con una etiqueta de muestra antes de combinar las submuestras. En una realización particular, el presente aspecto de la invención puede comprender, por tanto, preparar una combinación preliminar de las submuestras, que comprende cada una moléculas de ácido nucleico molde diana marcadas con etiquetas de muestra, y medir el número de moléculas de ácido nucleico molde diana marcadas con cada etiqueta de muestra en la combinación preliminar.
En el presente documento también se describe un método para medir el número de moléculas de ácido nucleico molde diana en dos o más submuestras, que comprende:
(a) marcar moléculas de ácido nucleico molde diana de dos o más submuestras diferentes con etiquetas de muestra diferentes;
(b) combinar las dos o más submuestras para proporcionar un conjunto preliminar de las submuestras; y
(c) medir el número de moléculas de ácido nucleico molde diana en la combinación preliminar que se marcan con cada etiqueta de muestra.
Opcionalmente, pueden prepararse dos o más combinaciones preliminares, por ejemplo, que comprenden cada una submuestras proporcionadas en diferentes cantidades o razones, y/o que se componen de diferentes submuestras (por ejemplo, una combinación diferente de submuestras).
Según ciertas realizaciones, el número de moléculas de ácido nucleico molde diana marcadas con cada etiqueta de muestra en la combinación preliminar puede medirse mediante el uso de técnicas descritas en otra parte del presente documento para medir el número de moléculas de ácido nucleico molde diana en una muestra (particularmente, en el contexto de controlar el número de moléculas de ácido nucleico molde diana en una muestra). En este sentido, un experto entenderá que las moléculas de ácido nucleico molde diana de cada muestra pueden distinguirse basándose en la etiqueta de muestra que comprenden, y, por tanto, medir el número de moléculas de ácido nucleico molde diana en una combinación preliminar que se marcan con cualquier etiqueta de muestra dada puede realizarse mediante la adaptación de métodos para medir el número total de moléculas de ácido nucleico molde diana que están presentes en una muestra particular.
En este sentido, según ciertas realizaciones, una combinación preliminar puede diluirse antes o en el transcurso de medir el número de moléculas de ácido nucleico molde diana marcadas con cada etiqueta de muestra. La dilución puede realizarse tal como se describe en otra parte del presente documento. Por ejemplo, en ciertas realizaciones, puede realizarse una dilución en serie en una combinación preliminar para proporcionar una dilución en serie que comprende combinaciones preliminares diluidas.
Tal como se mencionó en otra parte, pueden prepararse dos o más combinaciones preliminares diferentes. Cada combinación preliminar puede diluirse en una medida diferente, por ejemplo, según una dilución en serie diferente.
Según una realización particularmente preferida, el número de moléculas de ácido nucleico molde diana marcadas con cada etiqueta de muestra en una combinación preliminar puede medirse mediante la secuenciación de las moléculas de ácido nucleico molde diana marcadas (marcadas con etiqueta de muestra) en una combinación preliminar o en una combinación preliminar diluida. La secuenciación puede realizarse según cualquier método conveniente de secuenciación, por ejemplo, los descritos en otra parte del presente documento. Preferiblemente, la secuenciación de moléculas de ácido nucleico molde diana marcadas puede comprender la secuenciación de la etiqueta de muestra de una molécula de ácido nucleico molde diana marcada.
En realizaciones particulares, medir el número de moléculas de ácido nucleico molde diana marcadas con cada etiqueta de muestra en una combinación preliminar puede comprender una etapa de amplificación. Los métodos adecuados para amplificar las moléculas de ácido nucleico molde diana marcadas se conocen en la técnica, y la amplificación puede llevarse a cabo, por ejemplo, tal como se describe en otra parte del presente documento. En ciertas realizaciones, medir el número de moléculas de ácido nucleico molde diana marcadas con cada etiqueta de muestra en la combinación preliminar puede comprender amplificar y luego secuenciar las moléculas de ácido nucleico molde diana.
En ciertas realizaciones, las moléculas de ácido nucleico molde diana en una submuestra pueden amplificarse, es decir, antes de combinar dos o más submuestras para proporcionar una muestra combinada preliminar. La amplificación puede llevarse a cabo antes de marcar las moléculas de ácido nucleico molde diana en una submuestra con una etiqueta de muestra, o en ciertas realizaciones preferidas, puede llevarse a cabo simultáneamente con el marcaje de moléculas de ácido nucleico molde diana en una submuestra con una etiqueta de muestra (por ejemplo, mediante el uso de cebadores de PCR que comprenden un código de barras de muestra). En realizaciones adicionales, las moléculas de ácido nucleico molde diana marcadas con una etiqueta de muestra pueden amplificarse antes de proporcionar una muestra combinada preliminar.
Según aún otras realizaciones, medir el número de moléculas de ácido nucleico molde diana marcadas con cada etiqueta de muestra en una combinación preliminar puede comprender amplificar las moléculas de ácido nucleico molde diana marcadas con etiquetas de muestra en la combinación preliminar, es decir, después de combinar dos o más submuestras.
Opcionalmente, pueden realizarse dos o más etapas de amplificación, por ejemplo, una primera amplificación antes o simultáneamente con el marcaje de moléculas de ácido nucleico molde diana en una submuestra con una etiqueta de muestra, y una segunda amplificación para amplificar las moléculas de ácido nucleico molde diana marcadas con una etiqueta de muestra (esta segunda amplificación puede realizarse en la submuestra o en una muestra combinada preliminar, tal como se describió anteriormente).
Tras la amplificación, medir el número de moléculas de ácido nucleico molde diana marcadas con cada etiqueta de muestra en la combinación preliminar puede comprender secuenciar las moléculas de ácido nucleico molde diana en una combinación preliminar o una combinación preliminar diluida que se marcan con cada etiqueta de muestra (es decir, las moléculas de ácido nucleico molde diana marcadas con etiqueta de muestra). En realizaciones preferidas, medir el número de moléculas de ácido nucleico molde diana marcadas con cada etiqueta de muestra en una combinación preliminar puede comprender, por tanto, amplificar y luego secuenciar las moléculas de ácido nucleico molde diana en la combinación preliminar o una combinación preliminar diluida marcada con cada etiqueta de muestra.
Medir el número de moléculas de ácido nucleico molde diana marcadas con cada etiqueta de muestra en las combinaciones preliminares puede comprender una etapa de fragmentación. Preferiblemente, las moléculas de ácido nucleico molde diana en la muestra combinada se fragmentan, es decir, después de preparar la muestra combinada. La fragmentación puede llevarse a cabo mediante el uso de cualquier técnica adecuada, incluyendo cualquiera de las técnicas descritas en otra parte del presente documento.
En realizaciones particulares, medir el número de moléculas de ácido nucleico molde diana marcadas con cada etiqueta de muestra puede comprender ambas etapas de amplificación y fragmentación, antes de secuenciar las moléculas de ácido nucleico molde diana en una combinación preliminar o una combinación preliminar diluida. Según realizaciones preferidas, las moléculas de ácido nucleico diana en una submuestra pueden, por tanto, amplificarse, fragmentarse y marcarse con una etiqueta de muestra, antes de combinar dos o más submuestras para proporcionar una muestra combinada preliminar y secuenciar las moléculas de ácido nucleico molde diana. La amplificación y fragmentación pueden realizarse en cualquier orden. En una realización, las moléculas de ácido nucleico molde diana en una submuestra pueden amplificarse y luego fragmentarse, o fragmentarse y luego amplificarse, antes del marcaje con una etiqueta de muestra. En realizaciones adicionales, las moléculas de ácido nucleico molde diana pueden amplificarse, fragmentarse y marcarse simultáneamente, es decir, en una única etapa. Un método particularmente preferido para amplificar, fragmentar y marcar moléculas de ácido nucleico molde diana en una única etapa puede llevarse a cabo mediante el uso de tagmentación y PCR, particularmente, mediante el uso de cebadores de PCR que comprenden una etiqueta de muestra. Las moléculas de ácido nucleico diana amplificadas y fragmentadas después de tal etapa se marcarán, por tanto, con una etiqueta de muestra, y pueden ser identificables como que derivan de una submuestra particular una vez combinadas en una muestra combinada preliminar, por ejemplo, cuando se secuencian.
Medir el número de moléculas de ácido nucleico molde diana marcadas con cada etiqueta de muestra en las combinaciones preliminares puede comprender identificar el número de moléculas de ácido nucleico molde diana (opcionalmente, moléculas de ácido nucleico molde diana únicas) en una combinación preliminar (o combinación preliminar diluida) con cada etiqueta de muestra (es decir, marcadas con cada etiqueta de muestra). Preferiblemente, sin embargo, medir el número de moléculas de ácido nucleico molde diana con cada etiqueta de muestra comprende identificar el número de secuencias de ácido nucleico molde diana únicas en una combinación preliminar (o combinación preliminar diluida) con cada etiqueta de muestra.
Tal como se comenta en otra parte, mutar moléculas de ácido nucleico molde diana puede ser particularmente beneficioso, por ejemplo, para identificar si es probable que las lecturas de secuencia se hayan originado a partir de la misma molécula de ácido nucleico molde diana o diferentes moléculas de ácido nucleico molde diana. Por consiguiente, esto puede ser beneficioso para determinar el número de moléculas de ácido nucleico molde diana en una combinación preliminar que se origina a partir de una submuestra particular.
Por tanto, según ciertas realizaciones, medir el número de moléculas de ácido nucleico molde diana marcadas con cada etiqueta de muestra en la combinación preliminar (o combinación preliminar diluida) puede comprender mutar las moléculas de ácido nucleico molde diana. En ciertas realizaciones, pueden mutarse moléculas de ácido nucleico molde diana en una muestra combinada preliminar. Sin embargo, mutar moléculas de ácido nucleico molde diana puede tener lugar, preferiblemente, en una submuestra, es decir, antes de que dos o más muestras se combinen para proporcionar una muestra combinada. En realizaciones particularmente preferidas, las moléculas de ácido nucleico molde diana pueden mutarse antes de o simultáneamente con, el marcaje de las moléculas de ácido nucleico molde diana con una etiqueta de muestra. Puede preferirse no mutar secuencias de etiquetas de muestra que se usan para marcar moléculas de ácido nucleico molde diana. Mutar moléculas de ácido nucleico molde diana puede llevarse a cabo mediante cualquier medio conveniente, incluyendo cualquier medio descrito en otra parte del presente documento. Por tanto, en una realización, pueden introducirse mutaciones mediante el uso de una ADN polimerasa de bajo sesgo. En realizaciones adicionales, mutar las moléculas de ácido nucleico molde diana puede comprender amplificar las moléculas de ácido nucleico molde diana en presencia de un análogo de nucleótido, por ejemplo, dPTP.
Según realizaciones preferidas, medir el número de moléculas de ácido nucleico molde diana marcadas con cada etiqueta de muestra en las combinaciones preliminares puede comprender:
(i) mutar las moléculas de ácido nucleico molde diana para proporcionar moléculas de ácido nucleico molde diana mutadas;
(ii) secuenciar regiones de las moléculas de ácido nucleico molde diana mutadas; y
(iii) identificar el número de moléculas de ácido nucleico molde diana mutadas únicas con cada etiqueta de muestra basándose en el número de moléculas de ácido nucleico molde diana mutadas únicas marcadas con cada etiqueta de muestra.
Tal como se describió con mayor detalle anteriormente, puede no ser necesario que se obtenga una secuencia completa para cada molécula de ácido nucleico molde diana para cuantificar moléculas de ácido nucleico molde diana, y puede ser suficiente simplemente secuenciar una región de extremo de cada molécula de ácido nucleico molde diana marcada como parte de la etapa de medir el número de moléculas de ácido nucleico molde diana en una combinación preliminar que se marcan con cada etiqueta de muestra. Por tanto, el usuario puede optar por secuenciar solamente una región de extremo de cada molécula de ácido nucleico molde diana. Tal como se describió anteriormente, la etiqueta de muestra se secuenciará preferiblemente,.
Según ciertas realizaciones representativas, medir el número de moléculas de ácido nucleico molde diana puede comprender introducir códigos de barras o un par de códigos de barras en las moléculas de ácido nucleico molde diana para proporcionar las moléculas de ácido nucleico molde diana, con código de barras, marcadas con etiqueta de muestra. Los códigos de barras adecuados para su uso en tal etapa, y los métodos para su introducción en las moléculas de ácido nucleico molde diana se describen con mayor detalle en otra parte del presente documento.
Preferiblemente, pueden introducirse códigos de barras en las moléculas de ácido nucleico molde diana antes de combinar las submuestras, es decir, antes de combinar las submuestras para proporcionar una muestra combinada provisional. Pueden introducirse códigos de barras y etiquetas de muestra en las moléculas de ácido nucleico molde diana en cualquier orden. Por ejemplo, en una realización, pueden introducirse códigos de barras en las moléculas de ácido nucleico molde diana, seguido por etiquetas de muestra. En otra realización, pueden introducirse etiquetas de muestra en moléculas de ácido nucleico molde diana, seguido por códigos de barras. En aún otras realizaciones, pueden introducirse simultáneamente etiquetas de muestra y etiquetas de código de barras. En cualquier caso, en ciertas realizaciones, pueden marcarse moléculas de ácido nucleico molde diana de una submuestra con etiquetas de muestra y códigos de barras. A este respecto, se indica que las etiquetas de muestra son particularmente beneficiosas para identificar una molécula de ácido nucleico molde diana particular en una muestra preliminar tal como se origina a partir de una submuestra particular, mientras que los códigos de barras pueden ser particularmente beneficiosos para permitir que se mida el número de moléculas de ácido nucleico molde diana únicas de cada submuestra.
Por tanto, según realizaciones particularmente preferidas, medir el número de moléculas de ácido nucleico molde diana marcadas con cada etiqueta de muestra puede comprender:
(i) secuenciar regiones de las moléculas de ácido nucleico molde diana con código de barras, marcadas con etiqueta de muestra; y
(ii) identificar el número de moléculas de ácido nucleico molde diana con código de barras únicas con cada etiqueta de muestra basándose en el número de secuencias únicas de código de barras o par de códigos de barras asociadas con cada etiqueta de muestra.
Una etapa de secuenciación para medir el número de moléculas de ácido nucleico molde diana puede ser una etapa de secuenciación “ aproximada” , tal como se describe en otra parte del presente documento, en que el usuario puede no necesitar información precisa de secuencia para ser capaz de medir el número de moléculas de ácido nucleico molde diana en una muestra. En su lugar, puede ser suficiente para la secuenciación permitir que se identifique una etiqueta de muestra, código de barras y/o molécula de ácido nucleico molde diana.
En ciertas realizaciones representativas, una vez que se mide el número de moléculas de ácido nucleico molde diana que comprenden las diferentes etiquetas de muestra, puede calcularse la razón del número de moléculas de ácido nucleico molde diana que comprenden las diferentes etiquetas de muestra. En realizaciones representativas adicionales, una vez que se mide el número de moléculas de ácido nucleico molde diana que comprenden diferentes etiquetas de muestra, puede ser posible determinar el número de moléculas de ácido nucleico molde diana (en una muestra combinada preliminar) que surgen de cada submuestra, y calcular de este modo el número de moléculas de ácido nucleico molde diana que están presentes en cada submuestra.
La información sobre la razón de moléculas de ácido nucleico molde diana que comprenden las diferentes etiquetas de muestra, y/o del número de moléculas de ácido nucleico molde diana que surgen de cada submuestra, puede usarse para preparar una muestra combinada para su uso en los métodos de la presente invención. Particularmente, tal información puede usarse en una etapa de normalización, para normalizar el número de moléculas de ácido nucleico molde diana que se proporcionan a partir de cada una de dos o más submuestras en una muestra combinada, para proporcionar de ese modo moléculas de ácido nucleico molde diana de cada una de las submuestras en una razón deseada en la muestra combinada.
Se observará, por tanto, que se describe en el presente documento un método para determinar una secuencia de al menos una molécula de ácido nucleico molde diana, que comprende:
(a) proporcionar al menos una muestra que comprende la al menos una molécula de ácido nucleico molde diana;
(b) secuenciar regiones de la al menos una molécula de ácido nucleico molde diana; y
(c) ensamblar una secuencia de la al menos una molécula de ácido nucleico molde diana a partir de las secuencias de las regiones de la al menos una molécula de ácido nucleico molde diana, en donde la al menos una muestra se proporciona mediante:
(i) proporcionar una muestra combinada preliminar combinando dos o más de las submuestras;
(ii) medir el número de moléculas de ácido nucleico molde diana en la muestra combinada preliminar que surgen de cada una de las dos o más submuestras; y
(iii) combinar dos o más submuestras;
en donde se normaliza el número de moléculas de ácido nucleico molde diana en la muestra de cada una de las submuestras.
Tal como se describió anteriormente, normalizar el número de moléculas de ácido nucleico molde diana en una muestra proporcionada combinando dos o más submuestras puede comprender proporcionar moléculas de ácido nucleico molde diana de cada una de las submuestras en una razón deseada. Según ciertas realizaciones, la muestra formada combinando dos o más submuestras puede considerarse que es una muestra recombinada en la cual las moléculas de ácido nucleico molde diana en cada una de las submuestras se proporcionan en una razón deseada (es decir, después de proporcionar una combinación preliminar y medir el número de moléculas de ácido nucleico molde diana en dicha combinación preliminar que surge de cada una de las dos o más submuestras). Medir el número de moléculas de ácido nucleico molde diana en la submuestra permite, por tanto, que el número de moléculas de ácido nucleico molde diana en la muestra de cada una de las submuestras se normalicen al recombinar las submuestras.
Una muestra puede proporcionarse combinando dos o más submuestras según el presente aspecto de la invención. Por tanto, pueden combinarse 2 o más, preferiblemente, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 100, 150, 200, 250, 300, 400, 500, 600, 700, 800, 900, 1000, 1500, 2000, 2500, 3000, 4000, 5000 o más submuestras para proporcionar una muestra (es decir, una muestra combinada) para su uso en los métodos de la invención. Según ciertas realizaciones, pueden combinarse entre 2 y 5000, 10 y 1000, o 25 y 150 submuestras.
El término “ combinar dos o más submuestras” no requiere que la totalidad de una submuestra se combine con otra submuestra para proporcionar una muestra y, preferiblemente, en cambio, se refiere a obtener una alícuota de cada una de las submuestras y combinar las alícuotas para proporcionar una muestra. De manera similar, la referencia a introducir códigos de barras o etiquetas en moléculas de ácido nucleico molde diana en una submuestra, o mutar moléculas de ácido nucleico molde diana en una submuestra puede entenderse como la realización de tales etapas en una alícuota o una porción de una submuestra.
Según ciertas realizaciones particulares, “ combinar dos o más submuestras” puede comprender diluir una submuestra y combinar las submuestras diluidas para proporcionar una muestra. En otras realizaciones, este término puede comprender obtener una alícuota de una muestra y diluir dicha alícuota y combinar las alícuotas diluidas de las submuestras para proporcionar una muestra. Diluir una submuestra (o alícuota) puede incluir una etapa de dilución independiente realizada antes de combinar las submuestras (o alícuotas) para proporcionar una muestra. Sin embargo, se observará que la combinación de dos o más submuestras (o alícuotas) para proporcionar una muestra puede reducir, en efecto, la concentración de moléculas de ácido nucleico molde diana de cada una de las submuestras que se proporcionan en la muestra y, por tanto, puede representar una etapa de dilución. El experto podrá determinar el grado en que puede requerirse la dilución de cada submuestra, incluyendo cualquier dilución que pueda producirse como resultado de la combinación de dos o más submuestras (o alícuotas).
Secuenciar regiones de la al menos una molécula de ácido nucleico molde diana o la al menos una molécula de ácido nucleico molde diana mutada
El método para determinar una secuencia de al menos una molécula de ácido nucleico molde diana comprende una etapa de secuenciar regiones de la al menos una molécula de ácido nucleico molde diana en una primera del par de muestras para proporcionar lecturas de secuencias no mutadas y una etapa de secuenciar regiones de la al menos una molécula de ácido nucleico molde diana mutada para proporcionar lecturas de secuencias mutadas.
Las etapas de secuenciación pueden llevarse a cabo mediante el uso de cualquier método de secuenciación. Los ejemplos de posibles métodos de secuenciación incluyen la secuenciación de Maxam-Gilbert, secuenciación de Sanger, secuenciación que comprende amplificación en puente (tal como PCR en puente), o cualquier método de secuenciación de alto rendimiento (HTS, por sus siglas en inglés) tal como se describe en Maxam A M, Gilbert W (febrero de 1977), “A new method for sequencing DNA” , Proc. Natl. Acad. Sci. U. S. A. 74 (2): 560-4, Sanger F, Coulson A R (mayo de 1975), “A Rapid method for determining sequences in DNA by primed synthesis with DNA polymerase” , J. Mol. Biol. 94 (3): 441-8; y Bentley DR, Balasubramanian S, y col. (2008), “Accurate whole human genome sequencing using reversible terminator chemistry’, Nature, 456 (7218): 53-59. En una realización típica, al menos una o, preferiblemente, ambas etapas de secuenciación involucran la amplificación en puente. Opcionalmente, la etapa de amplificación en puente se lleva a cabo mediante el uso de un tiempo de extensión mayor de 5, mayor de 10, mayor de 15, o mayor de 20 segundos. Un ejemplo del uso de amplificación en puente es en los secuenciadores del analizador de genoma Illumina.
Opcionalmente, las etapas (i) de secuenciar regiones de la al menos una molécula de ácido nucleico molde diana en una primera del par de muestras para proporcionar lecturas de secuencias no mutadas y (ii) de secuenciar regiones de la al menos una molécula de ácido nucleico molde diana mutada para proporcionar lecturas de secuencias mutadas se llevan a cabo mediante el uso del mismo método de secuenciación.
Opcionalmente, las etapas (i) de secuenciar regiones de la al menos una molécula de ácido nucleico molde diana en una primera del par de muestras para proporcionar lecturas de secuencias no mutadas y (ii) de secuenciar regiones de la al menos una molécula de ácido nucleico molde diana mutada para proporcionar lecturas de secuencias mutadas se llevan a cabo mediante el uso de métodos de secuenciación diferentes.
Opcionalmente, las etapas (i) de secuenciar regiones de la al menos una molécula de ácido nucleico molde diana en una primera del par de muestras para proporcionar lecturas de secuencias no mutadas y (ii) de secuenciar regiones de la al menos una molécula de ácido nucleico molde diana mutada para proporcionar lecturas de secuencias mutadas pueden llevarse a cabo mediante el uso de más de un método de secuenciación. Por ejemplo, una fracción de la al menos una molécula de ácido nucleico molde diana en la primera del par de muestras puede secuenciarse mediante el uso de un primer método de secuenciación, y una fracción de la al menos una molécula de ácido nucleico molde diana en la primera del par de muestras puede secuenciarse mediante el uso de un segundo método de secuenciación. De manera similar, una fracción de la al menos una molécula de ácido nucleico molde diana mutada puede secuenciarse mediante el uso de un primer método de secuenciación, y una fracción de la al menos una molécula de ácido nucleico molde diana mutada puede secuenciarse mediante el uso de un segundo método de secuenciación.
Opcionalmente, las etapas (i) de secuenciar regiones de la al menos una molécula de ácido nucleico molde diana en una primera del par de muestras para proporcionar lecturas de secuencias no mutadas y (ii) de secuenciar regiones de la al menos una molécula de ácido nucleico molde diana mutada para proporcionar lecturas de secuencias mutadas se llevan a cabo en diferentes momentos. Alternativamente, las etapas (i) y (ii) pueden llevarse a cabo de manera bastante contemporánea, tal como en el plazo de 1 año de una a la otra. No es necesario tomar la primera del par de muestras y la segunda del par de muestras al mismo tiempo entre sí. Cuando las dos muestras se derivan del mismo organismo, pueden proporcionarse en momentos sustancialmente diferentes, incluso con años de separación y, por tanto, las dos etapas de secuenciación también pueden estar separadas por varios años. Además, incluso si la primera del par de muestras y la segunda del par de muestras se derivaran de la misma muestra original, las muestras biológicas pueden almacenarse durante algún tiempo y, por tanto, no es necesario que las etapas de secuenciación tengan lugar al mismo tiempo.
Las lecturas de secuencias mutadas y/o las lecturas de secuencias no mutadas pueden ser lecturas de secuencias de un único extremo o de ambos extremos.
Opcionalmente, las lecturas de secuencias mutadas y/o las lecturas de secuencias no mutadas tiene más de 50 pb, más de 100 pb, más de 500 pb, menos de 200.000 pb, menos de 15.000 pb, menos de 1.000 pb, entre 50 y 200.000 pb, entre 50 y 15.000 pb o entre 50 y 1.000 pb. Cuanto más larga sea la longitud de lectura, más fácil será usar la información obtenida a partir del análisis de las lecturas de secuencias mutadas para ensamblar una secuencia para al menos una porción de al menos una molécula de ácido nucleico molde diana a partir de las lecturas de secuencias no mutadas. Por ejemplo, si se usa un gráfico de ensamblaje, el uso de lecturas de secuencia más largas facilitará identificar rutas válidas a través del gráfico de ensamblaje. Por ejemplo, tal como se describe con mayor detalle a continuación, identificar rutas válidas a través del gráfico de ensamblaje puede comprender identificar k meros distintivos, y una mayor longitud de lectura puede permitir k meros más largos.
Opcionalmente, las etapas de secuenciación se llevan a cabo mediante el uso de una profundidad de secuenciación de entre 0,1 y 500 lecturas, entre 0,2 y 300 lecturas o entre 0,5 y 150 lecturas por nucleótido por al menos una molécula de ácido nucleico molde diana. Cuanto mayor sea la profundidad de secuenciación, mayor será la exactitud de la secuencia que se determina/genera, pero el ensamblaje puede ser más difícil.
Introducir mutaciones en la al menos una molécula de ácido nucleico molde diana
El método puede comprender una etapa de introducir mutaciones en la al menos una molécula de ácido nucleico molde diana en una segunda del par de muestras para proporcionar al menos una molécula de ácido nucleico molde diana mutada.
Las mutaciones pueden ser mutaciones por sustitución, mutaciones por inserción o mutaciones por deleción. Con los propósitos de la presente invención, el término “ mutación por sustitución’’ debe interpretarse que significa que un nucleótido se reemplaza por un nucleótido diferente. Por ejemplo, la conversión de la secuencia ATCC en la secuencia AGCC introduce una mutación por sustitución simple. Con los propósitos de la presente invención, el término “ mutación por inserción” debe interpretarse que significa que al menos un nucleótido se añade a una secuencia. Por ejemplo, la conversión de la secuencia ATCC a la secuencia ATTCC es un ejemplo de una mutación por inserción (con un nucleótido T adicional que se inserta). Con los propósitos de la presente invención, el término “ mutación por deleción” debe interpretarse que significa que al menos un nucleótido se elimina de una secuencia. Por ejemplo, la conversión de la secuencia ATTCC a ATCC es un ejemplo de una mutación por deleción (con la eliminación de un nucleótido T). Preferiblemente, las mutaciones son mutaciones por sustitución.
La expresión “ introducir mutaciones en la al menos una molécula de ácido nucleico molde diana” se refiere a exponer la al menos una molécula de ácido nucleico molde diana en la segunda del par de muestras a condiciones en donde la al menos una molécula de ácido nucleico molde diana se muta. Esto puede lograrse mediante el uso de cualquier método adecuado. Por ejemplo, pueden introducirse mutaciones mediante mutagénesis química y/o mutagénesis enzimática.
Opcionalmente, la etapa de introducir mutaciones en la al menos una molécula de ácido nucleico molde diana muta entre el 1 % y el 50 %, entre el 3 % y el 25 %, entre el 5 % y el 20 %, o aproximadamente el 8 % de los nucleótidos de la al menos una molécula de ácido nucleico molde diana. Opcionalmente, la al menos una molécula de ácido nucleico molde diana mutada comprende entre el 1 % y el 50 %, entre el 3 % y el 25 %, entre el 5 % y el 20 %, o aproximadamente el 8 % de mutaciones.
El usuario puede determinar cuántas mutaciones están comprendidas dentro de la al menos una molécula de ácido nucleico molde diana mutada, y/o el grado en donde la etapa de introducir mutaciones en la al menos una molécula de ácido nucleico molde diana muta la al menos una molécula de ácido nucleico molde diana mediante la realización de la etapa de introducir mutaciones en una molécula de ácido nucleico de secuencia conocida, secuenciar la molécula de ácido nucleico resultante y determinar el porcentaje del número total de nucleótidos que han cambiado en comparación con la secuencia original.
Opcionalmente, la etapa de introducir mutaciones en la al menos una molécula de ácido nucleico molde diana muta la al menos una molécula de ácido nucleico molde diana de una manera sustancialmente al azar. Opcionalmente, la al menos una molécula de ácido nucleico molde diana mutada comprende un patrón de mutaciones sustancialmente al azar.
La al menos una molécula de ácido nucleico molde diana mutada comprende un patrón de mutaciones sustancialmente al azar si contiene mutaciones a lo largo de su longitud a niveles sustancialmente similares. Por ejemplo, el usuario puede determinar si la al menos una molécula de ácido nucleico molde diana mutada comprende un patrón de mutaciones sustancialmente al azar al mutar una molécula de ácido nucleico de prueba de secuencia conocida para proporcionar una molécula de ácido nucleico de prueba mutada. La secuencia de la molécula de ácido nucleico de prueba mutada puede compararse con la molécula de ácido nucleico de prueba para determinar las posiciones de cada una de las mutaciones. Entonces, el usuario puede determinar si las mutaciones se producen a lo largo de toda la longitud de la molécula de ácido nucleico de prueba mutada a niveles sustancialmente similares mediante:
(i) calcular la distancia entre cada una de las mutaciones;
(ii) calcular la media de las distancias;
(iii) submuestrear las distancias sin reemplazar a un número menor tal como 500 o 1000;
(iv) construir un conjunto simulado de 500 o 1000 distancias desde la distribución geométrica, con una media dada por el método de momentos para que coincida con la calculada previamente en las distancias observadas; y
(v) calcular un Kolmolgorov-Smirnov en las dos distribuciones.
La al menos una molécula de ácido nucleico molde diana mutada puede considerarse que comprende un patrón de mutaciones sustancialmente al azar si D < 0,15, D < 0,2, D < 0,25, o D < 0,3, dependiendo de la longitud de las lecturas no mutadas.
De manera similar, la etapa de introducir mutaciones en la al menos una molécula de ácido nucleico molde diana muta la al menos una molécula de ácido nucleico molde diana de una manera sustancialmente al azar, si la al menos una molécula de ácido nucleico molde diana mutada comprende un patrón de mutaciones sustancialmente al azar. Puede determinarse si una etapa de introducir mutaciones en la al menos una molécula de ácido nucleico molde diana muta la al menos una molécula de ácido nucleico molde diana de una manera sustancialmente al azar llevando a cabo la etapa de introducir mutaciones en la al menos una molécula de ácido nucleico molde diana en una molécula de ácido nucleico de prueba de secuencia conocida para proporcionar una molécula de ácido nucleico de prueba mutada. Luego, el usuario puede secuenciar la molécula de ácido nucleico de prueba mutada para identificar qué mutaciones se han introducido y determinar si la molécula de ácido nucleico de prueba mutada comprende un patrón de mutaciones sustancialmente al azar.
Opcionalmente, la al menos una molécula de ácido nucleico molde diana mutada comprende un patrón de mutaciones no sesgado. Opcionalmente, la etapa de introducir mutaciones en la al menos una molécula de ácido nucleico molde diana introduce mutaciones de una manera no sesgada. La al menos una molécula de ácido nucleico molde diana mutada comprende un patrón de mutaciones no sesgado, si los tipos de mutaciones que se introducen son al azar. Si las mutaciones que se introducen son mutaciones por sustitución, entonces las mutaciones que se introducen son al azar si se introduce una proporción similar de nucleótidos A (adenosina), T (timina), C (citosina) y G (guanina). Por la expresión “ se introduce una proporción sim ilar de nucleótidos A (adenosina), T (timina), C (citosina) y G (guanina)", se entiende que el número de nucleótidos de adenosina, el número de timina, el número de citosina y el número de guanina que se introducen están dentro del 20 % unos de otros (por ejemplo, podrían introducirse 20 nucleótidos A, 18 nucleótidos T, 24 nucleótidos C y 22 nucleótidos G).
Puede determinarse si una etapa de introducir mutaciones en la al menos una molécula de ácido nucleico molde diana muta la al menos una molécula de ácido nucleico molde diana de una manera no sesgada llevando a cabo la etapa de introducir mutaciones en la al menos una molécula de ácido nucleico molde diana en una molécula de ácido nucleico de prueba de secuencia conocida para proporcionar una molécula de ácido nucleico de prueba mutada. Luego, el usuario puede secuenciar la molécula de ácido nucleico de prueba mutada para identificar qué mutaciones se han introducido y determinar si la molécula de ácido nucleico de prueba mutada comprende un patrón de mutaciones no sesgado.
De manera útil, los métodos de generar una secuencia de al menos una molécula de ácido nucleico molde diana pueden usarse incluso cuando la etapa de introducir mutaciones en la al menos una molécula de ácido nucleico molde diana introduce mutaciones distribuidas de manera no uniforme. Por tanto, en una realización la al menos una molécula de ácido nucleico molde diana mutada comprende mutaciones distribuidas de manera no uniforme. Opcionalmente, la etapa de introducir mutaciones en la al menos una molécula de ácido nucleico molde diana mutada introduce mutaciones que se distribuyen de manera no uniforme. Se considera que las mutaciones están “ distribuidas de manera no uniforme" si las mutaciones se introducen de manera sesgada, es decir, el número de nucleótidos de adenosina, el número de timina, el número de citosina y el número de guanina que se introducen no están dentro del 20 % unos de otros. Puede determinarse si la al menos una molécula de ácido nucleico molde diana mutada comprende mutaciones distribuidas de manera no uniforme, o la etapa de introducir mutaciones en la al menos una molécula de ácido nucleico molde diana introduce mutaciones que se distribuyen de manera no uniforme, de una manera similar a la descrita anteriormente para determinar si la etapa de introducir mutaciones en la al menos una molécula de ácido nucleico molde diana introduce mutaciones de una manera no sesgada.
De manera similar, los métodos de generar una secuencia de al menos una molécula de ácido nucleico molde diana pueden usarse incluso cuando las lecturas de secuencias mutadas y/o las lecturas de secuencias no mutadas comprenden errores de secuenciación distribuidos de manera no uniforme. Por tanto, en una realización, las lecturas de secuencias mutadas y/o las lecturas de secuencias no mutadas comprenden errores de secuenciación que se distribuyen de manera no uniforme. De manera similar, en una realización, la etapa de secuenciar regiones de la al menos una molécula de ácido nucleico molde diana y/o la secuenciación de regiones de la al menos una molécula de ácido nucleico molde diana mutada introduce errores de secuencia que se distribuyen de manera no uniforme.
Si una etapa particular de secuenciar regiones de la al menos una molécula de ácido nucleico molde diana y/o secuenciar regiones de la al menos una molécula de ácido nucleico molde diana mutada introduce errores de secuencia que se distribuyen de manera no uniforme es probable que dependa de la exactitud del instrumento de secuenciación y es probable que lo conozca el usuario. Sin embargo, el usuario puede investigar si una etapa de secuenciar regiones de la al menos una molécula de ácido nucleico molde diana y/ o secuenciar regiones de la al menos una molécula de ácido nucleico molde diana mutada introduce errores de secuencia que se distribuyen de manera no uniforme mediante la realización del método de secuenciación en una molécula de ácido nucleico de secuencia conocida y la comparación de las lecturas de secuencia producidas con aquellas de la molécula de ácido nucleico original de secuencia conocida. Luego, el usuario puede aplicar la función de probabilidad comentada en el ejemplo 6, y determinar los valores para M y E. si los valores de E y el modelo de matriz son no uniformes o sustancialmente no uniformes (dentro del 10 % uno de otro), entonces la etapa de secuenciar las regiones de la al menos una molécula de ácido nucleico molde diana introduce errores de secuencia que se distribuyen de manera no uniforme.
La introducción de mutaciones en al menos una molécula de ácido nucleico molde diana a través de mutagénesis química puede lograrse al exponer al menos un ácido nucleico molde diana a un mutágeno químico. Los mutágenos químicos adecuados incluyen mitomicina C (MMC), N-metil-N-nitrosourea (MNU), ácido nitroso (NA), diepoxibutano (DEB), 1,2,7,8,-diepoxioctano (DEO), etil-metano-sulfonato (EMS), metil-metano-sulfonato (MMS), N-metil-N ‘-nitro-N-nitrosoguanidina (MNG), 1-óxido de 4-nitroquinolina (4-NQO), 2-metiloxi-6-cloro-9(diclorhidrato de 3-[etil-2-cloroetil]-aminopropilamino)-acridina (ICR-170), 2-amino-purina (2A), bisulfito e hidroxilamina (HA). Por ejemplo, cuando las moléculas de ácido nucleico se exponen a bisulfito, el bisulfito desamina la citosina para formar uracilo, introduciendo eficazmente una mutación por sustitución C-T.
Tal como se señaló anteriormente, la etapa de introducir mutaciones en la al menos una molécula de ácido nucleico molde diana puede llevarse a cabo mediante mutagénesis enzimática. Opcionalmente, la mutagénesis enzimática se lleva a cabo mediante el uso de una ADN polimerasa. Por ejemplo, algunas ADN polimerasas son propensas a errores (son polimerasas de baja fidelidad) y replicar la al menos una molécula de ácido nucleico molde diana mediante el uso de una ADN polimerasa propensa a errores introducirá mutaciones. La polimerasa Taq es un ejemplo de una polimerasa de baja fidelidad, y la etapa de introducir mutaciones en la al menos una molécula de ácido nucleico molde diana puede llevarse a cabo al replicar la al menos una molécula de ácido nucleico molde diana mediante el uso de polimerasa Taq, por ejemplo, mediante PCR.
La ADN polimerasa puede ser una ADN polimerasa de bajo sesgo, que se comentan con mayor detalle a continuación.
Si la etapa de introducir mutaciones en la al menos una molécula de ácido nucleico molde diana se lleva a cabo mediante el uso de una ADN polimerasa, la al menos una molécula de ácido nucleico molde diana puede incubarse con la ADN polimerasa y los cebadores adecuados en condiciones adecuadas para la ADN polimerasa para catalizar la generación de al menos una molécula de ácido nucleico molde diana mutada.
Los cebadores adecuados comprenden moléculas de ácido nucleico cortas complementarias a regiones que flanquean a la al menos una molécula de ácido nucleico molde diana o a regiones que flanquean a moléculas de ácido nucleico que son complementarias a la al menos una molécula de ácido nucleico molde diana. Por ejemplo, si la al menos una molécula de ácido nucleico molde diana forma parte de un cromosoma, los cebadores serán complementarios a regiones del cromosoma inmediatamente en 3' al extremo 3' de la al menos una molécula de ácido nucleico molde diana e inmediatamente en 5' al extremo 5' de la al menos una molécula de ácido nucleico molde diana, o los cebadores serán complementarios a regiones del cromosoma inmediatamente en 3' al extremo 3' de una molécula de ácido nucleico complementaria a la al menos una molécula de ácido nucleico molde diana e inmediatamente en 5' al extremo 5' de una molécula de ácido nucleico complementaria a la al menos una molécula de ácido nucleico molde diana.
Las condiciones adecuadas incluyen una temperatura a la cual la ADN polimerasa puede replicar la al menos una molécula de ácido nucleico molde diana. Por ejemplo, una temperatura de entre 40 0C y 90 0C, entre 50 0C y 80 0C, entre 60 0C y 70 0C, o aproximadamente 68 0C.
La etapa de introducir mutaciones en la al menos una molécula de ácido nucleico molde puede comprender múltiples tandas de replicación. Por ejemplo, la etapa de introducir mutaciones en la al menos una molécula de ácido nucleico molde diana comprende preferiblemente:
i) una tanda de replicación de la al menos una molécula de ácido nucleico molde diana para proporcionar al menos una molécula de ácido nucleico que es complementaria a la al menos una molécula de ácido nucleico molde diana; y
ii) una tanda de replicación de la al menos una molécula de ácido nucleico molde diana para proporcionar réplicas de la al menos una molécula de ácido nucleico molde diana.
Opcionalmente, la etapa de introducir mutaciones en la al menos una molécula de ácido nucleico molde diana comprende al menos 2, al menos 4, al menos 6, al menos 8, al menos 10, menos de 10, menos de 8, aproximadamente 6, entre 2 y 8 o entre 1 y 7 tandas de replicación de la al menos una molécula de ácido nucleico molde diana. El usuario puede optar por usar un bajo número de tandas de replicación para reducir la posibilidad de introducir sesgo de amplificación.
Opcionalmente, la etapa de introducir mutaciones en la al menos una molécula de ácido nucleico molde diana comprende al menos 2, al menos 4, al menos 6, al menos 8, al menos 10, menos de 10, menos de 8, aproximadamente 6, entre 2 y 8 o entre 1 y 7 tandas de replicación a una temperatura de entre 60 0C y 80 0C.
Opcionalmente, la etapa de introducir mutaciones en la al menos una molécula de ácido nucleico molde diana se lleva a cabo mediante el uso de la reacción en cadena de la polimerasa (PCR). La PCR es un proceso que implica múltiples tandas de las siguientes etapas para replicar una molécula de ácido nucleico:
a) fusión;
b) hibridación; y
c) extensión y elongación.
La molécula de ácido nucleico (tal como la al menos una molécula de ácido nucleico molde diana) se mezcla con cebadores adecuados y una polimerasa. En la etapa de fusión, la molécula de ácido nucleico se calienta hasta una temperatura mayor de 90 0C de tal manera que una molécula de ácido nucleico bicatenaria se desnaturalice (se separe en dos hebras). En la etapa de hibridación, la molécula de ácido nucleico se enfría hasta una temperatura menor de 75 0C, por ejemplo, entre 55 0C y 70 0C, aproximadamente 55 0C, o aproximadamente 68 0C, para permitir que los cebadores se hibriden a la molécula de ácido nucleico. En las etapas de extensión y elongación, la molécula de ácido nucleico se calienta hasta una temperatura mayor de 60 0C para permitir que la ADN polimerasa catalice la extensión de cebadores, la adición de nucleótidos complementarios a la hebra molde.
Opcionalmente, la etapa de introducir mutaciones en la al menos una molécula de ácido nucleico molde diana comprende replicar la al menos una molécula de ácido nucleico molde diana mediante el uso de polimerasa Taq, en condiciones de reacciones propensas a errores. Por ejemplo, la etapa de introducir mutaciones en la al menos una molécula de ácido nucleico molde diana puede comprender PCR mediante el uso de polimerasa Taq en presencia de concentraciones desiguales de Mn2+, Mg2+ o dNTP (por ejemplo, un exceso de citosina, guanina, adenina o timina).
Obtener datos que comprenden lecturas de secuencias no mutadas y lecturas de secuencias mutadas
Los métodos de la invención pueden comprender una etapa para obtener datos que comprenden lecturas de secuencias no mutadas y lecturas de secuencias mutadas. Las lecturas de secuencias no mutadas y las lecturas de secuencias mutadas pueden obtenerse de cualquier fuente.
Opcionalmente, las lecturas de secuencias no mutadas se obtienen mediante la secuenciación de regiones de al menos una molécula de ácido nucleico molde diana en una primera de un par de muestras. Opcionalmente, las lecturas de secuencias mutadas se obtienen mediante la introducción de mutaciones en la al menos una molécula de ácido nucleico molde diana en una segunda del par de muestras para proporcionar al menos una molécula de ácido nucleico molde diana mutada, y secuenciar regiones de la al menos una molécula de ácido nucleico molde diana mutada.
Opcionalmente, las lecturas de secuencias no mutadas comprenden secuencias de regiones de al menos una molécula de ácido nucleico molde diana en una primera de un par de muestras, las lecturas de secuencias mutadas comprenden secuencias de regiones de al menos una molécula de ácido nucleico molde diana mutada en una segunda de un par de muestras, y el par de muestras se tomaron de la misma muestra original o se derivan del mismo organismo.
Analizar las lecturas de secuencias mutadas, y usar la información obtenida mediante el análisis de las lecturas de secuencias mutadas para ensamblar una secuencia
Tal como se describió anteriormente, la primera muestra y la segunda muestra comprenden la al menos una molécula de ácido nucleico molde diana. Por tanto, los patrones de mutaciones presentes en las lecturas de secuencias mutadas pueden ayudar al usuario a ensamblar una secuencia para al menos una porción de la al menos una molécula de ácido nucleico molde diana.
Tal como se describió anteriormente, el ensamblaje de una secuencia puede ser difícil si, por ejemplo, las regiones de una secuencia son similares entre sí o la secuencia comprende porciones de repetición. Sin embargo, el usuario puede ensamblar una secuencia a partir de lecturas de secuencias no mutadas más eficazmente mediante el uso de información obtenida a partir de lecturas de secuencias mutadas que corresponden a las lecturas de secuencias no mutadas. En los métodos de la invención, las lecturas de secuencias mutadas se usan para identificar nodos calculados a partir de lecturas de secuencias no mutadas que forman parte de una ruta válida a través del gráfico de ensamblaje de secuencias.
Según ciertas realizaciones, una secuencia puede ensamblarse mediante el uso de información de múltiples lecturas mutadas. Tal como se describe con mayor detalle a continuación, pueden identificarse lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma molécula de ácido nucleico molde diana mutada. Según ciertas realizaciones, pueden ensamblarse lecturas de secuencias mutadas, y/o puede generarse una secuencia consenso a partir de múltiples lecturas de secuencias mutadas. En una realización particular, puede reconstruirse una lectura mutada larga (es decir, una lectura mutada larga sintética) a partir de múltiples lecturas mutadas parcialmente solapantes que se originan a partir de la misma molécula de ácido nucleico molde diana mutada para proporcionar información para ensamblar una secuencia. Tal lectura larga sintética puede corresponder a una trayectoria identificada a través de un gráfico de ensamblaje sin mutar tal como se describe en otra parte del presente documento.
Preparar un gráfico de ensamblaje
La etapa de analizar las lecturas de secuencias mutadas, y usar la información obtenida del análisis de las lecturas de secuencias mutadas para ensamblar una secuencia para al menos una porción de al menos una molécula de ácido nucleico molde diana a partir de las lecturas de secuencias no mutadas comprende preparar un gráfico de ensamblaje.
Con el propósito de la presente invención “ un gráfico de ensamblaje" es un gráfico que comprende nodos calculados a partir de lecturas de secuencias no mutadas, y rutas que pueden corresponder (en el caso de rutas válidas) a porciones de al menos una molécula de ácido nucleico molde diana. Por ejemplo, los nodos pueden representar secuencias consenso calculadas a partir de lecturas de secuencias no mutadas ensambladas.
Los nodos se calculan a partir de lecturas de secuencias no mutadas. Sin embargo, si parte de la al menos una molécula de ácido nucleico molde diana no se ha secuenciado correctamente, es posible que se disponga de insuficientes lecturas de secuencias no mutadas para ensamblar una secuencia completa para al menos una molécula de ácido nucleico molde diana. Si ese es el caso, entonces los nodos pueden calcularse a partir de una combinación de lecturas de secuencias no mutadas y lecturas de secuencias mutadas, usándose las lecturas de secuencias mutadas para complementar las regiones del gráfico de ensamblaje que representan lecturas de secuencias no mutadas faltantes. Opcionalmente, los nodos se calculan a partir de lecturas de secuencias no mutadas y lecturas de secuencias mutadas. El uso de nodos calculados a partir de lecturas de secuencias no mutadas solas es beneficioso, ya que las lecturas de secuencias no mutadas corresponden exactamente a la molécula de ácido nucleico molde diana original. Por tanto, mediante el uso de un gráfico de ensamblaje que consiste en nodos calculados a partir de lecturas de secuencias no mutadas pueden evitarse artefactos introducidos por las etapas de mutación.
En la figura 9, panel A, se proporciona una representación pictórica de un gráfico de ensamblaje adecuado.
Opcionalmente, los nodos del gráfico de ensamblaje son unitigos. Con el propósito de la presente invención, el término “ unitigo" pretende referirse a una porción de al menos una molécula de ácido nucleico molde diana cuya secuencia puede definirse con un alto nivel de confianza. Por ejemplo, los nodos del gráfico de ensamblaje pueden comprender unitigos que corresponden a secuencias consenso de la totalidad o porciones de una o más lecturas de secuencias no mutadas y/o la totalidad o porciones de una o más lecturas de secuencias mutadas. Preferiblemente, los nodos del gráfico de ensamblaje comprenden unitigos que corresponden a secuencias consenso de la totalidad o porciones de una o más lecturas de secuencias no mutadas.
El gráfico de ensamblaje puede ser un gráfico de cóntigos, un gráfico de unitigos o un gráfico de ponderación. Por ejemplo, el gráfico de ensamblaje puede ser un gráfico de Bruijn.
identificar nodos que forman parte de una ruta válida a través del gráfico de ensamblaje
Usar información obtenida del análisis de las lecturas de secuencias mutadas para ensamblar una secuencia para al menos una porción de al menos una molécula de ácido nucleico molde diana a partir de las lecturas de secuencias no mutadas comprende identificar nodos calculados a partir de lecturas de secuencias no mutadas que forman parte de una ruta válida a través del gráfico de ensamblaje mediante el uso de información obtenida mediante el análisis de las lecturas de secuencias mutadas. Cada ruta válida a través del gráfico de ensamblaje puede representar la secuencia de una porción de al menos una molécula de ácido nucleico molde diana. Si el gráfico de ensamblaje comprende numerosas supuestas rutas de nodo a nodo, la información obtenida mediante el análisis de las lecturas de secuencias mutadas puede usarse para obtener el orden de los nodos. En métodos adicionales descritos en el presente documento, la información obtenida mediante el análisis de las lecturas de secuencias mutadas puede usarse para determinar el número de copias de una secuencia dada en un genoma.
Analizar las lecturas de secuencias mutadas comprende identificar lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma al menos una molécula de ácido nucleico molde diana mutada. Los métodos de la invención pueden dar como resultado la provisión de múltiples lecturas de secuencias mutadas que comprenden una secuencia mutada que corresponde a la misma región, es decir, grupos de lecturas de secuencias mutadas que corresponden a la misma región. Algunas de las lecturas de secuencias mutadas en el grupo pueden solaparse y algunas de las lecturas de secuencias mutadas en el grupo pueden ser repeticiones. Cuando el grupo de lecturas de secuencias mutadas se mapea en el gráfico de ensamblaje, pueden usarse para identificar rutas válidas a través del gráfico de ensamblaje, tal como se ilustra en la figura 9B, ya que pueden unir los nodos calculados a partir de lecturas de secuencias no mutadas.
Por tanto, analizar las lecturas de secuencias mutadas comprende identificar lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma al menos una molécula de ácido nucleico molde diana mutada. Identificar nodos que forman parte de una ruta válida a través del gráfico de ensamblaje mediante el uso de la información obtenida mediante el análisis de las lecturas de secuencias mutadas comprende:
(i) calcular nodos a partir de lecturas de secuencias no mutadas;
(ii) mapear las lecturas de secuencias mutadas en el gráfico de ensamblaje;
(iii) identificar lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma al menos una molécula de ácido nucleico molde diana mutada; y
(iv) identificar nodos que se unen por lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma al menos una molécula de ácido nucleico molde diana mutada,
en donde los nodos que se unen por lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma al menos una molécula de ácido nucleico molde diana mutada forman parte de una ruta válida a través del gráfico de ensamblaje.
Opcionalmente, las lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma molécula de ácido nucleico molde diana mutada se asignan en grupos.
Identificar lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma molécula de ácido nucleico molde diana mutada
Tal como se comentó, analizar las lecturas de secuencias mutadas puede comprender identificar lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma al menos una molécula de ácido nucleico molde diana mutada.
Opcionalmente, es probable que las lecturas de secuencias mutadas se hayan originado a partir de la misma molécula de ácido nucleico molde diana mutada si comparten patrones de mutaciones comunes. Opcionalmente, las lecturas de secuencias mutadas que comparten patrones de mutaciones comunes comprenden k meros distintivos comunes o mutaciones distintivas comunes. Preferiblemente, las lecturas de secuencias mutadas que comparten patrones de mutaciones comunes comprenden al menos 1, al menos 2, al menos 3, al menos 4, al menos 5 o al menos k meros distintivos comunes y/o mutaciones distintivas comunes.
Identificar lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma al menos una molécula de ácido nucleico molde diana mutada puede ser de utilidad particular cuando una muestra se proporciona combinando dos o más submuestras. En ciertas realizaciones, tal etapa puede usarse cuando se determina la secuencia de al menos una molécula de ácido nucleico molde diana en muestras que se proporcionan combinando dos o más submuestras. Más particularmente, tal etapa puede usarse cuando se determina la secuencia de al menos una molécula de ácido nucleico molde diana a partir de cada una de las dos o más submuestras que se combinan para proporcionar la muestra. Tal etapa también puede ser de utilidad particular cuando se mide el número de moléculas de ácido nucleico molde diana en la muestra que son de cada una de dos o más submuestras cuando las moléculas de ácido nucleico molde diana en las submuestras han mutado.
k meros distintivos o mutaciones distintivas
Las lecturas de secuencias mutadas que comparten patrones de mutaciones comunes pueden comprender k meros distintivos comunes y/o mutaciones distintivas comunes. Preferiblemente, las lecturas de secuencias mutadas que comparten patrones de mutaciones comunes comprenden al menos 1, al menos 2, al menos 3, al menos 4, al menos 5 o al menos k meros distintivos comunes y/o mutaciones distintivas comunes.
En el contexto de la invención, un “k mero" representa una secuencia de ácido nucleico de longitud k, que está contenida dentro de una lectura de secuencia. Un “ k mero distintivo" puede ser un k mero que no aparece en las lecturas de secuencias no mutadas, pero aparece al menos dos veces en las lecturas de secuencias mutadas. En una realización, un k mero distintivo es un k mero que aparece al menos n veces con mayor frecuencia en las lecturas de secuencias mutadas que en las lecturas de secuencias no mutadas, en donde n es cualquier entero, por ejemplo, 2, 3, 4 o 5. Opcionalmente, un k mero distintivo es un k mero que aparece al menos dos veces, al menos tres veces, al menos cuatro veces, al menos cinco veces o al menos diez veces en las lecturas de secuencias mutadas. Por tanto, el usuario puede determinar si las lecturas de secuencias mutadas comprenden k meros distintivos comunes al dividir las lecturas de secuencias mutadas en k meros y dividir las lecturas de secuencias no mutadas en k meros. Luego, el usuario puede comparar los k meros de lecturas de secuencias mutadas y los k meros de lecturas de secuencias no mutadas, y determinar qué k meros aparecen en los k meros de lecturas de secuencias mutadas y no en los k meros de lecturas de secuencias no mutadas (o qué k meros aparecen con más frecuencia en los k meros de lecturas de secuencias mutadas que en los k meros de lecturas de lectura no mutadas). Luego, el usuario puede evaluar los k meros que aparecen en los k meros de lecturas de secuencias mutadas y no (o con menor frecuencia) en los k meros de lecturas de secuencias no mutadas y contarlos. Cualquier k mero que aparezca al menos dos veces, al menos tres veces, al menos cuatro veces, al menos cinco veces o al menos diez veces en los k meros de lecturas de secuencias mutadas y no en los k meros de lecturas de secuencias no mutadas son k meros distintivos. Cualquier k mero que parezca menos de k, menos de 5, menos de 4, menos de 3 o una vez en los k meros de lecturas de secuencias mutadas y no (o con menor frecuencia) en los k meros de lecturas de secuencias no mutadas puede ser un resultado de un error de secuenciación y, por tanto, debe descartarse.
El valor de k puede seleccionarlo el usuario, y puede ser cualquier valor. Opcionalmente, el valor de k es de al menos 5, al menos 10, al menos 15, menor de 100, menor de 50, menor de 25, entre 5 y 100, entre 10 y 50 o entre 15 y 25. Generalmente, el usuario seleccionará un valor de k que es lo más largo posible, mientras se garantiza que la fracción de k meros en una lectura que contiene uno o más errores de secuenciación sea baja. Preferiblemente, la proporción de k meros en una lectura que contiene errores de secuenciación es menor del 50 %, menor del 40 %, menor del 30 %, entre el 0 % y el 50 %, entre el 0 % y el 40 % o entre el 0 % y el 30 %.
Una “ mutación distintiva" puede ser un nucleótido que aparece al menos dos veces en las lecturas de secuencias mutadas y no aparece en una posición correspondiente en las lecturas de secuencias no mutadas. En una realización, una mutación distintiva es una mutación que aparece al menos n veces con mayor frecuencia en las lecturas de secuencias mutadas que en las lecturas de secuencias no mutadas, en donde n es cualquier entero, por ejemplo, 2, 3, 4 o 5. Opcionalmente, la mutación distintiva es una mutación que aparece al menos dos veces, al menos tres veces, al menos cuatro veces, al menos cinco veces o al menos diez veces en las lecturas mutadas y no aparece (o aparece con menor frecuencia) en una posición correspondiente en una lectura no mutada.
Opcionalmente, las mutaciones distintivas son mutaciones que se producen simultáneamente. Las “ mutaciones que se producen simultáneamente" son dos o más mutaciones distintivas que se producen en la misma lectura de secuencia mutada. Por ejemplo, si una lectura de secuencia mutada contiene tres mutaciones distintivas, entonces contiene tres pares de mutaciones que se producen simultáneamente o una mutación que se produce simultáneamente 3-tupla. Si contiene cuatro mutaciones distintivas, entonces contiene seis pares de mutaciones que se producen simultáneamente, cuatro mutaciones que se producen simultáneamente 3-tupla y una mutación que se produce simultáneamente 4-tupla.
Opcionalmente, las mutaciones distintivas pueden descartarse si no cumplen ciertos criterios que sugieren que las mutaciones distintivas identificadas son espurias o no ayudan a ensamblar una secuencia para al menos una porción de al menos una molécula de ácido nucleico molde diana.
Opcionalmente, las mutaciones distintivas se descartan si al menos 1, al menos 2, al menos 3 o al menos 5 nucleótidos en las posiciones correspondientes en las lecturas de secuencias mutadas que comparten las mutaciones distintivas difieren entre sí. Por ejemplo, si dos lecturas de secuencias mutadas se solapan, y comparten mutaciones distintivas comunes en el solapamiento, los nucleótidos dentro del solapamiento deben ser idénticos. Si tienen un bajo nivel de identidad, entonces es probable que se haya producido un error y, así, deben descartarse las lecturas de secuencias mutadas. Una diferencia de un nucleótido, por ejemplo, puede tolerarse ya que esta puede ser un error de secuenciación simple.
Opcionalmente, las mutaciones distintivas se descartan si son mutaciones que son inesperadas. Por la expresión “ mutaciones que son inesperadas” , se entiende mutaciones que es poco probable que se produzcan mediante el uso de una etapa particular de introducir mutaciones en la al menos una molécula de ácido nucleico molde diana. Por ejemplo, si la etapa de introducir mutaciones en la al menos una molécula de ácido nucleico molde diana se lleva a cabo mediante el uso de un mutágeno químico que sólo introduce sustituciones de guanina por adenina, cualquier sustitución de citosina es inesperada y deben descartarse las lecturas de secuencias mutadas que contienen tales mutaciones.
Opcionalmente, la etapa de identificar lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma al menos una molécula de ácido nucleico molde diana mutada comprende identificar lecturas de secuencias mutadas que corresponden a una región específica de la al menos una molécula de ácido nucleico molde diana. Por ejemplo, el usuario sólo puede estar interesado en identificar lecturas de secuencias mutadas que comprenden mutaciones distintivas en regiones de solapamiento con otras lecturas de secuencias mutadas, y las mutaciones distintivas que se producen en otras regiones pueden descartarse.
Generalmente, las lecturas de secuencias mutadas cuyos conjuntos de mutaciones distintivas tienen una intersección mayor y es más probable que se hayan originado menores diferencias simétricas a partir de la misma al menos una molécula de ácido nucleico molde diana mutada. Para dos lecturas de secuencias mutadas A y B con mutaciones distintivas SM(A) y SM(B), entonces puede suponerse que A y B se originan a partir de la misma al menos una molécula de ácido nucleico molde diana mutada si:
Intersección (SM(A), SM(B)) >=C
y
diferencia_simétrica (SM(A), SM(B)) < intersección (SM(A), SM(B))
en donde C es mayor de 4, mayor de 5, menor de 20 o menor de 10 y SM(X) es un conjunto de mutaciones distintivas para la lectura de secuencia mutada X que puede ser un subconjunto de las mutaciones distintivas para X.
Opcionalmente, pueden usarse conjuntos de mutaciones que se producen simultáneamente en lugar de mutaciones distintivas en la siguiente ecuación.
Intersección (SM(A), SM(B)) >=C
y
diferencia_simétrica (SM(A), SM(B)) < C2* intersección(SM(A), SM(B))
donde C2 es menor de 3, menor de 2, o menor de o igual a 1,5 y SM(X) es un conjunto de mutaciones que se producen simultáneamente para la lectura de secuencia mutada X que puede ser un subconjunto de las mutaciones distintivas para X.
Las lecturas de secuencias mutadas que comparten k meros distintivos comunes o mutaciones distintivas comunes pueden agruparse conjuntamente. Preferiblemente, las lecturas de secuencias mutadas se agrupan conjuntamente si comparten al menos 1, al menos 2, al menos 3, al menos 4, al menos 5 o al menos k mutaciones distintivas comunes y/o k meros distintivos comunes. En tales realizaciones “ k” es la longitud del k mero usado.
Determinar la probabilidad de que dos lecturas de secuencias mutadas se originen a partir de la misma molécula de ácido nucleico molde diana mutada
Las lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma molécula de ácido nucleico molde diana mutada pueden identificarse mediante el cálculo de la siguiente razón de probabilidades:
probabilidad de que las lecturas de secuencias mutadas se originen a partir de la misma molécula de ácido nucleico molde diana mutada: probabilidad de que las lecturas de secuencias mutadas no se originen a partir de la misma molécula de ácido nucleico molde diana mutada.
Si la razón de probabilidades supera un umbral, entonces es probable que las lecturas de secuencias mutadas se hayan originado a partir de la misma al menos una molécula de ácido nucleico molde diana mutada. De manera similar, si la razón de probabilidades es mayor para una primera lectura de secuencia mutada y una segunda lectura de secuencia mutada en comparación con la primera lectura de secuencia mutada y otras lecturas de secuencias mutadas que se mapean en la misma región del gráfico de ensamblaje, entonces es probable que la primera lectura de secuencia mutada se haya originado a partir de la misma al menos una molécula de ácido nucleico molde diana que la segunda lectura de secuencia mutada.
El umbral aplicado puede estar en cualquier nivel. De hecho, el usuario determinará el umbral para cualquier método de secuenciación dado dependiendo de sus requerimientos.
Por ejemplo, el usuario puede determinar qué nivel de rigurosidad se requiere. Si el usuario usa el método para determinar o generar una secuencia para al menos un ácido nucleico molde diana para el que la exactitud no es importante, entonces el umbral que se selecciona puede ser considerablemente menor que si el usuario usa el método para generar o determinar una secuencia para al menos un ácido nucleico molde diana para el que la exactitud es importante. Si el usuario usa el método para determinar o generar secuencias para ácidos nucleicos molde diana en una muestra para determinar, por ejemplo, si la muestra comprende múltiples cepas bacterianas o sólo una, puede requerirse un menor nivel de exactitud que si el usuario usa el método para determinar o generar una secuencia de un gen variante específico para determinar cómo difiere del gen nativo. Por tanto, el umbral puede variarse (determinarse) basándose en la rigurosidad requerida.
De manera similar, el usuario puede alterar el umbral según la tasa de mutaciones usada en la etapa de introducir mutaciones en la al menos una molécula de ácido nucleico molde diana. Si la tasa de mutaciones es mayor, entonces es más fácil determinar si dos lecturas de secuencias mutadas se originan a partir de la misma molécula de ácido nucleico molde diana mutada y, por tanto, puede usarse un mayor umbral de probabilidad.
De manera similar, el usuario puede alterar el umbral según el tamaño de la al menos una molécula de ácido nucleico molde diana. Cuanto mayor sea el tamaño de la al menos una molécula de ácido nucleico molde diana, más difícil será secuenciar la longitud completa sin errores de secuenciación y, así, un usuario puede desear usar un mayor umbral para al menos una molécula de ácido nucleico molde diana más larga.
De manera similar, el usuario puede alterar el umbral según restricciones de tiempo y restricciones de recursos. Si estas restricciones son mayores, el usuario puede estar satisfecho con un umbral menor que proporciona una secuencia menos exacta.
Además, el usuario puede alterar el umbral según la tasa de errores de la etapa de secuenciar las regiones de al menos un molde diana mutado para proporcionar lecturas de secuencias mutadas. Si el tasa de errores es alta, entonces el usuario puede establecer un mayor umbral que si el tasa de errores es baja. Esto es porque, si la tasa de errores es alta, los datos pueden ser menos informativos acerca de si dos lecturas de secuencias mutadas se originan a partir de la misma molécula de ácido nucleico molde diana mutada, especialmente si los errores se sesgan de una manera que es similar a las mutaciones introducidas.
Opcionalmente, identificar lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma molécula de ácido nucleico molde diana mutada comprende usar una función de probabilidad basándose en los siguientes parámetros:
a. una matriz (N) de nucleótidos en cada posición de las lecturas de secuencias mutadas y el gráfico de ensamblaje;
b. una probabilidad (M) de que un nucleótido dado (i) se mutase para leer el nucleótido (j);
c. una probabilidad (E) de que un nucleótido dado (i) se leyese de manera errónea para leer el nucleótido (j) condicionado en el nucleótido que se ha leído de manera errónea; y
d. una probabilidad (Q) de que un nucleótido en la posición Y se leyese erróneamente.
La función de probabilidad puede usarse para determinar la razón de probabilidades:
probabilidad de que las lecturas de secuencias mutadas se originen a partir de la misma molécula de ácido nucleico molde diana mutada: probabilidad de que las lecturas de secuencias mutadas no se originen a partir de la misma molécula de ácido nucleico molde diana mutada.
Opcionalmente, el valor de Q se obtiene mediante la realización de un análisis estadístico de las lecturas de secuencias mutadas y no mutadas, o se obtiene basándose en el conocimiento previo de la exactitud del método de secuenciación. Por ejemplo, Q depende de la exactitud del método de secuenciación que se use. Por tanto, el usuario puede determinar un valor para Q mediante la secuenciación de una molécula de ácido nucleico de secuencia conocida y la determinación del número de nucleótidos que se leen erróneamente en promedio. Alternativamente, el usuario podría seleccionar un subgrupo de las lecturas de secuencias mutadas y no mutadas y comparar estas. Las diferencias entre las lecturas de secuencias mutadas y las no mutadas se deberán o bien al error de secuenciación o bien a la introducción de mutaciones.
El usuario podría usar un análisis estadístico para aproximar el número de diferencias que se deben al error de secuenciación.
Opcionalmente, el valor de M y E se estiman basándose en un análisis estadístico llevado a cabo en un subconjunto de lecturas de secuencias mutadas y lecturas de secuencias no mutadas, en donde el subconjunto incluye lecturas de secuencias mutadas y lecturas de secuencias no mutadas que se seleccionan ya que se mapean en la misma región del gráfico de ensamblaje de referencia. Un ejemplo de cómo determinar M y E se proporciona en el ejemplo 6. En resumen, el usuario puede realizar un análisis estadístico en el subconjunto de lecturas de secuencias mutadas y lecturas de secuencias no mutadas para obtener los valores de ajuste óptimo para M y E (mediante aprendizaje no supervisado). Dado que el aprendizaje no supervisado puede ser un proceso costoso a nivel computacional, es ventajoso llevar a cabo esta etapa en un subconjunto de las lecturas de secuencias mutadas y lecturas de secuencias no mutadas, y luego aplicar los valores de M y E al conjunto completo de lecturas de secuencias mutadas y lecturas de secuencias no mutadas después de eso.
Opcionalmente, el análisis estadístico se lleva a cabo usando inferencia bayesiana, un método de Monte Carlo tal como Monte Carlo hamiltoniano, inferencia variacional o un análogo de probabilidad máxima de inferencia bayesiana.
Opcionalmente, identificar lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma molécula de ácido nucleico molde diana mutada comprende usar redes neurales o de aprendizaje automático; por ejemplo, tal como se describe con detalle en Russell & Norvig “A rtificial Intelligence, a modern approach” .
Preagrupamiento
Opcionalmente, el método comprende una etapa de preagrupamiento. Por ejemplo, el usuario puede realizar un cálculo inicial para asignar lecturas de secuencias mutadas a grupos, en donde cada miembro del mismo grupo tiene una probabilidad razonable de haberse originado a partir de la misma al menos una molécula de ácido nucleico molde diana mutada. Las lecturas de secuencias mutadas en cada grupo pueden mapearse en una ubicación común en el gráfico de ensamblaje y/o compartir un patrón de mutaciones común. Dos lecturas de secuencias mutadas en el grupo se mapean en una ubicación común en el gráfico de ensamblaje si se mapean en la misma región, o si se solapan en el gráfico de ensamblaje. El umbral de probabilidad aplicado en la etapa de preagrupamiento puede ser menor que el aplicado en una etapa de identificar lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma al menos una molécula de ácido nucleico molde diana mutada, es decir, la etapa de preagrupamiento puede ser una etapa de menor rigurosidad que la etapa de identificar lecturas de secuencias mutadas que es probable que se originan a partir de la misma al menos una molécula de ácido nucleico molde diana mutada.
Opcionalmente, identificar lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma molécula de ácido nucleico molde diana mutada está restringido por los resultados de una etapa de preagrupamiento. Por ejemplo, el usuario puede aplicar una etapa de preagrupamiento de menor rigurosidad para agrupar las lecturas de secuencias mutadas que se mapean en una región común del gráfico de ensamblaje y que tienen una probabilidad razonable de haberse originado a partir de la misma al menos una molécula de ácido nucleico molde diana mutada. El usuario puede aplicar entonces una etapa de mayor rigurosidad para identificar lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma al menos una molécula de ácido nucleico molde diana mutada a cada uno de los miembros de un grupo para ver cuáles de esas, de hecho, es probable que se hayan originado a partir de la misma al menos una molécula de ácido nucleico molde diana mutada. La ventaja de usar una etapa de preagrupamiento es que la etapa de mayor rigurosidad usará una mayor cantidad de potencia de procesamiento que la etapa de menor rigurosidad y, en este ejemplo, sólo es necesario aplicar la etapa de mayor rigurosidad a lecturas de secuencias mutadas asignadas al mismo grupo por la etapa de menor rigurosidad, lo que reduce de ese modo la potencia de procesamiento general requerida.
Opcionalmente, la etapa de preagrupamiento comprende agrupamiento de Markov o agrupamiento de Louvain (https://micans.org/mcl/ y https://arxiv.org/abs/0803.0476).
Opcionalmente, la etapa de preagrupamiento se lleva a cabo al asignar lecturas de secuencias mutadas en el mismo grupo que comparten al menos 1, al menos 2, al menos 3, al menos 5 o al menos k meros distintivos k o al menos 1, al menos 2, al menos 3 o al menos 5 mutaciones distintivas, tal como se describió anteriormente. Opcionalmente, es probable de manera razonable que las lecturas de secuencias mutadas se hayan originado a partir de la misma al menos una molécula de ácido nucleico molde diana mutada si comparten patrones de mutaciones comunes y las lecturas de secuencias mutadas que comparten patrones de mutaciones comunes son lecturas de secuencias mutadas que comprenden al menos 1, al menos 2, al menos 3, al menos 5 o al menos k mutaciones distintivas comunes o k meros distintivos comunes.
Opcionalmente, tal como se describe bajo el título “ k meros distintivos o mutaciones distintivas” k meros distintivos son k meros que no aparecen (o aparecen con menor frecuencia) en las lecturas de secuencias no mutadas, pero aparecen al menos dos veces (opcionalmente, al menos tres veces, al menos cuatro veces, al menos cinco veces o al menos diez veces) en las lecturas de secuencias mutadas. Opcionalmente, las mutaciones distintivas son nucleótidos que aparecen al menos dos veces (opcionalmente, al menos tres veces, al menos cuatro veces, al menos cinco veces o al menos diez veces) en las lecturas de secuencias mutadas y no aparecen (o aparecen con menor frecuencia) en una posición correspondiente en las lecturas de secuencias no mutadas.
Descartar supuestas rutas a través del gráfico de ensamblaje
En algunas realizaciones de la invención, la etapa de identificar nodos que forman parte de una ruta válida a través del gráfico de ensamblaje comprende descartar supuestas rutas a través del gráfico de ensamblaje.
Por ejemplo, las supuestas rutas a través del gráfico de ensamblaje pueden descartarse si:
(i) tienen extremos que no coinciden con los presentes en una biblioteca de secuencias de extremos;
(ii) son un resultado de la colisión de moldes;
(iii) son más largas o más cortas que las esperadas; y/o
(iv) tienen una profundidad de cobertura atípica.
El término “ colisión de moldes" se refiere a la situación en donde se identifican dos supuestas rutas a través del gráfico de ensamblaje que corresponden a una o más de las mismas lecturas de secuencias mutadas o de lecturas de secuencias mutadas que tienen los mismos patrones de mutaciones (las dos supuestas rutas han colisionado).
Descartar supuestas rutas a través del gráfico de ensamblaje que tienen extremos que no coinciden
El método puede comprender preparar una biblioteca de secuencias de pares de extremos de la al menos una molécula de ácido nucleico molde diana mutada. Por ejemplo, la biblioteca puede especificar que una primera al menos una molécula de ácido nucleico molde diana tiene secuencias de extremo de A y B, y una segunda al menos una molécula de ácido nucleico molde diana tiene secuencias de extremo de C y D. Podría prepararse una biblioteca mediante la secuenciación de ambos extremos de la al menos una molécula de ácido nucleico molde diana. Opcionalmente, el método comprende secuenciar los extremos de la al menos una molécula de ácido nucleico molde diana mediante el uso de secuenciación de pares coincidentes.
En tales realizaciones, identificar nodos que forman parte de una ruta válida a través del gráfico de ensamblaje comprende descartar supuestas rutas que tienen extremos con apareamiento erróneo, es decir, las secuencias de los extremos de las supuestas rutas no corresponden a uno de los pares en la biblioteca. Por ejemplo, si la biblioteca especifica que una primera al menos una molécula de ácido nucleico molde diana tiene las secuencias de extremo de A y B, y una segunda al menos una molécula de ácido nucleico molde diana tiene las secuencias de extremo de C y D, entonces una supuesta ruta que aparea el extremo A con el extremo D será una ruta falsa y debe descartarse.
Para descartar supuestas rutas que tienen extremos con apareamiento erróneo, el usuario puede mapear las secuencias de los extremos de la al menos una molécula de ácido nucleico molde diana en un gráfico de ensamblaje. Opcionalmente, el usuario también puede desear mapear las secuencias de los extremos de la al menos una molécula de ácido nucleico molde diana en un gráfico de ensamblaje para identificar donde comienza y termina cada al menos una molécula de ácido nucleico molde diana en el gráfico de ensamblaje, para ayudar al usuario a ensamblar una secuencia para al menos una porción de al menos una molécula de ácido nucleico molde diana a partir de las lecturas de secuencias no mutadas.
Opcionalmente, la al menos una molécula de ácido nucleico molde diana comprende al menos un código de barras. Opcionalmente, la al menos una molécula de ácido nucleico molde diana comprende un código de barras en cada extremo. Por el término “ en cada extremo" se entiende que un código de barras está presente sustancialmente cerca de ambos extremos de la al menos una molécula de ácido nucleico molde diana, por ejemplo, dentro de 50 pares de bases, dentro de 25 pares de bases o dentro de 10 pares de bases del extremo de la al menos una molécula de ácido nucleico molde diana. Si la al menos una molécula de ácido nucleico molde diana comprende al menos un código de barras, entonces es más fácil para el usuario determinar si una supuesta ruta tiene extremos con apareamiento erróneo. Es decir, debido a que las secuencias de extremo son más distintivas, y es más fácil determinar si las secuencias de dos extremos que parecen tener apareamiento erróneo tienen realmente un apareamiento erróneo, o si se ha introducido un error de secuenciación en la secuencia de uno de los extremos.
Códigos de barras y etiquetas de muestra
Con los propósitos de la presente invención, un código de barras (también denominado “ etiqueta molecular única” o “ identificador molecular único” en el presente documento) es una secuencia de nucleótidos degenerada o generada al azar. Las moléculas de ácido nucleico molde diana pueden comprender 1, 2 o 3 códigos de barras. Según ciertas realizaciones, cada código de barras puede tener una secuencia diferente con respecto a cualquier otro código de barras que se genera. En otras realizaciones, sin embargo, dos o más secuencias de código de barras pueden ser las mismas, es decir, una secuencia de código de barras puede producirse más de una vez. Por ejemplo, al menos el 90 % de las secuencias de código de barras pueden ser diferentes a las secuencias de cualquier otra secuencia de código de barras. Simplemente se requiere que los códigos de barras estén degenerados adecuadamente de modo que cada molécula de ácido nucleico molde diana comprenda un código de barras de una secuencia única o sustancialmente única en comparación con otra molécula de ácido nucleico molde diana en el par de muestras. Marcar (o marcar con etiqueta) las moléculas de ácido nucleico molde diana con códigos de barra permite, por tanto, que las moléculas de ácido nucleico molde diana se diferencien entre sí, para facilitar de ese modo los métodos comentados en otra parte del presente documento. Por tanto, un código de barras puede considerarse como una etiqueta molecular única (UMT, por sus siglas en inglés). Los códigos de barras pueden tener 5, 6, 7, 8, entre 5 y 25, entre 6 y 20, o más nucleótidos de longitud.
Opcionalmente, tal como se comentó anteriormente, la al menos una molécula de ácido nucleico molde diana en pares diferentes de muestras puede marcarse con diferentes etiquetas de muestra.
Con los propósitos de la presente invención, una etiqueta de muestra es una etiqueta que se usa para marcar una porción sustancial de la al menos una molécula de ácido nucleico molde diana en una muestra. Diferentes etiquetas de muestra pueden usarse en muestras adicionales, para distinguir cuál de las muestras se derivó de al menos una molécula de ácido nucleico molde diana. La etiqueta de muestra es una secuencia de nucleótidos conocida. La etiqueta de muestra puede tener 5, 6, 7, 8, entre 5 y 25, entre 6 y 20 o más nucleótidos de longitud.
Opcionalmente, los métodos de la invención comprenden una etapa de introducir al menos un código de barras o una etiqueta de muestra en la al menos una molécula de ácido nucleico molde diana. El al menos un código de barras o una etiqueta de muestra puede introducirse mediante el uso de cualquier método adecuado incluyendo PCR, tagmentación y cizalladura física o digestión de restricción de ácidos nucleicos diana combinados con posterior ligamiento de adaptadores (opcionalmente ligamiento de extremos cohesivos). Por ejemplo, puede llevarse a cabo PCR en al menos una molécula de ácido nucleico molde diana mediante el uso de un primer conjunto de cebadores capaces de hibridarse al menos a una molécula de ácido nucleico diana. El al menos un código de barras o una etiqueta de muestra puede introducirse en cada una de la al menos una molécula de ácido nucleico molde diana mediante PCR mediante el uso de cebadores que comprenden una porción (una porción de extremo 5') que comprende un código de barras, una etiqueta de muestra y/o un adaptador, y una porción (una porción de extremo 3') que tiene una secuencia que es capaz de hibridarse a (opcionalmente complementaria a) al menos una molécula de ácido nucleico diana. Tales cebadores se hibridarán a al menos una molécula de ácido nucleico molde diana, la extensión de cebadores de PCR proporcionará entonces al menos una molécula de ácido molde diana que comprende un código de barras, y/o una etiqueta de muestra. Puede usarse un ciclo adicional de PCR con estos cebadores para añadir un código de barras o una etiqueta de muestra adicional, opcionalmente al otro extremo de la al menos una molécula de ácido nucleico molde diana. Los cebadores pueden ser degenerados, es decir, la porción del extremo 3' de los cebadores pueden ser similares pero no idénticas entre sí.
El al menos un código de barras o una etiqueta de muestra puede introducirse mediante el uso de tagmentación. El al menos el código de barras o una etiqueta de muestra puede introducirse mediante el uso de tagmentación directa, o mediante la introducción de una secuencia definida mediante tagmentación seguida por dos ciclos de PCR mediante el uso de cebadores que comprenden una porción capaz de hibridarse a la secuencia definida, y una porción que comprende un código de barras, una etiqueta de muestra y/o un adaptador. El al menos un código de barras o una etiqueta de muestra puede introducirse mediante digestión de restricción de la al menos una molécula de ácido nucleico molde original diana seguida por ligamiento de ácidos nucleicos que comprenden el código de barras y/o la etiqueta de muestra. La digestión de restricción de la al menos una molécula de ácido nucleico original debe realizarse de tal manera que la digestión dé como resultado una molécula de ácido nucleico que comprende la región que va a secuenciarse (la al menos una molécula de ácido nucleico molde diana). El al menos un código de barras o una etiqueta de muestra puede introducirse mediante cizalladura de la al menos una molécula de ácido nucleico molde diana, seguida por reparación de extremos, adición de cola A y luego ligamiento de ácidos nucleicos que comprenden el código de barras y/o la etiqueta de muestra.
Descartar las supuestas rutas que son resultado de la colisión de moldes
El método puede comprender descartar supuestas rutas que son resultado de la colisión de moldes. Tal como se describió anteriormente, el término “ colisión de moldes” se refiere a la situación en donde se identifican dos supuestas rutas a través del gráfico de ensamblaje que corresponden a una o más de las mismas lecturas de secuencias mutadas o de lecturas de secuencias mutadas que tienen los mismos patrones de mutaciones (las dos supuestas rutas han colisionado). Dado que cada ruta válida debe comprender un único conjunto de lecturas de secuencias mutadas, es probable que al menos una de las dos supuestas rutas que colisionaron sea falsa. Por estos motivos, descartar supuestas rutas que son resultado de la colisión de moldes puede reducir el número de rutas falsas que se identifican.
De manera similar, es posible que dos diferentes de al menos una molécula de ácido nucleico molde diana mutada puedan tener patrones de mutaciones similares o iguales ya que o bien no recibieron muchas mutaciones durante la etapa de introducir mutaciones en la al menos una molécula de ácido nucleico molde diana, o bien las mutaciones que recibieron fueron las mismas por casualidad. Si este es el caso, de nuevo se observará colisión de moldes. En tales circunstancias, es prácticamente imposible usar información obtenida mediante el análisis de estas al menos una molécula de ácido nucleico molde diana mutada deficientemente mutadas para ensamblar una secuencia para al menos una porción de al menos una molécula de ácido nucleico molde diana a partir de las lecturas de secuencias no mutadas, y deben descartarse las supuestas rutas que corresponden a nodos calculados a partir de lecturas de secuencias no mutadas que se originaron a partir de tal al menos una molécula de ácido nucleico molde diana mutada.
Descartar supuestas rutas que sean más largas o más cortas que las esperadas
La al menos una molécula de ácido nucleico molde diana puede tener una longitud conocida o predecible.
La longitud puede definirse mediante el análisis de la longitud de la al menos una molécula de ácido nucleico molde diana en un entorno de laboratorio. Por ejemplo, el usuario podría usar electroforesis en gel para aislar una muestra de al menos una molécula de ácido nucleico molde diana, y usar esa muestra en los métodos de la invención. En tales casos, la totalidad de la al menos una molécula de ácido nucleico molde diana cuya secuencia va a determinarse o generarse estará dentro de un rango de tamaño conocido. Por ejemplo, el usuario podría extraer una banda de un gel que se ha expuesto a electroforesis en gel correspondiente a una al menos una molécula nucleica molde diana de 6.000-14.000 o 18.000-12.000 pb de longitud. Alternativamente, o además, el tamaño de la al menos una molécula de ácido nucleico molde diana puede cuantificarse mediante el uso de una variedad de métodos para determinar el tamaño de una molécula de ácido nucleico, incluyendo electroforesis en gel. Por ejemplo, el usuario puede usar un instrumento tal como un equipo Bioanalzyer de Agilent o una máquina FemtoPulse.
Cuando el tamaño de la al menos una molécula de ácido nucleico molde diana es conocido o predecible, es probable que las supuestas rutas más largas y más cortas que la longitud definida sean incorrectas y deben descartarse.
Descartar supuestas rutas que tienen una profundidad de cobertura atípica
Los métodos de la invención pueden comprender una etapa de amplificar la al menos una molécula de ácido nucleico molde diana mutada, es decir, replicar la al menos una molécula de ácido nucleico diana mutada para proporcionar copias de la al menos una molécula de ácido nucleico molde diana mutada. Por ejemplo, el método puede comprender amplificar la al menos una molécula de ácido nucleico molde diana mutada mediante el uso de PCR. La amplificación es probable que dé como resultado en algunas de la al menos una molécula de ácido nucleico molde diana que se replican un número mayor de veces que otras. Si algunas de las al menos una molécula de ácido nucleico molde diana mutada se amplifican en mayor medida (tienen mayor profundidad de cobertura) que otras al menos una molécula de ácido nucleico molde diana mutada, entonces un mayor número de lecturas de secuencias mutadas se asociarán con la supuesta ruta que corresponde a aquellas al menos una molécula de ácido nucleico molde diana mutada en comparación con otras. De manera similar, se esperaría que la profundidad de cobertura fuera constante a lo largo de la longitud de la al menos una molécula de ácido nucleico molde. Por tanto, se esperaría que diferentes porciones de una ruta válida tuvieran números similares de lecturas de secuencias mutadas asociadas con ellas (profundidad de cobertura similar). Si una supuesta ruta comprende una porción que tiene baja profundidad de cobertura y una porción que tiene alta profundidad de cobertura, es probable que esas dos porciones no correspondan a la misma ruta válida, la supuesta ruta es falsa y debe descartarse.
Ensamblaje de una secuencia para al menos una porción de al menos una molécula de ácido nucleico molde diana
Se ensambla una secuencia para al menos una porción de al menos una molécula de ácido nucleico molde diana a partir de lecturas de secuencias no mutadas que forman parte de una ruta válida a través del gráfico de ensamblaje.
Opcionalmente, el método no comprende generar una secuencia consenso a partir de lecturas de secuencias mutadas. Opcionalmente, el método no comprende una etapa de ensamblar una secuencia de la al menos una molécula de ácido nucleico molde diana mutada, o una gran porción de la al menos una molécula de ácido nucleico molde diana mutada.
Una “ secuencia consenso" se refiere a una secuencia que comprende nucleótidos probables en cada posición definida mediante el análisis de un grupo de lecturas de secuencias que se alinean entre sí, por ejemplo, los nucleótidos que se producen con mayor frecuencia en cada posición en un grupo de lecturas de secuencias que se alinean entre sí.
Los métodos comprenden una etapa de ensamblar una secuencia para al menos una porción de al menos una molécula de ácido nucleico molde diana de nodos que forman una ruta válida a través del gráfico de ensamblaje. Opcionalmente, la etapa de ensamblar una secuencia para al menos una porción de al menos una molécula de ácido nucleico molde diana comprende ensamblar una secuencia para al menos una porción de al menos una molécula de ácido nucleico molde diana de nodos que forman parte de una ruta válida a través del gráfico de ensamblaje.
Opcionalmente, ensamblar una secuencia para al menos una porción de al menos una molécula de ácido nucleico molde diana comprende identificar “paredes de extremo” . Las paredes de extremo son ubicaciones en el gráfico de ensamblaje que corresponden a múltiples “ lecturas de extremo in t’. (las lecturas de extremo corresponden a uno de los extremos de al menos una molécula de ácido nucleico molde diana y las lecturas int. corresponden a una secuencia interna (es decir, una secuencia que no está en el extremo de la al menos una molécula de ácido nucleico molde diana)). Las lecturas de extremo pueden generarse mediante el uso de, por ejemplo, métodos de secuenciación de ambos extremos. Opcionalmente, se identifica una pared de extremo como una ubicación en el gráfico de ensamblaje en la cual se mapean al menos 5 lecturas de extremo. Opcionalmente, se identifica una pared de extremo como una ubicación en el gráfico de ensamblaje en la cual se mapean entre 2 y 4 lecturas de extremo y en la cual se mapean al menos 5 lecturas de extremo o int. Opcionalmente, ensamblar una secuencia para al menos una porción de al menos una molécula de ácido nucleico molde diana comprende ensamblar una secuencia para al menos una porción de al menos una molécula de ácido nucleico molde diana a partir de nodos que forman parte de una ruta válida a través del gráfico de ensamblaje, y la etapa de ensamblaje comienza en una pared de extremo.
Tal como se describió anteriormente, las rutas válidas a través del gráfico de ensamblaje pueden comprender nodos unidos. Cuando una serie de nodos unidos forma una única trayectoria a través del gráfico de ensamblaje (por ejemplo, en donde los nodos de dicho gráfico pueden ser unitigos), que consisten en uno o más nodos, la secuencia cubierta por los nodos unidos representa al menos una porción de al menos una molécula de ácido nucleico molde diana. Estas porciones pueden ensamblarse después mediante la concatenación de los nodos mediante el uso de técnicas convencionales tales como canu (https://github.com/marbl/canu) o miniasm (https://github.com/lh3/miniasm). Por ejemplo, el usuario puede preparar una secuencia consenso a partir del nodo que forma una ruta válida.
Opcionalmente, la secuencia ensamblada comprende nodos calculados a partir de lecturas de secuencias predominantemente no mutadas. Una secuencia ensamblada comprenderá nodos calculados a partir de lecturas de secuencias predominantemente no mutadas, si la secuencia se ensambló a partir de nodos calculados a partir de más del 50 % de lecturas de secuencias no mutadas. Es ventajoso ensamblar la secuencia a partir de nodos calculados a partir de lecturas de secuencias predominantemente no mutadas, ya que es más probable que la secuencia ensamblada corresponda exactamente a la secuencia original de al menos una molécula de ácido nucleico molde diana. Sin embargo, si no es posible mapear lecturas de secuencias no mutadas en una porción de una supuesta ruta a través del gráfico de ensamblaje, la secuencia de la porción faltante podría ensamblarse a partir de nodos calculados a partir de lecturas de secuencias mutadas. Preferiblemente, la secuencia ensamblada comprende nodos calculados a partir de más del 50 %, más del 60 %, más del 70 %, más del 80 %, más del 90 %, más del 98 %, entre el 50 % y el 100 %, entre el 60 % y el 100 %, entre el 70 % y el 100 % o entre el 80 % y el 100 % de lecturas de secuencias no mutadas.
Amplificar al menos una molécula de ácido nucleico molde diana
Los métodos pueden comprender una etapa de amplificar la al menos una molécula de ácido nucleico molde diana en la primera del par de muestras antes de la etapa de secuenciar regiones de la al menos una molécula de ácido nucleico molde diana. Los métodos pueden comprender una etapa de amplificar la al menos una molécula de ácido nucleico molde diana en la segunda del par de muestras antes de la etapa de secuenciar regiones de la al menos una molécula de ácido nucleico molde diana mutada.
Se conocen en la técnica métodos adecuados para amplificar la al menos una molécula de ácido nucleico molde diana. Por ejemplo, la PCR se usa habitualmente. La PCR se describió con mayor detalle anteriormente bajo el título “ introducir mutaciones en la al menos una molécula de ácido nucleico molde diana” .
Fragmentar la al menos una molécula de ácido nucleico molde diana
Los métodos pueden comprender una etapa de fragmentar la al menos una molécula de ácido nucleico molde diana en una primera del par de muestras antes de la etapa de secuenciar regiones de la al menos una molécula de ácido nucleico molde diana. Opcionalmente, los métodos comprenden una etapa de fragmentar la al menos una molécula de ácido nucleico molde diana en una segunda del par de muestras antes de la etapa de secuenciar regiones de la al menos una molécula de ácido nucleico molde diana mutada.
La al menos una molécula de ácido nucleico molde diana puede fragmentarse mediante el uso de cualquier técnica adecuada. Por ejemplo, la fragmentación puede llevarse a cabo mediante el uso de digestión de restricción o mediante el uso de PCR con cebadores complementarios a al menos una región interna de la al menos una molécula de ácido nucleico diana mutada. Preferiblemente, la fragmentación se lleva a cabo mediante el uso de una técnica que produce fragmentos arbitrarios. El término “ fragmento arbitrario’’ se refiere a un fragmento generado al azar, por ejemplo, un fragmento generado mediante tagmentación. Los fragmentos generados mediante el uso de enzimas de restricción no son “ arbitrarios” ya que la digestión de restricción se produce en secuencias de ADN específicas definidas por la enzima de restricción que se usa. Incluso más preferiblemente, la fragmentación se lleva a cabo mediante tagmentación. Si la fragmentación se lleva a cabo mediante tagmentación, la reacción de tagmentación introduce opcionalmente una región adaptadora en la al menos una molécula de ácido nucleico diana mutada. Esta región adaptadora es una secuencia corta de ADN que puede codificar, por ejemplo, para adaptadores para permitir que la al menos única molécula de ácido nucleico diana mutada se secuencie mediante el uso de la tecnología Illumina.
ADN-polimerasa de bajo sesgo
Tal como se describió anteriormente, pueden introducirse mutaciones mediante el uso de una ADN polimerasa de bajo sesgo. Una ADN polimerasa de bajo sesgo puede introducir mutaciones de manera uniforme al azar, y esto puede ser beneficioso en los métodos de la invención ya que, si las mutaciones se introducen de una manera uniforme al azar, entonces la probabilidad de que cualquier porción dada de una molécula de ácido nucleico molde tenga un patrón de mutaciones único es mayor. Tal como se expuso anteriormente, los patrones de mutaciones únicos pueden ser útiles para identificar rutas válidas a través del gráfico de ensamblaje.
Además, pueden limitarse los métodos que usan ADN polimerasas que tienen un alto sesgo de amplificación de molde. Las ADN polimerasas que tienen un alto sesgo de amplificación de molde replicarán y/o mutarán algunas moléculas de ácido nucleico molde diana mejor que otras y, por tanto, un método de secuenciación que usa una ADN polimerasa de alto sesgo puede no ser capaz de secuenciar bien algunas moléculas de ácido nucleico molde diana.
La ADN polimerasa de bajo sesgo puede tener un bajo sesgo de amplificación de molde y/o un bajo sesgo de mutación.
Bajo sesgo de mutación
Una ADN polimerasa de bajo sesgo que presenta bajo sesgo de mutación es una ADN polimerasa capaz de mutar adenina y timina, adenina y guanina, adenina y citosina, timina y guanina, timina y citosina, o guanina y citosina a tasas similares. En una realización, la ADN polimerasa de bajo sesgo es capaz de mutar adenina, timina, guanina y citosina a tasas similares.
Opcionalmente, la ADN polimerasa de bajo sesgo es capaz de mutar adenina y timina, adenina y guanina, adenina y citosina, timina y guanina, timina y citosina, o guanina y citosina a una razón de tasa de 0,5-1,5:0,5-1,5, 0,6-1,4:0,6-1,4, 0,7-1,3:0,7-1,3, 0,8-1,2:0,8-1,2, o aproximadamente 1:1 respectivamente. Preferiblemente, la a Dn polimerasa de bajo sesgo es capaz de mutar guanina y adenina a una razón de tasa de 0,5-1,5:0,5-1,5, 0,6-1,4:0,6-1,4, 0,7-1,3:0,7-1,3, 0,8-1,2:0,8-1,2, o aproximadamente 1:1, respectivamente. Preferiblemente, la a Dn polimerasa de bajo sesgo es capaz de mutar timina y citosina a una razón de tasa de 0,5-1,5:0,5-1,5, 0,6-1,4:0,6-1,4, 0,7-1,3:0,7-1,3, 0,8-1,2:0,8-1,2, o aproximadamente 1:1 respectivamente.
En tales realizaciones, en una etapa de introducir mutaciones en la pluralidad de moléculas de ácido nucleico molde diana, la ADN polimerasa de bajo sesgo muta adenina y timina, adenina y guanina, adenina y citosina, timina y guanina, nucleótidos de timina y citosina, o guanina y citosina en la al menos una molécula de ácido nucleico molde diana a una razón de tasa de 0,5-1,5:0,5-1,5, 0,6-1,4:0,6-1,4, 0,7-1,3:0,7-1,3, 0,8-1,2:0,8-1,2, o aproximadamente 1:1 respectivamente. Preferiblemente, la ADN polimerasa de bajo sesgo muta nucleótidos de guanina y adenina en la al menos una molécula de ácido nucleico molde diana a una razón de tasa de 0,5-1,5:0,5-1,5, 0,6-1,4:0,6-1,4, 0,7-1,3:0,7-1,3, 0,8-1,2:0,8-1,2, o aproximadamente 1:1 respectivamente. Preferiblemente, la ADN polimerasa de bajo sesgo muta nucleótidos de timina y citosina en la al menos una molécula de ácido nucleico molde diana a una razón de tasa de 0,5-1,5:0,5-1,5, 0,6-1,4:0,6-1,4, 0,7-1,3:0,7-1,3, 0,8-1,2:0,8-1,2, o aproximadamente 1:1 respectivamente.
Opcionalmente, la ADN polimerasa de bajo sesgo es capaz de mutar adenina, timina, guanina y citosina a una razón de tasa de 0,5-1,5:0,5-1,5:0,5-1,5:0,5-1,5, 0,6-1,4:0,6-1,4:0,6-1,4:0,6-1,4, 0,7-1,3:0,7-1,3:0,7-1,3:0,7-1,3, 0,8-1,2:0,8-1,2:0,8-1,2:0,8-1,2, o aproximadamente 1:1:1:1, respectivamente. Preferiblemente, la ADN polimerasa de bajo sesgo es capaz de mutar adenina, timina, guanina y citosina a una razón de tasa de 0,7-1,3:0,7-1,3:0,7-1,3:0,7-1,3.
En tales realizaciones, en una etapa de introducir mutaciones en la al menos una molécula de ácido nucleico molde diana en una segunda del par de muestras, la ADN polimerasa de bajo sesgo puede mutar nucleótidos de adenina, timina, guanina y citosina en la al menos una molécula de ácido nucleico molde diana a una razón de tasa de 0,5-1,5:0,5-1,5:0,5-1,5:0,5-1,5, 0,6-1,4:0,6-1,4:0,6-1,4:0,6-1,4, 0,7-1,3:0,7-1,3:0,7-1,3:0,7-1,3, 0,8-1,2:0,8-1,2:0,8-1,2:0,8-1,2, o aproximadamente 1:1:1:1, respectivamente. Preferiblemente, la ADN polimerasa de bajo sesgo muta nucleótidos de adenina, timina, guanina y citosina en la al menos una molécula de ácido nucleico molde diana a una razón de tasa de 0,7-1,3:0,7-1,3:0,7-1,3:0,7-1,3.
La adenina, timina, citosina y/o guanina pueden sustituirse por otro nucleótido. Por ejemplo, si la ADN polimerasa de bajo sesgo es capaz de mutar adenina, la mutagénesis enzimática mediante el uso de la ADN polimerasa de bajo sesgo puede sustituir al menos un nucleótido de adenina en la molécula de ácido nucleico por timina, guanina o citosina. De manera similar, si la ADN polimerasa de bajo sesgo es capaz de mutar timina, la mutagénesis enzimática mediante el uso de la ADN polimerasa de bajo sesgo puede sustituir al menos un nucleótido de timina por adenina, guanina o citosina. Si la a Dn polimerasa de bajo sesgo es capaz de mutar guanina, la mutagénesis enzimática mediante el uso de la ADN polimerasa de bajo sesgo puede sustituir al menos un nucleótido de adenina por timina, guanina o citosina. Si la ADN polimerasa de bajo sesgo es capaz de mutar citosina, la mutagénesis enzimática mediante el uso de la ADN polimerasa de bajo sesgo puede sustituir al menos un nucleótido de citosina por timina, guanina o adenina.
La ADN polimerasa de bajo sesgo puede no ser capaz de sustituir un nucleótido directamente, pero todavía puede ser capaz de mutar ese nucleótido al reemplazar el nucleótido correspondiente en la hebra complementaria. Por ejemplo, si la molécula de ácido nucleico molde diana comprende timina, habrá un nucleótido de adenina presente en la posición correspondiente de la al menos una molécula de ácido nucleico que es complementaria a la al menos una molécula de ácido nucleico molde diana. La ADN polimerasa de bajo sesgo puede ser capaz de reemplazar el nucleótido de adenina de la al menos una molécula de ácido nucleico que es complementaria a la al menos una molécula de ácido nucleico molde diana con una guanina y así, cuando se replica la al menos una molécula de ácido nucleico que es complementaria a la al menos una molécula de ácido nucleico molde diana, esto dará como resultado que una citosina esté presente en la correspondiente al menos una molécula de ácido nucleico molde diana replicada en donde existía originalmente una timina (una sustitución de timina a citosina).
En una realización, la ADN polimerasa de bajo sesgo muta entre el 1 % y el 15 %, entre el 2 % y el 10 %, o aproximadamente el 8 % de los nucleótidos en el al menos un ácido nucleico molde diana. En tales realizaciones, la mutagénesis enzimática que usa la ADN polimerasa de bajo sesgo se lleva a cabo de tal manera que se mutan entre el 1 % y el 15 %, entre el 2 % y el 10 %, o aproximadamente el 8 % de los nucleótidos en el al menos un ácido nucleico molde diana. Por ejemplo, si el usuario desea mutar aproximadamente el 8 % de los nucleótidos en la molécula de ácido nucleico molde diana, y la ADN polimerasa de bajo sesgo muta aproximadamente el 1 % de los nucleótidos por tanda de replicación, la etapa de introducir mutaciones en la pluralidad de moléculas de ácido nucleico molde diana mediante mutagénesis enzimática puede comprender 8 tandas de replicación en presencia de una ADN polimerasa de bajo sesgo.
En una realización, la ADN polimerasa de bajo sesgo es capaz de mutar entre el 0 % y el 3 %, entre el 0 % y el 2 %, entre el 0,1 % y el 5 %, entre el 0,2 % y el 3 %, o aproximadamente el 1,5 % de los nucleótidos en la al menos una molécula de ácido nucleico molde diana por tanda de replicación. En una realización, la ADN polimerasa de bajo sesgo muta entre el 0 % y el 3 %, entre el 0 % y el 2 %, entre el 0,1 % y el 5 %, entre el 0,2 % y el 3 %, o aproximadamente el 1,5 % de los nucleótidos en la al menos una molécula de ácido nucleico molde diana por tanda de replicación. La cantidad real de mutación que tiene lugar cada tanda puede variar, pero puede promediar entre el 0 % y el 3 %, entre el 0 % y el 2 %, entre el 0,1 % y el 5 %, entre el 0,2 % y el 3 %, o aproximadamente el 1,5 %.
Si una ADN polimerasa es capaz de mutar un nucleótido y, si es así, a qué tasa
Puede determinarse si la ADN polimerasa de bajo sesgo es capaz de mutar un cierto porcentaje de los nucleótidos en la al menos una molécula de ácido nucleico molde diana por tanda de replicación mediante la amplificación de una molécula de ácido nucleico de secuencia conocida en presencia de la ADN polimerasa de bajo sesgo para un número fijado de tandas de replicación. Luego, la molécula de ácido nucleico amplificada resultante puede secuenciarse, y se calcula el porcentaje de nucleótidos que se mutan por tanda de replicación. Por ejemplo, la molécula de ácido nucleico de la secuencia conocida puede amplificarse mediante el uso de 10 tandas de PCR en presencia de la ADN polimerasa de bajo sesgo. Entonces la molécula de ácido nucleico resultante puede secuenciarse. Si la molécula de ácido nucleico resultante comprende el 10 % de nucleótidos que son diferentes en los nucleótidos correspondientes en la secuencia original conocida, entonces el usuario comprendería que la ADN polimerasa de bajo sesgo es capaz de mutar el 1 % de los nucleótidos en la al menos una molécula de ácido nucleico molde diana en promedio por tanda de replicación. De manera similar, para ver si la ADN polimerasa de bajo sesgo muta un cierto porcentaje de los nucleótidos en la al menos una molécula de ácido nucleico molde diana en un método dado, el usuario podría llevar a cabo el método en una molécula de ácido nucleico de secuencia conocida y usar secuenciación para determinar el porcentaje de nucleótidos que se mutan una vez que se completa el método.
La ADN polimerasa de bajo sesgo es capaz de mutar un nucleótido tal como adenina, si, cuando se usa para amplificar una molécula de ácido nucleico, proporciona una molécula de ácido nucleico en la cual algunas instancias de ese nucleótido se sustituyen o delecionan. Preferiblemente, el término “ m utar’ se refiere a la introducción de mutaciones de sustitución y, en algunas realizaciones, el término “ m utar’ puede reemplazarse por “ introduce sustituciones de” .
La ADN polimerasa de bajo sesgo muta un nucleótido tal como adenina en al menos una molécula de ácido nucleico molde diana si, cuando se lleva a cabo una etapa de introducir mutaciones en la pluralidad de moléculas de ácido nucleico molde diana mediante el uso de una ADN polimerasa de bajo sesgo, esta etapa da como resultado una mutación de al menos una molécula de ácido nucleico molde diana en la cual se mutan algunas instancias de ese nucleótido. Por ejemplo, si la ADN polimerasa de bajo sesgo muta adenina en la al menos una molécula de ácido nucleico molde diana, cuando se lleva a cabo una etapa de introducir mutaciones en la pluralidad de moléculas de ácido nucleico molde diana mediante el uso de una ADN polimerasa de bajo sesgo, esta etapa da como resultado una al menos una molécula de ácido nucleico molde diana mutada en la cual al menos una adenina se ha sustituido o delecionado.
Para determinar si una ADN polimerasa es capaz de introducir ciertas mutaciones, el experto simplemente necesita someter a prueba la ADN polimerasa mediante el uso de una molécula de ácido nucleico de secuencia conocida. Una molécula de ácido nucleico adecuada de secuencia conocida es un fragmento de un genoma bacteriano de secuencia conocida, tal como MG1655 de E. coli. El experto en la técnica podría amplificar la molécula de ácido nucleico de secuencia conocida mediante el uso de PCR en presencia de la ADN polimerasa de bajo sesgo. Luego, el experto podría secuenciar la molécula de ácido nucleico amplificada y determinar si su secuencia es la misma que la secuencia original conocida. De lo contrario, el experto podría determinar la naturaleza de las mutaciones. Por ejemplo, si el experto desea determinar si una ADN polimerasa es capaz de mutar adenina mediante el uso de un análogo de nucleótido, el experto podría amplificar la molécula de ácido nucleico de secuencia conocida mediante el uso de PCR en presencia del análogo de nucleótido y secuenciar la molécula de ácido nucleico amplificado resultante. Si el ADN amplificado tiene mutaciones en posiciones que corresponden a nucleótidos de adenina en la secuencia conocida, entonces el experto en la técnica sabrá que la ADN polimerasa podrá mutar adenina mediante el uso de un análogo de nucleótido.
Las razones de tasa pueden calcularse de manera similar. Por ejemplo, si el experto desea determinar la razón de tasa a la que se mutan los nucleótidos de guanina y citosina, el experto podría amplificar una molécula de ácido nucleico que tiene una secuencia conocida mediante el uso de PCR en presencia de la ADN polimerasa de bajo sesgo. El experto podría secuenciar entonces la molécula de ácido nucleico amplificada resultante e identificar cuántos de los nucleótidos de guanina se han sustituido o delecionado y cuántos de los nucleótidos de citosina se han sustituido o delecionado. La razón de tasa es la razón del número de nucleótidos de guanina que se han sustituido o delecionado con respecto al número de nucleótidos de citosina que se han sustituido o delecionado. Por ejemplo, si 16 nucleótidos de guanina se han reemplazado o delecionado y 8 nucleótidos de citosina se han reemplazado o delecionado, los nucleótidos de guanina y citosina se han mutado en una razón de tasa de 16:8 o 2:1, respectivamente.
Uso de análogos de nucleótido
La ADN polimerasa de bajo sesgo puede no ser capaz de reemplazar nucleótidos por otros nucleótidos directamente (al menos no con alta frecuencia), pero la ADN polimerasa de bajo sesgo puede todavía ser capaz de mutar una molécula de ácido nucleico mediante el uso de un análogo de nucleótido. La ADN polimerasa de bajo sesgo puede ser capaz de reemplazar nucleótidos por otros nucleótidos naturales (es decir, citosina, guanina, adenina o timina) o por análogos de nucleótido.
Por ejemplo, la ADN polimerasa de bajo sesgo puede ser una ADN polimerasa de alta fidelidad. Las ADN polimerasas de alta fidelidad tienden a introducir muy pocas mutaciones, generalmente, ya que son muy exactas. Sin embargo, los presentes inventores han descubierto que algunas ADN polimerasas de alta fidelidad todavía pueden ser capaces de mutar una molécula de ácido nucleico molde diana, ya que pueden ser capaces de introducir análogos de nucleótido en una molécula de ácido nucleico molde diana.
En una realización, en ausencia de análogos de nucleótido, la ADN polimerasa de alta fidelidad introduce menos del 0,01 %, menos del 0,0015 %, menos del 0,001 %, entre el 0 % y el 0,0015 % o entre el 0 % y el 0,001 % de mutaciones por tanda de replicación.
En una realización, la ADN polimerasa de bajo sesgo es capaz de incorporar análogos de nucleótido en la al menos una molécula de ácido nucleico molde diana. En una realización, la ADN polimerasa de bajo sesgo incorpora análogos de nucleótido en la al menos una molécula de ácido nucleico molde diana. En una realización, la ADN polimerasa de bajo sesgo puede mutar adenina, timina, guanina y/o citosina mediante el uso de un análogo de nucleótido. En una realización, la ADN polimerasa de bajo sesgo muta adenina, timina, guanina y/o citosina en la al menos una molécula de ácido nucleico molde diana mediante el uso de un análogo de nucleótido. En una realización, la ADN polimerasa reemplaza guanina, citosina, adenina y/o timina por un análogo de nucleótido. En una realización, la ADN polimerasa puede reemplazar guanina, citosina, adenina y/o timina por un análogo de nucleótido.
La incorporación de análogos de nucleótido en la al menos una molécula de ácido nucleico molde diana puede usarse para mutar nucleótidos, ya que pueden incorporarse en lugar de nucleótidos existentes y pueden aparearse con nucleótidos en la hebra opuesta. Por ejemplo, puede incorporarse dPTP en una molécula de ácido nucleico en lugar de un nucleótido de pirimidina (puede reemplazar la timina o citosina). Una vez en una hebra de ácido nucleico, puede aparearse con adenina cuando está en una forma tautomérica imino. Por tanto, cuando se forma una hebra complementaria, esa hebra complementaria puede tener una adenina presente en una posición complementaria al dPTP. De manera similar, una vez en una hebra de ácido nucleico, puede aparearse con guanina cuando está en una forma tautomérica amino. Por tanto, cuando se forma una hebra complementaria, esa hebra complementaria puede tener una guanina presente en una posición complementaria al dPTP.
Por ejemplo, si se introduce un dPTP en la al menos una molécula de ácido nucleico molde diana de la invención, cuando se forma una al menos una molécula de ácido nucleico complementaria a la al menos una molécula de ácido nucleico molde diana, la al menos una molécula de ácido nucleico complementaria a la al menos una molécula de ácido nucleico molde diana comprenderá una adenina o una guanina en una posición complementaria al dPTP en la al menos una molécula de ácido nucleico molde diana (dependiendo de si el dPTP está en su forma amino o imino). Cuando se replica la al menos una molécula de ácido nucleico complementaria a la al menos una molécula de ácido nucleico molde diana, la réplica resultante de la al menos una molécula de ácido nucleico molde diana comprenderá una timina o una citosina en una posición correspondiente al dPTP en la al menos una molécula de ácido nucleico molde diana. Por tanto, puede introducirse una mutación a timina o citosina en la al menos una molécula de ácido nucleico molde diana mutada.
Alternativamente, si se introduce un dPTP en al menos una molécula de ácido nucleico complementaria a la al menos una molécula de ácido nucleico molde diana, cuando se forma una réplica de la al menos una molécula de ácido nucleico molde diana, la réplica de la al menos una molécula de ácido nucleico molde diana comprenderá una adenina o una guanina en una posición complementaria al dPTP en la al menos una molécula de ácido nucleico complementaria a la al menos una molécula de ácido nucleico molde diana (dependiendo de la forma tautomérica del dPTP). Por tanto, puede introducirse una mutación a adenina o guanina en la al menos una molécula de ácido nucleico molde diana mutada.
En una realización, la ADN polimerasa de bajo sesgo puede reemplazar citosina o timina por un análogo de nucleótido. En una realización adicional, la ADN polimerasa de bajo sesgo introduce nucleótidos de guanina o adenina mediante el uso de un análogo de nucleótido a una razón de tasa de 0,5-1,5:0,5-1,5, 0,6-1,4:0,6-1,4, 0,7-1,3:0,7-1,3, 0,8-1,2:0,8-1,2, o aproximadamente 1:1, respectivamente. Los nucleótidos de guanina o adenina pueden introducirse por la ADN polimerasa de bajo sesgo que los aparea opuestos a un análogo de nucleótido tal como dPTP. En otra realización, la ADN polimerasa de bajo sesgo introduce nucleótidos de guanina o adenina mediante el uso de un análogo de nucleótido en una razón de tasa de 0,7-1,3:0,7-1,3, respectivamente.
El experto puede determinar, mediante el uso de métodos convencionales, si la ADN polimerasa de bajo sesgo es capaz de incorporar análogos de nucleótido en la al menos una molécula de ácido nucleico molde diana o mutar adenina, timina, guanina y/o citosina en la al menos una molécula de ácido nucleico molde diana mediante el uso de un análogo de nucleótido mediante el uso de métodos convencionales.
Por ejemplo, para determinar si la ADN polimerasa de bajo sesgo es capaz de incorporar análogos de nucleótido en la al menos una molécula de ácido nucleico molde diana, el experto en la técnica podría amplificar una molécula de ácido nucleico mediante el uso de una ADN polimerasa de bajo sesgo para dos tandas de replicación. La primera tanda de replicación debe realizarse en presencia del análogo de nucleótido, y la segunda tanda de replicación debe realizarse en ausencia del análogo de nucleótido. Las moléculas de ácido nucleico amplificadas resultantes pueden secuenciarse para ver si se han introducido mutaciones, y de ser así, cuántas mutaciones. El usuario debe repetir el experimento sin el análogo de nucleótido y comparar el número de mutaciones introducidas con y sin el análogo de nucleótido. Si el número de mutaciones que se han introducido con el análogo de nucleótido es significativamente mayor que el número de mutaciones que se han introducido sin el análogo de nucleótido, el usuario puede concluir que la ADN polimerasa de bajo sesgo es capaz de incorporar análogos de nucleótido. De manera similar, el experto en la técnica puede determinar si una ADN polimerasa incorpora análogos de nucleótido o muta adenina, timina, guanina y/o citosina usando un análogo de nucleótido. El experto simplemente necesita realizar el método en presencia de análogos de nucleótido, y ver si el método conduce a mutaciones en las posiciones ocupadas originalmente por adenina, timina, guanina y/o citosina. Si el usuario desea mutar la al menos una molécula de ácido nucleico molde diana mediante el uso de un análogo de nucleótido, el método puede comprender una etapa de amplificar la al menos una molécula de ácido nucleico molde diana mediante el uso de una ADN polimerasa de bajo sesgo, donde la etapa de amplificar la al menos una molécula de ácido nucleico molde diana mediante el uso de una ADN polimerasa de bajo sesgo se lleva a cabo en presencia del análogo de nucleótido, y la etapa de amplificar la al menos una molécula de ácido nucleico molde diana proporciona al menos una molécula de ácido nucleico molde diana que comprende el análogo de nucleótido.
Los análogos de nucleótido adecuados incluyen dPTP (2'desoxi-P-nucleósido-5'-trifosfato), 8-oxo-dGTP (7,8-dihidro-8-oxoguanina), 5Br-dUTP (5-bromo-2’-desoxi-uridina-5'-trifosfato), 20H-dATP (2-hid roxi-2'-desoxiadenosina-5'-trifosfato), dKTP (9-(2-desoxi-p-D-ribofuranosil)-N6-metoxi-2,6,-diaminopurina-5'-trifosfato) y dITP (2'-desoxinosina-5'-trifosfato). El análogo de nucleótido puede ser dPTP. Los análogos de nucleótido pueden usarse para introducir las mutaciones por sustitución descritas en la tabla 1.
Tabla 1
Figure imgf000038_0001
Los diferentes análogos de nucleótido pueden usarse, solos o en combinación, para introducir diferentes mutaciones en la al menos una molécula de ácido nucleico molde diana. Por consiguiente, la ADN polimerasa de bajo sesgo puede introducir mutaciones por sustitución de guanina a adenina, mutaciones por sustitución de citosina a timina, mutaciones por sustitución de adenina a guanina y mutaciones por sustitución de timina a citosina mediante el uso de un análogo de nucleótido. La ADN polimerasa de bajo sesgo puede ser capaz de introducir mutaciones por sustitución de guanina a adenina, mutaciones por sustitución de citosina a timina, mutaciones por sustitución de adenina a guanina y mutaciones por sustitución de timina a citosina, opcionalmente, mediante el uso de un análogo de nucleótido.
La ADN polimerasa de bajo sesgo puede ser capaz de introducir mutaciones por sustitución de guanina a adenina, mutaciones por sustitución de citosina a timina, mutaciones por sustitución de adenina a guanina, y mutaciones por sustitución de timina a citosina en una razón de tasa de 0,5-1,5:0,5-1,5:0,5-1,5:0,5-1,5, 0,6-1,4:0,6-1,4:0,6-1,4:0,6-1,4, 0,7-1,3:0,7-1,3:0,7-1,3:0,7-1,3, 0,8-1,2:0,8-1,2:0,8-1,2:0,8-1,2, o aproximadamente 1:1:1:1, respectivamente. Preferiblemente, la ADN polimerasa de bajo sesgo es capaz de introducir mutaciones por sustitución de guanina a adenina, mutaciones por sustitución de citosina a timina, mutaciones por sustitución de adenina a guanina y mutaciones por sustitución de timina a citosina a una razón de tasa de 0,7-1,3:0,7-1,3:0,7-1,3:0,7-1,3, respectivamente. Los métodos adecuados para determinar si la ADN polimerasa de bajo sesgo es capaz de introducir mutaciones por sustitución y a qué razón de tasa se describen bajo el título “si una ADN polimerasa es capaz de mutar un nucleótido y, de ser así, a qué tasa".
En algunos métodos, la ADN polimerasa de bajo sesgo introduce mutaciones por sustitución de guanina a adenina, mutaciones por sustitución de citosina a timina, mutaciones por sustitución de adenina a guanina, mutaciones por sustitución de adenina a guanina y mutaciones por sustitución de timina a citosina en una razón de tasa de 0,5-1,5:0,5-1,5:0,5-1,5:0,5-1,5, 0,6-1,4:0,6-1,4:0,6-1,4:0,6-1,4, 0,7-1,3:0,7-1,3:0,7-1,3:0,7-1,3, 0,8-1,2:0,8-1,2:0,8-1,2:0,8-1,2, o aproximadamente 1:1:1:1, respectivamente. Preferiblemente, la ADN polimerasa de bajo sesgo introduce mutaciones por sustitución de guanina a adenina, mutaciones por sustitución de citosina a timina, mutaciones por sustitución de adenina a guanina y mutaciones por sustitución de timina a citosina en una razón de tasa de 0,7-1,3:0,7-1,3:0,7-1,3:0,7-1,3, respectivamente. Los métodos adecuados para determinar si se introducen mutaciones por sustitución y a qué razón de tasa se describen bajo el título “ si una ADN polimerasa es capaz de mutar un nucleótido y, si es así, a qué tasa".
Generalmente, cuando una ADN polimerasa de bajo sesgo usa un análogo de nucleótido para introducir una mutación, esto requiere más de una tanda de replicación. En la primera tanda de replicación la ADN polimerasa de bajo sesgo introduce el análogo de nucleótido en lugar de un nucleótido, y en una segunda tanda de replicación, ese análogo de nucleótido se aparea con un nucleótido natural para introducir una mutación por sustitución en la hebra complementaria. La segunda tanda de replicación puede llevarse a cabo en presencia del análogo de nucleótido. Sin embargo, el método puede comprender además una etapa de amplificar la al menos una molécula de ácido nucleico de molde diana en una segunda del par de muestras que comprenden análogos de nucleótido en ausencia de análogos de nucleótido. La etapa de amplificar al menos una molécula de ácido nucleico molde diana que comprende análogos de nucleótido en ausencia de análogos de nucleótido puede llevarse a cabo mediante el uso de la ADN polimerasa de bajo sesgo.
Bajo sesgo de amplificación de molde
La ADN polimerasa de bajo sesgo puede tener un bajo sesgo de amplificación de molde. Una ADN polimerasa de bajo sesgo tiene bajo sesgo de amplificación de molde, si es capaz de amplificar diferentes moléculas de ácido nucleico molde diana con grados similares de éxito por ciclo. Las ADN polimerasas de alto sesgo pueden esforzarse por amplificar las moléculas de ácido nucleico molde que comprenden un alto contenido de G:C o contienen un alto grado de estructura secundaria. En una realización, la ADN polimerasa de bajo sesgo tiene bajo sesgo de amplificación de molde para moléculas de ácido nucleico molde que tienen menos de 25.000, menos de 10.000, entre 1 y 15.000 o entre 1 y 10.000 nucleótidos de longitud.
En una realización, para determinar si una ADN polimerasa tiene un bajo sesgo de amplificación de molde, el experto en la técnica podría amplificar un rango de secuencias diferentes mediante el uso de la ADN polimerasa, y ver si las secuencias diferentes se amplifican a niveles diferentes mediante la secuenciación del ADN amplificado resultante. Por ejemplo, el experto podría seleccionar un rango de moléculas de ácido nucleico cortas (posiblemente de 50 nucleótidos) que tienen diferentes características, incluyendo una molécula de ácido nucleico que tiene alto contenido de GC, una molécula de ácido nucleico que tiene bajo contenido de GC, una molécula de ácido nucleico que tiene un alto grado de estructura secundaria y una molécula de ácido nucleico que tiene un bajo grado de segunda estructura. Luego, el usuario podría amplificar esas secuencias mediante el uso de la ADN polimerasa y cuantificar el nivel al cual se amplifica cada una de las moléculas de ácido nucleico. En una realización, si los niveles están dentro del 25 %, el 20 %, el 10 % o el 5 % unos de otros, entonces la ADN polimerasa tiene un bajo sesgo de amplificación de molde.
Alternativamente, en una realización, una ADN polimerasa tiene un bajo sesgo de amplificación de molde si es capaz de amplificar fragmentos de 7-10 kbp con una D de Kolmolgorov-Smirnov menor de 0,1, menor de 0,09 o menor de 0,08. La D de Kolmolgorov-Smirnov con la cual una ADN polimerasa de bajo sesgo particular es capaz de amplificar fragmentos de 7-10 kbp puede determinarse mediante el uso de un ensayo proporcionado en el ejemplo 4.
La ADN polimerasa de bajo sesgo puede ser una ADN polimerasa de alta fidelidad. Una ADN polimerasa de alta fidelidad es una ADN polimerasa que no es altamente propensa a errores y, así, no introduce generalmente un gran número de mutaciones cuando se usa para amplificar una molécula de ácido nucleico molde diana en ausencia de análogos de nucleótido. Las ADN polimerasas de alta fidelidad no se usan generalmente en los métodos para introducir mutaciones, ya que se considera generalmente que las ADN polimerasas propensas a errores son más eficaces. Sin embargo, la presente solicitud demuestra que ciertas polimerasas de alta fidelidad son capaces de introducir mutaciones mediante el uso de un análogo de nucleótido, y que esas mutaciones pueden introducirse con menor sesgo en comparación con las ADN polimerasas propensas a errores tales como la polimerasa Taq.
Las ADN polimerasas de alta fidelidad tienen una ventaja adicional. Las ADN polimerasas de alta fidelidad pueden usarse para introducir mutaciones cuando se usan con análogos de nucleótido, pero en ausencia de análogos de nucleótido pueden replicar una molécula de ácido nucleico molde diana con mucha exactitud. Esto significa que el usuario puede mutar la al menos una molécula de ácido nucleico molde diana a alto efecto y amplificar la al menos una molécula de ácido nucleico molde diana mutada con alta exactitud mediante el uso de la misma ADN polimerasa. Si se usa una ADN polimerasa de baja fidelidad para mutar la molécula de ácido nucleico molde diana, puede ser necesario retirar de la mezcla de reacción antes de amplificar la molécula de ácido nucleico molde diana.
Las ADN polimerasas de alta fidelidad pueden tener una actividad de corrección de lectura. Una actividad de corrección de lectura puede ayudar a la ADN polimerasa a amplificar una secuencia de ácido nucleico molde diana con alta exactitud. Por ejemplo, una ADN polimerasa de bajo sesgo puede comprender un dominio de corrección de lectura. Un dominio de corrección de lectura puede confirmar si un nucleótido que se ha añadido por la polimerasa es correcto (verifica que se aparee correctamente con el ácido nucleico correspondiente de la hebra complementaria) y, si no, lo escinde de la molécula de ácido nucleico. Los inventores han descubierto, sorprendentemente, que en algunas ADN polimerasas, el dominio de corrección de lectura aceptará apareamientos de nucleótidos naturales con análogos de nucleótido. La estructura y secuencia de los dominios de corrección de lectura adecuados son del conocimiento de un experto en la técnica. Las ADN polimerasas que comprenden un dominio de corrección de lectura incluyen miembros de las familias I, II y III de ADN polimerasas, tales como polimerasa Pfu (derivada de Pyrococcus furiosus), polimerasa de T4 (derivada del bacteriófago T4) y las polimerasas termocócicas que se describen con mayor detalle a continuación.
En una realización, en ausencia de análogos de nucleótido, la ADN polimerasa de alta fidelidad introduce menos del 0,01 %, menos del 0,0015 %, menos del 0,001 %, entre el 0 % y el 0,0015 % o entre el 0 % y el 0,001 % de mutaciones por tanda de replicación.
Además, la ADN polimerasa de bajo sesgo puede comprender un dominio de mejora de la procesabilidad. Un dominio que mejora la procesabilidad permite que una ADN polimerasa amplifique más rápidamente una molécula de ácido nucleico molde diana. Esto es ventajoso ya que permite que los métodos de la invención se realicen más rápidamente.
Polimerasas termocócicas
En una realización, la ADN polimerasa de bajo sesgo es un fragmento o una variante de un polipéptido que comprende SEQ ID NO. 2, s Eq ID NO. 4, SEQ ID NO. 6 o SEQ ID NO.:7. Los polipéptidos de SEQ ID NO. 2, 4, 6 y 7 son polimerasas termocócicas. Las polimerasas de SEQ ID NO. 2, SEQ ID NO. 4, SEQ ID NO. 6 o SEQ ID NO. 7 son ADN polimerasas de bajo sesgo que tienen alta fidelidad, y pueden mutar moléculas de ácido nucleico molde diana al incorporar un análogo de nucleótido tal como dPTP. Las polimerasas de SEQ ID NO. 2, SEQ ID NO. 4, SEQ ID NO. 6 o SEQ ID NO. 7 son particularmente ventajosas ya que tienen un bajo sesgo de mutación y un bajo sesgo de amplificación de molde. Además, son altamente procesables y son polimerasas de alta fidelidad que comprenden un dominio de corrección de lectura, lo que significa que, en ausencia de análogos de nucleótido, pueden amplificar moléculas de ácido nucleico molde diana mutadas de manera rápida y exacta. La ADN polimerasa de bajo sesgo puede comprender un fragmento de al menos 400, al menos 500, al menos 600, al menos 700 o al menos 750 aminoácidos contiguos de:
a. una secuencia de SEQ ID NO. 2;
b. una secuencia idéntica en al menos el 95 %, al menos el 98 % o al menos el 99 % a la SEQ ID NO. 2; c. una secuencia de SEQ ID NO. 4;
d. una secuencia idéntica en al menos el 95 %, al menos el 98 % o al menos el 99 % a la SEQ ID NO. 4; e. una secuencia de SEQ ID NO. 6;
f. una secuencia idéntica en al menos el 95 %, al menos el 98 % o al menos el 99 % a la SEQ ID NO. 6; g. una secuencia de SEQ ID NO. 7; o
h. una secuencia idéntica en al menos el 95 %, al menos el 98 % o al menos el 99 % a la SEQ ID NO. 7. Preferiblemente, la ADN polimerasa de bajo sesgo comprende un fragmento de al menos 700 aminoácidos contiguos de: a. una secuencia de SEQ ID NO. 2;
b. una secuencia idéntica en al menos el 98 % o al menos el 99 % a la SEQ ID NO. 2;
c. una secuencia de SEQ ID NO. 4;
d. una secuencia idéntica en al menos el 98 % o al menos el 99 % a la SEQ ID NO. 4;
e. una secuencia de SEQ ID NO. 6;
f. una secuencia idéntica en al menos el 98 % o al menos el 99 % a la SEQ ID NO. 6;
g. una secuencia de SEQ ID NO. 7; o
h. una secuencia idéntica en al menos el 98 % o al menos el 99 % a la SEQ ID NO. 7.
La ADN polimerasa de bajo sesgo puede comprender:
a. una secuencia de SEQ ID NO. 2;
b. una secuencia idéntica en al menos el 95 %, al menos el 98 % o al menos el 99 % a la SEQ ID NO. 2; c. una secuencia de SEQ ID NO. 4;
d. una secuencia idéntica en al menos el 95 %, al menos el 98 % o al menos el 99 % a la SEQ ID NO. 4; e. una secuencia de SEQ ID NO. 6;
f. una secuencia idéntica en al menos el 95 %, al menos el 98 % o al menos el 99 % a la SEQ ID NO. 6; g. una secuencia de SEQ ID NO. 7; o
h. una secuencia idéntica en al menos el 95 %, al menos el 98 % o al menos el 99 % a la SEQ ID NO. 7. Preferiblemente, la ADN polimerasa de bajo sesgo comprende:
a. una secuencia de SEQ ID NO. 2;
b. una secuencia idéntica en al menos el 98 % o al menos el 99 % a la SEQ ID NO. 2;
c. una secuencia de SEQ ID NO. 4;
d. una secuencia idéntica en al menos el 98 % o al menos el 99 % a la SEQ ID NO. 4;
e. una secuencia de SEQ ID NO. 6;
f. una secuencia idéntica en al menos el 98 % o al menos el 99 % a la SEQ ID NO. 6;
g. una secuencia de SEQ ID NO. 7; o
h. una secuencia idéntica en al menos el 98 % o al menos el 99 % a la SEQ ID NO. 7.
La ADN polimerasa de bajo sesgo puede ser una polimerasa termocócica o un derivado de la misma. Las ADN polimerasas de SEQ ID NO. 2, 4, 6 y 7 son polimerasas termocócicas. Las polimerasas termocócicas son ventajosas, ya que son generalmente polimerasas de alta fidelidad que pueden usarse para introducir mutaciones mediante el uso de un análogo de nucleótido con sesgo de mutación y sesgo de amplificación de molde bajos.
Una polimerasa termocócica es una polimerasa que tiene la secuencia de polipéptidos de una polimerasa aislada de una cepa del género Thermococcus. Un derivado de una polimerasa termocócica puede ser un fragmento de al menos 400, al menos 500, al menos 600, al menos 700 o al menos 750 aminoácidos contiguos de una polimerasa termocócica o idéntico en al menos el 95 %, al menos el 98 %, al menos el 99 % o el 100 % a un fragmento de al menos 400, al menos 500, al menos 600, al menos 700 o al menos 750 aminoácidos contiguos de una polimerasa termocócica. El derivado de una polimerasa termocócica puede ser idéntico en al menos el 95 %, al menos el 98 %, al menos el 99 % o el 100 % a una polimerasa termocócica. El derivado de una polimerasa termocócica puede ser idéntico en al menos el 98 % a una polimerasa termocócica.
Una polimerasa termocócica de cualquier cepa puede ser eficaz en el contexto de la presente invención. En una realización, la polimerasa termocócica se deriva de una cepa termocócica seleccionada del grupo que consiste en T. kodakarensis, T. celer, T. siculi y T. sp KS-1. Las polimerasas termocócicas de estas cepas se describen en SEQ ID NO. 2, SEQ ID NO. 4, SEQ ID NO. 6 y SEQ ID NO. 7.
Opcionalmente, la ADN polimerasa de bajo sesgo es una polimerasa que tiene alta actividad catalítica a temperaturas de entre 50 0C y 90 0C, entre 60 0C y 80 0C, o aproximadamente 68 0C.
Ejemplos
Ejemplo 1 - Mutaciones de moléculas de ácido nucleico mediante el uso de PrimeStar GXL u otras polimerasas
Se fragmentaron moléculas de ADN al tamaño adecuado (por ejemplo, 10 kb) y se unió un sitio de iniciación de secuencia definido (adaptador) en cada extremo mediante tagmentación.
La primera etapa es una reacción de tagmentación para fragmentar el ADN. Se sometieron a tagmentación 50 ng de ADN genómico de alto peso molecular en un volumen de 4 |ul o menos de una o más cepas bacterianas en las siguientes condiciones. Se combinan 50 ng de ADN con 4 |ul de transposasa Nextera (diluida hasta 1:50) y 8 |ul de tampón de tagmentación 2x (Tris 20 mM [pH de 7,6], MgCl 20 mM, dimetilformamida al 20 % (v/v)) en un volumen total de 16 |ul. Se incubó la reacción a 55 0C durante 5 minutos, se añadieron 4 |ul de tampón NT (o SDS al 0,2 %) a la reacción y se incubó la reacción a temperatura ambiente durante 5 minutos.
Se limpió la reacción de tagmentación mediante el uso de perlas SPRIselect (Beckman Coulter) siguiendo las instrucciones del fabricante para una selección de tamaño de lado izquierdo mediante el uso de 0,6 volumen de perlas, y se eluyó el ADN en agua de grado molecular.
A esto le siguió una PCR con una combinación de dNTP y dPTP convencionales durante 6 ciclos limitados. Usando Primestar GXL, se añadieron 12,5 ng de ADN sometido a tagmetación y purificado a un volumen total de reacción de 25 |ul, que contenía tampón GXL1x, 200 |uM de cada dATP, dTTP, dGTP y dCTP, así como dPTP 0,5 mM y cebadores personalizados 0,4 |uM (tabla 2).
Tabla 2:
Figure imgf000041_0001
Tabla 2. Cebadores personalizados usados para la PCR de mutagénesis en moldes de 10 kbp. XXXXXX es una secuencia definida de código de barras de 6-8 nt específica de muestra (etiqueta de muestra). NNNNNN es una región de 6 nt de nucleótidos al azar.
Se sometió la reacción a los siguientes ciclos térmicos en presencia de Primestar GXL. Extensión inicial de huecos a 68 0C durante 3 minutos seguido por 6 ciclos de 98 0C durante 10 segundos, 55 0C durante 15 segundos y 68 0C durante 10 minutos.
La etapa siguiente es una PCR sin dPTP para eliminar dPTP de los moldes y reemplazarlos por una mutación de transición (“ PCR de recuperación” ). Se limpiaron las reacciones de PCR con perlas SPRIselect para eliminar el exceso de dPTP y los cebadores, luego se sometieron a otras 10 tandas (mínimo 1 tanda, máximo 20) de amplificación mediante el uso de cebadores que se hibridan a los extremos de fragmento introducidos durante los ciclos de incorporación de dPTP (tabla 3).
Tabla 3
Figure imgf000042_0001
A esto le siguió una etapa de extracción en gel para seleccionar por tamaño los fragmentos amplificados y mutados en un rango de tamaño deseado, por ejemplo, de 7-10 kb. La extracción en gel puede realizarse manualmente o a través de un sistema automatizado, tal como BluePippin. A esto le siguió una tanda adicional de PCR para 16-20 ciclos (“ PCR de enriquecimiento” ).
Después de amplificar un número definido de moldes mutados largos, se llevó a cabo la fragmentación al azar de los moldes para generar un grupo de fragmentos solapantes más cortos para la secuenciación. Se realizó la fragmentación mediante tagmentación.
Se sometieron los fragmentos largos de ADN de la etapa previa a una reacción de tagmentación convencional (por ejemplo, Nextera XT o Nextera Flex), excepto que se dividió la reacción en tres combinaciones para la amplificación mediante PCR. Esto permite la amplificación selectiva de fragmentos derivados de cada extremo del molde original (incluyendo la etiqueta de muestra) así como fragmentos internos del molde largo que se han sometido a tagmentación recientemente en ambos extremos. Esto crea eficazmente tres combinaciones para la secuenciación en un instrumento Illumina (por ejemplo, MiSeq o HiSeq).
Se repitió el método usando una Taq convencional (Jena Biosciences) y una mezcla de Taq y una polimerasa de corrección de lectura (DeepVent) denominada LongAmp (New England Biolabs).
Se representan los datos obtenidos a partir de este experimento en la figura 1. No se usó dPTP como control. Se mapearon las lecturas contra el genoma de E. coli, y se logró una mediana de tasa de mutaciones de ~ el 8 %.
Ejemplo 2 - Comparación de frecuencias de mutaciones de diferentes ADN polimerasas
Se realizó mutagénesis con una variedad de ADN polimerasas diferentes (tabla 4). Se sometió a tagmentación ADN genómico de la cepa de E. coli MG1655 para producir fragmentos largos y se limpiaron con perlas tal como se describe en el método del ejemplo 1. A esto le siguió una “ PCR de mutagénesis” durante 6 ciclos en presencia de dPTP 0,5 mM, purificación con perlas SPRIselect y 14-16 ciclos adicionales de “ PCR de recuperación” en ausencia de dPTP. Luego, se sometieron los moldes mutados largos resultantes a una reacción de tagmentación convencional (véase el ejemplo 1) y se amplificaron fragmentos “ internos” y se secuenciaron en un instrumento Illumina MiSeq.
Las tasas de mutaciones se describen en la tabla 4, que normalizaron frecuencias de sustitución de bases a través de reacciones de mutagénesis con dPTP, según se midió usando secuenciación de Illumina de ADN a partir del genoma de referencia conocido. Para la polimerasa Taq, sólo se produce aproximadamente el 12 % de mutaciones en sitios G+C molde, incluso cuando se usa en tampón optimizado para polimerasas termocócicas. Las polimerasas similares a las termocócicas producen el 58-69 % de mutaciones en los sitios G+C molde, mientras que la polimerasa derivada de Pyrococcus produce el 88 % de mutaciones en los sitios G+C molde.
Se obtuvieron enzimas de Jena Biosciences (Taq), Takara (variantes Primestar), Merck Millipore (ADN polimerasa KOD) y New England Biolabs (Phusion).
Se sometió a prueba Taq con el tampón suministrado y también con el tampón Primestar GXL (Takara) para este experimento. Todas las demás reacciones se llevaron a cabo con el tampón suministrado convencional para cada polimerasa.
Tabla 4
Figure imgf000043_0001
Ejemplo 3 - Determinación de las tasas de mutagénesis con dPTP
Se realizó mutagénesis con dPTP en un rango de muestras de ADN genómico con diferentes niveles de contenido de G+C (el 33-66 %) mediante el uso de una polimerasa termocócica (Primestar GXL; Takara) en un único conjunto de condiciones de reacción. Se realizaron mutagénesis y secuenciación tal como se describe en el método del ejemplo 1, excepto que se realizaron 10 ciclos de “ PCR de recuperación” . Tal como se predijo, las tasas de mutaciones fueron aproximadamente similares entre las muestras (mediana de la tasa del 7-8 %) a pesar de la diversidad del contenido de G+C (figura 2).
Ejemplo 4 - Medición del sesgo de amplificación de molde
Se midió el sesgo de amplificación de molde para dos polimerasas: Kapa HiFi, que es una polimerasa de corrección de lectura usada habitualmente en protocolos de secuenciación de Illumina, y PrimeStar GXL, que es una polimerasa de la familia KOD conocida por su capacidad para amplificar fragmentos largos. En el primer experimento se usó Kapa HiFi para amplificar un número limitado de moldes de ADN genómico de E. coli con tamaños de aproximadamente 2 kbp. Luego, se secuenciaron los extremos de estos fragmentos amplificados. Se realizó un experimento similar con PrimeStar GXL en fragmentos de aproximadamente 7-10 kbp de E. coli. Se determinaron las posiciones de cada lectura de secuencia de extremo mediante mapeo en el genoma de referencia de E. coli. Se midieron las distancias entre los extremos de fragmentos vecinos. Estas distancias se compararon con un conjunto de distancias muestreadas al azar a partir de la distribución uniforme. Se llevó a cabo la comparación mediante la prueba de Kolmolgorov-Smirnov no paramétrica, D. Cuando dos muestras proceden de la misma distribución, el valor de D se aproxima a cero. Para la polimerasa de bajo sesgo PrimeStar, se observó D=0,07 cuando se mide en 50.000 extremos de fragmento, en comparación con una muestra al azar uniforme de 50.000 posiciones genómicas. Para la polimerasa Kapa HiFi se observó D=0,14 en los 50.000 extremos de fragmento.
Ejemplo 5 - Medición de rango de tamaño de reconstrucción
Se generaron lecturas de secuencias mutadas y no mutadas, y se determinó una secuencia para las lecturas de secuencias no mutadas mediante el uso de etapas del método implementado por ordenador.
Para generar las lecturas de secuencias mutadas, se generaron fragmentos de molécula de ácido nucleico molde diana mutada mediante el uso del método descrito en el ejemplo 1, excepto que el rango de tamaño de los fragmentos se restringió a 1-2 kb. Se secuenciaron los fragmentos de molécula de ácido nucleico molde diana mutada mediante el uso de Illumnia MiSeq con una celda de flujo V2 de 500 ciclos.
Para generar lecturas de secuencias no mutadas, se realizaron las siguientes etapas. La primera etapa es una reacción de tagmentación para fragmentar el ADN. Se sometieron a tagmentación 50 ng de ADN genómico de alto peso molecular en un volumen de 4 pl o menos de una o más cepas bacterianas en las siguientes condiciones. Se combinan 50 ng de ADN con 4 pl de transposasa Nextera (diluida hasta 1:50) y 8 pl de tampón de tagmentación 2x (Tris 20 mM [pH de 7,6], MgCl 20 mM, dimetilformamida al 20 % (v/v)) en un volumen total de 16 pl. Se incubó la reacción a 55 0C durante 5 minutos, se añadieron 4 pl de tampón NT (o SDS al 0,2 %) a la reacción y se incubó la reacción a temperatura ambiente durante 5 minutos.
Se limpió la reacción de tagmentación mediante el uso de perlas SPRIselect (Beckman Coulter) siguiendo las instrucciones del fabricante para una selección de tamaño de lado izquierdo mediante el uso de 0,6 volumen de perlas, y se eluyó el ADN en agua de grado molecular. Se sometieron los fragmentos largos de ADN de la etapa previa a una reacción de tagmentación convencional (por ejemplo, Nextera XT o Nextera Flex), excepto que se dividió la reacción en tres combinaciones para la amplificación mediante PCR. Esto permite la amplificación selectiva de fragmentos derivados de cada extremo del molde original (incluyendo la etiqueta de muestra) así como fragmentos internos del molde largo que se han sometido a tagmentación recientemente en ambos extremos. Esto crea eficazmente tres combinaciones para la secuenciación en un instrumento Illumina (por ejemplo, MiSeq o HiSeq).
Se determinaron las secuencias para las moléculas de ácido nucleico molde diana mediante preagrupamiento de las lecturas de secuencias mutadas en grupos de lecturas, luego se sometió cada grupo de lecturas mutadas a ensamblaje de novo por medio del uso de las etapas 1 y 2 de la tubería de ensamblaje de A5-miseq (Coil y col. 2015 Bioinformatics). El análisis produjo 53.053 fragmentos virtuales con longitudes distribuidas tal como se muestra en la figura 4.
Ejemplo 6 - Someter a prueba el algoritmo de probabilidad
Se usó un algoritmo de probabilidad para determinar si dos lecturas de secuencias mutadas se derivaron de la misma al menos una molécula de ácido nucleico molde original. Los detalles del algoritmo de probabilidad son los siguientes.
Dadas dos lecturas de secuencias no mutadas S1 y S2, en el conjunto de lecturas de secuencias mutadas que se han alineado con una secuencia de referencia no mutada R, el modelo descrito en el presente documento trata de determinar si S1 y S2 se han secuenciado a partir de la misma al menos una molécula de ácido nucleico molde mutada o a partir de moldes diferentes. La alineación de estas tres secuencias puede representarse como una matriz N 3x N de sitios alineados, por ejemplo N 3-tuplas de nucleótidos individuales su:s2 j. K con nucleótidos alineados que se producen en la misma columna y de N, por ejemplo n,y. Por conveniencia, definir un mapeo de los nucleótidos A, C, G y T en los números enteros 1, 2, 3 y 4 de tal manera que A se mapea en 1, C se mapea en 2, etc. Este mapeo queda implícito en el resto de la descripción a continuación. A continuación, definir dos matrices de probabilidad 4x4: M y E. Cada entrada m¡j registra la probabilidad de que el nucleótido i se mutase a través del proceso de mutagénesis en el nucleótido j para i j e { A, C, G, T }. De manera similar, la entrada e¡j registra la probabilidad condicional de que el nucleótido i se leyese erróneamente como el nucleótido j, para i j e { A, C, G, T } condicional en el nucleótido que se ha leído erróneamente. Además, definir una matriz Q 2xN con las entradas q1,y y 92,y que indican la probabilidad, tal como se notificó por el instrumento de secuenciación, de que el nucleótido en la posición de alineación y se leyó erróneamente para las secuencias S1 y S2, respectivamente. Finalmente, usar z e { 0, 1 } como un valor indicador para si dos lecturas de secuencia se han derivado del mismo molde mutado, donde z = 1 indica que S1 y S2 se han secuenciado a partir del mismo fragmento de molde y z = 0 indica que S1 y S2 se han secuenciado a partir de fragmentos de molde diferentes.
Los valores de Q y N se proporcionan/determinan mediante los procesos de secuenciación y mapeo de lectura posteriores; sin embargo, los valores de M, E y z son generalmente desconocidos. Afortunadamente, estos valores (y cualquier otro parámetro desconocido) pueden estimarse a partir de los datos mediante el uso de cualquiera de una amplia variedad de técnicas. Las distribuciones anteriores pueden imponerse a los valores de parámetros desconocidos basándose en el conocimiento del proceso de mutación. Se impone una distribución de Dirichlet sobre las filas de M, de tal manera que: iru,. ~ Dirichlet(a+p, 1 - p, 1 - a, 1 - p), en donde las entradas corresponden a los eventos A ^ A (sin mutación), A ^ C (una transversión), A ^ G (una transición), A ^ T (una transversión). En este caso, a es el hiperparámetro de tasa de transición desconocido, y p es el hiperparámetro de tasa de transversión desconocido. La distribución a p rio ricompleta de M se especifica como:
m1,. ~ Dirichlet (a+p, 1-p, 1-a, 1-p)
m2,. ~ Dirichlet (1-p, a+p, 1-p, 1-a)
m3,. ~ Dirichlet (1-a, 1-p, a+p, 1-p)
m4,. ~ Dirichlet (1-p, 1-a, 1-p, a+p)
El conocimiento previo del proceso de mutación está disponible generalmente para el experimentador (por ejemplo, el conocimiento de las propiedades de la polimerasa u otro mutágeno) y puede permitir que se apliquen hiperdistribuciones a priori sobre los términos a y p. Son posibles estructuras más generales para la distribución a priori en M. Se aplican distribuciones a priori uniformes sobre la matriz E, así como en z.
Dada la notación anterior, la probabilidad de los datos dado el modelo puede expresarse como:
Figure imgf000045_0001
En este caso, el punto central en un subíndice de matriz connota a todos los miembros de la fila o columna, y la multiplicación vectorial implica el producto punto. 1_{ } es la función indicadora, que toma el valor de 1 si la expresión en el subíndice es verdadera, 0 si no.
Combinar la probabilidad con las distribuciones a priori mencionadas anteriormente produce los elementos requeridos para realizar la inferencia bayesiana sobre los valores desconocidos. Existen muchas maneras de implementar la inferencia bayesiana incluyendo métodos exactos para distribuciones de probabilidad posterior tratables analíticamente así como un rango de Monte Carlo y métodos relacionados para aproximar distribuciones posteriores. En el presente caso, se implementó el modelo en el lenguaje de modelado Stan (véase la lista de códigos X1), que facilita la inferencia usando Monte Carlo hamiltoniano, así como inferencia variacional usando aproximaciones de campo medio y rango completo. El método de aproximación mediante inferencia variacional usado depende del descenso de gradiente estocástico para maximizar el límite inferior de evidencia (ELBO, por sus siglas en inglés) (Kucukelbir y col., 2015 https://arxiv.org/abs/1506.03431), y esto requiere que el modelo de probabilidad sea continuo y diferenciable. Para adaptarse a este requisito, se implementa z como un parámetro continuo en el soporte [0, 1], y la distribución Beta(0,1, 0,1) se usa como esparcido antes de concentrar la masa posterior de z alrededor de 0 y 1. Este enfoque de emplear una relajación continua de una variable al azar discreta se denomina “distribución concreta” y se describe en https://arxiv.org/abs/1611.00712. El ajuste del modelo a una colección de aproximadamente 100 alineaciones de secuencias simuladas de al menos 100 bases de longitud mediante el uso de inferencia variacional lleva sólo unos pocos minutos de tiempo de CPU en un ordenador portátil para aproximar los parámetros posteriores con respecto a desconocidos y produce la distribución posterior de los parámetros del modelo mostrados en la figura 5.
Aunque la inferencia variacional es más rápida que muchos métodos de Monte Carlo, no es lo suficientemente rápida como para analizar los millones de lecturas de secuencias generadas en una ejecución de secuenciación típica de manera que se desarrolló una manera más rápida para calcular las probabilidades de que dos lecturas, r0 y r1, ya se originen o no a partir de la misma al menos una molécula de ácido nucleico molde diana mutada. Dado un proceso mutagénico y un error de secuenciación, estas probabilidades pueden expresarse como:
Pm¡smo_molde(ro,ri)= P(N,Q|M,E,z=l) = Üb = i f(N,Q|M,E,0
(ec. 1)
P d ¡f_ m o id e (ro ,n )= P(N,Q|M,E,z=0) = f l l = i g(N,Q|M,E,0
(ec. 2 )
Cuando los valores de M y E se han fijado a valores máximos a posteriori o similares con alta probabilidad posterior tal como se determina mediante inferencia bayesiana (o probabilidad máxima) mediante el uso de un pequeño subconjunto del conjunto de datos totales. Se toma que los valores de N y Q corresponden a las alineaciones de r<0 y r1 con la secuencia de referencia. Luego, una puntuación de probabilidades logarítmicas para dos lecturas que se originan a partir de un molde común puede calcularse simplemente como:
puntuación = log(p mismo_molde) - log(P dif_molde) (ec. 3)
Se considera que las lecturas de secuencias mutadas se han originado a partir de la misma al menos una molécula de ácido nucleico molde diana si su puntuación por pares es mayor que algún punto de corte predefinido. En el presente caso, esto se establece en 1.000. Las pruebas en datos simulados indican que esta puntuación de probabilidades logarítmicas puede discriminar si dos lecturas mutadas se derivan o no de al menos una molécula de ácido nucleico molde diana con alta precisión y recuerdo (figura 6).
Ejemplo 7 - Uso de dos sitios de unión a cebadores idénticos y una única secuencia de cebador para la amplificación preferente de moldes más largos
Tal como se describió anteriormente, puede usarse tagmentación para fragmentar moléculas de ADN e introducir simultáneamente sitios de unión a cebadores (adaptadores) en los extremos de los fragmentos. El sistema de tagmentación Nextera (Illumina) utiliza enzimas transposasas cargadas con uno de dos adaptadores únicos (denominados X e Y en el presente documento). Esto genera una mezcla al azar de productos, algunos con secuencias de extremo idénticas (X-X, Y-Y) y otros con extremos únicos (X-Y). Los protocolos de Nextera convencionales usan dos secuencias de cebador distintas para amplificar selectivamente los productos “X-Y” que contienen diferentes adaptadores en cada extremo (según se requiera para la secuenciación con la tecnología Illumina). Sin embargo, también es posible usar una única secuencia de cebador para amplificar fragmentos “X-X” o “Y-Y” con adaptadores de extremo idénticos.
Para generar moldes mutados largos que contienen adaptadores de extremos idénticos, se sometieron 50 ng de ADN genómico de alto peso molecular (cepa de E. coli MG1655) en primer lugar a tagmentación y luego se limpiaron con perlas SPRIselect tal como se describió en el ejemplo 1. A esto le siguieron 5 ciclos de “ PCR de mutagénesis” con una combinación de dNTP y dPTP convencionales, que se realizó tal como se detalla en el ejemplo 1 excepto que se usó una única secuencia de cebador (tabla 5).
Se limpió la reacción de PCR con perlas SPRIselect para eliminar el exceso de dPTP y los cebadores, luego se sometió a 10 ciclos adicionales de “ PCR de recuperación” en ausencia de dPTP para reemplazar dPTP en los moldes por mutaciones de transición. Se realizó PCR de recuperación con un único cebador que se hibrida a los extremos de fragmento introducidos durante los ciclos de incorporación de dPTP, lo que permite de ese modo la amplificación selectiva de los moldes mutados generados en la etapa de PCR previa.
Tabla 5:
Figure imgf000046_0001
Tabla 5. Cebadores usados para generar moldes mutados con la misma estructura adaptadora básica en ambos extremos. Se usó el cebador “single_mut” para la PCR de mutagénesis en fragmentos de ADN generados mediante tagmentación Nextera. Este cebador contiene una porción en 5’ que introduce un sitio adicional de unión a cebadores en los extremos de fragmento. El cebador “single_rec” es capaz de hibridarse a este sitio, y se usó durante la PCR de recuperación para amplificar selectivamente los moldes mutados generados con el cebador single_mut. XXXXXXXXXXXXX es una secuencia de etiqueta de 13 nt específica de muestra, definida. NNN es una región de 3 nt de nucleótidos al azar.
Como control, se generaron moldes mutados con adaptadores diferentes en cada extremo mediante el uso de un protocolo idéntico al descrito anteriormente, excepto que se usaron dos secuencias de cebador distintas tanto durante la PCR de mutagénesis (que se muestra en la tabla 2) como la PCR de recuperación (tabla 3). Se limpiaron los productos de PCR finales con perlas SPRIselect y se analizaron en un chip de ADN de alta sensibilidad mediante el uso del sistema 2100 Bioanalzyer System (Agilent). Tal como se muestra en la figura 10, los moldes generados con adaptadores de extremo idénticos fueron significativamente más largos que la muestra de control que contiene adaptadores dobles. Pudieron detectarse los moldes de control hasta un tamaño mínimo de ~800 pb, mientras que no se observaron moldes por debajo de 2000 pb para la muestra de adaptador único.
Se ejecutaron los moldes mutados con adaptadores de extremo idénticos (color azul) y los moldes de control con adaptadores dobles en un instrumento 2100 Bioanalyzer de Agilent (kit de ADN de alta sensibilidad) para comparar los perfiles de tamaño. El uso de adaptadores de extremos idénticos inhibe la amplificación de moldes < 2 kbp. Se presentan los datos en la figura 10.
Ejemplo 8 - Dilución de muestra y secuenciación de extremos para cuantificar los moldes de ADN
Se diluyó una muestra inicial de moldes mutados largos para el análisis hasta un número definido de moléculas de molde únicas en la preparación para el procesamiento, la secuenciación y el análisis aguas abajo para garantizar que se generen suficientes datos de secuencia por molde para un ensamblaje eficaz de moldes.
En primer lugar, se prepararon moldes mutados largos a partir de ADN genómico humano (genoma NA12878) mediante el uso del enfoque descrito en el ejemplo 7. Se realizaron cinco ciclos de PCR de mutagénesis y seis ciclos de recuperación, seguido por extracción en gel para seleccionar moldes en el rango de tamaño de 8-10 kb. Se usaron los cebadores mostrados en la tabla 5, generando moldes flanqueados por secuencias adaptadoras idénticas.
Entonces se diluyó en serie la muestra de molde seleccionada por tamaño en escalones de 10 veces, y se usó secuenciación de ADN para determinar el número de moldes únicos presentes en cada dilución. Esto implicó amplificar en primer lugar las muestras diluidas para generar muchas copias de cada molde único. Se realizó PCR con un único cebador (5'-CAAGCAGAAGACGGCATACGA-3') que se hibrida a los extremos de fragmento introducidos durante la etapa de PCR de recuperación previa y, de ese modo, amplificar selectivamente los moldes que habían completado el proceso de incorporación y reemplazo de dPTP para generar mutaciones de transición. Se requirió un total de 16-30 ciclos de PCR (dependiendo del factor de dilución de la muestra) para generar suficiente material para el procesamiento posterior.
Luego, se fragmentó cada producto de PCR mediante el uso de una reacción de tagmentación convencional (véase el ejemplo 1) y los fragmentos derivados de los extremos del molde (que incluyen la etiqueta de muestra y la etiqueta molecular única) se amplificaron selectivamente en la preparación para la secuenciación de Illumina. Esto se logró usando un par de cebadores, uno que se hibrida específicamente al extremo del molde original (5'-CAAGCAGAAGACGGCATACGA-3') y uno que se hibrida al adaptador introducido durante la tagmentación (cebador de índice personalizado i5; tabla 2). Después de secuenciar las muestras en un instrumento Illumina MiSeq, se identificaron moldes únicos basándose en la información de secuencia correspondiente a los extremos finales de las moléculas de molde originales. Para hacer esto, se usó un algoritmo de agrupamiento (por ejemplo, vsearch) para agrupar lecturas conjuntamente con secuencias idénticas que es probable que se derivasen del mismo molde único original. Otros tipos de información de secuencia, tales como las etiquetas moleculares únicas, también podrían usarse con este propósito. Tal como se muestra en la figura 11, se observó una clara relación lineal entre el factor de dilución de muestra y el número observado de moldes únicos. Usando esta información, es posible determinar el factor de dilución preciso que se requeriría para controlar el número de moléculas de ácido nucleico molde diana mutadas en la segunda muestra en un número deseado de moldes únicos, en preparación para la secuenciación posterior y el ensamblaje de moldes.
Ejemplo 9 - Dilución y secuenciación de extremos para normalizar muestras de molde combinadas
Se usó el enfoque de dilución de muestra y secuenciación de extremos descrito anteriormente para cuantificar múltiples bibliotecas de moldes en una muestra combinada preliminar. Esta información se usó posteriormente para normalizar el número de moldes entre muestras individuales en una muestra combinada.
En primer lugar, se sometieron muestras de ADN genómico de 96 cepas bacterianas diferentes a tagmentación y 5 ciclos de PCR de mutagénesis tal como se expuso en el ejemplo 5, usando un único cebador con una etiqueta de muestra única para cada reacción (diseño de single_mut; tabla 5). Luego, se combinaron volúmenes iguales de cada producto de mutagénesis con etiqueta de muestra y se limpió la muestra combinada con perlas SPRIselect para eliminar el exceso de dPTP y cebadores. A esto le siguieron 6 ciclos de PCR de recuperación usando el cebador single_rec (tabla 5) y extracción en gel para seleccionar moldes en el rango de tamaño de 8-10 kb. Luego, se diluyó la muestra de moldes combinada 1 a 1000, y se realizó la secuenciación de extremos para determinar el número de moldes únicos presentes para cada cepa bacteriana en la combinación diluida. Esto se logró mediante el uso del enfoque descrito en el ejemplo 7.
Se halló que los recuentos de moldes eran altamente variables entre cepas en la combinación diluida, oscilando entre moldes no detectables para varias cepas hasta más de 1000 moldes únicos para otras. Se seleccionaron sesenta y seis cepas con recuentos de moldes distintos de cero para la normalización. Basándose en el recuento de moldes observado y el tamaño conocido del genoma de cada cepa, se preparó una combinación normalizada combinando diferentes volúmenes de los productos de PCR de mutagénesis con etiqueta de muestra, con el fin de lograr un número constante de moldes únicos por unidad de contenido del genoma (por ejemplo, por Mb) para cada cepa. Luego, se procesó la combinación normalizada para la secuenciación de extremos tal como se describió anteriormente, y se determinó el número de moldes únicos por cepa. Tal como se esperaba, los recuentos de moldes eran mucho menos variables entre las cepas después de la normalización (figura 12).
Ejemplo 10 - Uso del algoritmo de ensamblaje para ensamblar secuencias genómicas bacterianas
Cepas bacterianas y preparación de ADN
Se obtuvo ADN de 62 cepas bacterianas a partir de recursos de BEI. Estas cepas son aislados que se secuenciaron como parte del Proyecto de Microbioma Humano. Representan un rango del contenido de GC (del 25 % al 69 %) y se proporcionan otros detalles en la tabla 6.
Tabla 6
Figure imgf000048_0001
Figure imgf000049_0001
Se incluyeron tres cepas adicionales con genomas bien caracterizados que también cubrían un amplio rango de contenido de GC, como controles (Escherichia coli K12 MG1655, Staphylococcus aureus ATCC 25923 y Haloferax volcanii DS2). Se preparó ADN a partir de estas cepas mediante el uso del kit Qiagen DNeasy UltraClean Microbial según las instrucciones del fabricante, con los siguientes cambios. Se centrifugaron cultivos durante la noche (20 ml para cada cepa) a 3200 g durante 5 min para obtener un sedimento celular, y se lavó cada sedimento con 5 ml de solución estéril de cloruro de sodio al 0,9 %. Se resuspendió cada sedimento en 300 ul de disolución PowerBead antes de continuar con el protocolo del fabricante. Se eluyó el ADN con 50 ul de tampón de elución precalentado hasta 42 0C para E. coli y S. aureus, mientras que se eluyó el ADN de H. volcanii en 35 ul de tampón de elución.
Se midieron las concentraciones de ADN para todas las muestras mediante el uso del kit de ADNbc Quant-iT PicoGreen (Thermo Scientific). Para un subconjunto de especies, también se evaluaron la pureza y el peso molecular del ADN mediante espectrofotometría con Nanodrop (Thermo Scientific) y electroforesis en gel de agarosa.
Preparación de la biblioteca de Morphoseq
Tagmentación para generar fragmentos largos
Se dispuso en alineamientos el ADN de cada genoma bacteriano en una placa de 96 pocillos, y se normalizó la concentración a 10 ng/ul. Se incluyó E. coli MG1655 en dos pocillos independientes para proporcionar un control interno para el procesamiento de la muestra y el análisis de datos posterior.
Se realizó tagmentación con la enzima de tagmentación de ADN Nextera (TDE1; Illumina) que se había diluido 1 a 50 en tampón de almacenamiento (Tris-HCl 5 mM [pH de 8,0], EDTA 0,5 mM, glicerol al 50 % (v/v)). Para cada muestra, se preparó una reacción de tagmentación de 16 pl que contenía 50 ng de ADN y 4 pl de TDE1 diluido en tampón de tagmentación 1 x (Tris-HCl 10 mM [pH de 7,6], MgCl 10 mM, dimetilformamida al 10 % (v/v). Se incubó cada reacción a 55 0C durante 5 min, luego se enfrió hasta 10 0C, se añadió SDS hasta una concentración final del 0,04 %, y se incubaron las reacciones durante otros 15 minutos a 25 0C. Se sometieron las reacciones a una limpieza de lado izquierdo mediante el uso de perlas magnéticas SPRIselect (Beckman Coulter) con 0,6X volumen de perlas, y se eluyeron en 20 pl de agua de grado molecular siguiendo las instrucciones del fabricante.
Mutagénesis de fragmentos largos de ADN
Se realizó una PCR para incorporar el análogo de nucleótido mutagénico dPTP de la siguiente manera. Se usaron 5 pl de cada reacción de tagmentación limpiada anterior como molde en una reacción de PCR de 25 pl que contenía 0,625 U de polimerasa PrimeStar GXL, tampón Primestar GXL 1x y dNTP 0,2 mM (todos obtenidos de Takara), junto con dPTP 0,5 mM (TriLink Biotechnologies) y cebador de índice de Morphoseq 0,4 mM (véase la tabla 7; índice único para cada muestra). Se usó un único cebador durante la PCR de mutagénesis para amplificar moldes que contenían la misma secuencia adaptadora de tagmentación Nextera en ambos extremos. Se sometieron las reacciones a las siguientes condiciones de ciclado: 68 0C durante 3 minutos, seguido por 5 ciclos de 98 0C durante 10 segundos, 55 0C durante 15 segundos y 68 0C durante 10 minutos.
En este punto, se combinaron volúmenes iguales de cada reacción (4 pl) en una única combinación, y se sometió la combinación a una limpieza adicional con perlas de lado izquierdo usando un 0,6X volumen de perlas. La combinación purificada se eluyó en 45 pl de agua de grado molecular y se cuantificó mediante el uso del kit de ensayo de HS de ADNbc Qubit (Thermo Fisher Scientific).
Luego, se amplificó adicionalmente la muestra combinada de moldes que contienen dPTP en ausencia de dPTP, reemplazando de ese modo el análogo de nucleótido por dNTP naturales y se generaron mutaciones de transición a través de las propiedades ambivalentes de apareamiento de bases de dPTP. Esta PCR de “ recuperación” contenía 1,25 U de polimerasa PrimeStar GXL, tampón Primestar GLX 1x y dNTP 0,2 mM (Takara), junto con 0,4 pM de cebador de recuperación (véase la tabla 7) y 10 ng de la muestra de moldes combinada en un volumen total de 50 pl. Se sometió la reacción a 6 ciclos de 98 0C durante 10 segundos, 55 0C durante 15 segundos y 68 0C durante 10 minutos.
Selección por tamaño de molde largo
El producto de la PCR de recuperación se seleccionó por tamaño para eliminar fragmentos cortos no deseados mediante el uso de un método de electroforesis en gel de ADN. Se cargaron 25 pl de la reacción de PCR de recuperación, junto con patrones de tamaño de ADN, en un gel de agarosa al 0,9 % y se hicieron correr en tampón TBE 1X durante la noche (900 minutos) a 18 V. Se cortó una sección de gel correspondiente a la región de tamaño de 8-10 kb, y se extrajo el ADN mediante el uso del Gel Wizard SV y el kit de PCR Clean-Up (Promega), según las instrucciones del fabricante. Se cuantificó el ADN seleccionado por tamaño mediante el uso del kit de ensayo de HS de ADNbc Qubit (Thermo Fisher Scientific), y se confirmó el rango de tamaño mediante el uso de un chip de ADN de alta sensibilidad Bioanalyzer (Agilent).
Normalización y cuantificación de moldes
Se usó el siguiente enfoque para evaluar la abundancia de moldes entre muestras individuales marcadas con etiqueta de muestra dentro del producto combinado y seleccionado por tamaño. En primer lugar, se diluyó el ADN seleccionado por tamaño hasta 0,1 pg/pl y se usaron 2 pl de la dilución (0,2 pg) como entrada para una PCR de enriquecimiento para producir muchas copias de cada molde único. Los experimentos preliminares mostraron que este nivel de dilución restringió la diversidad de moldes únicos lo suficiente como para permitir la cuantificación exacta de moldes a partir de la salida de secuencia de una única ejecución de Illumina MiSeq. Los 50 pl de PCR de enriquecimiento contenían además 1,25 U de polimerasa PrimeStar GXL, tampón Primestar GXL 1X y dNTP 0,2 mM (Takara), junto con cebador de enriquecimiento 0,4 pM (véase la tabla 7). El cebador de enriquecimiento se diseñó para hibridarse a adaptadores de extremo de fragmento introducidos durante la etapa de PCR de recuperación previa, lo que amplifica selectivamente los moldes que habían completado el proceso de incorporación y reemplazo de dPTP para generar mutaciones de transición. Se sometió la reacción a 22 ciclos de 98 0C durante 10 segundos, 55 0C durante 15 segundos y 68 0C durante 10 minutos, seguido por purificación a través de una limpieza con perlas con lado izquierdo SPRIselect mediante el uso de 0,6X volumen de perlas, y elución en 20 pl de agua grado molecular. Luego, se cuantificó la muestra mediante el uso del kit de ensayo de HS de ADNbc Qubit (Thermo Fisher Scientific), y se confirmó el rango de tamaño mediante el uso de un chip de ADN de alta sensibilidad Bioanalyzer (Agilent).
A continuación, se fragmentó el producto de enriquecimiento de longitud completa a través de una segunda reacción de tagmentación, y se amplificaron los fragmentos derivados de los extremos de moldes originales (que incluyen códigos de barras de muestra) para la secuenciación de Illumina. Se llevó a cabo tagmentación tal como se describió anteriormente para la generación de moldes largos, excepto que se usaron 2 ng en lugar de 50 ng de ADN inicial. Después del tratamiento con SDS, se preparó una reacción de PCR de biblioteca de extremos mediante la adición de KAPA HiFi HotStart ReadyMix (Kapa Biosystems) hasta una concentración final de 1X, junto con cebador de enriquecimiento 0,23 pM (que se hibrida con el adaptador de celda de flujo p7 de Illumina ubicado en el extremo final del molde de longitud completa) y cebador de índice i5 personalizado 0,23 pM (que se hibrida con un adaptador interno introducido durante la segunda tanda de tagmentación; véase la tabla 7). Se sometió la reacción a ciclos de la siguiente manera: 72 °C durante 3 minutos, 98 0C durante 30 segundos, 12 ciclos de 98 °C durante 15 segundos, 55 0C durante 30 segundos y 72 0C durante 30 segundos, seguido por una extensión final a 72 0C durante 5 minutos. Luego, se purificó la biblioteca de extremos y se cuantificó tal como se describió anteriormente para el producto de enriquecimiento de longitud completa.
Se realizó secuenciación de Illumina en un instrumento MiSeq usando la química V3 y se generaron 2 lecturas de ambos extremos x 75 nt. Se determinaron los recuentos de moldes únicos para cada muestra de genoma bacteriano individual en la combinación diluida al desmultiplexar en primer lugar los datos de lecturas de extremos basándose en la secuencia de lectura del índice 1 (i7) luego mapear las secuencias de lectura 2 (correspondientes al extremo final del inserto genómico original) en los genomas de referencia disponibles públicamente para cada cepa. Se calculó el número de moldes únicos contando el número de sitios de inicio de mapeo únicos (correspondientes al inicio o al final de un molde), teniendo en cuenta que se esperan dos sitios por molde.
Los recuentos de moldes observados variaron para genomas individuales en la combinación diluida, oscilando desde moldes no detectables para varias muestras hasta más de 1000 moldes únicos para otras. Para simplificar, se eligieron 66 muestras con recuentos de moldes distintos de cero para procesamiento, secuenciación y ensamblaje posteriores. Basándose en el recuento de moldes observado y el tamaño conocido del genoma para cada una de estas muestras, se preparó una combinación normalizada combinando diferentes volúmenes de los productos de PCR de mutagénesis con código de barras originales, con el fin de lograr un número constante de moldes únicos por unidad de contenido del genoma (por ejemplo, por Mb) para cada cepa. Para verificar que la normalización había sido exitosa, se procesó adicionalmente la combinación normalizada para la cuantificación de moldes repitiendo todas las fases posteriores de preparación de bibliotecas y secuenciación descritas anteriormente (PCR de recuperación, selección por tamaño, dilución y enriquecimiento de moldes, preparación de bibliotecas de extremos, secuenciación y análisis de Illumina). Tal como se esperaba, los recuentos de moldes eran mucho menos variables entre las cepas después de la normalización (figura 11).
Diseño de cuellos de botella de molde, enriquecimiento y procesamiento de bibliotecas de lecturas cortas
Basándose en los datos de cuantificación de moldes de la combinación de muestras normalizada, así como el tamaño conocido de fragmentos largos, se seleccionó un diana de 1,5 millones de moldes únicos totales para procesar para la secuenciación y ensamblaje de Morphoseq. Esto garantizaría una cobertura teórica de molde largo de al menos 20x por genoma individual (hasta 90x). Con este fin, se preparó una muestra de molde largo final diluyendo el producto de PCR de recuperación seleccionado por tamaño de la etapa previa hasta 0,75 millones de moldes/pl y usando 2 pl de la dilución como entrada para una PCR de enriquecimiento para producir muchas copias de cada molde único. Se llevó a cabo PCR de enriquecimiento tal como se describió anteriormente, excepto que se llevaron a cabo 16 en lugar de 22 ciclos de amplificación.
Para procesar la muestra de molde largo final para la secuenciación de lecturas cortas (Illumina), en primer lugar se preparó una biblioteca de extremos con código de barras, se purificó y se cuantificó según el método descrito en la sección previa. Además, se preparó una segunda biblioteca que contenía fragmentos internos generados al azar a partir de los moldes largos mediante el uso del kit de preparación de bibliotecas DNA Flex Library Prep (Illumina) con algunas modificaciones al protocolo del fabricante. Específicamente, se diluyó 1 a 50 el reactivo BLT (transposomas ligados a perlas) en agua de grado molecular y se usaron 10 pl de esta disolución diluida en una reacción de tagmentación con 10 ng de ADN molde largo. Se realizaron doce ciclos de amplificación de biblioteca, por medio del uso de cebadores de índice i5 y i7 personalizados (tabla 7) en lugar de los adaptadores convencionales de Illumina.
Preparación de bibliotecas de referencia sin mutar
Se generaron bibliotecas de referencia para los 66 genomas incluidos en la combinación final de Morphoseq. Usando 10 ng de ADN genómico como entrada, se realizó la preparación de la biblioteca según el procedimiento expuesto anteriormente para las bibliotecas de Morphoseq internas, pero con modificaciones adicionales al método de flexión de ADN Nextera. Específicamente, se reemplazó el tampón TB1 de Illumina por tampón de tagmentación personalizado (véase antes), se usó KAPA HiFi HotStart ReadyMix (concentración final de 1x; Kapa Biosystems) en lugar de la polimerasa del kit, y se sustituyeron las perlas de purificación de muestras de Illumina (SPB) por perlas magnéticas SPRIselect (Beckman Coulter). Las condiciones de ciclado térmico para la amplificación de la biblioteca de referencia fueron las siguientes; 72 0C durante 3 minutos, 98 °C durante 30 segundos, 12 ciclos de 98 0C durante 15 segundos, 55 0C durante 30 segundos y 72 0C durante 30 segundos, seguido por una extensión final a 72 °C durante 5 minutos.
Para normalizar las bibliotecas de referencia, en primer lugar se combinaron volúmenes iguales de cada muestra y se secuenció la biblioteca combinada mediante el uso de un nanokit de reactivo de MiSeq (Illumina), lo que generó 2 lecturas de ambos extremos x 150 nt con química V2 de MiSeq. Se determinaron recuentos de lecturas para cada genoma individual al desmultiplexar los datos de secuencias resultantes. Luego, se usaron estos recuentos para preparar una combinación normalizada combinando diferentes volúmenes de cada biblioteca de referencia original, con el fin de lograr una cobertura igual por genoma.
Secuenciación de Illumina
Se preparó una muestra final para la secuenciación de Illumina combinando la combinación de referencia normalizada, la biblioteca de extremos de Morphoseq y la biblioteca de extremos de Morphoseq interna en una razón molar de 1:1:20, respectivamente. Se realizó la secuenciación en el centro Ramaciotti de Genómica de la Universidad de Nueva Gales del Sur (Sidney, Australia) mediante el uso de un instrumento NovaSeq 6000 y una celda de flujo S1 para generar 2 lecturas de ambos extremos x 150 nt.
Ensamblaje de genomas bacterianos
En la figura 13 se representa una vista general del flujo de trabajo para ensamblar genomas bacterianos.
Unidades de referencia no mutadas
Se ensamblaron genomas de cada cepa bacteriana a partir de lecturas de 150 pares de bases de ambos extremos, no mutadas. El filtrado de calidad inicial para eliminar secuencias de baja calidad y adaptadores de bibliotecas recortadas se realizó con bbduk v36.99. Se desmultiplexaron lecturas mediante el uso de una secuencia de comandos de Python personalizada y se ensamblaron usando MEGAHIT v1.1.3 con parámetros personalizados: nivel de poda=3, razón de localización baja=0,1 y máxima longitud de punta=280 que se eligieron para reducir la complejidad de los gráficos de genoma resultantes, y facilitar un mejor mapeo de las secuencias mutadas en la siguiente fase (descrita a continuación). El ensamblaje de fragmentos gráficos resultante (archivo gfa) se usó como entrada en VG (índice) v1.14.0 para crear un índice adecuado para el mapeo. El gráfico resultante se denomina “gráfico de ensamblaje de referencia sin mutar indexado” o simplemente “gráfico indexado” .
Generación de lecturas largas sintéticas (morfolecturas)
Las lecturas mutadas de cada biblioteca de extremos (lecturas de extremos) y la biblioteca interna combinada (lecturas int.) se mapearon en su ensamblaje de genoma bacteriano VG indexado correspondiente usando VG (Map) v1.14.0 con parámetros por defecto para producir un par de archivos de mapa de alineación gráfico (GAM) para cada muestra. Los datos del par de GAM de cada muestra se combinaron con información del ensamblaje de referencia sin mutar correspondiente, se procesaron mediante el uso de una herramienta personalizada y se almacenaron en una base de datos con formato HDF5 que facilita el procesamiento en paralelo para muchas de las etapas restantes que reconstruyen la secuencia de los moldes originales. El proceso de generación de morfolecturas consiste en tres fases principales: “ identificación de pared de extremo” , “ siembra” y “extensión” .
La naturaleza de los procesos usados para fragmentar el ADN diana en fragmentos largos y para generar bibliotecas de lecturas cortas finales crea una situación en donde las secuencias al final de cualquier molde original se encontrarán solamente en la segunda lectura de una biblioteca de Illumina pareada. Cuando estas lecturas se mapean en un genoma de referencia, estas parecerán apilarse repentinamente en ubicaciones correspondientes a los extremos de los moldes de ADN largos originales. Estas ubicaciones se denominan “ paredes de extremo” y se identifican mediante la búsqueda de grupos de lecturas de extremo e int. que se mapean en posiciones idénticas en el ensamblaje de referencia. Cualquier sitio que tenga al menos cinco lecturas de extremo que se mapean en el patrón descrito anteriormente se marca como pared de extremo. Las lecturas int. se usan para aumentar el recuento de mapeo en sitios que tienen entre dos y cuatro lecturas de extremo de mapeo y si el recuento total aumentado es de al menos cinco, entonces estos sitios también se marcan como paredes de extremo.
Las paredes de extremo dictan las ubicaciones en el ensamblaje de referencia en donde el algoritmo comenzará a construir lecturas largas sintéticas; sin embargo, es posible tener paredes de extremo individuales que corresponden a más de uno de los moldes de ADN originales cuando 2 o más moldes tengan ubicaciones iniciales o finales idénticas. Cada molde de ADN tendrá un patrón único de mutaciones y, por tanto, las lecturas que se originan a partir de un molde dado contendrán subconjuntos de su patrón que aparecerán como discrepancias de transición en el mapeo de VG. La etapa de “siembra” analiza estos patrones de mutaciones en las lecturas de extremo e int. en cada pared de extremo, las lecturas de agrupaciones con patrones similares conjuntamente y crean una única instancia de morfolectura corta (400­ 600 pb) para cada agrupación. Cada instancia de morfolectura incluye una representación basada en gráficos acíclicos dirigida de las lecturas mutadas mapeadas que contiene lo que se denomina “gráfico consenso” . La estructura del gráfico consenso corresponde aproximadamente a un subgráfico del gráfico indexado y las posiciones de las lecturas en el gráfico consenso corresponden a las posiciones de mapeo de las lecturas contra el gráfico indexado. Las principales diferencias entre el gráfico consenso y el subgráfico del gráfico indexado al que corresponde son que los bordes entre nodos en el gráfico consenso representan las trayectorias de lecturas mapeadas a través del gráfico indexado y siempre que tal trayectoria siga un bucle en el gráfico indexado, los nodos en ese bucle se duplican, desenrollando efectivamente el bucle en el gráfico indexado eliminando cualquier ciclo. Por tanto, los nodos individuales en el gráfico indexado corresponden a nodos potencialmente múltiples en el gráfico consenso y los bordes en el gráfico consenso frecuentemente, pero no siempre corresponden a los bordes en el gráfico indexado. El gráfico consenso almacena información sobre el ensamblaje indexado y las lecturas mutadas mapeadas de modo que pueda usarse para crear una “secuencia consenso” que corresponde a una ruta a través del gráfico indexado (es decir, no contiene ninguna mutación) y un “conjunto de mutaciones” que contiene un consenso de patrones de mutaciones halladas en todas las lecturas int. y de extremo incluidas.
Durante la fase de “extensión” , el algoritmo recorre a lo largo del gráfico consenso comenzando desde la pared de extremo y añade iterativamente las lecturas de extremo e int. a la morfolectura si coinciden con la secuencia consenso (identidad > el 90 %, solapamiento >= 100 pb), y su patrón de mutaciones comparte al menos 3 mutaciones con el conjunto de mutaciones, y contiene no más de cinco mutaciones que difieren del conjunto de mutaciones. El alto número de mutaciones diferentes es necesario para reducir los efectos de errores en lecturas individuales que se enmascaran como mutaciones y también debido a que las lecturas que se someten a prueba para la inclusión en la morfolectura podrían mapearse en nodos que se extienden más allá del final del gráfico consenso actual y pueden contener mutaciones aún no incluidas en el conjunto de mutaciones de la morfolectura. Cada vez que se incluye una nueva lectura en los nuevos nodos de morfolectura puede añadirse al gráfico consenso y, por tanto, el fragmento consenso puede volverse más largo. El algoritmo continúa recorriendo a lo largo del gráfico consenso de extensión hasta que se incorpora una lectura de extremo en la morfolectura que indica que se ha alcanzado el extremo distal del molde de a Dn largo original o no pueden encontrarse lecturas que pudieran usarse para continuar la extensión. El fragmento consenso final para cada morfolectura se escribe en un archivo FASTA y todas las morfolecturas con un tamaño menor de 500 pb se descartan. El algoritmo también produce un archivo BAM que contiene las posiciones de lecturas de extremo e int. incluidas en la secuencia consenso y algunas estadísticas resumidas para cada morfolectura.
Ensamblaje de genoma híbrido
Se combinaron morfolecturas de alta calidad junto con lecturas de referencia sin mutar en ensamblajes de genoma híbrido mediante el uso de Unicycler v0.4.6 con parámetros por defecto.
Resultados
El método de Morphoseq produjo de manera constante ensamblajes con significativamente menos andamiajes y más grandes (Kruskal Wallis, p<0,001) que los ensamblajes de sólo lectura cortos (figura 14). Para ensamblajes de Morphoseq y de sólo lectura cortos respectivamente, la mediana de longitud máxima de andamiaje como porcentaje del tamaño del genoma fue del 55,84 %frente al 10,15 %, y la mediana del número de andamiajes fue de 17 frente a 192. Pueden hallarse métricas de ensamblaje a modo de ejemplo para un genoma bacteriano en la figura 15.
Tabla 7
Figure imgf000053_0001
Índice de
Morphoseq B5 TCGGTCTGCGCCTCTAGCNNNCGCTCGCTCATATGTCTCGTGGGCTCGGAG Índice de
Morphoseq B6 TCGGTCTGCGCCTCTAGCNNNCGTATCGAATTCAGTCTCGTGGGCTCGGAG Índice de
Morphoseq B7 TCGGTCTGCGCCTCTAGCNNNATTCTTCTCGGTAGTCTCGTGGGCTCGGAG Índice de
Morphoseq B8 TCGGTCTGCGCCTCTAGCNNNCAAGTTGCAGCAGGTCTCGTGGGCTCGGAG Índice de
Morphoseq B9 TCGGTCTGCGCCTCTAGCNNNACTAATCTGGTACGTCTCGTGGGCTCGGAG Índice de
Morphoseq B10 TCGGTCTGCGCCTCTAGCNNNCAGGAAGATTAGTGTCTCGTGGGCTCGGAG Índice de
Morphoseq B11 TCGGTCTGCGCCTCTAGCNNNAATAACTAGCTTGGTCTCGTGGGCTCGGAG Índice de
Morphoseq B12 TCGGTCTGCGCCTCTAGCNNNTACGACTTACTAAGTCTCGTGGGCTCGGAG Índice de
Morphoseq C1 TCGGTCTGCGCCTCTAGCNNNCTCGGCTTCTCCTGTCTCGTGGGCTCGGAG Índice de
Morphoseq C2 TCGGTCTGCGCCTCTAGCNNNTTCCTCTCTATCAGTCTCGTGGGCTCGGAG Índice de
Morphoseq C3 TCGGTCTGCGCCTCTAGCNNNATGGATTCCTAGAGTCTCGTGGGCTCGGAG Índice de
Morphoseq C4 TCGGTCTGCGCCTCTAGCNNNTTCTTGAGTAAGGGTCTCGTGGGCTCGGAG Índice de
Morphoseq C5 TCGGTCTGCGCCTCTAGCNNNACTACTACGAAGGGTCTCGTGGGCTCGGAG Índice de
Morphoseq C6 TCGGTCTGCGCCTCTAGCNNNCATCGCTATCGTTGTCTCGTGGGCTCGGAG Índice de
Morphoseq C7 TCGGTCTGCGCCTCTAGCNNNAAGTTCCGCATTAGTCTCGTGGGCTCGGAG Índice de
Morphoseq C8 TCGGTCTGCGCCTCTAGCNNNACTTAAGTTGAAGGTCTCGTGGGCTCGGAG Índice de
Morphoseq C9 TCGGTCTGCGCCTCTAGCNNNTGAGTAATTCGACGTCTCGTGGGCTCGGAG Índice de
Morphoseq C10 TCGGTCTGCGCCTCTAGCNNNAGCTGAAGACTTAGTCTCGTGGGCTCGGAG Índice de
Morphoseq C11 TCGGTCTGCGCCTCTAGCNNNCAAGGATAGAATTGTCTCGTGGGCTCGGAG Índice de
Morphoseq C12 TCGGTCTGCGCCTCTAGCNNNAGCATGATTGCGGGTCTCGTGGGCTCGGAG Índice de
Morphoseq D1 TCGGTCTGCGCCTCTAGCNNNACCTGAAGCTGCTGTCTCGTGGGCTCGGAG Índice de
Morphoseq D2 TCGGTCTGCGCCTCTAGCNNNCATATGGTAACGTGTCTCGTGGGCTCGGAG Índice de
Morphoseq D3 TCGGTCTGCGCCTCTAGCNNNATGGAATACGCGGGTCTCGTGGGCTCGGAG Índice de
Morphoseq D4 TCGGTCTGCGCCTCTAGCNNNTCTATTACTCTCAGTCTCGTGGGCTCGGAG Índice de
Morphoseq D5 TCGGTCTGCGCCTCTAGCNNNTCGATTACTCAAGGTCTCGTGGGCTCGGAG Índice de
Morphoseq D6 TCGGTCTGCGCCTCTAGCNNNCTGCTTATATTCAGTCTCGTGGGCTCGGAG Índice de
Morphoseq D7 TCGGTCTGCGCCTCTAGCNNNTATGCCATCTAGTGTCTCGTGGGCTCGGAG Índice de
Morphoseq D8 TCGGTCTGCGCCTCTAGCNNNAATGCTTGAATGGGTCTCGTGGGCTCGGAG Índice de
Morphoseq D9 TCGGTCTGCGCCTCTAGCNNNACGTTCAGGAGATGTCTCGTGGGCTCGGAG Índice de
Morphoseq D10 TCGGTCTGCGCCTCTAGCNNNTCTTCCTAGCTTAGTCTCGTGGGCTCGGAG Índice de
Morphoseq D11 TCGGTCTGCGCCTCTAGCNNNAAGTCGGATCATGGTCTCGTGGGCTCGGAG Índice de
Morphoseq D12 TCGGTCTGCGCCTCTAGCNNNCAGAACCGGAAGAGTCTCGTGGGCTCGGAG Índice de
Morphoseq E1 TCGGTCTGCGCCTCTAGCNNNATGCTGGCTCTCGGTCTCGTGGGCTCGGAG Índice de
Morphoseq E2 TCGGTCTGCGCCTCTAGCNNNTGGCCTGATGAACGTCTCGTGGGCTCGGAG Índice de
Morphoseq E3 TCGGTCTGCGCCTCTAGCNNNAATGGACGCCAAGGTCTCGTGGGCTCGGAG Índice de
Morphoseq E4 TCGGTCTGCGCCTCTAGCNNNCTCAACTGGACCTGTCTCGTGGGCTCGGAG Índice de
Morphoseq E5 TCGGTCTGCGCCTCTAGCNNNAATTCATCGTCTGGTCTCGTGGGCTCGGAG Índice de
Morphoseq E6 TCGGTCTGCGCCTCTAGCNNNTCGGACTAAGGTAGTCTCGTGGGCTCGGAG Índice de
Morphoseq E7 TCGGTCTGCGCCTCTAGCNNNCGAAGCTCCTCCAGTCTCGTGGGCTCGGAG Índice de
Morphoseq E8 TCGGTCTGCGCCTCTAGCNNNTGCCATAGATAGCGTCTCGTGGGCTCGGAG Índice de
Morphoseq E9 TCGGTCTGCGCCTCTAGCNNNTAACTCTCGGTATGTCTCGTGGGCTCGGAG Índice de
Morphoseq E10 TCGGTCTGCGCCTCTAGCNNNAATTCTGGATCTCGTCTCGTGGGCTCGGAG Índice de
Morphoseq E11 TCGGTCTGCGCCTCTAGCNNNATTGAAGAGAGTCGTCTCGTGGGCTCGGAG Índice de
Morphoseq E12 TCGGTCTGCGCCTCTAGCNNNTCATAGGTTCTGAGTCTCGTGGGCTCGGAG Índice de
Morphoseq F1 TCGGTCTGCGCCTCTAGCNNNATCATAGTATTATGTCTCGTGGGCTCGGAG Índice de
Morphoseq F2 TCGGTCTGCGCCTCTAGCNNNCGCTGGATTCGGTGTCTCGTGGGCTCGGAG Índice de
Morphoseq F3 TCGGTCTGCGCCTCTAGCNNNTTAGCGGAATGGAGTCTCGTGGGCTCGGAG Índice de
Morphoseq F4 TCGGTCTGCGCCTCTAGCNNNAAGAAGTCGTCTGGTCTCGTGGGCTCGGAG Índice de
Morphoseq F5 TCGGTCTGCGCCTCTAGCNNNAAGAAGGAGTTACGTCTCGTGGGCTCGGAG Índice de
Morphoseq F6 TCGGTCTGCGCCTCTAGCNNNCGCTCTCGTCAGGGTCTCGTGGGCTCGGAG Índice de
Morphoseq F7 TCGGTCTGCGCCTCTAGCNNNACCGCGTTCTCTTGTCTCGTGGGCTCGGAG Índice de
Morphoseq F8 TCGGTCTGCGCCTCTAGCNNNTCCAGAAGAAGAAGTCTCGTGGGCTCGGAG Índice de
Morphoseq F9 TCGGTCTGCGCCTCTAGCNNNTCTTCGGTCCAACGTCTCGTGGGCTCGGAG Índice de
Morphoseq F10 TCGGTCTGCGCCTCTAGCNNNATATGCCAATAACGTCTCGTGGGCTCGGAG Índice de
Morphoseq F11 TCGGTCTGCGCCTCTAGCNNNTCTATCGTAAGTCGTCTCGTGGGCTCGGAG Índice de
Morphoseq F12 TCGGTCTGCGCCTCTAGCNNNTGCTAAGGTCTTCGTCTCGTGGGCTCGGAG Índice de
Morphoseq G1 TCGGTCTGCGCCTCTAGCNNNAGGACCAAGGCTCGTCTCGTGGGCTCGGAG Índice de
Morphoseq G2 TCGGTCTGCGCCTCTAGCNNNTCAACGTCATGCTGTCTCGTGGGCTCGGAG Índice de
Morphoseq G3 TCGGTCTGCGCCTCTAGCNNNTTCAAGGATCAAGGTCTCGTGGGCTCGGAG Índice de
Morphoseq G4 TCGGTCTGCGCCTCTAGCNNNACGGTACTGCTTAGTCTCGTGGGCTCGGAG Índice de
Morphoseq G5 TCGGTCTGCGCCTCTAGCNNNTTCGAACCATCCGGTCTCGTGGGCTCGGAG Índice de
Morphoseq G6 TCGGTCTGCGCCTCTAGCNNNTGGATGCATGAACGTCTCGTGGGCTCGGAG Índice de
Morphoseq G7 TCGGTCTGCGCCTCTAGCNNNCTCAGAAGGTACTGTCTCGTGGGCTCGGAG Índice de
Morphoseq G8 TCGGTCTGCGCCTCTAGCNNNTGGACGGCCTTGCGTCTCGTGGGCTCGGAG Índice de
Morphoseq G9 TCGGTCTGCGCCTCTAGCNNNAATCGTATAGCAAGTCTCGTGGGCTCGGAG Índice de
Morphoseq G10 TCGGTCTGCGCCTCTAGCNNNTACGGCAAGCTATGTCTCGTGGGCTCGGAG Índice de
Morphoseq G11 TCGGTCTGCGCCTCTAGCNNNCAACCAAGGAAGCGTCTCGTGGGCTCGGAG Índice de
Morphoseq G12 TCGGTCTGCGCCTCTAGCNNNTGCGAATAATGCGGTCTCGTGGGCTCGGAG Índice de
Morphoseq H1 TCGGTCTGCGCCTCTAGCNNNATCTCTTAAGAATGTCTCGTGGGCTCGGAG Índice de
Morphoseq H2 TCGGTCTGCGCCTCTAGCNNNAAGATATGATTAAGTCTCGTGGGCTCGGAG Índice de
Morphoseq H3 TCGGTCTGCGCCTCTAGCNNNATCTCAATAATAAGTCTCGTGGGCTCGGAG
Índice de
Morphoseq H4 TCGGTCTGCGCCTCTAGCNNNCTGCATCTATGGAGTCTCGTGGGCTCGGAG
Índice de
Morphoseq H5 TCGGTCTGCGCCTCTAGCNNNAGGAGTCTTAGCAGTCTCGTGGGCTCGGAG
Índice de
Morphoseq H6 TCGGTCTGCGCCTCTAGCNNNAATAGGACTCTGCGTCTCGTGGGCTCGGAG
Índice de
Morphoseq H7 TCGGTCTGCGCCTCTAGCNNNTCTTACGTTGCCGGTCTCGTGGGCTCGGAG
Índice de
Morphoseq H8 TCGGTCTGCGCCTCTAGCNNNTGGCATGAAGTATGTCTCGTGGGCTCGGAG
Índice de
Morphoseq H9 TCGGTCTGCGCCTCTAGCNNNCAATATGCCAGGTGTCTCGTGGGCTCGGAG
Índice de
Morphoseq H10 TCGGTCTGCGCCTCTAGCNNNCATAAGGAGGTAAGTCTCGTGGGCTCGGAG
Índice de
Morphoseq H11 TCGGTCTGCGCCTCTAGCNNNACGGTAAGCAAGCGTCTCGTGGGCTCGGAG
Índice de
Morphoseq H12 TCGGTCTGCGCCTCTAGCNNNAACTGCTTCGATCGTCTCGTGGGCTCGGAG Recuperación CAAGCAGAAGACGGCATACGAGATTCGGTCTGCGCCTCTAGC Recuperación Enriquecimiento CAAGCAGAAGACGGCATACGA Enriquecimiento Preparación de Extremo de índice AATGATACGGCGACCACCGAGATCTACACAAGTTCNNNNNNTCGTCGGCAGCG la biblioteca de i5 personalizado TC extremos Preparación de Interior de índice i7 la biblioteca personalizado CAAGCAGAAGACGGCATACGAGATNNNNNNTTAGGAGTCTCGTGGGCTCGG interna Interior de índice i5 AATGATACGGCGACCACCGAGATCTACACTAACCGNNNNNNTCGTCGGCAGCG personalizado TC
Preparación de la biblioteca de Índice 1 i7 referencia sin personalizado CAAGCAGAAGACGGCATACGAGATNNNNNNCTACCTGTCTCGTGGGCTCGG mutar Índice 2 i7
personalizado CAAGCAGAAGACGGCATACGAGATNNNNNNTCTGAAGTCTCGTGGGCTCGG
Índice 3 i7
personalizado CAAGCAGAAGACGGCATACGAGATNNNNNNAATACGGTCTCGTGGGCTCGG
Índice 4 i7
personalizado CAAGCAGAAGACGGCATACGAGATNNNNNNATACTCGTCTCGTGGGCTCGG
Índice 5 i7
personalizado CAAGCAGAAGACGGCATACGAGATNNNNNNAGGAGCGTCTCGTGGGCTCGG
Índice 6 i7
personalizado CAAGCAGAAGACGGCATACGAGATNNNNNNAAGTTCGTCTCGTGGGCTCGG
Índice 7 i7
personalizado CAAGCAGAAGACGGCATACGAGATNNNNNNTATAGTGTCTCGTGGGCTCGG
Índice 8 i7
personalizado CAAGCAGAAGACGGCATACGAGATNNNNNNCGGAATGTCTCGTGGGCTCGG
Índice 9 i7
personalizado CAAGCAGAAGACGGCATACGAGATNNNNNNGGAACGGTCTCGTGGGCTCGG
Índice 10 i7
personalizado CAAGCAGAAGACGGCATACGAGATNNNNNNGGCTTGGTCTCGTGGGCTCGG
Índice 11 i7
personalizado CAAGCAGAAGACGGCATACGAGATNNNNNNAGGCCTGTCTCGTGGGCTCGG
Índice 12 i7
personalizado CAAGCAGAAGACGGCATACGAGATNNNNNNCTTGCCGTCTCGTGGGCTCGG
Índice 13 i7
personalizado CAAGCAGAAGACGGCATACGAGATNNNNNNTAGCGCGTCTCGTGGGCTCGG
Índice 14 i7
personalizado CAAGCAGAAGACGGCATACGAGATNNNNNNGACCGGGTCTCGTGGGCTCGG
Índice 15 i7
personalizado CAAGCAGAAGACGGCATACGAGATNNNNNNCCATGAGTCTCGTGGGCTCGG
Índice 16 i7
personalizado CAAGCAGAAGACGGCATACGAGATNNNNNNTTGGAGGTCTCGTGGGCTCGG
Índice 17 i7
personalizado CAAGCAGAAGACGGCATACGAGATNNNNNNGCCTGCGTCTCGTGGGCTCGG
Índice 18 i7
personalizado CAAGCAGAAGACGGCATACGAGATNNNNNNGGCAACGTCTCGTGGGCTCGG
Índice 19 i7 CAAGCAGAAGACGGCATACGAGATNNNNNNTAACCGGTCTCGTGGGCTCGG personalizado
Índice 20 i7
personalizado CAAGCAGAAGACGGCATACGAGATNNNNNNCGCGAGGTCTCGTGGGCTCGG
Indice 21 i7
personalizado CAAGCAGAAGACGGCATACGAGATNNNNNNAACCATGTCTCGTGGGCTCGG
Índice 22 i7
personalizado CAAGCAGAAGACGGCATACGAGATNNNNNNTCATACGTCTCGTGGGCTCGG
Índice 23 i7
personalizado CAAGCAGAAGACGGCATACGAGATNNNNNNACGGTTGTCTCGTGGGCTCGG
Índice 24 i7
personalizado CAAGCAGAAGACGGCATACGAGATNNNNNNGGTTCTGTCTCGTGGGCTCGG
Índice 1 i5 AATGATACGGCGACCACCGAGATCTACACTTAGGANNNNNNTCGTCGGCAGCG personalizado TC
Índice 2 i5 AATGATACGGCGACCACCGAGATCTACACAGGAGCNNNNNNTCGTCGGCAGC personalizado GTC
Índice 3 i5 AATGATACGGCGACCACCGAGATCTACACACGGTTNNNNNNTCGTCGGCAGCG personalizado TC
Índice 4 i5 AATGATACGGCGACCACCGAGATCTACACGCCTGCNNNNNNTCGTCGGCAGCG personalizado TC
Índice 5 i5 AATGATACGGCGACCACCGAGATCTACACTAGCGCNNNNNNTCGTCGGCAGCG personalizado TC
Índice 6 i5 AATGATACGGCGACCACCGAGATCTACACGGTTCTNNNNNNTCGTCGGCAGCG personalizado TC
Índice 7 i5 AATGATACGGCGACCACCGAGATCTACACAGGCCTNNNNNNTCGTCGGCAGCG personalizado TC
Índice 8 i5 AATGATACGGCGACCACCGAGATCTACACCTTGCCNNNNNNTCGTCGGCAGCG personalizado TC
Índice 9 i5 AATGATACGGCGACCACCGAGATCTACACCTACCTNNNNNNTCGTCGGCAGCG personalizado TC
Índice 10 i5 AATGATACGGCGACCACCGAGATCTACACTCATACNNNNNNTCGTCGGCAGCG personalizado TC
Índice 11 i5 AATGATACGGCGACCACCGAGATCTACACGTCGCGNNNNNNTCGTCGGCAGCG personalizado TC
Índice 12 i5 AATGATACGGCGACCACCGAGATCTACACAACCATNNNNNNTCGTCGGCAGCG personalizado TC
Índice 13 i5 AATGATACGGCGACCACCGAGATCTACACCTGGTANNNNNNTCGTCGGCAGCG personalizado TC
Índice 14 i5 AATGATACGGCGACCACCGAGATCTACACGACCGGNNNNNNTCGTCGGCAGC personalizado GTC
Índice 15 i5 AATGATACGGCGACCACCGAGATCTACACCGGAATNNNNNNTCGTCGGCAGCG personalizado TC
Índice 16 i5 AATGATACGGCGACCACCGAGATCTACACTATAGTNNNNNNTCGTCGGCAGCG personalizado TC
Índice 17 i5 AATGATACGGCGACCACCGAGATCTACACCAATATNNNNNNTCGTCGGCAGCG personalizado TC
Índice 18 i5 AATGATACGGCGACCACCGAGATCTACACGGCTTGNNNNNNTCGTCGGCAGCG personalizado TC
Índice 19 i5 AATGATACGGCGACCACCGAGATCTACACAATACGNNNNNNTCGTCGGCAGCG personalizado TC
Índice 20 i5 AATGATACGGCGACCACCGAGATCTACACCCATGANNNNNNTCGTCGGCAGCG personalizado TC
Índice 21 i5 AATGATACGGCGACCACCGAGATCTACACTCTGAANNNNNNTCGTCGGCAGCG personalizado TC
Índice 22 i5 AATGATACGGCGACCACCGAGATCTACACGGCAACNNNNNNTCGTCGGCAGC personalizado GTC
Índice 23 i5 AATGATACGGCGACCACCGAGATCTACACATACTCNNNNNNTCGTCGGCAGCG personalizado TC
Índice 24 i5 AATGATACGGCGACCACCGAGATCTACACTTGGAGNNNNNNTCGTCGGCAGCG personalizado TC
Tabla S2: Cebadores usados en este estudio.
a. Las secuencias de etiqueta de muestra se muestran en negrita.
b. Se usó Un cebador de índice de Morphoseq único para cada muestra durante la PCR de mutagénesis
c. Se usó Una combinación única de cebadores de índice i7 personalizado y de índice i5 personalizado para cada biblioteca de referencia sin mutar.

Claims (4)

    REIVINDICACIONESUn método para determinar una secuencia de al menos una molécula de ácido nucleico molde diana, que comprende:(a) proporcionar un par de muestras, comprendiendo cada muestra al menos una molécula de ácido nucleico molde diana;(b) secuenciar regiones de al menos una molécula de ácido nucleico molde diana en una primera del par de muestras para proporcionar lecturas de secuencias no mutadas;(c) introducir mutaciones en la al menos una molécula de ácido nucleico molde diana en una segunda del par de muestras para proporcionar al menos una molécula de ácido nucleico molde diana mutada;(d) secuenciar regiones de la al menos una molécula de ácido nucleico molde diana mutada para proporcionar lecturas de secuencias mutadas;(e) analizar las lecturas de secuencias mutadas, y usar la información obtenida a partir del análisis de las lecturas de secuencias mutadas para ensamblar una secuencia para al menos una porción de al menos una molécula de ácido nucleico molde diana a partir de las lecturas de secuencias no mutadas;en donde la etapa (e) comprende preparar un gráfico de ensamblaje, en donde el gráfico de ensamblaje comprende nodos calculados a partir de lecturas de secuencias no mutadas, y cada ruta válida a través del gráfico de ensamblaje que comprende los nodos representa la secuencia de al menos una porción de al menos una molécula de ácido nucleico molde diana;en donde usar información obtenida del análisis de las lecturas de secuencias mutadas para ensamblar una secuencia para al menos una porción de al menos una molécula de ácido nucleico molde diana a partir de las lecturas de secuencias no mutadas comprende identificar nodos que forman parte de una ruta válida a través del gráfico de ensamblaje mediante el uso de información obtenida mediante el análisis de las lecturas de secuencias mutadas; yen donde identificar nodos que forman parte de una ruta válida a través del gráfico de ensamblaje mediante el uso de la información obtenida al analizar las lecturas de secuencias mutadas comprende:(i) calcular nodos a partir de lecturas de secuencias no mutadas;(ii) mapear las lecturas de secuencias mutadas en el gráfico de ensamblaje;(iii) identificar lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma al menos una molécula de ácido nucleico molde diana mutada; y(iv) identificar nodos que se unen por lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma al menos una molécula de ácido nucleico molde diana mutada,en donde los nodos que se unen por lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma al menos una molécula de ácido nucleico molde diana mutada forman parte de una ruta válida a través del gráfico de ensamblaje.Un método implementado por ordenador para generar una secuencia de al menos una molécula de ácido nucleico molde diana, que comprende:(a) obtener datos que comprenden:(i) lecturas de secuencias no mutadas; y(ii) lecturas de secuencias mutadas;(b) analizar las lecturas de secuencias mutadas, y usar la información obtenida a partir del análisis de las lecturas de secuencias mutadas para ensamblar una secuencia para al menos una porción de al menos una molécula de ácido nucleico molde diana a partir de las lecturas de secuencias no mutadas;en donde la etapa (b) comprende preparar un gráfico de ensamblaje, en donde el gráfico de ensamblaje comprende nodos calculados a partir de lecturas de secuencias no mutadas, y cada ruta válida a través del gráfico de ensamblaje que comprende los nodos representa la secuencia de al menos una porción de al menos una molécula de ácido nucleico molde diana;en donde usar información obtenida del análisis de las lecturas de secuencias mutadas para ensamblar una secuencia para al menos una porción de al menos una molécula de ácido nucleico molde diana a partir de las lecturas de secuencias no mutadas comprende identificar nodos que forman parte de una ruta válida a través del gráfico de ensamblaje mediante el uso de información obtenida mediante el análisis de las lecturas de secuencias mutadas; y en donde identificar nodos que forman parte de una ruta válida a través del gráfico de ensamblaje mediante el uso de la información obtenida al analizar las lecturas de secuencias mutadas comprende:(i) calcular nodos a partir de lecturas de secuencias no mutadas;(ii) mapear las lecturas de secuencias mutadas en el gráfico de ensamblaje;(iii) identificar lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma al menos una molécula de ácido nucleico molde diana mutada; y(iv) identificar nodos que se unen por lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma al menos una molécula de ácido nucleico molde diana mutada,en donde los nodos que se unen por lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma al menos una molécula de ácido nucleico molde diana mutada forman parte de una ruta válida a través del gráfico de ensamblaje.El método según la reivindicación 1 o 2, en donde los nodos son unitigos, y/o en donde se ensambla una secuencia para al menos una porción de al menos una molécula de ácido nucleico molde diana a partir de nodos que forman parte de una ruta válida a través del gráfico de ensamblaje.El método según la reivindicación 1 o 3, en donde el par de muestras se tomaron de la misma muestra original o se derivan del mismo organismo.El método según la reivindicación 2 o 3, en donde las lecturas de secuencias no mutadas comprenden secuencias de regiones de al menos una molécula de ácido nucleico molde diana en una primera de un par de muestras, las lecturas de secuencias mutadas comprenden secuencias de regiones de al menos una molécula de ácido nucleico molde diana mutada en una segunda de un par de muestras, y el par de muestras se tomaron de la misma muestra original o se derivan del mismo organismo.El método según una cualquiera de las reivindicaciones anteriores, en donde el método no comprende ensamblar una secuencia a partir de lecturas de secuencias mutadas, y/o en donde el método no comprende ensamblar una secuencia para al menos una molécula de ácido nucleico molde diana mutada, o una gran porción de al menos una molécula de ácido nucleico molde diana mutada.El método según una cualquiera de las reivindicaciones anteriores, en donde:(A) las lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma molécula molde de ácido nucleico diana mutada se asignan en grupos;(B) es probable que las lecturas de secuencias mutadas se hayan originado a partir de la misma molécula de ácido nucleico molde diana mutada si comparten patrones de mutaciones comunes, opcionalmente en donde las lecturas de secuencias mutadas que comparten patrones de mutaciones comunes comprenden al menos 1, al menos 2, al menos 3, al menos 4, al menos 5 o al menos k meros distintivos comunes y/o mutaciones distintivas comunes, opcionalmente (i) en donde k meros distintivos son k meros que no aparecen en las lecturas de secuencias no mutadas, pero aparecen al menos dos veces, al menos tres veces, al menos cuatro veces, al menos cinco veces o al menos diez veces en las lecturas de secuencias mutadas; o(ii) en donde las mutaciones distintivas son nucleótidos que aparecen al menos dos veces, al menos tres veces, al menos cuatro veces, al menos cinco veces o al menos diez veces en las lecturas de secuencias mutadas y no aparecen en una posición correspondiente en las lecturas de secuencias no mutadas, opcionalmente, en donde las mutaciones distintivas son mutaciones que se producen simultáneamente, y/o en donde las mutaciones distintivas se descartan si al menos 1, al menos 2, al menos 3 o al menos 5 nucleótidos en las posiciones correspondientes en lecturas de secuencias mutadas que comparten las mutaciones distintivas difieren entre sí, y/o en donde las mutaciones distintivas se descartan si son mutaciones inesperadas, y/o en donde la etapa de identificar lecturas de secuencias mutadas que es probable que haberse originado a partir de la misma al menos una molécula de ácido nucleico molde diana mutada comprende identificar lecturas de secuencias mutadas que corresponden a una región específica de la al menos una molécula de ácido nucleico molde diana;(C) analizar las lecturas de secuencias mutadas comprende identificar lecturas de secuencias mutadas que comparten patrones de mutaciones comunes, opcionalmente, en donde las lecturas de secuencias mutadas que comparten patrones de mutaciones comunes comprenden al menos 1, al menos 2, al menos 3, al menos 4, al menos 5 o al menos k mutaciones distintivas comunes y/o k meros distintivos comunes, opcionalmente (i) en donde k meros distintivos son k meros que no aparecen en las lecturas de secuencias no mutadas, pero aparecen al menos dos veces, al menos tres veces, al menos cuatro veces, al menos cinco veces o al menos diez veces en las lecturas de secuencias mutadas; o(ii) en donde las mutaciones distintivas son nucleótidos que aparecen al menos dos veces, al menos tres veces, al menos cuatro veces, al menos cinco veces o al menos diez veces en las lecturas de secuencias mutadas y no aparecen en una posición correspondiente en las lecturas de secuencias no mutadas, opcionalmente, en donde las mutaciones distintivas son mutaciones que se producen simultáneamente, y/o en donde las mutaciones distintivas se descartan si al menos 1, al menos 2, al menos 3 o al menos 5 nucleótidos en las posiciones correspondientes en lecturas de secuencias mutadas que comparten las mutaciones distintivas difieren entre sí, y/o en donde las mutaciones distintivas se descartan si son mutaciones inesperadas, y/o en donde la etapa de identificar lecturas de secuencias mutadas que es probable que haberse originado a partir de la misma al menos una molécula de ácido nucleico molde diana mutada comprende identificar lecturas de secuencias mutadas que corresponden a una región específica de la al menos una molécula de ácido nucleico molde diana;(D) es probable que las lecturas de secuencias mutadas se hayan originado a partir de la misma molécula de ácido nucleico molde diana mutada si la razón de probabilidades de la probabilidad de que las lecturas de secuencias mutadas se hayan originado a partir de la misma molécula de ácido nucleico molde diana mutada: la probabilidad de que las lecturas de secuencias mutadas no se originen a partir de la misma molécula de ácido nucleico molde diana mutada supera un umbral, opcionalmente, en donde es probable que las lecturas de secuencias mutadas se hayan originado a partir de la misma molécula de ácido nucleico molde diana mutada si la razón de probabilidades para una primera lectura de secuencia mutada y una segunda lectura de secuencia mutada es mayor que para la primera lectura de secuencia mutada y otras lecturas de secuencias mutadas que se mapean en la misma región del gráfico de ensamblaje, y/o en donde el umbral se determina basándose en uno o más de los siguientes factores:(i) la rigurosidad requerida; y/o(ii) la tasa de errores de la etapa de secuenciar regiones de la al menos una molécula de ácido nucleico molde diana mutada para proporcionar lecturas de secuencias mutadas; y/o(iii) la tasa de mutaciones usada en la etapa de introducir mutaciones en la al menos una molécula de ácido nucleico molde diana; y/o(iv) el tamaño de la al menos una molécula de ácido nucleico molde diana; y/o(v) restricciones de tiempo; y/o(vi) restricciones de recursos;(E) identificar lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma molécula de ácido nucleico molde diana mutada comprende usar una función de probabilidad basada en los siguientes parámetros:a. una matriz (N) de nucleótidos en cada posición de las lecturas de secuencias mutadas y el gráfico de ensamblaje;b. una probabilidad (M) de que un nucleótido dado (i) se mutase para leer el nucleótido (j); c. una probabilidad (E) de que un nucleótido dado (i) se leyese de manera errónea para leer el nucleótido (j) condicionado en el nucleótido que se ha leído de manera errónea; y d. una probabilidad (Q) de que un nucleótido en la posición Y se leyese de manera errónea, opcionalmente, en donde el valor de Q se obtiene mediante la realización de un análisis estadístico en las lecturas de secuencias mutadas y no mutadas, o se obtiene basándose en el conocimiento previo de la exactitud del método de secuenciación, y/o en donde los valores de M y E se estiman basándose en un análisis estadístico llevado a cabo en un subconjunto de lecturas de secuencias mutadas y lecturas de secuencias no mutadas, en donde el subconjunto incluye lecturas de secuencias mutadas y lecturas de secuencias no mutadas que se seleccionan ya que se mapean en la misma región del gráfico de ensamblaje, opcionalmente, en donde el análisis estadístico se lleva a cabo mediante el uso de inferencia bayesiana, un método de Monte Carlo tal como Monte Carlo hamiltoniano, inferencia variacional, o un análogo de probabilidad máxima de inferencia bayesiana;(F) identificar lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma molécula molde de ácido nucleico diana mutada comprende usar redes neurales o de aprendizaje automático; y/o (G) el método comprende una etapa de preagrupamiento, opcionalmente
  1. (1) en donde identificar lecturas de secuencias mutadas que es probable se hayan originado a partir de la misma molécula de ácido nucleico molde diana mutada está restringido por los resultados de la etapa de preagrupamiento;
  2. (2) en donde la etapa de preagrupamiento comprende asignar lecturas de secuencias mutadas en grupos, en donde cada miembro del mismo grupo tiene una probabilidad razonable de haberse originado a partir de la misma molécula de ácido nucleico molde diana mutada;
  3. (3) en donde la etapa de preagrupamiento comprende la agrupación de Markov o la agrupación de Louvain; y/o
  4. (4) en donde cada miembro del mismo grupo se mapea en una ubicación común en el gráfico de ensamblaje, y/o comparte un patrón de mutaciones común, opcionalmente en donde las lecturas de secuencias mutadas que comparten patrones de mutaciones comunes son lecturas de secuencias mutadas que comprenden al menos 1, al menos 2, al menos 3, al menos 4, al menos 5 o al menos k mutaciones distintivas comunes y/p k meros distintivos comunes, opcionalmente
    (a) en donde k meros distintivos son k meros que no aparecen en las lecturas de secuencias no mutadas, pero aparecen al menos dos veces, al menos tres veces, al menos cuatro veces, al menos cinco veces o al menos diez veces en las lecturas de secuencias mutadas, o
    (b) en donde las mutaciones distintivas son nucleótidos que aparecen al menos dos veces, al menos tres veces, al menos cuatro veces, al menos cinco veces o al menos diez veces en las lecturas de secuencias mutadas y no aparecen en una posición correspondiente en las lecturas de secuencias no mutadas, opcionalmente
    (i) en donde las mutaciones distintivas son mutaciones que se producen simultáneamente;
    (ii) en donde las mutaciones distintivas se descartan si al menos 1, al menos 2, al menos 3 o al menos 5 nucleótidos en las posiciones correspondientes en lecturas de secuencias mutadas que comparten las mutaciones distintivas difieren entre sí;
    (iii) en donde las mutaciones distintivas se descartan si son mutaciones inesperadas; y/o
    (iv) en donde la etapa de identificar lecturas de secuencias mutadas que es probable que se hayan originado a partir de la misma al menos una molécula de ácido nucleico molde diana mutada comprende identificar lecturas de secuencias mutadas que corresponden a una región específica de la al menos una molécula de ácido nucleico molde diana.
    El método según una cualquiera de las reivindicaciones anteriores, en donde:
    (i) el método comprende secuenciar los extremos de la al menos una molécula de ácido nucleico molde diana mediante el uso de secuenciación de ambos extremos;
    (ii) el método comprende mapear las secuencias de los extremos de la al menos una molécula de ácido nucleico molde diana en un gráfico de ensamblaje;
    (iii) la al menos una molécula de ácido nucleico molde diana comprende un código de barras en cada extremo, opcionalmente en donde el método comprende mapear las secuencias de los extremos de la al menos una molécula de ácido nucleico molde diana en un gráfico de ensamblaje y sustancialmente cada extremo comprende un código de barras;
    (iv) identificar nodos que forman parte de una ruta válida a través del gráfico de ensamblaje comprende descartar supuestas rutas que tienen extremos con apareamiento erróneo;
    (v) identificar los nodos que forman parte de una ruta válida a través del gráfico de ensamblaje comprende descartar supuestas rutas que son resultado de la colisión de moldes;
    (vi) identificar nodos que forman parte de una ruta válida a través del gráfico de ensamblaje comprende descartar supuestas rutas que sean más largas o más cortas que las esperadas; y/o (vii) identificar nodos que forman parte de una ruta válida a través del gráfico de ensamblaje comprende descartar supuestas rutas que tienen una profundidad de cobertura atípica.
    El método según una cualquiera de las reivindicaciones anteriores, en donde:
    (i) la al menos una molécula de ácido nucleico molde diana mutada comprende entre el 1 % y el 50 %, entre el 3 % y el 25 %, entre el 5 % y el 20 %, o aproximadamente el 8 % de mutaciones; (ii) la al menos una molécula de ácido nucleico molde diana mutada comprende mutaciones distribuidas de manera no uniforme;
    (iii) las lecturas de secuencias mutadas y/o las lecturas de secuencias no mutadas comprenden errores de secuenciación que se distribuyen de manera no uniforme;
    (iv) la etapa de introducir mutaciones en la al menos una molécula de ácido nucleico molde diana mutada introduce mutaciones que se distribuyen de manera no uniforme;
    (v) la etapa de secuenciar regiones de la al menos una molécula de ácido nucleico molde diana y/o secuenciar regiones de la al menos una molécula de ácido nucleico molde diana mutada introduce errores de secuenciación que se distribuyen de manera no uniforme;
    (vii) la al menos una molécula de ácido nucleico molde diana mutada comprende un patrón de mutaciones sustancialmente al azar; y/o
    (viii) se proporcionan múltiples pares de muestras, opcionalmente en donde la al menos una molécula de ácido nucleico molde diana en diferentes pares de muestras se marcan con diferentes etiquetas de muestra.
    El método según una cualquiera de las reivindicaciones 1 o 3-9, que comprende además:
    (i) una etapa de amplificar la al menos una molécula de ácido nucleico molde diana en la primera del par de muestras antes de la etapa de secuenciar regiones de la al menos una molécula de ácido nucleico molde diana;
    (ii) una etapa de amplificar la al menos una molécula de ácido nucleico molde diana en la segunda del par de muestras antes de la etapa de secuenciar regiones de la al menos una molécula de ácido nucleico molde diana mutada;
    (iii) una etapa de fragmentar la al menos una molécula de ácido nucleico molde diana en una primera del par de muestras antes de la etapa de secuenciar regiones de la al menos una molécula de ácido nucleico molde diana; y/o
    (iv) una etapa de fragmentar la al menos una molécula de ácido nucleico molde diana o la al menos una molécula de ácido nucleico molde diana mutada en una segunda del par de muestras antes de la etapa de secuenciar regiones de la al menos una molécula de ácido nucleico molde diana mutada.
    El método según una cualquiera de las reivindicaciones anteriores, en donde la al menos una molécula de ácido nucleico molde diana es mayor de 2 kpb, mayor de 4 kpb, mayor de 5 kpb, mayor de 7 kpb, mayor de 8 kpb, menor de 200 kpb, menor de 100 kpb, menor de 50 kpb, entre 2 kpb y 200 kpb, o entre 5 kpb y 100 kpb.
    El método según una cualquiera de las reivindicaciones 1 o 3-11, en donde la etapa de introducir mutaciones en la al menos una molécula de ácido nucleico molde diana en una segunda del par de muestras se lleva a cabo mediante mutagénesis química o mutagénesis enzimática, opcionalmente, en donde la mutagénesis enzimática se lleva a cabo mediante el uso de una ADN polimerasa, opcionalmente, en donde la ADN polimerasa es una ADN polimerasa de bajo sesgo, opcionalmente, en donde
    (i) la ADN polimerasa de bajo sesgo introduce mutaciones de sustitución;
    (ii) la ADN polimerasa de bajo sesgo muta nucleótidos de adenina, timina, guanina y citosina en la al menos una molécula de ácido nucleico molde diana a una razón de tasa de 0,5- 1,5:0,5-1,5:0,5-1,5:0,5-1,5, 0,6-1,4:0,6-1,4:0,6-1,4:0,6-1,4, 0,7-1,3:0,7-1,3:0,7-1,3:0,7-1,3, 0,8-1,2:0,8-1,2:0,8-1,2:0,8-1,2, o aproximadamente 1:1:1:1, respectivamente, en donde, opcionalmente, la ADN polimerasa de bajo sesgo muta nucleótidos de adenina, timina, guanina y citosina en la al menos una molécula de ácido nucleico molde diana a una razón de tasa de 0,7-1,3:0,7-1,3:0,7-1,3:0,7-1,3, respectivamente;
    (iii) la ADN polimerasa de bajo sesgo muta entre el 1 % y el 15 %, entre el 2 % y el 10 %, o aproximadamente el 8 % de los nucleótidos en la al menos una molécula de ácido nucleico molde diana;
    (iv) la ADN polimerasa de bajo sesgo muta entre el 0 % y el 3 %, o entre el 0 % y el 2 % de los nucleótidos en la al menos una molécula de ácido nucleico molde diana por tanda de replicación;
    (v) la ADN polimerasa de bajo sesgo incorpora análogos de nucleótido en la al menos una molécula de ácido nucleico molde diana;
    (vi) la ADN polimerasa de bajo sesgo muta adenina, timina, guanina y/o citosina en la al menos una molécula de ácido nucleico molde diana mediante el uso de un análogo de nucleótido; (vii) la ADN polimerasa de bajo sesgo reemplaza guanina, citosina, adenina y/o timina por un análogo de nucleótido;
    (viii) la ADN polimerasa de bajo sesgo introduce nucleótidos de guanina o adenina mediante el uso de un análogo de nucleótido a una razón de tasa de 0,5-1,5:0,5-1,5, 0,6-1,4:0,6-1,4, 0,7-1,3:0,7-1,3, 0,8- 1,2:0,8-1,2, o aproximadamente 1:1, respectivamente;
    (ix) la ADN polimerasa de bajo sesgo introduce nucleótidos de guanina o adenina mediante el uso de un análogo de nucleótido en una razón de tasa de 0,7-1,3:0,7-1,3, respectivamente; (x) el método comprende una etapa de amplificar la al menos una molécula de ácido nucleico molde diana en una segunda del par de muestras mediante el uso de una ADN polimerasa de bajo sesgo, la etapa de amplificar la al menos una molécula de ácido nucleico molde diana mediante el uso de una ADN polimerasa de bajo sesgo se lleva a cabo en presencia del análogo de nucleótido, y la etapa de amplificar la al menos una molécula de ácido nucleico molde diana proporciona al menos una molécula de ácido nucleico molde diana en una segunda del par de muestras que comprenden¡ el análogo de nucleótido;
    (xi) el análogo de nucleótido es dPTP, opcionalmente en donde la ADN polimerasa de bajo sesgo introduce mutaciones de sustitución de guanina a adenina, mutaciones de sustitución de citosina a timina, mutaciones de sustitución de adenina a guanina, mutaciones de sustitución de adenina a guanina, y mutaciones de sustitución de timina a citosina, opcionalmente en donde la ADN polimerasa de bajo sesgo introduce mutaciones de sustitución de guanina a adenina, mutaciones de sustitución de citosina a timina, mutaciones de sustitución de adenina a guanina, mutaciones de sustitución de adenina a guanina, y mutaciones de sustitución de timina a citosina en una razón de tasa de 0,5- 1,5:0,5-1,5:0,5-1,5:0,5-1,5, 0,6-1,4:0,6-1,4:0,6-1,4:0,6-1,4, 0,7-1,3:0,7-1,3:0,7-1,3:0,7-1,3, 0,8-1,2:0,8-1,2:0,8-1,2:0,8-1,2, o aproximadamente 1:1:1:1, respectivamente, y/o en donde la a Dn polimerasa de bajo sesgo introduce mutaciones de sustitución de guanina a adenina, mutaciones de sustitución de citosina a timina, mutaciones de sustitución de adenina a guanina y mutaciones de sustitución de timina a citosina en una razón de tasa de 0,7-1,3:0,7-1,3:0,7-1,3:0,7-1,3, respectivamente;
    (xii) la ADN polimerasa de bajo sesgo es una ADN polimerasa de alta fidelidad, opcionalmente, en donde, en ausencia de análogos de nucleótido, la ADN polimerasa de alta fidelidad introduce menos del 0,01 %, menos del 0,0015 %, menos del 0,001 %, entre el 0 % y el 0,0015 %, o entre el 0 % y el 0,001 % de mutaciones por tanda de replicación, y/o en donde el método comprende una etapa adicional de amplificar la al menos una molécula de ácido nucleico molde diana que comprende análogos de nucleótido en ausencia de análogos de nucleótido, opcionalmente en donde la etapa de amplificar la al menos una molécula de ácido nucleico molde diana que comprende análogos de nucleótido en ausencia de análogos de nucleótido se lleva a cabo mediante el uso de la ADN polimerasa de bajo sesgo, y/o en donde el método proporciona al menos una molécula de ácido nucleico molde diana mutada y el método comprende además una etapa adicional de amplificar la al menos una molécula de ácido nucleico molde diana mutada mediante el uso de la ADN polimerasa de bajo sesgo;
    (xiii) la ADN polimerasa de bajo sesgo tiene bajo sesgo de amplificación de molde;
    (xiv) la ADN polimerasa de bajo sesgo comprende un dominio de prueba de lectura y/o un dominio de mejora de la procesabilidad;
    (xv) la ADN polimerasa de bajo sesgo comprende un fragmento de al menos 400, al menos 500, al menos 600, al menos 700 o al menos 750 aminoácidos contiguos de:
    a. una secuencia de SEQ ID NO. 2;
    b. una secuencia idéntica en al menos el 95 %, al menos el 98 % o al menos el 99 % a la SEQ ID NO. 2;
    c. una secuencia de SEQ ID NO. 4;
    d. una secuencia idéntica en al menos el 95 %, al menos el 98 % o al menos el 99 % a la SEQ ID NO. 4;
    e. una secuencia de SEQ ID NO. 6;
    f. una secuencia idéntica en al menos el 95 %, al menos el 98 % o al menos el 99 % a la SEQ ID NO. 6;
    g. una secuencia de SEQ ID NO. 7; o
    h. una secuencia idéntica en al menos el 95 %, al menos el 98 % o al menos el 99 % a la SEQ ID NO. 7, opcionalmente
    en donde la ADN polimerasa de bajo sesgo comprende:
    a. una secuencia de SEQ ID NO. 2;
    b. una secuencia idéntica en al menos el 95 %, al menos el 98 % o al menos el 99 % a la SEQ ID NO. 2;
    c. una secuencia de SEQ ID NO. 4;
    d. una secuencia idéntica en al menos el 95 %, al menos el 98 % o al menos el 99 % a la SEQ ID NO. 4;
    e. una secuencia de SEQ ID NO. 6;
    f. una secuencia idéntica en al menos el 95 %, al menos el 98 % o al menos el 99 % a la SEQ ID NO. 6;
    g. una secuencia de SEQ ID NO. 7; o
    h. una secuencia idéntica en al menos el 95 %, al menos el 98 % o al menos el 99 % a la SEQ ID NO. 7,
    opcionalmente, en donde la ADN polimerasa de bajo sesgo comprende una secuencia idéntica en al menos el 98 % a la SEQ ID NO. 2, o en donde la ADN polimerasa de bajo sesgo comprende una secuencia idéntica en al menos el 98 % a la SEQ ID NO. 4, o en donde la ADN polimerasa de bajo sesgo comprende una secuencia idéntica en al menos el 98 % a la SEQ ID NO. 6, o en donde la ADN polimerasa de bajo sesgo comprende una secuencia idéntica en al menos el 98 % a la SEQ ID NO. 7; y/o
    (xvi) la ADN polimerasa de bajo sesgo es una polimerasa termocócica, o derivado de la misma, opcionalmente, en donde la ADN polimerasa de bajo sesgo es una polimerasa termocócica, y/o en donde la polimerasa termocócica se deriva de una cepa termocócica seleccionada del grupo que consiste en T. kodakarensis, T. siculi, T. celer y T. sp KS-1.
    Un medio legible por ordenador que comprende un programa informático adaptado para realizar el método según una cualquiera de las reivindicaciones anteriores.
    Un método implementado por ordenador que comprende el método según una cualquiera de las reivindicaciones 1 o 3- 12.
    El método según una cualquiera de las reivindicaciones 1 o 3-12, en donde:
    (i) la etapa de proporcionar un par de muestras, comprendiendo cada muestra al menos una molécula de ácido nucleico molde diana, comprende controlar el número de moléculas de ácido nucleico molde diana en una primera del par de muestras y/o controlar el número de moléculas de ácido nucleico molde diana en una segunda del par de muestras; y/o
    (ii) la primera y/o la segunda del par de muestras se proporcionan al combinar dos o más submuestras, opcionalmente, en donde la primera y/o la segunda del par de muestras se proporcionan al recombinar las submuestras de tal manera que el número de moléculas de ácido nucleico molde diana en cada una de las submuestras esté en una razón deseada, y opcionalmente comprende además una etapa de normalizar el número de moléculas de ácido nucleico molde diana en cada una de las submuestras que se combinan para proporcionar la primera del par de muestras y/o la segunda del par de muestras;
    opcionalmente en donde:
    A) controlar el número de moléculas de ácido nucleico molde diana comprende medir el número de moléculas de ácido nucleico molde diana en la primera del par de muestras, la segunda del par de muestras, o al menos una muestra, opcionalmente en donde medir el número de moléculas de ácido nucleico molde diana comprende:
    (i) preparar una serie de diluciones de la primera del par de muestras, la segunda par de muestras, o al menos una muestra para proporcionar una serie de diluciones que comprende muestras diluidas;
    (ii) secuenciar las moléculas de ácido nucleico molde diana en la primera del par de muestras, la segunda del par de muestras, la al menos una muestra o una o más de las muestras diluidas, opcionalmente en donde medir el número de moléculas de ácido nucleico molde diana comprende amplificar y luego secuenciar las moléculas de ácido nucleico molde diana en la primera del par de muestras, la segunda del par de muestras, la al menos una muestra o una o más de las muestras diluidas;
    (iii) amplificar y fragmentar las moléculas de ácido nucleico molde diana, y luego secuenciar las moléculas de ácido nucleico molde diana en la primera del par de muestras, la segunda del par de muestras, la al menos una muestra o una o más de las muestras diluidas;
    (iv) identificar el número de secuencias de molécula de ácido nucleico molde diana únicas en la primera del par de muestras, la segunda del par de muestras, la al menos una muestra o una o más de las muestras diluidas;
    (v) mutar las moléculas de ácido nucleico molde diana, opcionalmente en donde mutar las moléculas de ácido nucleico molde diana comprende amplificar las moléculas de ácido nucleico molde diana en presencia de un análogo de nucleótido, opcionalmente en donde el análogo de nucleótido es dPTP;
    (vi)
    (a) mutar las moléculas de ácido nucleico molde diana para proporcionar moléculas de ácido nucleico molde diana mutadas;
    (b) secuenciar regiones de las moléculas de ácido nucleico molde diana mutadas; y
    (c) identificar el número de moléculas de ácido nucleico molde diana mutadas únicas basándose en el número de secuencias de molécula de ácido nucleico molde diana mutadas únicas; y/o
    (vii) introducir códigos de barras o pares de códigos de barras en las moléculas de ácido nucleico molde diana para proporcionar moléculas de ácido nucleico molde de código de barras diana, y opcionalmente:
    (a) secuenciar regiones de las moléculas de ácido nucleico molde diana con códigos de barras que comprenden los códigos de barras o los pares de códigos de barras; y
    (b) identificar el número de moléculas de ácido nucleico molde diana con códigos de barras únicas basándose en el número de códigos de barras o pares de códigos de barras únicos;
    y/o
    B) controlar el número de moléculas de ácido nucleico molde diana en una primera del par de muestras y/o la segunda par de muestras comprende determinar el número de moléculas de ácido nucleico molde diana y diluir la primera del par de muestras y/o la segunda par de muestras de tal manera que la primera del par de muestras y/o la segunda del par de muestras comprenden un número deseado de moléculas de ácido nucleico molde diana; y/o
    C) normalizar el número de moléculas de ácido nucleico molde diana en cada una de las submuestras comprende marcar moléculas de ácido nucleico molde diana a partir de diferentes submuestras con diferentes etiquetas de muestra, opcionalmente en donde el método comprende calcular las razones del número de moléculas de ácido nucleico molde diana que comprenden diferentes etiquetas de muestra, preferiblemente en donde marcar moléculas de ácido nucleico molde diana de diferentes muestras se realiza antes de combinar las submuestras y que comprende, opcionalmente, preparar una combinación preliminar de las submuestras que formarán la primera del par de muestras y/o la segunda del par de muestras y medir el número de moléculas de ácido nucleico molde diana marcadas con cada etiqueta de muestra en la combinación preliminar, opcionalmente en donde medir el número de moléculas de ácido nucleico molde diana marcadas con cada etiqueta de muestra en la combinación preliminar comprende:
    (i) realizar una dilución en serie en una combinación preliminar para proporcionar una dilución en serie que comprende combinaciones preliminares diluidas;
    (ii) secuenciar las moléculas de ácido nucleico molde diana en la combinación preliminar o una combinación preliminar diluida, opcionalmente, en donde medir el número de moléculas de ácido nucleico molde diana marcadas con cada etiqueta de muestra en la combinación preliminar comprende amplificar y luego secuenciar las moléculas de ácido nucleico molde diana;
    (iii) amplificar, fragmentar y luego secuenciar las moléculas de ácido nucleico molde diana;
    (iv) identificar el número de secuencias de molécula de ácido nucleico molde diana únicas con cada etiqueta de muestra;
    (v) mutar las moléculas de ácido nucleico molde diana, opcionalmente, en donde mutar la etiqueta de moléculas de ácido nucleico molde diana comprende amplificar las moléculas de ácido nucleico molde diana en presencia de un análogo de nucleótido, opcionalmente, en donde el análogo de nucleótido es dPTP;
    (vi)
    (a) mutar las moléculas de ácido nucleico molde diana para proporcionar moléculas de ácido nucleico molde diana mutadas;
    (b) secuenciar regiones de las moléculas de ácido nucleico molde diana mutadas; y
    (c) identificar el número de moléculas de ácido nucleico molde diana mutadas únicas con cada etiqueta de muestra basándose en el número de moléculas de ácido nucleico molde diana mutadas únicas;
    y/o
    (vii) introducir códigos de barras o pares de códigos de barras en las moléculas de ácido nucleico molde diana para proporcionar las moléculas de ácido nucleico molde diana con códigos de barras, etiquetadas con muestra, y opcionalmente:
    (a) secuenciar regiones de las moléculas de ácido nucleico molde diana con códigos de barra, etiquetadas con muestra; y
    (b) identificar el número de moléculas de ácido nucleico molde diana con códigos de barras únicas con cada etiqueta de muestra basándose en el número de secuencias únicas de código de barras o par de códigos de barras asociadas con cada etiqueta de muestra.
ES19755421T 2018-08-13 2019-08-12 Algoritmo de secuenciación Active ES2892349T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GBGB1813171.4A GB201813171D0 (en) 2018-08-13 2018-08-13 Sequencing method
GBGB1907101.8A GB201907101D0 (en) 2019-05-20 2019-05-20 Sequencing method
PCT/GB2019/052264 WO2020035669A1 (en) 2018-08-13 2019-08-12 Sequencing algorithm

Publications (1)

Publication Number Publication Date
ES2892349T3 true ES2892349T3 (es) 2022-02-03

Family

ID=67660402

Family Applications (2)

Application Number Title Priority Date Filing Date
ES21175553T Active ES2965194T3 (es) 2018-08-13 2019-08-12 Algoritmo de secuenciación
ES19755421T Active ES2892349T3 (es) 2018-08-13 2019-08-12 Algoritmo de secuenciación

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES21175553T Active ES2965194T3 (es) 2018-08-13 2019-08-12 Algoritmo de secuenciación

Country Status (12)

Country Link
US (1) US20210174905A1 (es)
EP (3) EP4293123A3 (es)
JP (2) JP7437383B2 (es)
KR (1) KR20210081326A (es)
CN (1) CN113015813A (es)
AU (1) AU2019321208A1 (es)
CA (2) CA3108947A1 (es)
DK (1) DK3710597T3 (es)
ES (2) ES2965194T3 (es)
HU (1) HUE064110T2 (es)
SG (1) SG11202101019YA (es)
WO (1) WO2020035669A1 (es)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113791952A (zh) * 2021-09-16 2021-12-14 上海擎创信息技术有限公司 一种告警场景挖掘方法
WO2023230550A2 (en) * 2022-05-26 2023-11-30 Illumina, Inc. Preparation of long read nucleic acid libraries

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002079502A1 (en) * 2001-03-28 2002-10-10 The University Of Queensland A method for nucleic acid sequence analysis
US20040002090A1 (en) * 2002-03-05 2004-01-01 Pascal Mayer Methods for detecting genome-wide sequence variations associated with a phenotype
US9977861B2 (en) * 2012-07-18 2018-05-22 Illumina Cambridge Limited Methods and systems for determining haplotypes and phasing of haplotypes
GB201409282D0 (en) 2014-05-23 2014-07-09 Univ Sydney Tech Sequencing process
CA2964169C (en) * 2014-10-10 2023-09-19 Cold Spring Harbor Laboratory Random nucleotide mutation for nucleotide template counting and assembly
EP3397765B1 (en) * 2015-12-30 2023-02-01 Bio-Rad Laboratories, Inc. Method for quantitating the frequency of wild-type and mutant fragments in a nucleic acid sample

Also Published As

Publication number Publication date
JP7437383B2 (ja) 2024-02-22
CA3222084A1 (en) 2020-02-20
EP3710597A1 (en) 2020-09-23
WO2020035669A1 (en) 2020-02-20
AU2019321208A1 (en) 2021-02-18
EP3710597B1 (en) 2021-07-14
EP3950958B1 (en) 2023-10-04
EP3950958A1 (en) 2022-02-09
CA3108947A1 (en) 2020-02-20
SG11202101019YA (en) 2021-02-25
EP4293123A3 (en) 2024-01-17
ES2965194T3 (es) 2024-04-11
EP4293123A2 (en) 2023-12-20
JP2024054291A (ja) 2024-04-16
DK3710597T3 (da) 2021-09-20
JP2021533775A (ja) 2021-12-09
KR20210081326A (ko) 2021-07-01
HUE064110T2 (hu) 2024-02-28
US20210174905A1 (en) 2021-06-10
CN113015813A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
Carøe et al. Single‐tube library preparation for degraded DNA
ES2873850T3 (es) Bibliotecas de secuenciación de próxima generación
JP2022017453A (ja) 二本鎖配列決定のための改善されたアダプター、方法、及び組成物
ES2338459T3 (es) Exploracion de alto redimiento de poblaciones mutagenizadas.
WO2017054302A1 (zh) 测序文库及其制备和应用
US20170357665A1 (en) Systems and methods for genomic manipulations and analysis
US20210340604A1 (en) Random nucleotide mutation for nucleotide template counting and assembly
ES2892349T3 (es) Algoritmo de secuenciación
US10036007B2 (en) Method of synthesis of gene library using codon randomization and mutagenesis
EP3870718B1 (en) Methods and uses of introducing mutations into genetic material for genome assembly
CN108359723A (zh) 一种降低深度测序错误的方法
EP3918091A1 (en) Method of sequencing nucleic acid with unnatural base pairs
JP7141165B1 (ja) 変異プロファイリングのためのrnaプローブ及びその使用
Bendixsen et al. CHAPTER ONE: GENOTYPE NETWORK INTERSECTIONS PROMOTE EVOLUTIONARY INNOVATION
CN117813393A (zh) 确定一种或多种rna分子的拷贝数或序列的方法