ES2874143T3 - Métodos y composiciones para reducir códigos de barras, moleculares redundantes creados en reacciones de prolongación de cebadores - Google Patents

Métodos y composiciones para reducir códigos de barras, moleculares redundantes creados en reacciones de prolongación de cebadores Download PDF

Info

Publication number
ES2874143T3
ES2874143T3 ES18739413T ES18739413T ES2874143T3 ES 2874143 T3 ES2874143 T3 ES 2874143T3 ES 18739413 T ES18739413 T ES 18739413T ES 18739413 T ES18739413 T ES 18739413T ES 2874143 T3 ES2874143 T3 ES 2874143T3
Authority
ES
Spain
Prior art keywords
dna
primer
target
specific
stranded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES18739413T
Other languages
English (en)
Inventor
Zhitong Liu
Guoying Liu
Juehui Liu
Tao Chen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Paragon Genomics Inc
Original Assignee
Paragon Genomics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Paragon Genomics Inc filed Critical Paragon Genomics Inc
Application granted granted Critical
Publication of ES2874143T3 publication Critical patent/ES2874143T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1068Template (nucleic acid) mediated chemical library synthesis, e.g. chemical and enzymatical DNA-templated organic molecule synthesis, libraries prepared by non ribosomal polypeptide synthesis [NRPS], DNA/RNA-polymerase mediated polypeptide synthesis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6848Nucleic acid amplification reactions characterised by the means for preventing contamination or increasing the specificity or sensitivity of an amplification reaction
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/686Polymerase chain reaction [PCR]

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Immunology (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Plant Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

Un método para reducir códigos de barras moleculares redundantes de una reacción de prolongación de cebadores dependiente de molde, comprendiendo el método: amplificar una pluralidad de ácidos nucleicos diana usando una pluralidad de pares de cebadores que se encuentran en una misma mezcla de reacción durante tres ciclos para formar una pluralidad de fragmentos de ADN de amplificación específico de diana bicatenario, en donde cada par de cebadores de dicha pluralidad de pares de cebadores comprende un cebador directo y un cebador inverso, en donde el cebador directo y el cebador inverso incluyen cada uno una región específica de diana del extremo 3' que tiene 8-50 nucleótidos, y tanto el cebador directo como el cebador inverso incluyen un casete de código de barras molecular que tiene una región de código de barras molecular que comprende una secuencia de 12-40 nucleótidos aleatorios que se sitúa entre una región de secuencia de nucleótidos fija del extremo 5' y una región de secuencia de nucleótidos fija del extremo 3'; introducir, después del tercer ciclo, una o una mezcla de exonucleasas específicas de ADN monocatenario para escindir una o más regiones de ADN monocatenario en un extremo 5' y un extremo 3' de fragmentos de ADN de amplificación específico de diana bicatenario, en donde las regiones de ADN monocatenario comprenden pares de bases no apareados en cualquiera de los dos extremos de los fragmentos de ADN de amplificación específico de diana bicatenario, dejando una pluralidad de productos de amplificación con extremos de ADN bicatenario y casetes de códigos de barras moleculares intactos en ambos extremos; y amplificar la pluralidad de productos de amplificación con casetes de códigos de barras moleculares intactos en ambos extremos con un par de cebadores que son complementarios a la región de secuencia de nucleótidos fija del extremo 5' del casete de códigos de barras moleculares.

Description

DESCRIPCIÓN
Métodos y composiciones para reducir códigos de barras moleculares redundantes creados en reacciones de prolongación de cebadores
Campo
Los métodos, composiciones, sistemas y kits descritos en el presente documento se refieren a la amplificación de secuencias de nucleótidos. En particular, los métodos, composiciones, sistemas y kits descritos en el presente documento se refieren a la reducción de códigos de barras moleculares redundantes cuando se unen uno o más códigos de barras moleculares a cada molécula de ADN individual amplificando al mismo tiempo múltiples regiones de ADN diana diferentes, tal como durante la PCR múltiple. Los métodos, composiciones, sistemas y kits descritos en el presente documento pueden incluir el análisis de códigos de barras moleculares y ADN diana mediante secuenciación de alto rendimiento (secuenciación de última generación, NGS, por sus siglas en inglés).
Antecedentes
La tecnología de secuenciación de alto rendimiento (secuenciación de última generación, NGS) ha penetrado, desde su secuenciación de novo inicial, en áreas de aplicación que requieren una sensibilidad elevada y una gran precisión. Es muy prometedor para la detección de mutaciones de baja frecuencia, por ejemplo, en ADN fijado en formol e incluido en parafina (FFIP, por sus siglas en inglés) o ADNtc en plasma para el diagnóstico precoz no invasivo, en la expresión de ARN y en la detección de dianas de número bajo de copias (por ejemplo, patógenos, variantes resistentes a fármacos, etc.) a través de secuenciación profunda. La PCR ha sido una parte intrínseca de la tecnología de NGS. Se ha incorporado a casi todos los métodos preparativos de muestras para NGS. Se ha modificado por ingeniería genética y se ha utilizado ADN polimerasa termoestable como una enzima clave en la química de la secuenciación. Uno de los problemas principales de la secuenciación de sensibilidad elevada es la presencia de un gran número de errores aleatorios. Estos errores aleatorios se producen en la PCR durante la preparación de la muestra, en la captura de hibridación a través de la modificación química de las bases o en la etapa de secuenciación por el error de la ADN polimerasa. También puede provenir de la muestra FFIP o a través de la oxidación del aire. Por lo general, se producen de cientos a miles de errores aleatorios con una frecuencia del 0,1-0,2 % o inferior, lo que hace imposible encontrar variantes de novo de baja frecuencia.
El método de uso de un tramo corto de secuencia de nucleótidos aleatoria (o parcialmente aleatoria, o fija) para marcar moléculas diana individuales, para eliminar de este modo duplicados de PCR y reducir los errores de bases aleatorios, se ha notificado desde 2007 (Nucleic Acids Res 2007, 35:e91; Nucl. Acids Res. 2011 39: e81; Proc. Natl. Acad. Sci.
2011 108: 9026-9031; Nat.Methods 2011 9: 72-74). Para describir estas secuencias cortas de nucleótidos se han utilizado diferentes nombres, incluyendo códigos de barras moleculares, índices moleculares, identificadores moleculares individuales (SMI, por sus siglas en inglés), identificadores únicos (UID, por sus siglas en inglés), identificadores moleculares únicos (UMI, por sus siglas en inglés), ID de cebador, códigos de barras dobles, etc. Los códigos de barras moleculares por lo general se añaden a las moléculas diana mediante ligadura o a través de cebadores durante la PCR o la transcripción inversa. Se han utilizado ampliamente en estudios cuantitativos de expresión génica a través de secuenciación de ARN, en estudios de células individuales y en la detección de mutaciones de baja frecuencia en ADN derivado de FFIP y ADNsc a través de secuenciación profunda. Después de la secuenciación, se usan para rastrear desde las moléculas finales amplificadas hasta sus moléculas originales, consolidando las secuencias de las moléculas finales que albergan códigos de barras moleculares idénticos en una secuencia de consenso. Estas moléculas originales pueden ser cualquiera de las dos cadenas de las dianas de ADN, o ambas cadenas. El poder de marcar ambas cadenas de una diana de ADN con códigos de barras moleculares idénticos, una técnica denominada "secuenciación doble" (Proc Natl Acad Sci USA 2012, 109: 14508-14513; Patente de los EE.UU. N.° 9.752.188), permite una ronda adicional de deducción de la secuencia de consenso y la eliminación de errores aleatorios. La secuenciación doble tiene una sensibilidad superior y reduce significativamente el número de errores aleatorios. Sin embargo, los métodos publicados de diversas formas de secuenciación doble requieren la ligadura para añadir códigos de barras moleculares en las dianas (Nature Medicine 2014, Nucleic Acids Res 2016, 44:e22 doi:10.1093/nar/gkv915; Nature Biotechnology, 2016, doi:10.1038/nbt.3520; Sci. Transl. Med. 2017, 9, eaan2415; Nature 2017, 7:3356, DOI:10.1038/s41598-017-03448-8;). Estos métodos llevan de varias horas a dos días de trabajo y numerosos reactivos y equipos. Exigen hasta varios cientos de nanogramos de ADN y tienen una eficiencia baja para detectar mutaciones raras. Parece imposible usar métodos basados en PCR para añadir códigos de barras moleculares idénticos en las cadenas dobles de las mismas dianas para la secuenciación doble. El problema clave es que una molécula diana original se amplifica en múltiples moléculas, cada una con un código de barras molecular diferente. Estos códigos de barras redundantes hacen que sea imposible rastrearlos hasta la cadena sentido y antisentido del ADN bicatenario original. Por ejemplo, publicaciones anteriores (Patentes de los EE.UU. N.° 2014/0227705, 8.741.606, 8.728.766, 8.685.678, 8.722.368, 8.715.967; Nucl. Acids Res. 2016 1-7) demuestran métodos de uso de 1 a 3 ciclos de PCR para introducir códigos de barras moleculares en los productos de amplificación. Estos métodos no pueden admitir la secuenciación doble debido al hecho de que, o bien solo se marcó una cadena del ADN diana con el código de barras molecular, o bien se produjeron códigos de barras redundantes a partir de una molécula de ADN original.
Por lo general, se asignan de decenas a cientos de amplicones con un código de barras molecular individual y se amplifican simultáneamente en el mismo vaso de reacción con un panel de pares de cebadores. En una reacción de prolongación de cebadores múltiples de este tipo, se crea una gran cantidad de productos de amplificación no específicos entre los cebadores, entre los cebadores y el molde, o ambos. También es necesario eliminar estos productos de amplificación no específicos para hacer posible la amplificación específica de secuencias diana, y para reducir adicionalmente la profundidad de lectura mediante la eliminación de productos de amplificación no específicos. En el presente documento se describen métodos que reducen los códigos de barras moleculares redundantes, eliminando simultáneamente los productos de amplificación no específicos. Hoffmann et al (2007), Nucleic Acids Research, 35 describe un método para generar una biblioteca de ADN de código de barras.
Los documentos US 2016/230222 y US 2009/203085 describen el uso de exonucleasas para eliminar productos de amplificación espurios.
El documento WO 2016/040901 describe la eliminación en dirección 3' de códigos de barras redundantes, introducidos por ligadura, usando el análisis computacional de los resultados de secuenciación.
Sumario de la divulgación
En general, en el presente documento se describen métodos, composiciones, sistemas y kits para reducir códigos de barras moleculares redundantes de una reacción de prolongación de cebadores múltiples dependiente de molde. Estos métodos, composiciones, sistemas y kits pueden ser útiles en cualquier reacción en la que pueda usarse una pluralidad de cebadores, cada uno con un tramo de nucleótidos aleatorios (por ejemplo, códigos de barras moleculares). Por ejemplo, los métodos, composiciones, sistemas y kits descritos en el presente documento pueden ser particularmente adecuados para su uso con PCR multiplexada y secuenciación de última generación.
La invención proporciona un método para reducir los códigos de barras moleculares redundantes de una reacción de prolongación de cebadores dependiente de molde, comprendiendo el método:
amplificar una pluralidad de ácidos nucleicos diana usando una pluralidad de pares de cebadores que se encuentran en una misma mezcla de reacción durante tres ciclos para formar una pluralidad de fragmentos de ADN de amplificación específico de diana bicatenario, en donde cada par de cebadores de dicha pluralidad de pares de cebadores comprende un cebador directo y un cebador inverso, en donde el cebador directo y el cebador inverso incluyen cada uno un cebador específico de diana que tiene 8-50 nucleótidos, y tanto el cebador directo como el cebador inverso incluyen un casete de código de barras molecular que tiene una región de código de barras molecular que comprende una secuencia de 12-40 nucleótidos aleatorios que se sitúa entre una región de secuencia de nucleótidos fija del extremo 5' y una región de secuencia de nucleótidos fija del extremo 3';
introducir, después del tercer ciclo, una o una mezcla de exonucleasas específicas de ADN monocatenario para escindir una o más regiones de ADN monocatenario en un extremo 5' y un extremo 3' de fragmentos de ADN de amplificación específico de diana bicatenario, en donde las regiones de ADN monocatenario comprenden pares de bases no apareados en cualquiera de los dos extremos de los fragmentos de ADN de amplificación específico de diana bicatenario, dejando una pluralidad de productos de amplificación con extremos de ADN bicatenario y casetes de códigos de barras moleculares intactos en ambos extremos; y
amplificar la pluralidad de productos de amplificación con casetes de códigos de barras moleculares intactos en ambos extremos con un par de cebadores que son complementarios a la región de secuencia de nucleótidos fija del extremo 5' del casete de códigos de barras moleculares.
En el presente documento se describen métodos, composiciones, sistemas y kits para reducir códigos de barras moleculares redundantes producidos en una reacción de prolongación de cebadores múltiples dependiente de molde. Estos métodos y aparatos (por ejemplo, kits) para realizarlos pueden incluir una o más enzimas para eliminar regiones de ADN monocatenario que contengan pares de bases no apareados en las dianas de ADN amplificadas después de tres ciclos de una reacción de prolongación de cebadores, para eliminar de este modo códigos de barras moleculares redundantes. Los códigos de barras moleculares finales no pueden rastrearse directamente hacia atrás hasta las moléculas individuales originales, sin embargo, las secuencias finales pueden agruparse en una agrupación de cadenas sentido y una agrupación de cadenas antisentido, tras clasificar los códigos de barras moleculares en los extremos 5' y 3' de las dianas de ADN amplificadas. Confirmando las frecuencias de variantes en estas dos agrupaciones, este método puede eliminar adicionalmente errores aleatorios que se produzcan en cualquiera de las dos cadenas. Este método puede incorporarse en un proceso de tres horas. La simplicidad del método permite una eficiencia alta y la detección de mutaciones raras a partir de una cantidad baja de muestras de ADN.
Los métodos y kits descritos en el presente documento surgen del hallazgo novedoso de que existe una ventana de tiempo única en el ciclo tres de reacciones de prolongación de cebadores múltiples en donde pueden eliminarse códigos de barras moleculares redundantes usando nucleasas específicas de ADN monocatenario. Estas reacciones de prolongación de cebadores múltiples implican una amplificación (por ejemplo, amplificación múltiple) en la que se usa un exceso de una pluralidad de pares de cebadores (por ejemplo, >6, >10, >100, >1000, >10.000, etc.). El número de códigos de barras moleculares para una diana de ADN ancestral específica puede reducirse a uno o dos, dependiendo de si los códigos de barras moleculares se añaden en un extremo o en ambos extremos de las dianas de ADN. El uso de nucleasas específicas de ADN monocatenario para escindir regiones monocatenarias en el ciclo dos o uno hace que todas las dianas sean no amplificables; mientras que la escisión de regiones monocatenarias en ciclos superiores a tres deja atrás un gran número de códigos de barras moleculares redundantes. Por lo tanto, aunque los métodos y aparatos descritos en el presente documento pueden usarse preferentemente después de un tercer ciclo de amplificación, pero antes de ciclos de amplificación adicionales, pueden usarse generalmente en cualquier momento después del tercer ciclo de amplificación (incluso después de ciclos de amplificación adicionales).
Por ejemplo, los métodos descritos en el presente documento pueden incluir métodos para reducir códigos de barras moleculares redundantes en el ciclo tres en una reacción de prolongación de cebadores múltiples en dos códigos de barras moleculares para cada cadena de ADN ancestral. Un ejemplo de un método como se describe en el presente documento se ilustra esquemáticamente en la FIG. 1. En la primera etapa, se amplifica una pluralidad de dianas de ADN (se muestra una diana de ADN 101) en la primera ronda de reacción de prolongación de cebadores durante tres ciclos con una pluralidad de pares de cebadores, para producir una pluralidad de productos de amplificación de dianas de ADN. Se diseñó un casete de código de barras molecular (103, 103' en la FlG. 1) (un ejemplo del cual se muestra en la FIG. 2A) y se colocó inmediatamente en dirección 5' del extremo 5' de cada cebador específico de diana en la pluralidad de pares de cebadores. El casete de código de barras molecular contiene una región terminal 5' de secuencia de nucleótidos fija que sirve como sitio de cebador para la segunda ronda de reacción de prolongación de cebador. Inmediatamente en dirección 3' de esta región terminal 5' de la secuencia de nucleótidos fija, hay 12-40 nucleótidos aleatorios, que cumplen la función de código de barras molecular (105 en la FIG. 1).
Hay una región terminal 3' de secuencia de nucleótidos fija inmediatamente después de la región de código de barras molecular. Este casete de código de barras molecular se usa para validar la secuencia de código de barras molecular posteriormente durante el análisis de secuenciación. Durante los tres primeros ciclos de PCR múltiple, el casete de código de barras molecular no se hibrida con la secuencia diana y permanece monocatenario en cualquiera de los dos extremos, a menos que se sintetice una cadena complementaria. Estas regiones monocatenarias son susceptibles a las exonucleasas específicas de ADN monocatenario en la siguiente etapa. De cada diana de ADN original, el ciclo tres también produce dos moléculas que contienen una región heterodúplex, compuesta por las secuencias de código de barras molecular, en cualquier extremo, como se ilustra esquemáticamente en la FIG. 2B. Estas dos moléculas derivan de cualquiera de las dos cadenas de la diana original. La secuencia de nucleótidos fija 5' del casete de código de barras molecular forma un tramo estable de ADN bicatenario en el extremo 5' del heterodúplex y lo protege del ataque de las exonucleasas específicas de ADN monocatenario. La región heterodúplex se representa adicionalmente con sus regiones de ADN bicatenario terminal 5' y 3' de secuencias de nucleótidos fijas en la FIG. 2C. Por lo tanto, después del ciclo tres, todos los descendientes de la misma molécula original, excepto dos, contienen regiones monocatenarias terminales, como se ilustra esquemáticamente en la FIG. 2D. En la segunda etapa, las regiones de ADN monocatenario en los extremos en la pluralidad de productos de amplificación de dianas de ADN se escinden con una mezcla de exonucleasas específicas de ADN monocatenario que escinden ADN monocatenario desde la dirección 5' a 3' y desde la dirección 3' a 5', haciendo que sean no amplificables en la segunda ronda de la reacción de prolongación de cebadores. En la tercera etapa, el ADN de la segunda etapa se amplifica en una reacción de prolongación de cebadores secundaria con un par de cebadores que son complementarios a la región terminal 5' de la secuencia de nucleótidos fija del casete de código de barras molecular (FIG. 1). Cuando todas las regiones de ADN monocatenario terminal en la pluralidad de productos de amplificación se escinden después del ciclo tres, a estos productos de amplificación solo les queda uno o ningún casete de código de barras molecular bicatenario en cualquier extremo y no se amplificarán en la amplificación secundaria. En la amplificación secundaria solo se amplifican los productos de escisión que tienen un par de casetes de código de barras molecular bicatenario en ambos extremos. Esto da como resultado la creación de dos familias diferentes de moléculas descendientes a partir de cada diana de ADN bicatenario ancestral. Cada familia tiene un código de barras molecular idéntico en el extremo 5' o en el extremo 3', mientras que el otro extremo tiene dos códigos de barras moleculares diferentes. La información que llevan ambas cadenas de una diana de ADN ancestral se transmite a dos familias de descendientes independientes.
Después de la secuenciación, los fragmentos de ADN se clasifican en familias de códigos de barras moleculares por ambos códigos de barras moleculares en ambos extremos. Esto conducirá a la identificación de un grupo de familias "directas" que tienen un código de barras molecular único en el extremo 5' y dos códigos de barras moleculares únicos en el extremo 3', y un grupo de familias "inversas" que tienen un código de barras molecular único en el extremo 3' y dos códigos de barras moleculares únicos en el extremo 5'. Deduciendo el consenso de cada familia, y contando las frecuencias de variantes en ambos grupos directo e inverso, pueden eliminarse los ruidos de fondo (FIG. 3).
En determinadas realizaciones, aspectos de la invención en cuestión se refieren a métodos para reducir códigos de barras moleculares redundantes en el ciclo 3 de una reacción de prolongación de cebadores múltiple en un código de barras molecular para cada diana de ADN ancestral. Un ejemplo de una variación de un método como se describe en el presente documento se ilustra esquemáticamente en la FIG.4. En la FIG. 4, el casete de código de barras molecular se coloca en uno de los cebadores de cada par de la pluralidad de cebadores. Hay 12-40 nucleótidos aleatorios, que sirven como código de barras molecular, en el casete de código de barras molecular. El otro cebador de la pluralidad de pares de cebadores solo contiene la secuencia de nucleótidos fija 5' que sirve como sitio de cebador para la siguiente ronda de amplificación, y la región específica de diana 3'. Estos cebadores se usan para amplificar una pluralidad de dianas de ADN en una reacción de prolongación de cebadores durante tres ciclos, para producir una pluralidad de productos de amplificación de dianas de ADN. La amplificación genera una pluralidad de productos de amplificación específicos de diana compuestos por (i) fragmentos de ADN bicatenario con pares de bases apareados, (ii) fragmentos de ADN bicatenario que contienen cada uno una región heterodúplex de pares de bases no apareados derivada de los 12-40 nucleótidos aleatorios del casete de código de barras molecular, y (iii) fragmentos de ADN bicatenario que contienen cada uno regiones de ADN monocatenario de pares de bases no apareados en cualquiera de los dos extremos, derivados de los nucleótidos aleatorios y la región terminal 5' de la secuencia de nucleótidos fija del casete de código de barras molecular. A continuación, la región heterodúplex y las regiones de ADN monocatenario en la pluralidad de productos de amplificación de dianas de ADN se escinden con una nucleasa específica de ADN monocatenario. Por último, la pluralidad escindida de productos de amplificación de dianas de ADN se amplifica en una reacción de prolongación de cebadores secundaria con un par de cebadores que son complementarios a la región terminal 5' de la secuencia de nucleótidos fija del casete de código de barras molecular. Cuando todas las regiones de ADN monocatenario y las regiones heterodúplex en la pluralidad de productos de amplificación se escinden después del ciclo tres, estos productos de amplificación solo tienen una secuencia de nucleótidos fija 5' de los cebadores que quedan en cualquier extremo, y no se amplificarán en la amplificación secundaria. En la amplificación secundaria solo se amplifican los productos de amplificación con un par de secuencias de nucleótidos fijas bicatenarias de los cebadores que quedan en ambos extremos. Esto como resultado la creación de una sola familia de moléculas descendientes de cada diana de ADN ancestral, y esta familia tiene un código de barras molecular idéntico en el extremo 5' o en el extremo 3', mientras que el otro extremo no tiene código de barras molecular. Básicamente, la información contenida en una de las dos cadenas de una diana de ADN ancestral se transmite a la familia descendiente.
Después de la secuenciación, los fragmentos de ADN se clasifican en familias por códigos de barras moleculares. Todas las secuencias proceden de la cadena sentido o de la cadena antisentido, dependiendo de si los códigos de barras moleculares están en el cebador directo o en el cebador inverso, respectivamente. Deduciendo el consenso de cada familia, se eliminan los ruidos de fondo (FIG. 5).
Se crean ocho moléculas descendientes en el ciclo tres. Después de escindir la región heterodúplex y las regiones monocatenarias terminales, o solo las regiones monocatenarias terminales, solo una o dos moléculas entran en la amplificación secundaria, respectivamente, produciendo de este modo uno o cuatro descendientes con código de barras único, respectivamente, por cada diana original después de la amplificación secundaria. Al tiempo que reduce el número de códigos de barras moleculares (o sus combinaciones si se usa un casete de código de barras molecular en ambos cebadores) a 1 o 4 por cada diana original, este método reduce el total de lecturas de secuenciación necesarias entre 8 y 2 veces. Esto significa un menor coste de secuenciación, o que pueden analizarse más dianas de ADN en un tamaño específico de célula de flujo.
En general, las nucleasas específicas de ADN monocatenario pueden ser una o una combinación de: endonucleasa T4 VII, endonucleasa T7 I, nucleasa S1, nucleasa P1, nucleasa celular, nuclease de judía mungo. Las exonucleasas específicas de ADN monocatenario que escinden ADN monocatenario de la dirección 5' a la 3' pueden ser una o una combinación de: exonucleasa VII, RecJ, RecJf. Las exonucleasas específicas de ADN monocatenario que escinden ADN monocatenario de la dirección 3' a la 5' pueden ser una o una combinación de: exonucleasa I, exonucleasa VII.
Igualmente importante para asignar satisfactoriamente códigos de barras moleculares mediante una reacción de prolongación de cebadores múltiple es la eliminación eficaz de productos de amplificación no específicos. Cualquiera de los métodos descritos en el presente documento puede configurarse para degradar simultáneamente o concurrentemente los productos de amplificación no específicos. Por ejemplo, cualquiera de los métodos descritos en el presente documento puede usarse con cualquiera de los métodos o aparatos descritos en el documento US 9.464.318.
En cualquiera de los métodos descritos en el presente documento, el método también puede incluir la eliminación del ADN monocatenario escindido y de los productos de amplificación no específicos degradados, dejando la proporción sustancial de dicha pluralidad de productos de amplificación específicos de diana con un número reducido de códigos de barras moleculares.
Cualquiera de los métodos descritos en el presente documento puede incluir el análisis de los productos de amplificación específicos de diana. El análisis puede incluir cualquier método o técnica apropiados, incluyendo, pero sin limitación, secuenciación, tal como la reacción de secuenciación de última generación.
La amplificación puede incluir cualquier técnica de amplificación de polinucleótido apropiada, incluyendo, en particular, una reacción en cadena de la polimerasa (PCR, por sus siglas en inglés) múltiple.
En general, los ácidos nucleicos diana pueden comprender ADN o ARN, por ejemplo, ADN genómico o ADNc, ADN purificado de muestras de tejido fijado con formol incluido en parafina (FFIP) (ADN FFIP), ADN sin células (ADNsc) o ADN tumoral circulante (ADNtc).
Como se ha mencionado, la reacción de prolongación de cebadores dependiente de molde puede incluir cualquier método que implique una pluralidad de oligonucleótidos monocatenarios como cebadores, incluyendo la PCR múltiple. Los cebadores pueden ser oligonucleótidos monocatenarios; la longitud de los cebadores puede ser de 16 a 100 nucleótidos; la longitud de los amplicones puede ser de 20 pb - 1500 pb.
Los cebadores específicos de diana pueden comprender cualquier pluralidad apropiada de pares, tal como 7 pares o más (por ejemplo, al menos 7 pares) de cebadores específicos de diana, tal como 10 pares o más (por ejemplo, al menos 10 pares) de cebadores específicos de diana, entre 7 pares y 100.000 pares, entre 7 pares y 1000 pares, entre 1.000 pares y 100.000 pares, más de 100.000 pares de cebadores específicos de diana, etc., entre 10 pares y 100.000 pares, entre 10 pares y 1000 pares, etc. Aunque se especifican siete o más pares y pueden ser preferibles, pueden usarse menos de siete pares (por ejemplo, pueden usarse dos o más pares, tres o más pares, cuatro o más pares, cinco o más pares, o seis o más pares).
Los tipos de cebadores que pueden usarse pueden incluir oligonucleótidos sin modificar, oligonucleótidos modificados, ácido peptidonucleico (APN); los cebadores modificados pueden contener una o más de una 5-metil desoxicitidina y/o 2,6-diaminopurina, didesoxiinosina, didesoxiuridina y oligonucleótidos marcados con biotina. Uno y/o ambos cebadores pueden contener códigos de barras u otras secuencias que permitan la identificación; uno y/o ambos cebadores pueden contener secuencias adaptadoras.
Como se ha mencionado, cualquiera de estos métodos puede incluir la escisión de dichas regiones de ADN monocatenario con una nucleasa específica de ADN monocatenario. Por ejemplo, cualquiera de estos métodos puede incluir la escisión de dichas regiones de ADN monocatenario con una nucleasa específica de ADN monocatenario que comprenda al menos una de las endonucleasas T4 VII, endonucleasa T7 I, nucleasa S1, nucleasa P1, nucleasa celular, nucleasa de judía mungo, exonucleasa I, exonucleasa VII, RecJ, RecJf después del ciclo tres de una reacción de prolongación de cebadores.
El tratamiento con la nucleasa específica de ADN monocatenario puede realizarse en cualquier condición apropiada (por ejemplo, concentración, tiempo de tratamiento, temperatura, etc.). En general, la escisión de dichas regiones de ADN monocatenario con la nucleasa específica de ADN monocatenario puede incluir la exposición de la pluralidad de productos de amplificación a entre aproximadamente 0,2 unidades (U) y 1000 U de una o más nucleasas específicas de ADN monocatenario durante entre aproximadamente 0,5 minutos y 60 minutos (por ejemplo, de 0,5 minutos a 30 minutos, 20 minutos, 15 minutos, etc.) a entre 10 °C y 40 °C (por ejemplo, más particularmente entre 16 °C y 37 °C).
Después del ciclo tres de una reacción de prolongación de cebadores dependiente de molde descrita en el presente documento, existen regiones de ADN monocatenario dentro de las regiones de cebadores. Estas regiones también pueden describirse como región heterodúplex de pares de bases no apareados, heterodúplex, ADN heterodúplex, regiones heterodúplex, pares de bases no apareados, "burbujas", regiones no emparejadas, etc. También existen regiones de ADN monocatenario en los extremos de los productos de amplificación. Estas regiones terminales de ADN monocatenario también pueden describirse como ramas, horquillas, horquillas monocatenarias, colas monocatenarias, etc. En determinadas realizaciones, todas estas regiones monocatenarias descritas anteriormente pueden escindirse para eliminar la redundancia en el código de barras molecular. En otras realizaciones, solo se escinden las regiones monocatenarias terminales. La proporción sustancial de la pluralidad de productos de amplificación específicos de diana con un número reducido de códigos de barras moleculares puede comprender un 20 % o más (y/o más del 20 %), un 25 % o más (y/o más del 25 %), un 30 % o más (y/o más del 30 %), un 40 % o más (y/o más del 40 %), un 50 % o más (y/o más del 50 %), un 60 % o más (y/o más del 60 %), un 70 % o más (y/o más del 70 %), un 80 % o más (y/o más del 80 %), un 90 % o más (y/o más del 90 %), un 95 % o más (y/o más del 95 %) de la pluralidad de productos de amplificación específicos de diana. Por lo tanto, puede realizarse la reacción de nucleasa específica de ADN monocatenario, pero se detuvo para evitar la escisión sustancial de las regiones monocatenarias en los productos de amplificación específicos de diana. Esto puede ajustarse mediante el ajuste de las condiciones de tratamiento con nucleasas específicas de ADN monocatenario como se discutió anteriormente (por ejemplo, aproximadamente 0,2 unidades (U) y 1000 U de una o más nucleasas específicas de ADN monocatenario durante entre aproximadamente 0,5 minutos y 60 minutos, por ejemplo, de 0,5 minutos a 30 minutos, 20 minutos, 15 minutos, etc., a entre 10 °C y 40 °C, por ejemplo, más particularmente entre 16 °C y 37 °C). Pueden usarse las condiciones adecuadas de tampón de nucleasa específica de ADN monocatenario, como se describe en el presente documento.
También se describen en el presente documento kits para realizar cualquiera de los métodos descritos en el presente documento. Por ejemplo, un kit para una reacción de prolongación de cebadores dependiente de molde que reduce los códigos de barras moleculares redundantes puede incluir: una mezcla de reacción de polimerasa; una pluralidad de pares de cebadores específicos de diana; un tampón de nucleasa; al menos una nucleasa específica de ADN monocatenario; al menos un par de cebadores que contengan una secuencia común; e instrucciones para el uso de dicho kit.
Como se ha mencionado anteriormente, los cebadores específicos de diana en el kit pueden comprender al menos 7 pares de cebadores específicos de diana (7 o más, 10 o más, al menos, 100 o más, 1000 o más, 10.000 o más, entre 7 y 100.000, entre 7 y 10.000, entre 7 y 1000, entre 10 y 100.000, entre 10 y 10.000, entre 10 y 1000, entre 100 y 100.000, entre 100 y 10.000, entre 100 y 1000, entre 1000 y 100.000, entre 1000 y 10.000, etc.). Por ejemplo, el kit puede incluir de aproximadamente 1.000 a aproximadamente 100.000 cebadores específicos de diana. En algunas variaciones, el kit incluye más de 100.000 cebadores específicos de diana. En cada cebador, la región específica de diana está en el extremo 3', un casete de código de barras molecular está en el extremo 5'. Dentro del casete de código de barras molecular existen 12-40 nucleótidos aleatorios que sirven de código de barras molecular. Este casete de código de barras molecular puede existir en un cebador del par de cebadores específicos de diana, o en ambos cebadores directo e inverso del par de cebadores específicos de diana.
El kit puede incluir cualquier nucleasa específica de ADN monocatenario adecuada. Por ejemplo, la nucleasa específica de ADN monocatenario puede ser la nucleasa de judía mungo, la exonucleasa I de E. coli o la exonucleasa VII de E. coli.
Cualquiera de los kits descritos en el presente documento puede incluir también una o más resolvasas para escindir los productos de amplificación no específicos. Por ejemplo, un kit puede incluir una resolvasa para escindir los productos de amplificación no específicos en donde la resolvasa comprende la endonucleasa T4 VII.
Como se ha mencionado, se describen kits para reducir los códigos de barras moleculares redundantes de una reacción de amplificación. Un kit puede incluir al menos una nucleasa específica de ADN monocatenario; un tampón; e instrucciones para el uso del kit para reducir los códigos de barras moleculares redundantes de dicha reacción de amplificación. El kit puede incluir adicionalmente reactivos para realizar una reacción en cadena de la polimerasa (PCR) múltiple, en donde los reactivos incluyen al menos un tampón, dNTP, una ADN polimerasa y, opcionalmente, al menos un par de cebadores específicos de diana. El al menos un par de cebadores específicos de diana puede incluir al menos 7 pares de cebadores específicos de diana. Adicionalmente, el kit puede incluir al menos una nucleasa específica de ADN monocatenario. La al menos una exonucleasa puede incluir la nucleasa de judía mungo, la exonucleasa I de E. coli o la exonucleasa VII de E. coli.
Por ejemplo, en el presente documento se describen métodos para reducir los códigos de barras moleculares redundantes de una reacción de prolongación de cebadores dependiente de molde. Cualquiera de estos métodos puede incluir: amplificar una pluralidad de ácidos nucleicos diana usando una pluralidad de pares de cebadores que se encuentran en una misma mezcla de reacción durante tres ciclos para formar una pluralidad de fragmentos de ADN de amplificación específico de diana bicatenario, en donde cada par de cebadores de dicha pluralidad de pares de cebadores puede incluir un cebador directo y un cebador inverso, en donde el cebador directo y el cebador inverso incluyen cada uno un cebador específico de diana que tiene 8-50 nucleótidos, y tanto el cebador directo como el cebador inverso incluyen un casete de código de barras molecular que tiene una región de código de barras molecular que comprende una secuencia de 12 o más (por ejemplo, 14 o más, 15 o más, 16 o más, 17 o más, 18 o más, 19 o más, 20 o más, 12-40, 12-44, 12-45, 12-47, 12-50, etc.) nucleótidos aleatorios que se sitúa entre una región de secuencia de nucleótidos fija del extremo 5' y una región de secuencia de nucleótidos fija del extremo 3'; introducir, después del tercer ciclo, una o una mezcla de exonucleasas específicas de ADN monocatenario para escindir una o más regiones de ADN monocatenario en un extremo 5' o un extremo 3' de fragmentos de ADN de amplificación específico de diana bicatenario, en donde las regiones de ADN monocatenario comprenden pares de bases no apareados en cualquiera de los dos extremos de los fragmentos de ADN de amplificación específico de diana bicatenario, dejando una pluralidad de productos de amplificación con casetes de códigos de barras moleculares intactos en ambos extremos; y amplificar la pluralidad de productos de amplificación con casetes de códigos de barras moleculares intactos en ambos extremos con un par de cebadores que son complementarios a la región de secuencia de nucleótidos fija del extremo 5' del casete de códigos de barras moleculares.
Un método para reducir códigos de barras moleculares redundantes de una reacción de prolongación de cebadores dependiente de molde puede incluir: amplificar una pluralidad de ácidos nucleicos diana usando una pluralidad de pares de cebadores que se encuentran en una misma mezcla de reacción durante tres ciclos para formar una pluralidad de fragmentos de ADN de amplificación específico de diana bicatenario, en donde cada par de cebadores de dicha pluralidad de pares de cebadores comprende un cebador directo y un cebador inverso, en donde el cebador directo y el cebador inverso incluyen cada uno un cebador específico de diana que tiene 8-50 nucleótidos, y cualquiera de entre el cebador directo y el cebador inverso incluye un casete de código de barras molecular que tiene una región de código de barras molecular que comprende una secuencia de 12 o más (por ejemplo, 12-40, etc.) nucleótidos aleatorios que se sitúa entre una región de secuencia de nucleótidos fija del extremo 5' y una región de secuencia de nucleótidos fija del extremo 3', mientras que el otro cebador incluye la región de secuencia de nucleótidos fija del extremo 5'; introducir, después del tercer ciclo, una o una mezcla de nucleasas específicas de ADN monocatenario para escindir: (i) regiones heterodúplex de pares de bases no apareados derivados de los nucleótidos aleatorios de códigos de barras moleculares de los fragmentos de ADN de amplificación específico de diana bicatenario, y (ii) regiones de ADN monocatenario en un extremo 5' o un extremo 3' de los fragmentos de ADN de amplificación específico de diana bicatenario, en donde las regiones de ADN monocatenario comprenden pares de bases no apareados en cualquiera de los dos extremos de los fragmentos de ADN de amplificación específico de diana bicatenario que derivan de los nucleótidos aleatorios de la región de código de barras molecular y la región de secuencia de nucleótidos fija del extremo 5' del casete de código de barras molecular, dejando una pluralidad de productos de amplificación con casetes de códigos de barras moleculares intactos en cualquiera de los extremos; y amplificar la pluralidad de productos de amplificación con casetes de códigos de barras moleculares intactos en cualquiera de los extremos con un par de cebadores que son complementarios a la región de secuencia de nucleótidos fija del extremo 5' del casete de códigos de barras moleculares.
Los pares de bases no apareados en cualquiera de los dos extremos de los fragmentos de ADN de amplificación específico de diana bicatenario pueden derivar de los nucleótidos aleatorios de la región de código de barras molecular y la región de secuencia de nucleótidos fija del extremo 5' del casete de código de barras molecular.
La secuencia de nucleótidos fija del extremo 5' puede comprender cualquier número y tipo de nucleótidos. Por ejemplo, las secuencias de nucleótidos fijas del extremo 5' pueden derivar de adaptadores utilizados en aplicaciones de secuenciación de alto rendimiento.
La introducción puede comprender preferentemente la introducción de una o la mezcla de exonucleasas específicas de ADN monocatenario antes de la amplificación adicional, por ejemplo, inmediatamente después del ciclo tres de la primera etapa de amplificación. Como alternativa, la introducción de una o una mezcla de exonucleasas específicas de ADN monocatenario para escindir después del tercer ciclo puede realizarse en cualquier ciclo después del tercero.
Los métodos descritos en el presente documento (y los aparatos para realizarlos) pueden usar cualquier exonucleasa específica de ADN monocatenario apropiada. Por ejemplo, la introducción de una o una mezcla de exonucleasas específicas de ADN monocatenario puede incluir la introducción de una resolvasa, una exonucleasa, múltiples exonucleasas, o una combinación de exonucleasas y nucleasas, seleccionadas del grupo que comprende: endonucleasa T4 VII, endonucleasa T7 I, nucleasa S1, nucleasa P1, nucleasa celular, nucleasa de judía mungo, exonucleasa VII, RecJ, RecJf. Esto incluye cualquier mutante o versión modificada de las mismas que actúen como exonucleasas monocatenarias.
Cualquiera de estos métodos puede incluir también la eliminación de fragmentos de ADN monocatenario que fueron escindidos por una o una mezcla de exonucleasas específicas de ADN monocatenario. Puede usarse e incluirse cualquier técnica de eliminación adecuada.
En cualquiera de los métodos descritos en el presente documento, la etapa de amplificación de la pluralidad de productos de amplificación puede comprender la amplificación por reacción en cadena de la polimerasa, aunque puede usarse cualquier otra técnica de amplificación (o combinación de amplificación).
Cualquiera de los métodos descritos en el presente documento puede incluir también el análisis de los productos de amplificación mediante secuenciación de alto rendimiento, y/o una o cualquier combinación de las siguientes etapas: clasificar las secuencias de nucleótidos aleatorios de los productos de amplificación, agrupar secuencias idénticas y similares de códigos de barras moleculares en familias de códigos de barras moleculares, validar la longitud y la secuencia de cada código de barras molecular en cada familia de códigos de barras moleculares, y eliminar los productos de amplificación con secuencias de nucleótidos descalificadas de códigos de barras moleculares. Por ejemplo, el método puede incluir la secuenciación de alto rendimiento y la clasificación de las secuencias de nucleótidos aleatorios de los productos de amplificación. El método puede incluir la secuenciación de alto rendimiento, clasificar las secuencias de nucleótidos aleatorios de los productos de amplificación, y validar la longitud y la secuencia de cada código de barras molecular en cada familia de códigos de barras moleculares. El método puede incluir la secuenciación de alto rendimiento, clasificar las secuencias de nucleótidos aleatorios de los productos de amplificación, validar la longitud y la secuencia de cada código de barras molecular en cada familia de códigos de barras moleculares, y eliminar los productos de amplificación con secuencias de nucleótidos descalificadas de códigos de barras moleculares.
Por ejemplo, los métodos descritos en el presente documento pueden incluir uno o más de: analizar una secuencia de consenso de dianas de ADN de cada familia de códigos de barras moleculares, eliminar errores aleatorios de cada familia de códigos de barras moleculares, encontrar todas las secuencias de la cadena sentido, encontrar todas las secuencias de la cadena antisentido, encontrar la frecuencia de variantes en una agrupación de cadenas sentido, encontrar la frecuencia de variantes en una agrupación de cadenas antisentido, confirmación de la frecuencia de variantes en las cadenas tanto sentido como antisentido, y eliminar errores aleatorios de cadenas tanto sentido como antisentido.
La etapa de amplificación de la pluralidad de ácidos nucleicos diana puede comprender la realización de una reacción en cadena de la polimerasa (PCR) múltiple. Como se ha mencionado, la pluralidad de ácidos nucleicos diana puede comprender ADN o ARN. Puede usarse cualquier fuente apropiada de ácido nucleico diana. Por ejemplo, la pluralidad de ácidos nucleicos diana puede ser ADN genómico, ADNc, ADN purificado de muestras de tejido fijado con formol incluido en parafina (FFIP) (ADN FFIP), ADN sin células (ADNsc) o A d N tumoral circulante (ADNtc). El cebador directo y el cebador inverso pueden incluir cada uno un cebador específico de diana que tiene de 8 a 50 nucleótidos (por ejemplo, de 8 a 100, de 8 a 150, etc.). Como se ha mencionado, la pluralidad de pares de cebadores puede comprender al menos n pares de cebadores específicos de diana (donde n es 2 o más, 3 o más, 4 o más, 5 o más, 6 o más, 7 o más, 8 o más, etc., preferentemente 7 o más). Por ejemplo, la pluralidad de pares de cebadores puede comprender entre 7 pares de cebadores específicos de diana y 1.000.000 de pares de cebadores específicos de diana.
Cada cebador de la pluralidad de pares de cebadores puede incluir una región específica de diana que comprende uno o más de: oligonucleótidos sin modificar, sin modificaciones químicas de nucleótidos, ni enlaces químicos y sin bases degeneradas. Como alternativa, cada cebador de la pluralidad de pares de cebadores puede incluir una región específica de diana que comprende oligonucleótidos modificados con uno o más de: modificaciones químicas de nucleótidos o enlaces químicos, y bases degeneradas. Tanto el cebador directo como el cebador inverso pueden contener un casete de código de barras molecular.
La introducción de una o una mezcla de exonucleasas específicas de ADN monocatenario puede comprender la introducción de entre aproximadamente 0,2 U y 1000 U de exonucleasa durante entre 0,5 minutos y 60 minutos a entre 16 °C y 37 °C.
La introducción de la una o una mezcla de exonucleasas específicas de ADN monocatenario puede comprender la introducción de una nucleasa específica de ADN monocatenario o una exonucleasa específica de ADN monocatenario que comprenda una o más de: una nucleasa S1, una nucleasa P1, una nucleasa de judía mungo, una nucleasa CEL I, una endonucleasa CEL I, una exonucleasa I, una exonucleasa V, una exonucleasa VII, y RecJ, y RecJf, y combinaciones, fusiones o mutaciones de las mismas.
También se describen en el presente documento kits para reducir el código de barras molecular redundante configurados para realizar cualquiera de los métodos descritos en el presente documento. Por ejemplo, en el presente documento se describen kits que comprenden una pluralidad de pares de cebadores como los descritos (por ejemplo, que incluyen un cebador directo y uno inverso, al menos uno de los cuales incluye un casete con la secuencia de código de barras aleatoria), una exonucleasa específica de ADN monocatenario, un par de cebadores que son complementarios a una región de secuencia de nucleótidos fija del extremo 5' del casete de código de barras molecular, y uno o más reactivos configurados para la reacción de prolongación de cebadores y la escisión por exonucleasas. Los uno o más reactivos configurados para la reacción de prolongación de cebadores y la escisión por exonucleasas pueden incluir tampones utilizados en reacciones de prolongación de cebadores y/o en reacciones de escisión. Cualquiera de estos kits puede incluir instrucciones para realizar el método y usar el kit.
Breve descripción de los dibujos
Las características novedosas de la invención se exponen con particularidad en las reivindicaciones que siguen. Se obtendrá una mejor comprensión de las características y ventajas de la presente invención haciendo referencia a la siguiente descripción detallada que expone realizaciones ilustrativas, en la que se utilizan los principios de la invención y los dibujos adjuntos de los cuales:
La FIG. 1 ilustra un ejemplo de un mecanismo de marcaje de dianas de ADN mediante códigos de barras moleculares en ambos extremos a través de PCR múltiple y reducción de los códigos de barras redundantes. En la FIG. 1, el esquema ilustra un método para reducir códigos de barras moleculares redundantes generados en PCR múltiple escindiendo regiones de ADN monocatenario en los extremos de productos de amplificación. A partir de un único ADN diana ancestral se crean dos descendientes de la diana de ADN original con diferentes códigos de barras moleculares. Cada descendiente tiene un código de barras molecular idéntico en cualquier extremo de la diana de ADN, mientras que tiene dos códigos de barras diferentes en el otro extremo. Las puntas de flecha representan los extremos 3'.
La FIG. 2A ilustra una estructura de ejemplo de un casete de código de barras molecular y la región de cebador específico de diana en dirección 3'. La FIG. 2B es un esquema que muestra un producto de amplificación con una región heterodúplex. La FIG. 2C muestra una estructura detallada de la región heterodúplex y sus regiones circundantes de ADN bicatenario que protegen la región heterodúplex del ataque de exonucleasas específicas de ADN monocatenario. La FIG. 2D es un esquema que muestra un producto de amplificación con regiones de ADN monocatenario en un extremo. Las puntas de flecha representan los extremos 3'.
La FIG. 3 ilustra un ejemplo de un mecanismo de llamada de variante por consenso bicatenario. Un esquema ilustra la clasificación de familias de códigos de barras moleculares por ambos códigos de barras moleculares en ambos extremos, deduciendo el consenso de cada familia, y contando las frecuencias de variantes en ambas agrupaciones directa e inversa. Para todas las cadenas directas, cada familia de códigos de barras moleculares tiene un código de barras molecular 5' idéntico, pero dos códigos de barras moleculares 3' diferentes. Para todas las cadenas inversas, cada familia de códigos de barras moleculares tiene un código de barras molecular 3' idéntico, pero dos códigos de barras moleculares 5' diferentes. Una secuencia de consenso deriva además de los grupos de cadenas directas e inversas, mientras se eliminan errores aleatorios.
La FIG. 4 muestra un ejemplo de un mecanismo de marcaje de dianas de ADN mediante códigos de barras moleculares en un extremo a través de PCR múltiple y reducción de los códigos de barras redundantes. El esquema de la FIG. 4 ilustra un método de la presente divulgación para eliminar códigos de barras moleculares redundantes generados en la PCR múltiple mediante la escisión de regiones de ADN monocatenario. Solo se prepara un descendiente de la diana de ADN original con código de barras molecular a cada lado a partir de un ADN diana ancestral. Las puntas de flecha representan los extremos 3' de dianas de ADN.
La FIG. 5 muestra un ejemplo de un mecanismo de llamada de variante por consenso bicatenario. Las lecturas de secuenciación se clasifican por los códigos de barras moleculares de un extremo, las secuencias de consenso se deducen a partir de cada familia de códigos de barras.
Las FIG. 6A-6C muestran un ejemplo de la estructura de la biblioteca, la estructura de cebadores y las secuencias de cebadores que pueden usarse para la secuenciación en una plataforma Illumina. La FIG. 6a muestra una estructura de ejemplo de una biblioteca. La FIG. 6B muestra un ejemplo de una estructura de los cebadores que pueden usarse en la PCR múltiple. La FIG. 6C es un ejemplo de una secuencia de los cebadores que pueden usarse en la PCR secundaria, con la secuencia de nucleótidos fija del extremo 5' del casete de código de barras molecular subrayada. La FIG. 6C desvela las SEQ ID NO: 1-4, respectivamente, en orden de aparición, correspondientes a cebadores directos e inversos.
La FIG. 7 muestra un ejemplo de un flujo de trabajo del método descrito en el presente documento.
Las FIG. 8A-8B ilustran la reducción de códigos de barras moleculares redundantes para el consenso bicatenario. En la FIG. 8A, un gráfico del bioanalizador muestra bibliotecas con la digestión de los productos de PCR múltiple; la FIG. 8B muestra los resultados sin la digestión de los productos de PCR múltiple.
Las FIG. 9A-9B ilustran la eliminación de errores aleatorios mediante consenso monocatenario y consenso bicatenario. Los puntos sólidos representan las variantes de referencia conocidas. Los puntos abiertos representan los errores aleatorios. En la FIG. 9A todavía quedaban numerosos errores aleatorios después de que se usara un consenso monocatenario para eliminar errores. En la FIG. 9B, la mayoría de los errores aleatorios se eliminaron después de que se usara un consenso monocatenario.
Las FIG. 10A-10B ilustran la reducción de códigos de barras moleculares redundantes para el consenso monocatenario. En la FIG. 10A, un gráfico del bioanalizador muestra bibliotecas con y sin la digestión de los productos de PCR múltiple. Se esperaba que la digestión completa produjera un rendimiento de una cuarta parte de la biblioteca no digerida. En la FIG. 10B, el rendimiento de las bibliotecas disminuyó cuando se usaron cantidades crecientes de nucleasas específicas de ADN para digerir los productos de PCR múltiple.
Las FIG. 11A-11C ilustran el sesgo de la CG y la eliminación de productos de PCR no específicos en los métodos descritos en el presente documento. En la FIG. 11A se usó el método descrito en el presente documento para amplificar una biblioteca de 629 amplicones que contenía una distribución más amplia de contenido de CG. No se observó ningún sesgo evidente de CG. Los tres amplicones con las lecturas más bajas en el intervalo de CG del 70-80 % eran dianas de regiones del promotor TERT, que eran amplicones conocidos y difíciles de amplificar, pero aun así se amplificaron. Las FIG. 11B-11C son gráficos del bioanalizador que muestran la eliminación de productos de PCR no específicos de bibliotecas de 40 amplicones (FIG. 11B) y de 205 amplicones (FIG. 11C).
La FIG. 12 muestra pruebas de que el código de barras molecular de 12 nucleótidos aleatorios era insuficiente para las cantidades crecientes de entrada de ADN. Con 12 nucleótidos aleatorios como código de barras molecular, había una eficiencia decreciente de conversión de cadena doble con cantidades crecientes de entrada de ADN. La FIG. 13 ilustra los ciclos de PCR necesarios para la cantidad especificada de ADN de entrada y el rendimiento resultante de la biblioteca; la relación entre la cantidad de ADN introducido y el número de ciclos puede usarse para ayudar a conseguir el rendimiento de biblioteca deseado (por ejemplo, entre 10.000 y 25.000 pM).
Las FIG. 14A-14D ilustran la profundidad de lectura que puede ser necesaria. Solo se usaron para el gráfico los códigos de barras moleculares calificados para el consenso bicatenario. Se seleccionaron muestras con una eficiencia similar de conversión de cadena doble para minimizar el efecto de un código de barras molecular insuficiente, mostrada en la FIG. 14A. En la FIG. 14B, como se esperaba, cuando se usaron mayores profundidades de lectura, cada amplicón ganó más lecturas, sin embargo, la relación de lecturas útiles frente a lecturas en la diana se redujo cuando se alcanzó una profundidad de lectura de 12 a 16 lecturas por código de barras bicatenario (que se muestra en la FIG. 14C). Como se muestra en la FIG. 14D, en este intervalo de profundidad de lectura, se observó una distribución típica de todas las lecturas en la diana frente a sus códigos de barras asociados.
Las FIG. 15A-15B ilustran el sesgo de base de los errores aleatorios detectados por consenso monocatenario. Se usaron cuarenta (40) ng de ADN. Se encontraron los mayores números de transiciones (FIG. 15A), pero las frecuencias de estas transiciones no fueron elevadas (FIG. 15B). La frecuencia alta de transformación T->G se produjo cuatro veces en estas muestras.
La FIG. 16 ilustra el efecto de la eliminación de errores aleatorios con diversas cantidades de entrada de ADN. En la FIG. 16, "20SS" representa 20 ng de ADN, consenso por una sola cadena; "20DS" representa 20 ng de ADN, consenso por cadena doble. Los puntos más claros representan errores aleatorios, los puntos más oscuros representan variantes de referencia. Se encontró consenso porque la cadena doble redujo significativamente el número de errores aleatorios. El número de errores aleatorios se especificó por la tasa de error del método. Con mayores cantidades de entrada de ADN, se observaron las mayores cantidades de errores aleatorios.
La FIG. 17 ilustra la recuperación de copias de genomas haploides en la secuenciación con diversas cantidades de ADN de entrada. Las líneas continuas son las copias detectadas de genomas haploides después del consenso por cadena simple y cadena doble, respectivamente. Las líneas discontinuas son los números esperados. Las líneas curvas sugieren que se usó un número insuficiente de códigos de barras moleculares en estas muestras, especialmente con las cantidades mayores de ADN de entrada.
La FIG. 18 es la tabla 1, que muestra códigos de barras moleculares redundantes en la biblioteca no digerida que impidieron detectar las variantes. La eliminación de códigos de barras redundantes por digestión reveló un número suficiente de códigos de barras que pueden agruparse en ambas cadenas del ADN diana. Los códigos de barras pueden usarse para detectar mutaciones raras. La FIG. 19 es la tabla 2, que muestra llamadas de variante con y sin el código de barras redundante eliminado. Las bibliotecas digeridas y no digeridas de la tabla 1 (FIG. 18) se usaron para detectar variantes de referencia conocidas. El número de lecturas detectadas en ambas bibliotecas demostró la viabilidad del método de los presentes inventores.
Las FIG. 20A-20B son la tabla 3 y la tabla 4, respectivamente, que muestran los números de llamadas de variante, la sensibilidad y el valor predictivo positivo de variantes de referencia con diversas cantidades de entrada de ADN. En la FIG. 20A, se detectaron ocho variantes de referencia de HD780 en una adición del 0,2 % de HD780 en NA12877 digerido. En la FIG. 20 B, se detectaron variantes de referencia de NA12878 en una adición del 0,2 % de NA12878 en NA12877.
Las FIG. 21A y 21B son la tabla 5 y la tabla 6, respectivamente, que muestran variantes de referencia detectadas con 20 ng de ADN de entrada. En la FIG.21A, se detectaron ocho variantes de referencia de HD780 en una adición del 0,2 % de HD780 en NA12877 digerido. La FIG. 21A desvela las SEQ ID NO: 5-7, respectivamente, en orden de aparición. En la FIG. 21 B, se detectaron variantes de referencia de NA12878 en una adición del 0,2 % de NA12878 en NA12877.
Descripción detallada
En general, en el presente documento se describen métodos, composiciones, sistemas y kits que pueden usarse para amplificar o mejorar la amplificación de productos de amplificación específicos de diana mediante la reducción de códigos de barras moleculares redundantes cuando se amplifican múltiples regiones de nucleótidos diferentes. Estos métodos, composiciones, sistemas y kits normalmente incluyen o incluyen el uso de una o más nucleasas específicas de ADN monocatenario que escinden las regiones monocatenarias en los productos de amplificación en el ciclo tres de la amplificación. A menos que se definan de otro modo, todos los términos técnicos y científicos utilizados en el presente documento tienen el mismo significado que el entendido comúnmente por un experto habitual en la materia a la que pertenece la presente invención. Aun así, determinados elementos se definen en aras de la claridad y la facilidad de referencia.
Los términos y símbolos de química de ácidos nucleicos, bioquímica, genética y biología molecular utilizados en el presente documento siguen aquellos de los tratados y textos convencionales en el campo, por ejemplo, Maniatis et al. Molecular Cloning: A Laboratory Manual (2a Ed. Cold Spring Harbor, N.Y, 1989); Berger and Kimmel Methods in Enzymology, Vol. 152, Guide to Molecular Cloning Techniques (Academic Press, Inc., San Diego, Calif., 1987); Young y Davis, P.N.A.S, 80: 1194 (1983). Kornberg y Baker, DNA Replication, Segunda edición (W.H. Freeman, Nueva York (1992); Lehninger, Biochemistry, Segunda edición (Worth Publishers, Nueva York (1975); Strachan y Read, Human Molecular Genetics, Segunda edición (Wiley-Liss, Nueva York (1999); Eckstein, editor, Oligonucleotides and Analogs: A Practical Approach (Oxford University Press, Nueva York (1991); Gait, editor, Oligonucleotide Synthesis: A Practical Approach (IRL Press, Oxford, 1984); y similares.
"Código de barras molecular" se refiere a una secuencia única de nucleótidos o una combinación de la misma utilizada para marcar otras moléculas de ADN o ARN. Por lo general se diseñan como una cadena de nucleótidos totalmente aleatorios (tales como NNNNNNN), nucleótidos parcialmente degenerados (tales como NNNRNYN) o nucleótidos definidos (cuando las moléculas molde están limitadas). Han recibido otros nombres, incluyendo "índice molecular", "identificadores únicos" (UID), "identificadores moleculares únicos" (UMI), "identificadores moleculares individuales" (SMI), "ID de cebador", "códigos de barras dobles", etc. Los códigos de barras moleculares pueden tener de 3 a 50 nucleótidos, o incluso más. Por lo general se sintetizan como parte del cebador o adaptador, por ejemplo, como un tramo de nucleótidos degenerados en el extremo 3' o 5' del adaptador. Es decir, la parte adaptadora tiene una secuencia de nucleótidos designada, la parte del código de barras molecular tiene secuencias aleatorias. El código de barras molecular puede ser monocatenario, por ejemplo, como una parte en el cebador; o bicatenario, como lo es en el adaptador. Los códigos de barras moleculares por lo general se añaden a las moléculas dirigidas mediante ligadura o a través de cebadores durante la PCR o la transcripción inversa. Los códigos de barras moleculares se usan en diversas aplicaciones, incluyendo, pero sin limitación, secuenciación de ARN, estudios de células individuales y detección de mutaciones de frecuencia baja. Los principales objetivos de la utilización de códigos de barras moleculares son deducir una secuencia de consenso a partir de las secuencias de un grupo de moléculas descendientes amplificadas, para detectar de este modo la cantidad de la diana original a través de la eliminación del sesgo de amplificación, y encontrar la verdadera secuencia de nucleótidos de la diana a través de la eliminación de errores aleatorios e incluso de dianas falsas. La secuencia de consenso puede deducirse a partir de las secuencias amplificadas de cualquiera de las dos cadenas de la molécula de ADN diana, o colectivamente de ambas cadenas. "Colectivamente" significa que las secuencias amplificadas tanto de la cadena sentido como de la cadena antisentido del ADN diana no pueden diferenciarse y tienen que analizarse juntas; o las secuencias de ambas cadenas pueden diferenciarse pero tratarse como indiferenciadas y analizarse juntas. Se usan códigos de barras moleculares bicatenarios complementarios para marcar ambas cadenas de las moléculas diana, permitiendo deducir una secuencia de nucleótidos de consenso de ambas cadenas de las moléculas de ADN diana.
"Familia de códigos de barras moleculares" significa un grupo de códigos de barras moleculares, en sus correspondientes moléculas diana, que tienen una secuencia de nucleótidos idéntica o estrechamente relacionada. La secuencia de nucleótidos idéntica o estrechamente relacionada de códigos de barras moleculares de una familia de códigos de barras también se denomina "código de barras molecular único". "Estrechamente relacionada" significa que cualquiera de los códigos de barras moleculares dentro de una familia específica puede tener uno, o dos, o tres, o cualquier número de nucleótidos diferentes, o uno, o dos, o tres, o cualquier número de más o menos nucleótidos.
"Casete de código de barras molecular" significa un tramo de nucleótidos que incluye el código de barras molecular, la secuencia de nucleótidos fija en dirección 5' (extremo 5') y la secuencia de nucleótidos fija en dirección 3' (extremo 3'). Se secuencian las regiones del código de barras molecular y la secuencia de nucleótidos fija del extremo 3'. Se secuenciará parte o nada de la secuencia de nucleótidos fija del extremo 5'. La longitud de las secuencias de nucleótidos fijas del extremo 5' y del extremo 3' puede ser cualquier número de 1 a 100 o incluso mayor, siempre que la potencia de secuenciación admita la secuenciación de estas secuencias. Durante la amplificación de las moléculas diana se producen diversos errores en las secuencias de los códigos de barras moleculares. Estos errores incluyen cambios de bases (mutaciones), inserción y/o supresión de diversos números de nucleótidos en la región de código de barras molecular. Las secuencias de nucleótidos fijas del extremo 5' y del extremo 3' se usan para validar la longitud y la posición de los códigos de barras moleculares después de la amplificación durante el análisis de secuencia.
"Códigos de barras moleculares redundantes" significa más de un código de barras molecular, cada uno con una secuencia de nucleótidos diferente, que se marcan en las moléculas de ADN descendientes amplificadas de una molécula de ADN diana original. Es decir, se supone que las moléculas descendientes amplificadas de una molécula diana original específica están marcadas con códigos de barras de moléculas idénticos con la misma secuencia de nucleótidos, pero en cambio, están marcadas con muchos códigos de barras moleculares diferentes con distintas secuencias de nucleótidos. Estos códigos de barras moleculares diferentes son códigos de barras redundantes. Los códigos de barras moleculares redundantes son diferentes de la "colisión de códigos de barras", que es que los mismos códigos de barras moleculares con idéntica secuencia de nucleótidos se añaden a diferentes moléculas diana o a sus moléculas descendientes amplificadas.
"Consenso monocatenario" significa el uso de las secuencias de la cadena sentido o de la cadena antisentido, o de ambas cadenas sentido y antisentido sin discriminación, de una molécula de ADN diana para deducir una secuencia de nucleótidos de consenso, o la secuencia de nucleótidos de consenso deducida de las secuencias de la cadena sentido o de la cadena antisentido, o de ambas cadenas sentido y antisentido sin discriminación, de la molécula de ADN diana.
"Consenso bicatenario" significa el uso de las secuencias de la cadena sentido y de la cadena antisentido de una molécula de ADN diana para deducir una secuencia de nucleótidos de consenso, o el uso de las secuencias tanto de un grupo de las cadenas sentido como de un grupo de las cadenas antisentido de las moléculas de ADN diana para deducir una secuencia de nucleótidos de consenso; o la secuencia de nucleótidos de consenso deducida de las secuencias de la cadena sentido y la cadena antisentido de la molécula de ADN diana, o la secuencia de nucleótidos de consenso deducida de las secuencias de un grupo de las cadenas sentido y un grupo de las cadenas antisentido de las moléculas de ADN diana. El consenso bicatenario implica, pero sin limitación, el hallazgo de códigos de barras moleculares complementarios bicatenarios que se usan para marcar ambas cadenas de las moléculas diana, o el hallazgo de los patrones de códigos de barras moleculares, como se describe en la presente invención, que permite diferenciar las cadenas sentido y antisentido de las moléculas de ADN diana.
"Amplicón" significa el producto de una reacción de amplificación de polinucleótidos. Es decir, es una población de polinucleótidos, por lo general bicatenarios, que se replican a partir de una o varias secuencias de partida. La una o más secuencias de partida pueden ser una o más copias de la misma secuencia, o puede ser una mezcla de diferentes secuencias. Los amplicones pueden producirse mediante una diversidad de reacciones de amplificación cuyos productos son múltiples réplicas de uno o más ácidos nucleicos diana. Generalmente, las reacciones de amplificación que producen amplicones son "impulsadas por molde" en el sentido de que el emparejamiento de bases de los reactivos, ya sean nucleótidos u oligonucleótidos, tienen complementos en un polinucleótido molde que son necesarios para la creación de productos de reacción. En un aspecto, las reacciones impulsadas por molde son prolongaciones de cebadores con una polimerasa de ácido nucleico o ligaduras de oligonucleótidos con una ligasa de ácido nucleico. Dichas reacciones incluyen, pero sin limitación, reacciones en cadena de la polimerasa (PCR), reacciones de polimerasa lineal, amplificación basada en secuencia de ácido nucleico (NASBA, por sus siglas en inglés), amplificaciones de círculo rodante, y similares, desveladas en las siguientes referencias: Mullis et al, Pat. de los EE.UU. N.° 4.683.195; 4.965.188; 4.683.202; 4.800.159 (PCR); Gelfand et al, Pat. de los EE.UU. N.° 5.210.015 (PCR en tiempo real con sondas "TAQMAN™"); Wittwer et al, Pat. de los EE.UU. N.° 6.174.670; Kacian et al, Pat. de los EE.UU. N.° 5.399.491 ("NASBA"); Lizardi, Pat. de los EE.UU. N.° 5.854.033; Aono et al, publ. de patente japonesa JP 4-262799 (amplificación de círculo rodante); y similares. En un aspecto, los amplicones son producidos mediante PCR. Una reacción de amplificación puede ser una amplificación "en tiempo real" si se dispone de una química de detección que permita medir un producto de reacción a medida que progresa la reacción de amplificación, por ejemplo, la "PCR en tiempo real" descrita a continuación, o la "NASBA en tiempo real" descrita en Leone et al, Nucleic Acids Research, 26: 2150-2155 (1998), y referencias similares. Como se usa en el presente documento, el término "amplificar" significa realizar una reacción de amplificación. Una "mezcla de reacción" es una solución que contiene todos los reactivos necesarios para realizar una reacción, que pueden incluir, pero sin limitación, agentes tamponadores para mantener el pH a un nivel seleccionado durante una reacción, sales, cofactores, neutralizadores y similares. Los uno o más reactivos configurados para la reacción de prolongación de cebadores y la escisión por exonucleasas descritas en el presente documento pueden estar configurados para incluir componentes que permitan la prolongación de cebadores y/o la escisión por exonucleasas. Por ejemplo, uno o más reactivos configurados para la reacción de prolongación de cebadores y la escisión por exonucleasas pueden incluir agentes tamponadores para mantener el pH a un nivel seleccionado durante una reacción, sales, cofactores, etc.
"Complementario" o "sustancialmente complementario" se refiere a la hibridación o al emparejamiento de bases o a la formación de un dúplex entre nucleótidos o ácidos nucleicos, tal como, por ejemplo, entre las dos cadenas de una molécula de ADN bicatenario o entre un cebador oligonucleotídico y un sitio de unión del cebador en un ácido nucleico monocatenario. Los nucleótidos complementarios son, generalmente, A y T (o A y U), o C y G. Se dice que dos moléculas de ARN o ADN monocatenario son sustancialmente complementarias cuando los nucleótidos de una cadena, alineados y comparados de forma óptima y con las inserciones o supresiones de nucleótidos adecuadas, se emparejan con al menos aproximadamente el 80 % de los nucleótidos de la otra cadena, por lo general, al menos de aproximadamente el 90 % al 95 %, y más preferentemente de aproximadamente el 98 % al 100 %. Como alternativa, existe una complementariedad sustancial cuando una cadena de ARN o ADN se hibrida en condiciones de hibridación selectiva con su complemento. Normalmente, se producirá hibridación selectiva cuando haya al menos aproximadamente el 65 % de complementariedad en un tramo de al menos 14 a 25 nucleótidos, preferentemente al menos aproximadamente el 75 %, más preferentemente al menos aproximadamente el 90 % de complementariedad. Véase, M. Kanehisa Nucleic Acids Res. 12: 203 (1984).
"Dúplex" significa que al menos dos oligonucleótidos y/o polinucleótidos que son total o parcialmente complementarios experimentan un emparejamiento de bases de tipo Watson-Crick entre todos o la mayoría de sus nucleótidos, de manera que se forma un complejo estable. Los términos "emparejamiento" e "hibridación" se usan indistintamente para referirse a la formación de un dúplex estable. "Perfectamente apareado" en referencia a un dúplex significa que las cadenas de poli u oligonucleótidos que componen el dúplex forman una estructura bicatenaria entre sí, de manera que cada nucleótido de cada cadena experimenta un emparejamiento de bases de Watson-Crick con un nucleótido de la otra cadena. Un dúplex estable puede incluir el emparejamiento de bases de Watson-Crick y/o el emparejamiento de bases no de Watson-Crick entre las cadenas del dúplex (donde el emparejamiento de bases significa la formación de enlaces de hidrógeno). En determinadas realizaciones, un par de bases no de Watson-Crick incluye un análogo de nucleósido, tal como la desoxinosina, 2,6-diaminopurina, PNA, LNA y similares. En determinadas realizaciones, un par de bases no de Watson-Crick incluye una "base oscilante", tal como la desoxinosina, 8-oxo-dA, 8-oxo-dG y similares, donde por "base oscilante" se entiende una base de ácido nucleico que puede emparejarse con una primera base de nucleótido en una cadena de ácido nucleico complementaria pero que, cuando se emplea como cadena molde para la síntesis de ácidos nucleicos, conduce a la incorporación de una segunda base nucleotídica diferente en la cadena que se sintetiza (las bases oscilantes se describen con más detalle a continuación). Un "desapareamiento" en un dúplex entre dos oligonucleótidos o polinucleótidos significa que un par de nucleótidos en el dúplex no consigue experimentar la unión de Watson-Crick. "Pares de bases no apareados" en un dúplex entre dos oligonucleótidos o polinucleótidos significa que estos pares de nucleótidos en el dúplex no consiguen experimentar la unión de Watson-Crick. Una región "heterodúplex" en un dúplex entre dos oligonucleótidos o polinucleótidos significa que los nucleótidos de las dos cadenas de esta región son pares de bases no apareadas entre sí.
"Kit" se refiere a cualquier sistema de entrega de materiales o reactivos para realizar un método de la invención. En el contexto de ensayos de reacción, dichos sistemas de entrega incluyen sistemas que permiten el almacenamiento, el transporte o la entrega de reactivos de reacción (por ejemplo, sondas, enzimas, etc. en los recipientes apropiados) y/o materiales de apoyo (por ejemplo, tampones, instrucciones escritas para realizar el ensayo, etc.) de un lugar a otro. Por ejemplo, los kits incluyen uno o más recintos (por ejemplo, cajas) que contienen los reactivos de reacción y/o los materiales de apoyo pertinentes. Dichos contenidos pueden entregarse al destinatario previsto juntos o por separado. Por ejemplo, un primer recipiente puede contener una enzima para su uso en un ensayo, mientras que un segundo recipiente contiene sondas.
"Secuenciación de última generación" (NGS), como se usa en el presente documento, se refiere a tecnologías de secuenciación que tienen la capacidad de secuenciar polinucleótidos a velocidades sin precedentes usando métodos de secuenciación convencionales (por ejemplo, métodos de secuenciación de Sanger o Maxam-Gilbert convencionales). Estas velocidades sin precedentes se consiguen realizando y leyendo de miles a millones de reacciones de secuenciación en paralelo. Las plataformas de secuenciación NGS incluyen, pero sin limitación, las siguientes: Secuenciación Masiva de Distintivos en Paralelo (Lynx Therapeutics); pirosecuenciación 454 (454 Life Sciences/Roche Diagnostics); secuenciación de terminador con colorante reversible en fase sólida (Solexa/Illumina); tecnología SOLiD (Applied Biosystems); Secuenciación por semiconductores iónicos (Ion Torrent); y la secuenciación de nanobolas de ADN (Complete Genomics). Pueden encontrarse descripciones de determinadas plataformas de NGS en los siguientes: Shendure, et al., "Next-generation DNA sequencing", Nature, 2008, vol. 26, n.° 10, 1135-1145; Mardis, "The impact of next-generation sequencing technology on genetics", Trends in Genetics, 2007, vol. 24, N.° 3, págs. 133-141; Su, et al., "Next-generation sequencing and its applications in molecular diagnostics" Expert Rev Mol Diagn, 2011, 11(3):333-43; y Zhang et al., "The impact of next-generation sequencing on genomics", J Genet Genomics, 2011, 38(3): 95-109.
"Nucleótido", como se usa en el presente documento, incluye los nucleósidos naturales, incluyendo las formas 2'-desoxi y 2'-hidroxi, por ejemplo, como se describe en Kornberg y Baker, DNA Replication, 2a Ed. (Freeman, San Francisco, 1992). "Análogos" en referencia a los nucleósidos incluyen los nucleósidos sintéticos que tienen restos de bases modificados y/o restos de azúcares modificados, por ejemplo, descritos por Scheit, Nucleotide Analogs (John Wiley, Nueva York (1980); Uhlman y Peyman, Chemical Reviews, 90: 543-584 (1990) o similares, a condición de que sean susceptibles de hibridación específica. Dichos análogos incluyen nucleósidos sintéticos diseñados para potenciar las propiedades de unión, reducir la complejidad, aumentar la especificidad, y similares. Se describen polinucleótidos que comprenden análogos con propiedades potenciadas de hibridación o resistencia a nucleasas en Uhlman y Peyman (citado anteriormente); Crooke et al, Exp. Opin. Ther. Patents, 6: 855-870 (1996); Mesmaeker et al, Current Opinion in Structural Biology, 5: 343-355 (1995); y similares. Los tipos de ejemplo de polinucleótidos que son capaces de potenciar la estabilidad del dúplex incluyen los fosforamidatos N3'^-P5' de oligonucleótidos (denominados en el presente documento "amidatos"), ácidos peptidonucleicos (denominados en el presente documento "APN"), oligo-2'O-alquilrribonucleótidos, polinucleótidos que contienen propinilpirimidinas C-5, ácidos nucleicos bloqueados ("ANB") y compuestos similares. Dichos oligonucleótidos están disponibles en el mercado o pueden sintetizarse usando métodos descritos en la bibliografía.
"Reacción en cadena de la polimerasa", o "PCR", significa una reacción para la amplificación in vitro de secuencias de ADN específicas mediante la prolongación simultánea de cebadores de cadenas complementarias de ADN. En otras palabras, la PCR es una reacción para hacer múltiples copias o réplicas de un ácido nucleico diana flanqueado por sitios de unión a cebadores, dicha reacción que comprende una o más repeticiones de las siguientes etapas: (i) desnaturalizar el ácido nucleico diana, (ii) hibridar los cebadores con los sitios de unión a cebadores, y (iii) prolongar cebadores mediante una polimerasa de ácido nucleico en presencia de trifosfatos de nucleósidos. Por lo general, la reacción se cicla a través de diferentes temperaturas optimizadas para cada etapa en un instrumento de ciclado térmico. Las temperaturas particulares, las duraciones en cada etapa y las tasas de cambio entre etapas dependen de muchos factores bien conocidos por los expertos en la materia, por ejemplo, ejemplificados por las referencias: McPherson et al, editores, PCR: A Practical Approach and PCR2: A Practical Approach (IRL Press, Oxford, 1991 y 1995, respectivamente). Por ejemplo, en una PCR convencional usando la ADN polimerasa Taq, un ácido nucleico diana bicatenario puede desnaturalizarse a una temperatura >90 °C, los cebadores pueden hibridarse a una temperatura en el intervalo de 50-75 °C los y los cebadores pueden hibridarse a una temperatura en el intervalo de 72-78 °C. El término "PCR" abarca formas derivadas de la reacción, incluyendo, pero sin limitación, RT-PCR, PCR en tiempo real, PCR anidada, PCR cuantitativa, PCR multiplexada y similares. Los volúmenes de reacción varían de unos pocos nanolitros, por ejemplo, 2 nl, hasta unos cientos de pl, por ejemplo, 200 pl. "PCR de transcripción inversa", o "RT-PCR", significa una p Cr que va precedida de una reacción de transcripción inversa que convierte un ARN diana en un ADN monocatenario complementario, que después se amplifica, por ejemplo, Tecott et al, Pat. de los EE.UU. N.° 5.168.038. "PCR en tiempo real" significa una p Cr para la que la cantidad de producto de reacción, es decir, el amplicón, se controla a medida que avanza la reacción. Existen muchas formas de PCR en tiempo real que difieren principalmente en las químicas de detección utilizadas para controlar el producto de reacción, por ejemplo, Gelfand et al, Pat. de los EE.UU. N.° 5.210.015 ("TAQMAN™"); Wittwer et al, Pat. de los EE.UU. N.° 6.174.670 y 6.569.627 (colorantes intercalantes); Tyagi et al, Pat. de los EE.UU. N.° 5.925.517 (balizas moleculares). Se revisan químicas de detección para la PCR en tiempo real en Mackay et al, Nucleic Acids Research, 30: 1292-1305 (2002). "PCR anidada" significa una PCR de dos etapas en donde el amplicón de una primera PCR se convierte en la muestra para una segunda PCR usando un nuevo conjunto de cebadores, al menos uno de los cuales se une a una ubicación interior del primer amplicón. Como se usa en el presente documento, "cebadores iniciales" en referencia a una reacción de amplificación anidada significa los cebadores utilizados para generar un primer amplicón y "cebadores secundarios" significa el uno o más cebadores utilizados para generar un segundo amplicón, o anidado. "PCR multiplexada" significa una PCR en donde se realizan simultáneamente múltiples secuencias diana (o una única secuencia diana y una o más secuencias de referencia) en la misma mezcla de reacción, por ejemplo, Bernard et al, Anal. Biochem., 273: 221­ 228 (1999) (PCR en tiempo real de dos colores). Por lo general, se emplean distintos conjuntos de cebadores para cada secuencia que se amplifica.
"Cebador" o "cebador específico de diana" significa un oligonucleótido, ya sea natural o sintético, que es capaz de actuar, tras formar un dúplex con un molde polinucleotídico, como punto de inicio de la síntesis de ácido nucleico y de prolongarse desde su extremo 3' a lo largo del molde para que se forme un dúplex prolongado. La secuencia de nucleótidos añadida durante el proceso de prolongación está determinada por la secuencia del polinucleótido molde. Por lo general, los cebadores se prolongan mediante una ADN polimerasa. Los cebadores generalmente tienen una longitud compatible con su uso en la síntesis de productos de prolongación de cebadores, y por lo general están en el intervalo de entre 8 y 100 nucleótidos de longitud, tal como de 10 a 75, de 15 a 60, de 15 a 40, de 18 a 30, de 20 a 40, de 21 a 50, de 22 a 45, de 25 a 40, etc., más normalmente en el intervalo de entre 18-40, 20-35, 21-30 nucleótidos de longitud, y cualquier longitud entre los intervalos indicados. Los cebadores típicos pueden estar en el intervalo de entre 10-50 nucleótidos de longitud, tal como 15-45, 18-40, 20-30, 21-25, etc., y cualquier longitud entre los intervalos indicados. En algunas realizaciones, los cebadores por lo general no tienen más de aproximadamente 10, 12, 15, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 35, 40, 45, 50, 55, 60, 65 o 70 nucleótidos de longitud.
Los cebadores por lo general son monocatenarios para lograr la máxima eficiencia en la amplificación, pero como alternativa pueden ser bicatenarios. Si es bicatenario, el cebador por lo general se trata en primer lugar para separar sus cadenas antes de su uso para preparar los productos de prolongación. Esta etapa de desnaturalización normalmente se ve afectada por el calor, pero puede realizarse como alternativa usando álcalis, seguido de neutralización. Por lo tanto, un "cebador" es complementario a un molde, y forma un complejo por enlace de hidrógeno o hibridación con el molde para proporcionar un complejo cebador/molde para el inicio de la síntesis mediante una polimerasa, que se prolonga mediante la adición de bases unidas covalentemente en su extremo 3' complementarias al molde en el proceso de síntesis de ADN.
Un "par de cebadores", como se usa en el presente documento, se refiere a los cebadores primero y segundo que tienen una secuencia de ácido nucleico adecuada para la amplificación basada en ácido nucleico de un ácido nucleico diana. Dichos pares de cebadores generalmente incluyen un primer cebador que tiene una secuencia igual o similar a la de una primera porción de un ácido nucleico diana, y un segundo cebador que tiene una secuencia que es complementaria a una segunda porción de un ácido nucleico diana para proporcionar la amplificación del ácido nucleico diana o un fragmento del mismo. La referencia a los cebadores "primero" y "segundo" en el presente documento es arbitraria, a menos que se indique específicamente de otro modo. Por ejemplo, el primer cebador puede diseñarse como un "cebador directo" (que inicia la síntesis de ácido nucleico desde un extremo 5' del ácido nucleico diana) o como un "cebador inverso" (que inicia la síntesis de ácido nucleico desde un extremo 5' del producto de prolongación producido a partir de la síntesis iniciada desde el cebador directo). Análogamente, el segundo cebador puede diseñarse como un cebador directo o un cebador inverso.
"Específico" o "especificidad" en referencia a la unión de una molécula a otra molécula, tal como una secuencia diana marcada para una sonda, significa el reconocimiento, el contacto y la formación de un complejo estable entre las dos moléculas, junto con un reconocimiento, un contacto o una formación de complejos sustancialmente menores de esa molécula con otras moléculas. En un aspecto, "específico" en referencia a la unión de una primera molécula a una segunda molécula significa que en la medida en que la primera molécula reconoce y forma un complejo con otra molécula en una reacción o muestra, forma el mayor número de complejos con la segunda molécula. Preferentemente, este mayor número es al menos del cincuenta por ciento. Generalmente, las moléculas implicadas en un evento de unión específico tienen áreas en sus superficies o en cavidades que dan origen a un reconocimiento específico entre las moléculas que se unen entre sí. Los ejemplos de unión específica incluyen interacciones anticuerpo-antígeno, interacciones enzima-sustrato, formación de dúplex o triplex entre polinucleótidos y/u oligonucleótidos, interacciones biotina-avidina o biotina-estreptavidina, interacciones receptor-ligando, y similares. Como se usa en el presente documento, "contacto" en referencia a la especificidad o a la unión específica significa que dos moléculas están lo suficientemente cerca como para que las interacciones químicas no covalentes débiles, tales como las fuerzas de Van der Waal, enlaces de hidrógeno, interacciones de apilamiento de bases, interacciones iónicas e hidrófobas, y similares, dominan la interacción de las moléculas.
"Muestra" significa una cantidad de material procedente de una fuente biológica, ambiental, médica o del paciente en la que se busca la detección, la medición o el marcaje de ácidos nucleicos diana. Por un lado, se entiende que incluye una muestra de ensayo o un cultivo (por ejemplo, cultivos microbiológicos). Por otro lado, se entiende que incluye tanto muestras biológicas como ambientales. Una muestra puede incluir una muestra de ensayo de origen sintético. Las muestras biológicas pueden ser de animales, incluyendo el ser humano, líquidas, sólidas (por ejemplo, heces) o tejidos, así como productos e ingredientes alimentarios y piensos líquidos y sólidos, tales como productos lácteos, verduras, carne y subproductos cárnicos, y desechos. Las muestras biológicas pueden incluir materiales tomados de un paciente, incluyendo, pero sin limitación, cultivos, sangre, saliva, líquido cefalorraquídeo, líquido pleural, leche, linfa, esputo, semen, aspirados de aguja y similares. Pueden obtenerse muestras biológicas de todas las diversas familias de animales domésticos, así como los animales asilvestrados o silvestres, incluyendo, pero sin limitación, animales tales como ungulados, oso, peces, roedores, etc. Las muestras ambientales incluyen material ambiental tal como materia superficial, suelo, agua y muestras industriales, así como muestras obtenidas de instrumentos de procesamiento de alimentos y productos lácteos, aparato, equipo, utensilios, artículos desechables y no desechables. Estos ejemplos no deben interpretarse como una limitación de los tipos de muestras aplicables a la presente invención.
Las expresiones "en dirección 5'" y "en dirección 3'" en la descripción de la orientación y/o polimerización de las moléculas de ácido nucleico se usan en el presente documento como las entiende un experto en la materia. Como tal, "en dirección 3'" significa generalmente el avance en la dirección de 5' a 3', es decir, la dirección en la que una polimerasa de nucleótidos normalmente prolonga una secuencia, y "en dirección 5'" generalmente significa lo contrario. Por ejemplo, un primer cebador que se hibrida "en dirección 5'" de un segundo cebador en la misma molécula de ácido nucleico diana se ubica en el lado 5' del segundo cebador (y, por lo tanto, la polimerización de ácido nucleico desde el primer cebador avanza hacia el segundo cebador).
Se observa además que las reivindicaciones pueden redactarse para excluir cualquier elemento opcional. Como tal, esta afirmación pretende servir como fundamento para el uso de dicha terminología excluyente tal como "únicamente", "solo" y similares en relación con la cita de los elementos de las reivindicaciones o para el uso de una limitación "negativa".
Los métodos proporcionados en el presente documento pueden usarse para la mejora de los protocolos de amplificación múltiple (por ejemplo, p Cr ) o cualquier otro método que implique una pluralidad de oligonucleótidos o cebadores de ADN. Más particularmente, los métodos proporcionados en el presente documento pueden usarse para reducir los códigos de barras moleculares redundantes en protocolos de PCR múltiple o cualquier otro método que implique una pluralidad de oligonucleótidos o cebadores de ADN. Los métodos desvelados en el presente documento proporcionan protocolos optimizados para realizar reacciones de PCR múltiple de manera que se eliminen o se reduzcan los códigos de barras moleculares redundantes. En conjunto, los métodos pueden relacionarse con métodos mejorados de preparación de bibliotecas de ácido nucleico.
En un aspecto, los métodos proporcionan la reducción de códigos de barras moleculares redundantes de una reacción de amplificación. El método puede implicar proporcionar una muestra de ácido nucleico que comprende al menos un ácido nucleico diana. Los ácidos nucleicos pueden ser ARN o ADN. El ADN puede ser ADN genómico, ADNc, ADNsc, ADNsc o cualquier combinación de los mismos. El ADN puede ser monocatenario o bicatenario. El ADN puede derivar de una célula eucariota, una célula de arquea, una célula bacteriana, una célula micobacteriana, un bacteriófago, un ADN vírico o un ARN vírico, o puede convertirse a partir de ARN. En algunos casos, el ADN puede derivar de un mamífero. En algunos casos, el ADN puede derivar de un ser humano. El ADN puede estar sin modificar o puede estar modificado (por ejemplo, metilado, glucosilado, etc.). Los ácidos nucleicos pueden usarse en una reacción de amplificación. Los ácidos nucleicos utilizados en la reacción de amplificación pueden comprender al menos una secuencia de ácido nucleico diana. Una secuencia de ácido nucleico diana generalmente se refiere a una secuencia de ácido nucleico que está dirigida y enriquecida, por ejemplo, con cebadores específicos de diana, en una mezcla de ácidos nucleicos. La reacción de amplificación puede ser cualquier método que implique hibridar una pluralidad de oligonucleótidos o cebadores de ADN con sus dianas correspondientes. La amplificación puede ser una reacción en cadena de la polimerasa (PCR). En un ejemplo, la reacción de amplificación es una PCR múltiple. En otros ejemplos, las reacciones de amplificación pueden ser amplificación por prolongación de unión, PCR múltiple interna, amplificación de genoma completo, amplificación de exón completo o reacciones de amplificación isotérmica con más de un par de oligonucleótidos, etc. Sirviendo como ejemplo, la PCR múltiple proporciona la amplificación simultánea de una pluralidad de ácidos nucleicos diana en un solo recipiente (es decir, tubo, pocillo, vial y similares) para generar una pluralidad de amplicones. La PCR múltiple generalmente implica el uso de una pluralidad de pares de cebadores específicos de diana que pueden enriquecer selectivamente una pluralidad de ácidos nucleicos diana. La pluralidad de pares de cebadores específicos de diana puede ser de 7 pares de cebadores a más de 100.000 pares de cebadores. En un caso, la pluralidad de pares de cebadores específicos de diana comprende al menos 7 pares de pares de cebadores específicos de diana. En otro caso, la pluralidad de pares de cebadores específicos de diana comprende de aproximadamente 7 a aproximadamente 100 pares de cebadores. En otro caso, la pluralidad de pares de cebadores específicos de diana comprende de aproximadamente 100 a aproximadamente 1.000 pares de cebadores. En otro ejemplo más, la pluralidad de pares de cebadores específicos de diana comprende de aproximadamente 1.000 a aproximadamente 100.000 pares de cebadores. En un caso adicional, la pluralidad de pares de cebadores específicos de diana comprende más de 100.000 pares de cebadores.
Los cebadores pueden comprender enlaces fosfodiéster y/o bases no modificadas, o enlaces fosfodiéster y/o bases modificadas, extremos 5' no protegidos o extremos 5' protegidos, extremos 5' fosforilados o 5' no fosforilados. Los pares de cebadores pueden diseñarse de manera que la longitud del amplicón pueda ser de menos de 100 a más de 1000 pares de bases. Las reacciones de PCR múltiple como se prevén en esta divulgación pueden realizarse mediante ADN polimerasas termoestables comúnmente utilizadas en reacciones de PCR. Las ADN polimerasas termoestables pueden ser de tipo silvestre, pueden tener actividad exonucleasa 3 '^5 ', 5 '^3 ', o ambas 3 '^ 5 ' y 5 '^3 ', o puede ser una mezcla de polimerasas termoestables para una mayor fidelidad, o pueden sintetizar amplicones largos, o tener una velocidad de síntesis más rápida. Un ejemplo de una ADN polimerasa termoestable adecuada puede ser la ADN polimerasa Taq. El perfil térmico (temperatura y tiempo) para la PCR puede optimizarse, la concentración de cebadores también puede optimizarse para conseguir el mejor rendimiento. Por último, puede usarse cualquier aditivo que pueda promover la amplificación óptima de los amplicones. Estos aditivos incluyen, sin limitación, dimetilsulfóxido, betaína, formamida, T riton X-100, Tween 20, Nonidet P-40, N-óxido de 4-metilmorfolina, cloruro de tetrametilamonio, 7-desaza-2'-desoxiguanosina, L-prolina, seroalbúmina bovina, trehalosa y proteína del gen 32 de T4.
Los métodos desvelados en el presente documento pueden implicar adicionalmente poner en contacto la reacción de amplificación con una nucleasa específica de ADN monocatenario para escindir regiones de ADN monocatenario. Como se usa en el presente documento, la expresión "poner en contacto" equivale a introducir dicha enzima en una mezcla preexistente como se describe en el presente documento. Los métodos de la presente divulgación pueden usar una diversidad de nucleasas específicas de ADN monocatenario que pueden reconocer y escindir regiones de ADN monocatenario. La forma plural se usará en el presente documento para referirse a enzimas que se unen a y escinden estructuras de ADN anormales. Las regiones de ADN monocatenario incluyen, sin limitación, ADN ramificados, estructuras en Y, bucles heterodúplex, salientes monocatenarios, apareamientos incorrectos y otros tipos de ADN no apareados perfectamente. En algunos ejemplos, la nucleasa específica de ADN monocatenario puede reducir la cantidad de regiones de ADN monocatenario en la reacción de amplificación sin reducir la cantidad de productos de amplificación específicos de diana que no contienen regiones de ADN monocatenario. En otros ejemplos, pueden reducirse tanto las regiones de ADN monocatenario como los productos de amplificación específicos de diana. En algunos casos, la reacción de amplificación puede estar sustancialmente exenta de regiones de ADN monocatenario. Sustancialmente exenta de regiones de ADN monocatenario puede significar que la cantidad de regiones de ADN monocatenario en la reacción de amplificación se ha reducido en más del 50 %, el 60 %, el 70 %, el 80 %, el 85 %, el 90 %, el 91 %, el 92 %, el 93 %, el 94 %, el 95 %, el 96 %, el 97 %, el 98 %, el 99 %, hasta el 100 %.
Los ejemplos de nucleasas específicas de ADN monocatenario que pueden utilizarse para escindir regiones de ADN monocatenario en los métodos proporcionados en el presente documento incluyen, sin limitación, unión Holliday de bacteriófago resolvasa endonucleasa T7 I; endonucleasa T4 VII; endonucleasa flap (FEN); endonucleasa V de E.coli, endonucleasa V de Thermotoga marítima; nucleasa S1; nucleasas P1; nucleasa de judía mungo; CEL I; nucleasa SP1; exonucleasa VII; RecJ; RecJf. En ejemplos específicos, la nucleasa específica de ADN monocatenario puede ser la endonucleasa T4 VII, o la nucleasa de judía mungo, o la exonucleasa VII, o la RecJ, o la RecJf. Debe entenderse que esencialmente se contempla cualquier nucleasa específica de ADN monocatenario o su mutante que pueda realizar los métodos de la divulgación como se describe en el presente documento.
En algunos casos, los métodos pueden implicar la eliminación de las regiones de ADN monocatenario escindidas de la reacción de amplificación. En otros casos, las regiones de ADN monocatenario escindidas pueden digerirse adicionalmente en pequeños oligonucleótidos y nucleótidos por la exonucleasa I de E. coli.
En algunos casos, los productos de amplificación descritos en el presente documento pueden usarse para preparar bibliotecas para secuenciación de última generación. Las secuencias comunes en los pares de cebadores son idénticas a parte de los adaptadores útiles para las aplicaciones de secuenciación de última generación. Los adaptadores pueden ser adaptadores de secuenciación útiles en una plataforma de secuenciación de última generación (por ejemplo, adaptadores Illumina TruSeq). Por ejemplo, los métodos de la invención son útiles para la secuenciación de última generación mediante los métodos comercializados por Illumina, como se describe en las Pat. de los EE.UU. N.° 5.750.341 (Macevicz); 6.306.597 (Macevicz); y 5.969.119 (Macevicz).
Ahora se hará referencia particular a aspectos y figuras específicos de la divulgación. Dichos aspectos se proporcionan solo a modo de ejemplo. Numerosas variaciones, cambios y sustituciones se les ocurrirán ahora a los expertos en la materia sin apartarse de la divulgación.
Ejemplos
EJEMPLO 1. MÉTODO DE CÓDIGOS DE BARRAS MOLECULARES DUALES.
Para demostrar la viabilidad del método de los presentes inventores de eliminación de códigos de barras moleculares redundantes de una reacción de prolongación de cebadores que incluye códigos de barras moleculares en AMBOS cebadores (representados en la FIG. 1), y la consiguiente eliminación de errores aleatorios y llamada de variante de ambas cadenas de ADN diana (FIG. 3), se sometió a ensayo el efecto de la exonucleasa específica de ADN monocatenario sobre el rendimiento de las bibliotecas de ADN, y la posterior llamada de variante después de la secuenciación de las bibliotecas.
Para permitir la secuenciación de una biblioteca en las máquinas de secuenciación de Illumina, la estructura de la biblioteca se diseñó como se muestra en la FIG. 6A. Se amplificaron dianas de ADN con una pluralidad de pares de cebadores (también denominados panel de cebadores o panel) en la reacción de PCR múltiple durante tres ciclos. Después de eliminar los códigos de barras redundantes, los productos de PCR múltiple se amplificaron adicionalmente en la segunda ronda de PCR con un par de cebadores para producir la biblioteca. Se usó un panel de cebadores que contenía 40 pares de cebadores (40-plex). Como se describe en el sumario, cada cebador contenía una región específica de diana del extremo 3' que amplifica específicamente el ADN diana, y un casete de código de barras molecular del extremo 5' (FIG. 6B). Las secuencias de nucleótidos fijas del extremo 5' del casete de código de barras molecular eran complementarias al par de cebadores utilizados en la PCR secundaria. La secuencia aleatoria de 12­ 40 nucleótidos sirvió como código de barras molecular para marcar moléculas diana individuales. Las secuencias de nucleótidos fijas a ambos lados del código de barras molecular se usaron para validar la longitud de los códigos de barras moleculares durante el análisis de la secuencia después de la secuenciación. El par de cebadores utilizados en la reacción de PCR secundaria, así como la secuencia de nucleótidos fija del extremo 5' del casete de código de barras molecular (subrayado), se muestran en la FIG. 6C. La secuencia de nucleótidos fija del extremo 3' utilizada en este ensayo fue GAC. La longitud de la región de nucleótidos aleatorios era de 12 nucleótidos.
El molde de ADN, NA12878 y NA18507, se adquirió en el Instituto Coriell. Los presentes inventores mezclaron estos dos ADN de referencia con NA12878 al 0,2 % en NA18507 (NA12878 al 0,2 %/NA18507) en peso, y llevaron la concentración total a 40 nanogramos por microlitro (ng/pl). También se usó otro ADN de referencia. Éstos incluyen NA12877 del Instituto Coriell, HD780 de Horizon Discovery y Seraseq ctDNA Mutation Mix v2 (ADN purificado) (número de catálogo 0710-0143) de SeraCare.
El flujo de trabajo se representa en la FIG. 7. Se amplificaron 100 ng de ADN mixto NA12878 al 0,2 %/NA12877 con 25 nM de cada uno de los 40 pares de cebadores mediante PCR. Los reactivos y el método de PCR múltiple fueron proporcionados por Paragon Genomics Inc. (CleanPlex™ Targeted Library Kit, SKU: 816001), similar a lo que se describió en la solicitud de patente de los EE.UU. N.° 15/290981. La PCR múltiple se detuvo después de tres ciclos. Después de la purificación de los productos de amplificación con perlas magnéticas (de lo cual se describe un ejemplo en la Guía del Usuario del Kit de Biblioteca Dirigida CleanPlex™), el ADN se trató con 2 pl del reactivo de digestión (por ejemplo, el reactivo de digestión CP que contenía endonucleasa T4 VII del Kit de Biblioteca Dirigida CleanPlex™) complementada con 2 unidades de exonucleasa VII de E. coli a 37 °C durante 20 minutos. La reacción se purificó con perlas magnéticas y se amplificó de nuevo durante 21 ciclos con un par de cebadores de segunda amplificación. Junto con la descrita anteriormente, se realizó una segunda biblioteca, esta biblioteca se trató con 2 pl de reactivo de digestión sin exonucleasa (por ejemplo, sin complemento de exonucleasa VII de E. coli), denominada "biblioteca no digerida".
El tamaño, la concentración y la pureza de estas bibliotecas se analizaron en un instrumento BioAnalyzer 2100 (Agilent Technologies, número de catálogo G2938B). Se analizó 1 pl de cada biblioteca con un kit de análisis de ADN de sensibilidad alta (Agilent Technologies, número de catálogo 5067-4626), de acuerdo con los métodos proporcionados por el proveedor. Los resultados se presentan en las FIG.8A-8B. Como se esperaba, la concentración de la biblioteca tratada con exonucleasa VII de E. coli fue de 15750 pM, que fue del 64,6 % de la biblioteca no digerida (24394 pM), lo que indica la eliminación de aproximadamente la mitad de los códigos de barras moleculares redundantes (FIG. 1).
Estas bibliotecas se secuenciaron en un secuenciador Illumina NextSeq con una célula de flujo de alto rendimiento con una longitud de lectura de 2X150 pb. Después de la secuenciación, los datos de secuencia se filtraron para eliminar los que no se cartografiaron en el genoma humano de referencia y los que no se cartografiaron en las dianas definidas de amplificación. Cada biblioteca se clasificó por los índices de las muestras, cada una de las 40 dianas de ADN (amplicones) se clasificó adicionalmente por su secuencia. Dentro de cada amplicón, las moléculas derivadas de diferentes células se clasificaron adicionalmente por los códigos de barras moleculares. Esto condujo a la formación de "familias" por códigos de barras moleculares. Cada familia contenía un número diferente de miembros (también denominados "lecturas"). Todas las lecturas de una familia específica tenían códigos de barras moleculares idénticos (denominados "código de barras molecular único" de cada familia). Para maximizar el número de lecturas en cada familia y mantener la fidelidad de los códigos de barras moleculares, los códigos de barras moleculares se analizaron adicionalmente por su secuencia y longitud. Cualquier código de barras molecular que difiriera de otro por dos o más nucleótidos en la secuencia o la longitud no se colocó en la misma familia. En otras palabras, cualquier código de barras molecular que difiriera de otro por un solo nucleótido en la secuencia o la longitud se colocó en la misma familia. Los miembros de cada familia se usaron para deducir una secuencia de consenso del ADN diana. Los resultados se muestran en la tabla 1 (FIG. 18). Ambas bibliotecas tenían uniformidades similares (97,5 % de las digeridas y 95 % de las no digeridas) a 0,5 X lecturas medias, y lecturas en bruto de extremos emparejados similares (5,3 millones de digeridas y 5,6 millones de no digeridas). Sin embargo, la biblioteca no digerida tenía un número de códigos de barras únicos 1,6 veces superior al de la biblioteca digerida. Con un número similar de lecturas en bruto, se espera que la biblioteca con códigos de barras moleculares redundantes tenga un mayor número de familias de códigos de barras con menor número de miembros, y menos familias con mayor número de miembros, que la biblioteca sin códigos de barras redundantes. Esto se observó con la biblioteca no digerida que tenía 2,7 veces el número de familias de códigos de barras con un miembro, 0,3 veces el número de familias de códigos de barras con tres miembros y 0,2 veces el número de familias de códigos de barras con cinco miembros que los de la biblioteca digerida. Adicionalmente, para la biblioteca no digerida, fue imposible agrupar los códigos de barras en cadena sentido y antisentido por la secuencia de los códigos de barras moleculares debido a las combinaciones complejas de códigos de barras. Por el contrario, la biblioteca digerida permitió agrupar los códigos de barras moleculares en cadena sentido y cadena antisentido de las dianas de ADN originales.
Los presentes inventores identificaron 11 posiciones de variantes en NA12878 que difirieron de las de NA18507. Se esperaba que estos puntos de variante se identificaran a una frecuencia de variante del 0,1 % (0,2 % para chr1_11288758_A) en la biblioteca digerida hecha con NA12878 al 0,2 %/NA18507. Los presentes inventores clasificaron los códigos de barras moleculares en cadena sentido y antisentido de cada una de las dianas de ADN originales, eliminaron errores aleatorios haciendo una secuencia de consenso a partir de ambas cadenas del ADN diana y calcularon las frecuencias de variante de cada punto. Como se muestra en la FIG. 19 (tabla 2), todos estos 11 puntos se identificaron, y las frecuencias de las variantes detectadas se acercaron a las esperadas (0,1 %).
Se usan códigos de barras moleculares para eliminar errores aleatorios generados durante el proceso de creación de bibliotecas y secuenciación. Los presentes inventores han investigado el efecto de agrupar códigos de barras moleculares en ambas cadenas de ADN diana sobre la reducción del número de errores aleatorios. Como se muestra en la FIG. 9 , los presentes inventores compararon el número de errores aleatorios descubiertos cuando las lecturas se clasificaron por códigos de barras moleculares directamente de cualquiera de las cadenas del ADN diana, y las de ambas cadenas de cada ADN diana. Los presentes inventores vieron que el número de errores aleatorios se redujo significativamente cuando los códigos de barras moleculares se clasificaron en ambas cadenas de las moléculas de ADN diana.
El método se usó satisfactoriamente para reducir códigos de barras moleculares redundantes, para reducir errores aleatorios y para detectar todos los puntos de variante esperados alrededor de las frecuencias de variante esperadas. Debe observarse que este método, por primera vez, hace posible usar la PCR múltiple para marcar moléculas de ADN con códigos de barras moleculares no redundantes y, al mismo tiempo, permiten la llamada de variante tanto de la cadena sentido como de la cadena antisentido de las moléculas de a Dn diana.
EJEMPLO 2. MÉTODO DE CÓDIGO DE BARRAS MOLECULAR ÚNICO
En este ejemplo, se demostró la viabilidad del método para eliminar códigos de barras moleculares redundantes de una reacción de prolongación de cebadores que implica el código de barras molecular en UN cebador, como se representa en las FIG. 4 y 5. Se usó un panel de cebadores que contenía 205 pares de cebadores para amplificar regiones de ADN correspondientes en NA12878 al 0,2 %/NA18507. Cada uno de estos 205 pares de cebadores contenía una secuencia de nucleótidos específica de diana en el extremo 3' y una secuencia de nucleótidos fija en el 5'. Las secuencias de nucleótidos fijadas en 5' eran complementarias al par de cebadores utilizados en la PCR secundaria. Cada cebador directo contenía adicionalmente una secuencia aleatoria de 10 nucleótidos, que sirve como código de barras molecular, entre la secuencia específica de diana del extremo 3' y la secuencia de nucleótidos fija del extremo 5'. Se usaron 100 ng de NA12878 al 0,2 %/NA18507 y 25 nM de cada uno de los 205 pares de cebadores en una reacción de PCR múltiple. Los reactivos y el método de PCR múltiple fueron proporcionados por Paragon Genomics Inc. (CleanPlex™ Targeted Library Kit, SKU: 816001). La PCR múltiple se detuvo después de tres ciclos. Después de la purificación de los productos de amplificación con perlas magnéticas como se describe en la Guía del Usuario del Kit de Biblioteca Dirigida CleanPlex™, el ADN se trató con 2 pl de reactivo de digestión CP (del Kit de Biblioteca Dirigida CleanPlex™) a 37 °C durante 10 minutos, y después con 5 pl de tampón de nucleasa de judía Mungo y 20 unidades de nucleasa de judía Mungo (New England Biolab) a 30 °C durante 30 minutos. La reacción se detuvo con 2 |jl de tampón de parada, se purificó con perlas magnéticas y se amplificó de nuevo durante 16 ciclos con un par de cebadores de segunda amplificación, como se especifica en la Guía del Usuario del Kit de Biblioteca Dirigida CleanPlex™. Junto con la descrita anteriormente, se realizó una segunda biblioteca, esta biblioteca solo se trató con 2 j l de reactivo de digestión CP (denominada "biblioteca no digerida").
El tamaño, la concentración y la pureza de la biblioteca se analizaron en un instrumento BioAnalyzer 2100 (Agilent Technologies, número de catálogo G2938B). Se analizó 1 j l de la preparación de la biblioteca obtenida en la etapa anterior con un kit de análisis de ADN de sensibilidad alta (Agilent Technologies, número de catálogo 5067-4626), de acuerdo con los métodos proporcionados por el proveedor. La biblioteca digerida por la nucleasa de judía Mungo tenía una concentración de 19248 pM, que fue significativamente inferior a 40421 pM de la biblioteca no digerida (FIG. 10A). Sin embargo, la relación de concentración (1 a 2,1) de estas dos bibliotecas no se acercaba a 1 a 4, como se espera a partir de la FIG. 4. Esto podría deberse a una digestión incompleta por la nucleasa de judía Mungo, o a una sobreamplificación de las bibliotecas en la segunda PCR. Para demostrar que el rendimiento de la biblioteca digerida dependía del tratamiento con la nucleasa de judía Mungo, se hizo una serie de bibliotecas usando diferentes cantidades de nucleasas de judía Mungo. Se obtuvieron rendimientos progresivamente menores cuando se usaron cantidades crecientes de nucleasa de judía Mungo (FIG. 10B).
La biblioteca digerida por la nucleasa de judía mungo se secuenció y se analizó mediante el mismo método descrito en el Ejemplo 1, excepto por que los códigos de barras moleculares se clasificaron por una sola cadena de ADN diana. Se identificaron los 11 puntos de variante y las frecuencias de variante detectadas fueron cercanas al 0,1 %. Sin embargo, el número de errores aleatorios era alto, similar a la de la biblioteca del Ejemplo 1 con códigos de barras moleculares clasificados usando solo una cadena de ADN diana (FIG. 9). Esto indica que, aunque el número de códigos de barras moleculares redundantes se redujo, se requirió la formación código de barras y el análisis de ambas cadenas de ADN diana para eliminar eficazmente los errores aleatorios.
Hasta ahora, los presentes inventores describieron su método de uso de PCR múltiple para preparar bibliotecas con códigos de barras moleculares no redundantes, el análisis de estas bibliotecas para eliminar los errores aleatorios y la llamada de variantes con una frecuencia del 0,1 %. En los siguientes ejemplos, los presentes inventores usaron el mismo método para preparar, secuenciar y analizar una diversidad de bibliotecas para abordar los diferentes aspectos del método.
EJEMPLO 3. UNIFORMIDAD DE LA AMPLIFICACIÓN
La uniformidad es una medida de qué tan bien cada amplicón en una biblioteca se amplifica igualmente en una reacción de PCR múltiple. En otras palabras, mide la diferencia del número de copias de amplicones entre los amplicones subamplificados y los amplicones sobreamplificados. Los presentes inventores descubrieron que el panel de 40 y el panel de 205-plex utilizados en los Ejemplos 1 y 2 no midieron correctamente la uniformidad. Estos dos paneles generaron fácilmente bibliotecas muy uniformes (FIG. 18, tabla 1). El número de amplicones definidos por este panel no era lo suficientemente grande para dar cabida a diversos tipos de amplicones fáciles y difíciles de amplificar. Después, los presentes inventores usaron un panel de 629 pares de cebadores y prepararon bibliotecas con el reactivo utilizado anteriormente. Los presentes inventores secuenciaron estas bibliotecas con lecturas medias de alrededor de 700. La uniformidad medida a 0,2 X lecturas medias fue superior al 99 %, mientras que la uniformidad a 0,5 X lecturas medias fue superior al 87 %. Además, los amplicones con un contenido de CG superior al 20 % al 80 % se amplificaron igualmente. También se amplificaron a múltiples inferiores (FIG. 11A) tres amplicones que cubrían partes de la región promotora TERT que tenían un 70-80 % de CG, que son conocidos por ser dianas difíciles de amplificar.
Para demostrar la eliminación de productos de amplificación no específicos y la escalabilidad del método de los presentes inventores, prepararon bibliotecas con paneles de 40 y 205-plex. Se descubrió que estas bibliotecas tenían menos del 5 % de productos de amplificación no específicos, medido con el kit de ADN de sensibilidad alta en el BioAnalyzer 2100 (FIG. 11B).
EJEMPLO 4. LA LONGITUD DEL CÓDIGO DE BARRAS MOLECULAR
Los presentes inventores investigaron el número de códigos de barras moleculares únicos que se requería para marcar cada molécula individualmente en diferentes cantidades de dianas de ADN. El número de dianas de ADN se definió por la cantidad de ADN de entrada en nanogramos y el número de pares de cebadores en un panel de cebadores dado. Los presentes inventores calcularon la probabilidad (P) de que un código de barras idéntico marque dos moléculas de ADN diferentes en diversas circunstancias, asumiendo que la asignación de código de barras era un problema de cumpleaños generalizado, usando la fórmula:
P = 1-(1-¿)(T_1)
T es el número de dianas de ADN totales, B es el número total de códigos de barras moleculares disponibles. Los presentes inventores descubrieron que 12-40 nucleótidos aleatorios en el casete de código de barras molecular eran necesarios y suficientes para marcar todas las moléculas de ADN, sin duplicar los códigos de barras, en las circunstancias más extremas de número bajo y alto de dianas de ADN.
Para demostrar que se necesitaba un número suficiente de códigos de barras moleculares para marcar diferentes cantidades de a Dn diana, los presentes inventores prepararon bibliotecas con 10-100 ng de ADN de entrada de NA12878 al 0,2 %/NA12877. Estas bibliotecas se prepararon con un panel de cebadores de 40 pares. Cada cebador contenía un casete de código de barras molecular con 12 nucleótidos aleatorios. Después de la secuenciación, los presentes inventores contaron el número de códigos de barras que podían clasificarse en la cadena sentido y antisentido de ADN diana en cada biblioteca. Estos números se compararon con los números teóricos derivados de las cantidades de ADN de entrada. Esto proporcionó la eficiencia de la conversión de la cadena doble de códigos de barras moleculares. Los presentes inventores descubrieron que la eficiencia estaba inversamente relacionada con las cantidades de ADN de entrada a una longitud de código de barras molecular de 12 (FIG. 12). Esto indicaba que se asignaron algunos códigos de barras idénticos a diferentes moléculas de ADN con mayores entradas de ADN. En otras palabras, si se usa un número insuficiente de códigos de barras moleculares para marcar un número relativamente grande de dianas de ADN, entonces algunas dianas de ADN diferentes compartirían códigos de barras moleculares idénticos. Esto dio como resultado una recuperación aparentemente baja de códigos de barras moleculares únicos en el análisis de secuencia.
EJEMPLO 5. CANTIDAD DE ADN DE ENTRADA, NÚMERO DE CICLOS Y RENDIMIENTO
El método de los presentes inventores usa 3 ciclos de PCR múltiple para añadir códigos de barras moleculares en dianas de ADN. Las cantidades de estas dianas se amplifican en la segunda PCR. La relación entre la cantidad de ADN de entrada, número de ciclo de la segunda PCR y los rendimientos de las bibliotecas se presentan en la FIG. 13. Se usaron bibliotecas con rendimientos entre 10.000 y 25.000 pM para la secuenciación. Rara vez se usaron bibliotecas con una concentración superior a 25.000 pM por temor a la sobreamplificación.
EJEMPLO 6. PROFUNDIDAD DE SECUENCIACIÓN, LECTURAS TOTALES NECESARIAS
La profundidad de secuenciación necesaria para una biblioteca puede verse como el número de lecturas, por lo general en millones, necesario para que cada diana de la biblioteca se secuencie un número determinado de veces. En primer lugar, debe ser lo suficientemente grande para permitir la secuenciación de todas las dianas de la biblioteca. En segundo lugar, debe ser incluso mayor para que cada diana se secuencie un número determinado de veces. Para conocer la profundidad de secuenciación necesaria para una biblioteca determinada, primero se necesita saber el número de dianas únicas en la biblioteca. Se puede estimar el número total disponible de dianas a partir de la cantidad de ADN de entrada y el número de pares de cebadores del panel de cebadores. Una fracción de este número se amplifica por PCR. Se conoce esta fracción a través de la eficiencia de la PCR. También hay que considerar que pueden tomarse algunas dianas diferentes como dianas idénticas si se usa un número insuficiente de códigos de barras moleculares. Por último, solo una fracción de las dianas puede clasificarse en cadenas sentido y antisentido de las dianas originales (la eficiencia de la conversión de cadena doble). Esto se debe a los dos problemas principales siguientes. Primero, algunos códigos de barras moleculares pueden dañarse durante el flujo de trabajo desde la biblioteca hasta la secuenciación, dando como resultado la pérdida de algunas dianas. Segundo, las dos cadenas de una diana de ADN pueden amplificarse de forma desigual, conduciendo a una agrupación fallida de ambas cadenas en el análisis de secuencia.
Con estos problemas en mente, los presentes inventores secuenciaron un gran número de bibliotecas a diversas profundidades de secuenciación. Estas bibliotecas se prepararon con 10 a 100 ng de NA2878 al 0,2 %/NA12877 y el panel de cebadores 40-plex con 12 nucleótidos aleatorios como códigos de barras moleculares. Considerando que el número de códigos de barras moleculares podría ser insuficiente para bibliotecas de entrada alta y provocar una interpretación inexacta, los presentes inventores calcularon la eficiencia de la conversión de la cadena doble. Los presentes inventores seleccionaron un grupo de 39 muestras con eficiencias de conversión cercanas (promedio del 14 %, desviación típica del 3 %) para su análisis posterior (FIG. 14A).
La profundidad de secuenciación de cada biblioteca se expresó como el número de lecturas por código de barras único calificado para la agrupación de cadenas dobles. Como se esperaba, con mayor profundidad de secuenciación, también aumentaron las lecturas por amplicón (FIG. 14B). Para encontrar la profundidad de secuenciación óptima, los presentes inventores calcularon la relación de lecturas utilizada en la agrupación de cadenas dobles con respecto a las lecturas en la diana. Cuando se trazó frente a la profundidad de secuenciación, los presentes inventores descubrieron que la relación más alta correspondía a la agrupación de cadenas dobles con 12-16 miembros por cada código de barras único (FIG. 14C). En este intervalo, las lecturas en cada familia de códigos de barras únicos formaron una distribución normal (FIG. 14D). Basándose en los resultados anteriores, los presentes inventores descubrieron que se necesitaban 12000 lecturas de extremos emparejados por nanogramo de ADN de entrada por amplicón. Los presentes inventores descubrieron adicionalmente que la eficiencia de la PCR fue del 53,4 %, contando el número total recuperado de códigos de barras moleculares únicos con el número total calculado de moléculas de entrada.
EJEMPLO 7. SESGO DE BASE
A continuación, los presentes inventores identificaron si el método producía algún sesgo de base. Esto se realizó contando los tipos de cambios de base en todos los errores aleatorios que quedaron después del análisis de consenso. Estos cambios de base representan el "ruido aleatorio" que se produjo en el método de los presentes inventores y en el proceso de secuenciación. Los presentes inventores descubrieron que había menos de 20 errores aleatorios después del consenso bicatenario con ADN de entrada de hasta 50 ng de ADN, 30 con hasta 100 ng de ADN de entrada. Los presentes inventores no encontraron ninguna diferencia en la frecuencia de los 12 tipos de cambios de bases, ni diferencias estadísticamente significativas en el número de estos tipos de cambios de base. Después, los presentes inventores analizaron todos los nucleótidos llamados del consenso monocatenario, excepto las variantes conocidas, en una biblioteca preparada con 40 ng de ADN. Los presentes inventores descubrieron que el número de transiciones G/C ^ T/A y T/A ^ C/G fue significativamente superior al del resto de tipos de mutaciones (FIG. 15A). Como se esperaba, estas transiciones se encuentran comúnmente en métodos basados en PCR. Además, los presentes inventores descubrieron que las frecuencias de estas transiciones fueron similares a las de otros tipos de mutaciones, lo que indica que estas mutaciones se produjeron aleatoriamente en todas las regiones diana (FIG. 15B). En otras palabras, los errores aleatorios no se agruparon en ninguna ubicación específica de las regiones diana.
EJEMPLO 8. ELIMINACIÓN DE ERRORES ALEATORIOS
En la FIG. 16 se muestra el efecto del consenso bicatenario para eliminar errores aleatorios de las bibliotecas preparadas con 10 a 100 ng de ADN. Los presentes inventores calcularon el consenso de la cadena única e intentaron usarlo para eliminar errores aleatorios, sin embargo, todavía existía un gran número de errores aleatorios. Debido a la tasa de error del método, mostró una tendencia a dejar más errores aleatorios cuando se usó una mayor cantidad de ADN para preparar la biblioteca. Cuando se usó consenso bicatenario, el número de errores aleatorios se redujo significativamente en todas las muestras.
EJEMPLO 9. TASA DE ERROR
La tasa de error se calculó como el número de errores aleatorios después del filtrado por consenso bicatenario, del total de nucleótidos en dianas secuenciados. Para evitar errores de cálculo debidos a un número insuficiente de códigos de barras moleculares utilizados, los presentes inventores usaron bibliotecas preparadas con 10-20 ng de ADN de entrada. Con la mayor eficiencia de conversión de cadena doble, se estimó que la tasa de error era de 8,2 X 10a- 8 por base en promedio.
EJEMPLO 10. EFICIENCIA, SENSIBILIDAD Y LONGITUD DEL AMPLICÓN
Los presentes inventores usaron ADNg digerido para simular el ADNsc. El tamaño del ADNg digerido se seleccionó para que se asemejara a la longitud del ADNsc. La eficiencia de la PCR fue del 53,4 % tanto para el ADN digerido como para el ADNg. Con el fin de amplificar eficazmente fragmentos cortos de ADN, tales como ADNsc, los presentes inventores diseñaron el panel de cebadores para amplificar amplicones de 70-90 nucleótidos de longitud, con un promedio de 79 nucleótidos. La eficiencia teórica de la amplificación de fragmentos de ADN de 166 pb se estimó en un 52,4 % usando la fórmula:
ef = 1 longitud del amplicón
longitud de la diana
La eficiencia de la conversión de cadena doble fue del 20 % tanto para el ADNg digerido como para el ADNg.
La sensibilidad se evaluó por el número de genomas haploides recuperados después del consenso bicatenario. Como se muestra en la FIG. 17, se necesitaron 20 ng de ADN de entrada para recuperar 1000 copias de genomas haploides, permitiendo la detección de 1 mutante en 1000 dianas (límite de detección del 0,1 %). Los presentes inventores esperaban una relación lineal entre el ADN de entrada y las copias recuperadas de genomas haploides, que se muestra por la línea discontinua en la FIG. 17. Sin embargo, los presentes inventores descubrieron que cada vez se recuperaron menos copias de genomas haploides con la entrada creciente de ADN. Estas muestras se marcaron con códigos de barras moleculares con solo 12 nucleótidos aleatorios. Según los cálculos de los presentes inventores, había un 100 % de posibilidades de que dos moléculas de ADN diferentes compartieran un código de barras idéntico cuando se usaron códigos de barras moleculares de 12 bases para 10 ng de ADN de entrada y 40 pares de cebadores. Los presentes inventores creen que la relación no lineal fue provocada por un número insuficiente de nucleótidos en cada código de barras molecular, especialmente cuando se usó una mayor cantidad de ADN de entrada. Debería ser posible un mejor límite de detección con una región de nucleótidos aleatorios más larga en el casete de código de barras molecular.
EJEMPLO 11. LLAMADA DE VARIANTE DE ADNG CON ADICIONES
La sensibilidad y el valor de predicción positiva (VPP) se presentan en las FIG. 20A-20B. Los presentes inventores hicieron adiciones de ADN de referencia HD780 en NA12877 con una frecuencia alélica del 0,2 %. Había 8 sitios de mutación de HD780, incluyendo una inserción y una supresión. Todos estos 8 sitios de mutación se detectaron con 20 ng de entrada de ADN y 4 se detectaron con entrada de ADN largo (FIG. 21A). Los presentes inventores diluyeron NA12878 en NA12877 a una concentración del 0,2 %. Los presentes inventores examinaron 8 sitios alélicos únicos de NA12878 con una frecuencia alélica del 0,1 %. Todos estos 8 sitios de mutación se detectaron con 20 ng de entrada de ADN y 7 se detectaron con entrada de ADN largo (FIG. 21B).
Cualquiera de los métodos descritos en el presente documento puede implementarse como software, hardware o firmware, y puede describirse como un medio de almacenamiento no transitorio legible por ordenador que almacena un conjunto de instrucciones capaces de ser ejecutadas por un procesador (por ejemplo, ordenador, tableta, teléfono inteligente, etc.), que cuando es ejecutado por el procesador provoca que el procesador controle la realización de cualquiera de las etapas, incluyendo, pero sin limitación: representación, comunicación con el usuario, análisis, modificación de parámetros (incluyendo los tiempos, la frecuencia, la intensidad, etc.), determinación, alertas o similares.
Cuando se hace referencia a una característica o elemento como si estuviera "encima" de otra característica o elemento, puede estar directamente encima de la otra característica o elemento o también puede haber presentes características y/o elementos intermedios. Por el contrario, cuando se hace referencia a una característica o elemento como si estuviera "directamente encima" de otra característica o elemento, no hay características o elementos intermedios presentes. También se entenderá que, cuando se hace referencia a una característica o elemento como "conectado", "unido" o "acoplado" a otra característica o elemento, puede conectarse, unirse o acoplarse directamente a la otra característica o elemento, o puede haber presentes características o elementos intermedios. Por el contrario, cuando se hace referencia a una característica o elemento como "directamente conectado", "directamente unido" o "directamente acoplado" a otra característica o elemento, no hay características o elementos intermedios presentes. Aunque se describe o se muestra con respecto a una realización, las características y elementos descritos de este modo o que se muestran pueden aplicarse a otras realizaciones. Los expertos en la materia también apreciarán que las referencias a una estructura o característica que está dispuesta "adyacente" a otra característica pueden tener porciones que se superponen o subyacen a la característica adyacente.
La terminología utilizada en el presente documento tiene el propósito de describir realizaciones particulares solamente y no pretende ser limitante de la invención. Por ejemplo, como se usan en el presente documento, las formas en singular "un", "uno/una" y "el/la" pretenden incluir las formas en plural también, a menos que el contexto indique claramente lo contrario. Se entenderá adicionalmente que las expresiones "comprende" y/o "que comprende", cuando se usan en la presente memoria descriptiva, especifican la presencia de características, etapas, operaciones, elementos y/o componentes indicados, pero no excluyen la presencia o adición de una o más de otras características, etapas, operaciones, elementos, componentes y/o grupos de los mismos. Como se usa en el presente documento, el término "y/o" incluye todas y cada una de las combinaciones de uno o más de los elementos enumerados asociados y puede abreviarse como "/".
Pueden usarse en el presente documento términos relativos espacialmente, tales como "bajo", "debajo", "inferior", "encima", "superior" y similares, para facilitar la descripción de la relación de un elemento o característica con otro u otros elementos o características como se ilustra en las figuras. Se entenderá que los términos relativos espacialmente pretenden abarcar diferentes orientaciones del dispositivo en uso o funcionamiento, además de la orientación representada en las figuras. Por ejemplo, si se invierte un dispositivo de las figuras, los elementos descritos como "bajo" o "debajo" de otros elementos o características se orientarían entonces "sobre" los otros elementos o características. Por lo tanto, el término de ejemplo "bajo" puede abarcar una orientación tanto por encima como por debajo. El dispositivo puede estar orientado de otra manera (girado 90 grados o en otras orientaciones) y los descriptores espacialmente relativos utilizados en el presente documento se interpretan en consecuencia. De forma análoga, los términos "hacia arriba", "hacia abajo", "vertical", "horizontal" y similares se usan en el presente documento solo con fines explicativos, a menos que se indique específicamente otra cosa.
Aunque los términos "primero" y "segundo" pueden usarse en el presente documento para describir diversas características/elementos (incluyendo las etapas), estas características/elementos no deben estar limitados por estos términos, a menos que el contexto indique lo contrario. Estos términos pueden usarse para distinguir una característica/elemento de otra característica/elemento. Por lo tanto, una primera característica/elemento discutido a continuación podría denominarse una segunda característica/elemento, y de manera similar, una segunda característica/elemento discutido a continuación podría denominarse una primera característica/elemento sin apartarse de las enseñanzas de la presente invención.
A lo largo de la presente memoria descriptiva y de las reivindicaciones que la siguen, a menos que el contexto requiera otra cosa, la palabra "comprende", y variaciones tales como "comprenden" y "que comprende" significa que pueden emplearse diversos componentes conjuntamente en los métodos y artículos (por ejemplo, composiciones y aparatos, que incluyen dispositivos y métodos). Por ejemplo, se entenderá que la expresión "que comprende" implica la inclusión de cualquier elemento o etapa establecida, pero no la exclusión de cualquier otro elemento o etapa.
En general, cualquiera de los aparatos y métodos descritos en el presente documento debe entenderse como inclusivo, pero todos los componentes y/o etapas, o un subconjunto de los mismos, pueden ser como alternativa exclusivos, y pueden expresarse como "que consisten en" o como alternativa "que consisten esencialmente en" los diversos

Claims (14)

REIVINDICACIONES
1. Un método para reducir códigos de barras moleculares redundantes de una reacción de prolongación de cebadores dependiente de molde, comprendiendo el método:
amplificar una pluralidad de ácidos nucleicos diana usando una pluralidad de pares de cebadores que se encuentran en una misma mezcla de reacción durante tres ciclos para formar una pluralidad de fragmentos de ADN de amplificación específico de diana bicatenario, en donde cada par de cebadores de dicha pluralidad de pares de cebadores comprende un cebador directo y un cebador inverso, en donde el cebador directo y el cebador inverso incluyen cada uno una región específica de diana del extremo 3' que tiene 8-50 nucleótidos, y tanto el cebador directo como el cebador inverso incluyen un casete de código de barras molecular que tiene una región de código de barras molecular que comprende una secuencia de 12-40 nucleótidos aleatorios que se sitúa entre una región de secuencia de nucleótidos fija del extremo 5' y una región de secuencia de nucleótidos fija del extremo 3';
introducir, después del tercer ciclo, una o una mezcla de exonucleasas específicas de ADN monocatenario para escindir una o más regiones de ADN monocatenario en un extremo 5' y un extremo 3' de fragmentos de ADN de amplificación específico de diana bicatenario, en donde las regiones de ADN monocatenario comprenden pares de bases no apareados en cualquiera de los dos extremos de los fragmentos de ADN de amplificación específico de diana bicatenario, dejando una pluralidad de productos de amplificación con extremos de ADN bicatenario y casetes de códigos de barras moleculares intactos en ambos extremos; y
amplificar la pluralidad de productos de amplificación con casetes de códigos de barras moleculares intactos en ambos extremos con un par de cebadores que son complementarios a la región de secuencia de nucleótidos fija del extremo 5' del casete de códigos de barras moleculares.
2. El método de la reivindicación 1, en donde los pares de bases no apareados en cualquiera de los dos extremos de los fragmentos de ADN de amplificación específico de diana bicatenario derivan de los nucleótidos aleatorios de la región de código de barras molecular y la región de secuencia de nucleótidos fija del extremo 5' del casete de código de barras molecular.
3. El método de la reivindicación 1, en donde la secuencia de nucleótidos fija del extremo 5' comprende cualquier número y tipo de nucleótidos.
4. El método de la reivindicación 1, en donde la introducción comprende la introducción de una o la mezcla de exonucleasas específicas de ADN monocatenario antes de la amplificación adicional.
5. El método de la reivindicación 1, en donde la introducción de una o una mezcla de exonucleasas específicas de ADN monocatenario comprende la introducción de una resolvasa, una exonucleasa, múltiples exonucleasas, o una combinación de exonucleasas y nucleasas, seleccionadas del grupo que comprende: endonucleasa T4 VII, endonucleasa T7 I, nucleasa S1, nucleasa P1, nucleasa celular, nucleasa de judía mungo, exonucleasa VII, RecJ, RecJf.
6. El método de la reivindicación 1, que comprende adicionalmente la eliminación de fragmentos de ADN monocatenario que se escinden por una o una mezcla de exonucleasas específicas de ADN monocatenario.
7. El método de la reivindicación 1, que amplifica adicionalmente la pluralidad de productos de amplificación con un par de cebadores que son complementarios a la región de secuencia de nucleótidos fija del extremo 5' del casete de código de barras molecular comprende la amplificación por reacción en cadena de la polimerasa.
8. El método de la reivindicación 1, que comprende adicionalmente analizar y clasificar las secuencias de nucleótidos aleatorios de los productos de amplificación, agrupar secuencias idénticas y similares de códigos de barras moleculares en familias de códigos de barras moleculares, validar la longitud y la secuencia de cada código de barras molecular en cada familia de códigos de barras moleculares, y eliminar los productos de amplificación con secuencias de nucleótidos descalificadas de códigos de barras moleculares.
9. El método de la reivindicación 1, que comprende adicionalmente analizar una secuencia de consenso de dianas de ADN de cada familia de códigos de barras moleculares, eliminar errores aleatorios de cada familia de códigos de barras moleculares, encontrar todas las secuencias de la cadena sentido, encontrar todas las secuencias de la cadena antisentido, encontrar la frecuencia de variantes en una agrupación de cadenas sentido, encontrar la frecuencia de variantes en una agrupación de cadenas antisentido, confirmación de la frecuencia de variantes en las cadenas tanto sentido como antisentido, y eliminar errores aleatorios de cadenas tanto sentido como antisentido.
10. El método de la reivindicación 1, en donde la pluralidad de pares de cebadores comprende al menos 7 pares de cebadores específicos de diana.
11. El método de la reivindicación 1, en donde cada cebador de la pluralidad de pares de cebadores incluye una región específica de diana que comprende uno o más de: oligonucleótidos sin modificar, sin modificaciones químicas de nucleótidos, ni enlaces químicos y sin bases degeneradas.
12. El método de la reivindicación 1, en donde cada cebador de la pluralidad de pares de cebadores incluye una región específica de diana que comprende oligonucleótidos modificados con uno o más de: modificaciones químicas de nucleótidos o enlaces químicos, y bases degeneradas.
13. El método de la reivindicación 1, en donde la introducción de una o una mezcla de exonucleasas específicas de ADN monocatenario comprende la introducción de entre aproximadamente 0,2 U y 1000 U de exonucleasa durante entre 0,5 minutos y 60 minutos a entre 16 °C y 37 °C.
14. El método de la reivindicación 1, en donde la introducción de la una o una mezcla de exonucleasas específicas de ADN monocatenario comprende la introducción de una nucleasa específica de ADN monocatenario o una exonucleasa específica de ADN monocatenario que comprenda una o más de: una nucleasa S1, una nucleasa P1, una nucleasa de judía mungo, una nucleasa c El I, una endonucleasa CEL I, una exonucleasa I, una exonucleasa V, una exonucleasa VII, y RecJ, y RecJf, y combinaciones, fusiones o mutaciones de las mismas.
ES18739413T 2017-01-10 2018-01-10 Métodos y composiciones para reducir códigos de barras, moleculares redundantes creados en reacciones de prolongación de cebadores Active ES2874143T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201762444704P 2017-01-10 2017-01-10
PCT/US2018/013143 WO2018132459A1 (en) 2017-01-10 2018-01-10 Methods and compositions for reducing redundant molecular barcodes created in primer extension reactions

Publications (1)

Publication Number Publication Date
ES2874143T3 true ES2874143T3 (es) 2021-11-04

Family

ID=62782291

Family Applications (1)

Application Number Title Priority Date Filing Date
ES18739413T Active ES2874143T3 (es) 2017-01-10 2018-01-10 Métodos y composiciones para reducir códigos de barras, moleculares redundantes creados en reacciones de prolongación de cebadores

Country Status (5)

Country Link
US (1) US10100358B2 (es)
EP (1) EP3568493B1 (es)
CN (1) CN110382716A (es)
ES (1) ES2874143T3 (es)
WO (1) WO2018132459A1 (es)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3529400B1 (en) 2016-10-24 2021-02-17 Geneinfosec, Inc. Concealing information present within nucleic acids
CN110872609B (zh) * 2018-09-04 2024-06-04 深圳华大基因科技服务有限公司 对小rna分子精准建库和测序的方法以及应用
WO2020236939A2 (en) 2019-05-23 2020-11-26 Paradigm Diagnostics Tissue preparation using nuclease
WO2021033648A1 (ja) * 2019-08-20 2021-02-25 国立感染症研究所長 ヌクレオチド配列の増幅方法及び配列決定方法
CN111379033A (zh) * 2020-04-21 2020-07-07 深圳易倍科华生物科技有限公司 一种添加分子标签的多重pcr方法及建库仪器
US10941453B1 (en) * 2020-05-20 2021-03-09 Paragon Genomics, Inc. High throughput detection of pathogen RNA in clinical specimens
WO2023114397A1 (en) * 2021-12-16 2023-06-22 Illumina, Inc. Hybrid clustering
US11680293B1 (en) 2022-04-21 2023-06-20 Paragon Genomics, Inc. Methods and compositions for amplifying DNA and generating DNA sequencing results from target-enriched DNA molecules

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4965188A (en) 1986-08-22 1990-10-23 Cetus Corporation Process for amplifying, detecting, and/or cloning nucleic acid sequences using a thermostable enzyme
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
US4683195A (en) 1986-01-30 1987-07-28 Cetus Corporation Process for amplifying, detecting, and/or-cloning nucleic acid sequences
US4800159A (en) 1986-02-07 1989-01-24 Cetus Corporation Process for amplifying, detecting, and/or cloning nucleic acid sequences
US5168038A (en) 1988-06-17 1992-12-01 The Board Of Trustees Of The Leland Stanford Junior University In situ transcription in cells and tissues
CA2020958C (en) 1989-07-11 2005-01-11 Daniel L. Kacian Nucleic acid sequence amplification methods
US5210015A (en) 1990-08-06 1993-05-11 Hoffman-La Roche Inc. Homogeneous assay system using the nuclease activity of a nucleic acid polymerase
JP3080178B2 (ja) 1991-02-18 2000-08-21 東洋紡績株式会社 核酸配列の増幅方法およびそのための試薬キット
US5539082A (en) 1993-04-26 1996-07-23 Nielsen; Peter E. Peptide nucleic acids
US5925517A (en) 1993-11-12 1999-07-20 The Public Health Research Institute Of The City Of New York, Inc. Detectably labeled dual conformation oligonucleotide probes, assays and kits
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
US5854033A (en) 1995-11-21 1998-12-29 Yale University Rolling circle replication reporter systems
ATE295427T1 (de) 1996-06-04 2005-05-15 Univ Utah Res Found Überwachung der hybridisierung während pcr
US6794499B2 (en) 1997-09-12 2004-09-21 Exiqon A/S Oligonucleotide analogues
US20040002156A1 (en) 2002-06-26 2004-01-01 Stratagene Selective cloning of homoduplex nucleic acids
EP2159285B1 (en) 2003-01-29 2012-09-26 454 Life Sciences Corporation Methods of amplifying and sequencing nucleic acids
EP1574570A1 (en) 2004-03-12 2005-09-14 Universität Regensburg Process for reducing the number of mismatches in double stranded polynucleotides
CN101124337B (zh) 2004-08-24 2010-11-17 康乃尔研究基金会有限公司 使用内切核酸酶剪切/连接酶重新密封反应和毛细管电泳或微阵列检测核酸差异
US20060234264A1 (en) * 2005-03-14 2006-10-19 Affymetrix, Inc. Multiplex polynucleotide synthesis
WO2006127423A2 (en) 2005-05-18 2006-11-30 Codon Devices, Inc. Methods of producing polynucleotide libraries using scarless ligation
CA2958994C (en) * 2006-11-15 2019-05-07 Biospherex Llc Kit for multiplex sequencing and ecogenomics analysis
US8716190B2 (en) 2007-09-14 2014-05-06 Affymetrix, Inc. Amplification and analysis of selected targets on solid supports
WO2012044847A1 (en) 2010-10-01 2012-04-05 Life Technologies Corporation Nucleic acid adaptors and uses thereof
US8034568B2 (en) 2008-02-12 2011-10-11 Nugen Technologies, Inc. Isothermal nucleic acid amplification methods and compositions
US8586310B2 (en) 2008-09-05 2013-11-19 Washington University Method for multiplexed nucleic acid patch polymerase chain reaction
PT2623613T (pt) 2010-09-21 2016-10-11 Population Genetics Tech Ltd Aumento da confiança da designação de alelos por contagem molecular
CN110016499B (zh) 2011-04-15 2023-11-14 约翰·霍普金斯大学 安全测序系统
WO2012149438A1 (en) 2011-04-28 2012-11-01 Life Technologies Corporation Methods and compositions for multiplex pcr
EP4234713A3 (en) 2012-03-20 2024-02-14 University Of Washington Through Its Center For Commercialization Methods of lowering the error rate of massively parallel dna sequencing using duplex consensus sequencing
EP2943590A4 (en) 2013-01-13 2017-02-15 Unitaq Bio Methods and compositions for pcr using blocked and universal primers
WO2015063154A1 (en) 2013-10-31 2015-05-07 Multiplicom N.V. Blocking primers in multiplex pcr based assays
CN107075730A (zh) 2014-09-12 2017-08-18 利兰·斯坦福青年大学托管委员会 循环核酸的鉴定及用途
EP3256584B1 (en) 2015-02-11 2020-03-25 Paragon Genomics, Inc. Method and compositions for reducing non-specific amplification products
US10421993B2 (en) 2015-02-11 2019-09-24 Paragon Genomics, Inc. Methods and compositions for reducing non-specific amplification products

Also Published As

Publication number Publication date
US10100358B2 (en) 2018-10-16
WO2018132459A1 (en) 2018-07-19
CN110382716A (zh) 2019-10-25
US20180195119A1 (en) 2018-07-12
EP3568493A1 (en) 2019-11-20
EP3568493A4 (en) 2020-10-07
EP3568493B1 (en) 2021-03-24

Similar Documents

Publication Publication Date Title
ES2874143T3 (es) Métodos y composiciones para reducir códigos de barras, moleculares redundantes creados en reacciones de prolongación de cebadores
ES2523140T3 (es) Aumento de la confianza en las identificaciones de alelos con el recuento molecular
ES2810300T3 (es) Etiquetado y evaluación de una secuencia diana
ES2873850T3 (es) Bibliotecas de secuenciación de próxima generación
JP2020533272A (ja) 低減した増幅バイアスによるハイスループット単一細胞シークエンシング
EP2467479B1 (en) Compositions and methods for intramolecular nucleic acid rearrangement
ES2724824T3 (es) Métodos para la secuenciación de ácidos nucleicos
EP3612641A1 (en) Compositions and methods for library construction and sequence analysis
EP2585593A2 (en) Methods and compositions for polynucleotide library production, immortalization and region of interest extraction
US20200208143A1 (en) Methods and compositions for amplifying short dna fragments
JP2020530270A (ja) ゲノム再編成検出のための配列決定方法
US20210180051A1 (en) Methods and systems to amplify short rna targets
WO2022144003A1 (zh) 一种用于高通量靶向测序的多重pcr文库构建方法
JP2022546485A (ja) 腫瘍高精度アッセイのための組成物および方法
CN116075520A (zh) 扩增子全面富集