ES2799074T5 - Supresión de errores en fragmentos de ADN secuenciados mediante el uso de lecturas redundantes con índices moleculares únicos (UMI) - Google Patents

Supresión de errores en fragmentos de ADN secuenciados mediante el uso de lecturas redundantes con índices moleculares únicos (UMI) Download PDF

Info

Publication number
ES2799074T5
ES2799074T5 ES16720269T ES16720269T ES2799074T5 ES 2799074 T5 ES2799074 T5 ES 2799074T5 ES 16720269 T ES16720269 T ES 16720269T ES 16720269 T ES16720269 T ES 16720269T ES 2799074 T5 ES2799074 T5 ES 2799074T5
Authority
ES
Spain
Prior art keywords
sequence
umi
reads
physical
umis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES16720269T
Other languages
English (en)
Other versions
ES2799074T3 (es
Inventor
Sante Gnerre
Byoungsok Jung
Emrah Kostem
Alex Aravanis
Alex So
Xuyu Cai
Zhihong Zhang
Frank J Steemers
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Illumina Inc
Original Assignee
Illumina Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=55910388&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2799074(T5) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Illumina Inc filed Critical Illumina Inc
Application granted granted Critical
Publication of ES2799074T3 publication Critical patent/ES2799074T3/es
Publication of ES2799074T5 publication Critical patent/ES2799074T5/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6853Nucleic acid amplification reactions using modified primers or templates
    • C12Q1/6855Ligating adaptors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/191Modifications characterised by incorporating an adaptor
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/119Double strand sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2563/00Nucleic acid detection characterized by the use of physical, structural and functional properties
    • C12Q2563/179Nucleic acid detection characterized by the use of physical, structural and functional properties the label being a nucleic acid
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2565/00Nucleic acid analysis characterised by mode or means of detection
    • C12Q2565/50Detection characterised by immobilisation to a surface
    • C12Q2565/514Detection characterised by immobilisation to a surface characterised by the use of the arrayed oligonucleotides as identifier tags, e.g. universal addressable array, anti-tag or tag complement array

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physics & Mathematics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Immunology (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Plant Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Description

DESCRIPCIÓN
Supresión de errores en fragmentos de ADN secuenciados mediante el uso de lecturas redundantes con índices moleculares únicos (UMI)
Antecedentes
La tecnología de secuenciación de nueva generación proporciona una velocidad de secuenciación cada vez más alta, lo que permite una mayor profundidad de secuenciación. Sin embargo, debido a que la precisión y la sensibilidad de la secuenciación se ven afectadas por errores y ruido de diferentes fuentes, por ejemplo, defectos de la muestra, PCR durante la preparación del banco de fragmentos, enriquecimiento, agrupamiento y secuenciación, el aumento de la profundidad de la secuenciación por sí sola no puede garantizar la detección de secuencias de muy baja frecuencia alélica, tal como en el ADN fetal libre de células (cfDNA) en el plasma materno, ADN tumoral circulante (ctDNA), mutaciones subclonales en patógenos. Por lo tanto, es deseable desarrollar métodos para determinar la secuencia de moléculas de ADN en pequeña cantidad y/o de baja frecuencia alélica mientras se suprime la inexactitud de la secuenciación debida a distintas fuentes de errores.
La patente de los EE. UU. n.° US20150044687 describe la disminución de la tasa de error de secuenciación masiva en paralelo de ADN con el uso de la "secuenciación de consenso de las dos cadenas".
Compendio
La presente invención se define en las reivindicaciones adjuntas. Las realizaciones descritas se refieren a métodos, aparatos, sistemas y productos de programas informáticos para determinar la secuencia de fragmentos de ácidos nucleicos con el uso de índices moleculares únicos (UMI). En diversas realizaciones, los métodos de secuenciación determinan la secuencia de fragmentos de ácidos nucleicos a partir de las dos cadenas de los fragmentos de ácidos nucleicos. En algunas realizaciones, los métodos emplean UMI físicos ubicados en una o ambas hebras de los adaptadores de secuenciación. En algunas realizaciones, los métodos también emplean UMI virtuales ubicados en ambas cadenas de los fragmentos de ácidos nucleicos.
Un aspecto de la descripción se refiere a un método para secuenciar moléculas de ácido nucleico a partir de una muestra con el uso de índices moleculares únicos (UMI). Cada índice molecular único (UMI) es una secuencia oligonucleotídica que puede usarse para identificar cada molécula de un fragmento de ADN bicatenario en la muestra. El método incluye: (a) aplicar adaptadores a ambos extremos de los fragmentos de ADN bicatenarios en la muestra, en donde los adaptadores incluyen una región hibridada bicatenaria, un brazo 5' monocatenario, un brazo 3' monocatenario, y un UMI físico en una hebra o en cada hebra de los adaptadores, con lo que se obtienen así productos de adaptadores unidos al ADN; (b) amplificar ambas cadenas de los productos adaptador-ADN para obtener numerosos polinucleótidos amplificados; (c) secuenciar los muchos polinucleótidos amplificados, con lo que se obtienen así numerosas lecturas cada una asociada a un UMI físico; (d) identificar numerosos UMI físicos asociados a las muchas lecturas; (e) identificar numerosos UMI virtuales asociados a las muchas lecturas, en donde cada UMI virtual es una secuencia encontrada en un fragmento de ADN en la muestra; y (f) determinar la secuencia de los fragmentos de ADN bicatenarios en la muestra con el uso de las muchas lecturas obtenidas en (c), los numerosos UMI físicos identificados en (d) y los numerosos UMI virtuales identificados en (e). En algunas realizaciones, el método incluye la operación (f) que incluye: (i) combinar, para cada uno o varios de los fragmentos de ADN bicatenarios de la muestra, (1) lecturas que tienen un primer UMI físico y al menos un UMI virtual en la dirección de 5' a 3', y (2) lecturas que tienen un segundo UMI físico y el al menos un UMI virtual en la dirección de 5' a 3' para determinar una secuencia de nucleótidos de consenso; y (ii) determinar, para cada uno de los uno o varios fragmentos de ADN bicatenarios en la muestra, una secuencia con el uso de la secuencia de nucleótidos de consenso.
En algunas realizaciones, los numerosos UMI físicos incluyen UMI aleatorios. En algunas realizaciones, los numerosos UMI físicos incluyen UMI no aleatorios. En algunas realizaciones, cada UMI no aleatorio difiere de cualquier otro UMI no aleatorio de los adaptadores en al menos dos nucleótidos en las posiciones de secuencia correspondientes de los UMI no aleatorios. En algunas realizaciones, los numerosos UMI físicos incluyen no más de aproximadamente 10000, aproximadamente 1000, aproximadamente 500 o aproximadamente 100 UMI no aleatorios únicos. En algunas realizaciones, los numerosos UMI físicos incluyen aproximadamente 96 UMI no aleatorios únicos.
En algunas realizaciones de los métodos anteriores, la aplicación de adaptadores a ambos extremos de los fragmentos de ADN bicatenario incluye ligar los adaptadores a ambos extremos de los fragmentos de ADN bicatenario. En algunas realizaciones, la operación (f) incluye el uso de lecturas que comparten un UMI físico común y un UMI virtual común para determinar una secuencia de un fragmento de ADN de la muestra.
En algunas realizaciones de los métodos anteriores, los numerosos UMI físicos incluyen menos de 12 nucleótidos. En algunas realizaciones, los numerosos UMI incluyen no más de 6 nucleótidos. En algunas realizaciones, los numerosos UMI incluyen no más de 4 nucleótidos.
En algunas realizaciones, los adaptadores incluyen un UMI físico en cada hebra de los adaptadores en la región hibridada bicatenaria. En algunas realizaciones, el UMI físico está en un extremo de la región hibridada bicatenaria, en donde dicho extremo de la región hibridada bicatenaria está opuesto al brazo 3' o al brazo 5', o está a un nucleótido de dicho extremo de la región hibridada bicatenaria. En algunas realizaciones, los adaptadores incluyen cada uno un trinucleótido 5'-TGG-3' o un trinucleótido 3'-ACC-5' en la región hibridada bicatenaria adyacente a un UMI físico. En algunas realizaciones, los adaptadores incluyen una secuencia cebadora de la lectura en cada cadena de la región hibridada bicatenaria.
En algunas realizaciones, cada uno de los adaptadores incluye un UMI físico en una sola hebra de los adaptadores en el brazo 5' monocatenario o en el brazo 3' monocatenario. En algunas de estas realizaciones, (f) incluye: (i) colapsar las lecturas que tienen un mismo primer UMI físico en un primer grupo para obtener una primera secuencia de nucleótidos de consenso; (ii) colapsar las lecturas que tienen un mismo segundo UMI físico en un segundo grupo para obtener una segunda secuencia de nucleótidos de consenso; y (iii) determinar, usando la primera y segunda secuencia de nucleótidos de consenso, una secuencia de uno de los fragmentos de ADN bicatenario en la muestra. En algunas realizaciones, (iii) incluye: (1) obtener, mediante el uso de la información de localización y de la información de secuencia de la primera y segunda secuencia de nucleótidos de consenso, una tercera secuencia de nucleótidos de consenso, y (2) determinar, mediante el uso de la tercera secuencia de nucleótidos de consenso, la secuencia de uno de los fragmentos de ADN bicatenario. En algunas realizaciones, la operación (e) incluye la identificación de numerosos UMI virtuales, mientras que los adaptadores incluyen el UMI físico en una sola cadena de los adaptadores en la región monocatenaria del brazo 5' o en la región monocatenaria del brazo 3'. En algunas realizaciones, (f) incluye: (i) combinar las lecturas que tienen un primer UMI físico y al menos un UMI virtual en la dirección de 5' a 3' y las lecturas que tienen un segundo UMI físico y el al menos un UMI virtual en la dirección de 5' a 3' para determinar una secuencia de nucleótidos de consenso; y (ii) determinar una secuencia de uno de los fragmentos de ADN bicatenario en la muestra mediante el uso de la secuencia de nucleótidos de consenso.
En algunas realizaciones, los adaptadores incluyen un UMI físico en cada hebra de los adaptadores en una región bicatenaria de los adaptadores, en la que el UMI físico en una hebra es complementario al UMI físico de la otra hebra. En algunas realizaciones, la operación (f) incluye: (i) combinar las lecturas que tienen un primer UMI físico, al menos un UMI virtual, y un segundo UMI físico en la dirección de 5' a 3' y las lecturas que tienen el segundo UMI físico, el al menos un UMI virtual y el primer UMI físico en la dirección de 5' a 3' para determinar una secuencia de nucleótidos de consenso; y (ii) determinar una secuencia de uno de los fragmentos de ADN bicatenario en la muestra mediante el uso de la secuencia de nucleótidos de consenso.
En algunas realizaciones, los adaptadores incluyen cada uno un primer UMI físico en un brazo 3' del adaptador y un segundo UMI físico en un brazo 5' del adaptador, en donde el primer UMI físico y el segundo UMI físico no son complementarios entre sí. En algunas de tales realizaciones, (f) incluye: (i) combinar las lecturas que tienen un primer UMI físico, al menos un UMI virtual y un segundo UMI físico en la dirección de 5' a 3' y las lecturas que tienen un tercer UMI físico, al menos un UMI virtual y un cuarto UMI físico en la dirección de 5' a 3' para determinar una secuencia de nucleótidos de consenso; y (ii) determinar una secuencia de uno de los fragmentos de ADN bicatenario en la muestra mediante el uso de la secuencia de nucleótidos de consenso.
En algunas realizaciones, al menos algunos de los UMI virtuales proceden de subsecuencias en, o cerca de, los extremos de los fragmentos de ADN bicatenario en la muestra.
En algunas realizaciones, uno o más UMI físicos y/o uno o más UMI virtuales están asociados de manera única a un fragmento de ADN bicatenario en la muestra.
En algunas realizaciones, los fragmentos de ADN bicatenarios en la muestra incluyen más de aproximadamente 1000 fragmentos de ADN.
En algunas realizaciones, los numerosos UMI virtuales incluyen UMI de aproximadamente 6 pb a aproximadamente 24 pb. En algunas realizaciones, los numerosos UMI virtuales incluyen UMI de aproximadamente 6 pb a aproximadamente 10 pb.
En algunas realizaciones de los métodos anteriores, obtener las muchas lecturas en la operación (c) incluye: obtener dos lecturas emparejadas de cada uno de los polinucleótidos amplificados, donde en las dos lecturas emparejadas incluyen una lectura larga y una lectura corta, en donde la lectura larga es más larga que la lectura corta. En algunas de estas realizaciones, la operación (f) incluye: combinar las parejas de lecturas asociadas a un primer UMI físico en un primer grupo y combinar las parejas de lecturas asociadas a un segundo UMI físico en un segundo grupo, en donde el primer y el segundo UMI físico están únicamente asociados a un fragmento bicatenario en la muestra; y determinar la secuencia del fragmento bicatenario en la muestra con la información de secuencia de las lecturas largas del primer grupo y la información de secuencia de las lecturas largas del segundo grupo. En algunas realizaciones, la lectura larga tiene una longitud de lectura de aproximadamente 500 pb o más. En algunas realizaciones, la lectura corta tiene una longitud de lectura de aproximadamente 50 pb o menos.
En algunas realizaciones, el método suprime los errores que surgen en una o más de las siguientes operaciones: PCR, preparación del banco de fragmentos, agrupamiento y secuenciación.
En algunas realizaciones, los polinucleótidos amplificados incluyen un alelo que tiene una frecuencia alélica inferior a aproximadamente el 1%.
En algunas realizaciones, los polinucleótidos amplificados incluyen una molécula de ADN libre de células que procede de un tumor, y el alelo es indicativo del tumor.
En algunas realizaciones, secuenciar los muchos polinucleótidos amplificados incluye obtener lecturas que tienen al menos aproximadamente 100 pb.
Otro aspecto de la presente descripción se refiere a un método para secuenciar moléculas de ácido nucleico a partir de una muestra, que incluye (a) unir adaptadores a ambos extremos de fragmentos de ADN bicatenario en la muestra, en donde los adaptadores incluyen cada uno una región hibridada bicatenaria, un brazo 5' monocatenario, un brazo 3' monocatenario y un índice molecular único (UMI) físico en el brazo 5' monocatenario o en el brazo 3' monocatenario; (b) amplificar ambas cadenas de productos de ligación de (a), con lo que se obtienen así numerosos polinucleótidos amplificados monocatenarios; (c) secuenciar los muchos polinucleótidos amplificados, con lo que se obtienen así numerosas lecturas cada una asociada a un UMI físico; (d) identificar los numerosos UMI físicos asociados a las muchas lecturas; y (e) determinar la secuencia de los fragmentos de ADN bicatenario en la muestra mediante el uso de las muchas secuencias obtenidas en (c) y los numerosos UMI físicos identificados en (d).
Un aspecto adicional de la descripción se refiere a un método para secuenciar moléculas de ácido nucleico a partir de una muestra. El método incluye: (a) unir adaptadores a ambos extremos de fragmentos de ADN bicatenario en la muestra, en donde los adaptadores incluyen cada uno una región hibridada bicatenaria, un brazo 5' monocatenario, un brazo 3' monocatenario, y un índice molecular único (UMI) físico de menos de 12 nucleótidos en una hebra o en cada hebra de los adaptadores; (b) amplificar ambas cadenas de los productos de ligación de (a), con lo que se obtienen así numerosos polinucleótidos amplificados monocatenarios, cada uno de los cuales incluye un UMI físico; (c) secuenciar los muchos polinucleótidos amplificados, con lo que se obtienen así numerosas lecturas cada una asociada a un UMI físico; (d) identificar los numerosos UMI físicos asociados a las muchas lecturas; y (e) determinar la secuencia de los fragmentos de ADN bicatenario en la muestra mediante el uso de las muchas lecturas obtenidas en (c) y los numerosos UMI físicos identificados en (d).
Otro aspecto de la presente descripción se refiere a un método para hacer un adaptador de secuenciación bicatenario que tenga un UMI físico en cada cadena. El método incluye: proporcionar un adaptador de secuenciación preliminar que incluye una región hibridada bicatenaria, dos brazos monocatenarios y una protuberancia que incluye 5'-CCANNNNANNNNTGG-3' en un extremo de la región hibridada bicatenaria que está más lejos de los dos brazos monocatenarios; extender una hebra de la región hibridada bicatenaria usando la protuberancia como plantilla, con lo que se produce así un producto de extensión; y aplicar la enzima de restricción Xcm1 para digerir un extremo bicatenario del producto de extensión, con lo que se produce así el adaptador de secuenciación bicatenario que tiene un UMI físico en cada cadena. En algunas realizaciones, el adaptador de secuenciación preliminar incluye una secuencia de cebador de lectura en cada cadena.
Un aspecto adicional de la presente descripción se refiere a un producto de programa informático que incluye un medio legible por ordenador no transitorio que almacena el código de programa que, cuando lo ejecutan uno o más procesadores de un sistema informático, hace que el sistema informático realice un método para determinar la información de secuencia de una secuencia de interés en una muestra con el uso de índices moleculares únicos (UMI). El código del programa incluye: (a) código para obtener lecturas de los muchos polinucleótidos amplificados, en donde los muchos polinucleótidos amplificados se obtienen por amplificación de los fragmentos de ADN bicatenario en la muestra que incluyen la secuencia de interés y la unión de los adaptadores a los fragmentos de ADN bicatenario; (b) código para identificar los numerosos UMI físicos en las lecturas de los muchos polinucleótidos amplificados, en donde cada UMI físico se encuentra en un adaptador unido a uno de los fragmentos de ADN bicatenario; (c) código para identificar los numerosos UMI virtuales en las lecturas recibidas de los muchos polinucleótidos amplificados, en donde cada UMI virtual se encuentra en una molécula diferente de uno de los fragmentos de ADN bicatenario; y (c) código para determinar la secuencia de los fragmentos de ADN bicatenario mediante el uso de las lecturas de los muchos polinucleótidos amplificados, los numerosos UMI físicos y los numerosos UMI virtuales, con lo que se reducen así los errores en la secuencia determinada de los fragmentos de ADN bicatenario. En algunas realizaciones, los adaptadores incluyen una región hibridada bicatenaria, un brazo 5 ' monocatenario, un brazo 3' monocatenario y un índice molecular único (UMI) físico en una cadena o en cada cadena de los adaptadores.
En algunas realizaciones, el código para determinar la secuencia de los fragmentos de ADN bicatenario incluye: (i) código para colapsar las lecturas que tienen un mismo primer UMI físico en un primer grupo para obtener una primera secuencia de nucleótidos de consenso; (ii) código para colapsar las lecturas que tienen un mismo segundo UMI físico en un segundo grupo para obtener una segunda secuencia de nucleótidos de consenso; y (iii) código para determinar, con el uso de la primera y la segunda secuencias de nucleótidos de consenso, una secuencia de uno de los fragmentos de ADN bicatenario en la muestra.
En algunas realizaciones, el código para determinar la secuencia de los fragmentos de ADN bicatenario incluye: (i) código para combinar las lecturas cuya secuencia tiene un primer UMI físico, al menos un UMI virtual y un segundo UMI físico en la dirección de 5' a 3' y las lecturas cuya secuencia tiene el segundo UMI físico, el al menos un UMI virtual y el primer UMI físico en la dirección de 5' a 3' para determinar una secuencia de nucleótidos de consenso; y (ii) código para determinar una secuencia de uno de los fragmentos de ADN bicatenario en la muestra mediante el uso de la secuencia de nucleótidos de consenso.
Un aspecto adicional de la descripción se refiere a un sistema informático, que incluye: uno o más procesadores; memoria del sistema; y uno o más medios de almacenamiento legibles por ordenador. El medio tiene almacenadas instrucciones ejecutables por ordenador que hacen que el sistema informático realice un método para determinar la información de secuencia de una secuencia de interés en una muestra con el uso de índices moleculares únicos (UMI), que son secuencias de oligonucleótidos que pueden usarse para identificar moléculas independientes de fragmentos de ADN bicatenario en la muestra. Las instrucciones incluyen: (a) recibir lecturas de numerosos polinucleótidos amplificados, en donde los muchos polinucleótidos amplificados se obtienen por amplificación de los fragmentos de ADN bicatenario en la muestra que incluyen la secuencia de interés, y la unión de los adaptadores a los fragmentos de ADN bicatenario; (b) identificar numerosos UMI físicos en las lecturas recibidas de los muchos polinucleótidos amplificados, en donde cada UMI físico se encuentra en un adaptador unido a uno de los fragmentos de ADN bicatenario; (c) identificar numerosos UMI virtuales en las lecturas recibidas de los muchos polinucleótidos amplificados, en donde cada UMI virtual se encuentra en una molécula independiente de uno de los fragmentos de ADN bicatenario; y (d) determinar la secuencia de los fragmentos de ADN bicatenario con el uso de las secuencias de los muchos polinucleótidos amplificados, los numerosos UMI físicos y los numerosos UMI virtuales, con lo que se reducen así los errores en la secuencia determinada de los fragmentos de ADN bicatenario.
En algunas realizaciones, determinar la secuencia de los fragmentos de ADN bicatenario incluye: (i) colapsar las lecturas que tienen un mismo primer UMI físico en un primer grupo para obtener una primera secuencia de nucleótidos de consenso; (ii) colapsar las lecturas que tienen un mismo segundo UMI físico en un segundo grupo para obtener una segunda secuencia de nucleótidos de consenso; y (iii) determinar, mediante el uso de la primera y la segunda secuencias de nucleótidos de consenso, una secuencia de uno de los fragmentos de ADN bicatenario.
En algunas realizaciones, determinar las secuencias de los fragmentos de ADN bicatenarios incluye: (i) combinar las lecturas que tengan un primer UMI físico, al menos un UMI virtual y un segundo UMI físico en la dirección de 5' a 3' y las lecturas que tengan el segundo UMI físico, el al menos un UMI virtual y el primer UMI físico en la dirección de 5' a 3' para determinar una secuencia de nucleótidos de consenso; y (ii) determinar una secuencia de uno de los fragmentos de ADN bicatenario mediante el uso de la secuencia de nucleótidos de consenso.
Un aspecto de la descripción da a conocer métodos para secuenciar moléculas de ácido nucleico de una muestra con el uso de índices moleculares únicos (UMI) no aleatorios. Los métodos implican: (a) aplicar adaptadores a ambos extremos de los fragmentos de ADN en la muestra, en donde los adaptadores incluyen una región hibridada bicatenaria, un brazo 5' monocatenario, un brazo 3' monocatenario y un índice molecular único (UMI) no aleatorio en una hebra o en cada hebra de los adaptadores, con lo que se obtienen así productos ADN-adaptadores; (b) amplificar los productos ADN-adaptadores para obtener numerosos polinucleótidos amplificados; (c) secuenciar los muchos polinucleótidos amplificados, con lo que obtienen así numerosas lecturas asociadas a numerosos UMI no aleatorios; (d) a partir de las muchas lecturas, identificar las lecturas que comparten un UMI no aleatorio común; y (e) a partir de las lecturas identificadas que comparten el UMI no aleatorio común, determinar la secuencia de al menos una porción de un fragmento de ADN, de la muestra, que tiene un adaptador aplicado con el UMI no aleatorio común.
En algunas realizaciones, un método implica, además: a partir de las lecturas que comparten el UMI no aleatorio común, seleccionar las lecturas que comparten el UMI no aleatorio común y una posición de lectura común, donde la determinación de la secuencia del fragmento de ADN en (e) usa solo las lecturas que comparten tanto el UMI común no aleatorio como la posición de lectura común en una secuencia de referencia. En algunas realizaciones, cada UMI no aleatorio difiere de cualquier otro UMI no aleatorio en al menos dos nucleótidos en las correspondientes posiciones de secuencia de los UMI no aleatorios.
Otro aspecto de la descripción se refiere a los métodos para secuenciar moléculas de ácido nucleico a partir de una muestra con el uso de índices moleculares únicos (UMI) no aleatorios. En algunas realizaciones, un método implica: (a) aplicar adaptadores a ambos extremos de los fragmentos de ADN bicatenario en la muestra, en donde los adaptadores incluyen cada uno una región hibridada bicatenaria, un brazo 5' monocatenario, un brazo 3' monocatenario, y un índice molecular único (UMI) no aleatorio en una hebra o en cada hebra de los adaptadores, con lo que se obtienen así productos de ADN-adaptador, en los que el UMI no aleatorio se puede combinar con otra información para identificar de manera única cada una de las moléculas de los fragmentos de ADN bicatenario; (b) amplificar ambas cadenas de los productos de ADN-adaptador para obtener numerosos polinucleótidos amplificados; (c) secuenciar los muchos polinucleótidos amplificados, con lo que se obtienen así numerosas lecturas cada una asociada a un UMI no aleatorio; (d) identificar numerosos UMI no aleatorios asociados a las muchas lecturas; y (e) usar las muchas lecturas y los numerosos UMI no aleatorios para determinar la secuencia de los fragmentos de ADN bicatenario en la muestra.
En algunas realizaciones, usar las muchas lecturas y los numerosos UMI no aleatorios para determinar la secuencia de los fragmentos de ADN bicatenario en la muestra implica: identificar las lecturas que comparten un UMI no aleatorio común y usar las lecturas identificadas para determinar una secuencia de un fragmento de ADN en la muestra. En algunas realizaciones, usar las muchas lecturas y los numerosos UMI no aleatorios para determinar la secuencia de los fragmentos de ADN bicatenario en la muestra implica: identificar las lecturas que comparten un UMI no aleatorio común y una posición de lectura común, y usar las lecturas identificadas para determinar una secuencia de un fragmento de ADN en la muestra.
En algunas realizaciones, usar las muchas lecturas y los numerosos UMI no aleatorios para determinar la secuencia de los fragmentos de ADN bicatenarios en la muestra implica: identificar las lecturas que comparten un UMI no aleatorio común y un UMI virtual común, en donde el UMI virtual común se encuentra en un fragmento de ADN en la muestra; y usar las lecturas identificadas para determinar una secuencia del fragmento de ADN en la muestra.
En algunas realizaciones, usar las muchas lecturas y los numerosos UMI no aleatorios para determinar la secuencia de los fragmentos de ADN bicatenario en la muestra implica: identificar las lecturas que comparten un UMI no aleatorio común, una posición de lectura común y un UMI virtual común, en donde el UMI virtual común se encuentra en un fragmento de ADN en la muestra; y usar las lecturas identificadas para determinar una secuencia del fragmento de ADN en la muestra.
En algunas realizaciones, cada UMI no aleatorio difiere de cualquier otro UMI no aleatorio de los adaptadores en al menos dos nucleótidos en las posiciones de secuencia correspondientes de los UMI no aleatorios. En algunas realizaciones, los adaptadores incluyen un UMI físico en cada hebra de los adaptadores en la región hibridada bicatenaria. En algunas realizaciones, los numerosos UMI no aleatorios incluyen no más de aproximadamente 10000, aproximadamente 1000 o aproximadamente 100 UMI no aleatorios únicos. En algunas realizaciones, los numerosos UMI no aleatorios incluyen aproximadamente 96 UMI no aleatorios únicos.
En algunas realizaciones, las muchas lecturas incluyen cada una un UMI no aleatorio. En algunas realizaciones, las muchas lecturas incluyen un UMI no aleatorio o están asociadas a un UMI no aleatorio a través de una lectura de extremos emparejados. En algunas realizaciones, los muchos polinucleótidos amplificados tienen cada uno un UMI no aleatorio en un extremo o tienen un primer UMI no aleatorio en un primer extremo y un segundo UMI no aleatorio en un segundo extremo.
También se dan a conocer un sistema, aparato y productos de programas informáticos para determinar la secuencia de los fragmentos de ADN que ponen en práctica los métodos descritos.
Un aspecto de la descripción da a conocer un producto de programa informático que incluye un código no transitorio de programa de almacenamiento legible por ordenador que, cuando lo ejecutan uno o más procesadores de un sistema informático, hace que el sistema informático realice un método para determinar la información de secuencia de una secuencia de interés en una muestra que utiliza índices moleculares únicos (UMI). El código del programa incluye las instrucciones para realizar los métodos anteriores.
Aunque los ejemplos en la presente memoria conciernen a los humanos y el lenguaje se dirige principalmente a los problemas de los humanos, los conceptos descritos en la presente memoria son aplicables a los ácidos nucleicos de cualquier virus, planta, animal u otro organismo, y a las poblaciones de los mismos (metagenomas, poblaciones víricas, etc.) Estas y otras características de la presente descripción se harán más evidentes a partir de la siguiente descripción, con referencia a las figuras y las reivindicaciones adjuntas, o pueden aprenderse mediante la práctica de la descripción tal y como se presenta más adelante.
Breve descripción de los dibujos
La figura 1A es un diagrama de flujo que ilustra un flujo de trabajo de ejemplo que usa los UMI para secuenciar fragmentos de ácido nucleico.
En la figura 1B se muestra un fragmento/molécula de ADN y los adaptadores empleados en las etapas iniciales del flujo de trabajo que se muestran en la figura 1A.
En la figura 2A se ilustran esquemáticamente cinco diseños de adaptadores diferentes que pueden adoptarse en las diversas realizaciones.
En la figura 2B se ilustra un proceso hipotético en el que se produce un salto de UMI en una reacción de PCR en la que participan adaptadores que tienen dos UMI físicos en dos brazos.
En la figura 2C se muestra un procedimiento para fabricar adaptadores que tienen UMI en ambas cadenas de los adaptadores en la región bicatenaria, procedimiento en el que se utiliza una secuencia de 15 nucleótidos (SEQ ID n.° 1) como secuencia de reconocimiento para la enzima de restricción Xcm1.
En la figura 2D se muestra un diagrama de un adaptador que tiene una cadena superior con el brazo P7 (SEQ ID n.° 2) y una cadena inferior con el brazo P5 (SEQ ID n.° 3).
En la figura 2E se ilustra esquemáticamente un diseño de UMI no aleatorio que proporciona un mecanismo para detectar errores que ocurren en la secuencia del UMI durante un procedimiento de secuenciación.
Las figuras 3A y 3B son diagramas que muestran los materiales y los productos de reacción de adaptadores de ligación a fragmentos bicatenarios de acuerdo con algunos métodos descritos en la presente memoria.
Las figuras 4A-4E ilustran cómo los métodos descritos en la presente memoria pueden suprimir diferentes fuentes de errores al determinar la secuencia de un fragmento de ADN bicatenario.
En la figura 5 se ilustra esquemáticamente la aplicación de UMI físicos y UMI virtuales para obtener lecturas largas de extremos emparejados de manera eficiente.
La figura 6 es un diagrama de bloques de un sistema disperso para procesar una muestra problema.
En la figura 7A y en la figura 7B se muestran datos experimentales que demuestran la eficacia de la supresión de errores con el uso de los métodos descritos en la presente memoria.
En la figura 8 se muestran datos que indican que usar únicamente la información de posición para colapsar las lecturas tiende a colapsar las lecturas que en realidad proceden de moléculas de diferente origen.
En la figura 9 se representan gráficamente los datos empíricos que muestran que el uso de información de la posición y del UMI no aleatorio para colapsar las lecturas puede proporcionar estimaciones más exactas de fragmentos que utilizar solo la información de la posición.
En la figura 10 se muestra que se producen diferentes errores en tres muestras procesadas con UMI aleatorios en forma tabular.
En la figura 11A se muestra la sensibilidad y la selectividad de la detección de mutación somática y CNV en una muestra de ADNg utilizando los dos métodos de colapso con dos herramientas diferentes: VarScan y Denovo,
En las figuras 11B-D se muestra la selectividad (es decir, tasa de falsos positivos) de la detección de mutación somática y CNV en tres muestras de cfDNA que tienen entradas de muestra crecientes utilizando los dos métodos de colapso con dos herramientas diferentes: VarScan y Denovo.
Descripción detallada
La descripción se refiere a métodos, aparatos, sistemas y productos de programas informáticos para secuenciar ácidos nucleicos, especialmente ácidos nucleicos en poca cantidad o baja concentración, tal como el cfDNA fetal en el plasma materno o el ADN tumoral circulante (ctDNA) en la sangre de un paciente con cáncer.
A menos que se indique lo contrario, la práctica de los métodos y sistemas descritos en la presente memoria implica las técnicas y los aparatos convencionales que se suelen utilizar en biología molecular, microbiología, purificación de proteínas, ingeniería de proteínas, secuenciación de proteínas y de ADN, y los campos de ADN recombinante que están dentro de la materia de la técnica. Dichas técnicas y aparatos son conocidos por los expertos en la materia y se describen en numerosos textos y obras de referencia (véase, por ejemplo, Sambrook et al., "Molecular Cloning: A Laboratory Manual", tercera edición (Cold Spring Harbor), [2001]).
Los márgenes numéricos incluyen los números que definen el margen. Se pretende que cada limitación numérica máxima dada a lo largo de esta especificación incluya todas las limitaciones numéricas inferiores, como si tales limitaciones numéricas inferiores se escribieran expresamente en la presente memoria. Cada limitación numérica mínima dada a lo largo de esta especificación incluirá cada limitación numérica más alta, como si tales limitaciones numéricas más altas estuvieran expresamente escritas en la presente memoria. Cada margen numérico dado a lo largo de esta especificación incluirá cada margen numérico más estrecho que se encuentre dentro de un margen numérico más amplio, como si todos los márgenes numéricos más estrechos estuvieran expresamente escritos en la presente memoria.
Los encabezados dados a conocer en la presente memoria no pretenden limitar la descripción.
A menos que se defina lo contrario en la presente memoria, todos los términos técnicos y científicos utilizados en la presente memoria tienen el mismo significado que suele conocer un experto en la materia. Varios diccionarios científicos que incluyen los términos incluidos en la presente memoria son bien conocidos y están disponibles para los expertos en la materia. Aunque cualquier método y material similar o equivalente a los descritos en la presente memoria encuentra uso en la práctica o la comprobación de las realizaciones descritas en la presente memoria, se describen algunos métodos y materiales.
Los términos definidos a continuación se describen más detalladamente con referencia a la especificación en su conjunto. Debe entenderse que esta descripción no se limita a la metodología, protocolos y reactivos concretos descritos, ya que estos pueden variar en función del contexto en que los usan los expertos en la materia.
Definiciones
Tal y como se usa en la presente memoria, los términos singulares "un", "una" y "el/la" incluyen la referencia plural a menos que el contexto indique claramente lo contrario.
A menos que se indique lo contrario, los ácidos nucleicos se escriben de izquierda a derecha en la orientación de 5' a 3' y las secuencias de aminoácidos se escriben de izquierda a derecha en la orientación de amino a carboxilo, respectivamente.
Los índices moleculares únicos (UMI) son secuencias de nucleótidos aplicados a, o identificados en, moléculas de ADN que pueden usarse para distinguir moléculas de ADN independientes entre sí. Como los UMI se utilizan para identificar moléculas de ADN, también se conocen como identificadores moleculares únicos. Véase, por ejemplo, Kivioja,Nature Methods9, 72-74 (2012). Los UMI pueden secuenciarse junto con las moléculas de ADN con las que están asociados para determinar si las secuencias leídas son las que se originan de una molécula de ADN o de otra. El término "UMI" se usa en la presente memoria para referirse tanto a la información de secuencia de un polinucleótido como al polinucleótido físico en sí.
Lo habitual es que se secuencien muchos casos de una molécula de un único origen. En el caso de la secuenciación por síntesis con la tecnología de secuenciación de Illumina, la molécula original puede amplificarse por PCR antes colocarla en una celda de flujo. Tanto si se amplifica por PCR como si no, cada una de las moléculas de ADN aplicadas a la celda de flujo se amplifican en puente o se amplifican con ExAmp para producir un agrupamiento. Cada molécula de un agrupamiento procede de la misma molécula de ADN original, pero se secuencia por separado. Para la corrección de errores y otros fines, puede ser importante determinar que todas las lecturas de un solo agrupamiento estén identificadas como procedentes de la misma molécula original. Los UMI permiten esta agrupación. Una molécula de ADN que se copia por amplificación o de otro modo para producir numerosos casos de la molécula de ADN se denomina molécula de ADN original.
Los UMI son similares a los códigos de barras, que se suelen usar para distinguir las lecturas de una muestra de las lecturas de otras muestras, pero los UMI se usan en su lugar para distinguir una molécula de ADN original de otra cuando se secuencian juntas muchas moléculas de ADN. Debido a que puede haber muchas más moléculas de ADN en una muestra que muestras en una secuenciación, generalmente hay muchos más UMI distintos que códigos de barras distintos en una secuenciación.
Según se mencionó, los UMI pueden aplicarse a, o identificarse en, moléculas de ADN independientes. En algunas realizaciones, los UMI pueden aplicarse a las moléculas de ADN mediante los métodos que unen o enlazan físicamente los UMI a las moléculas de ADN, por ejemplo, mediante ligación o transposición a través de polimerasa, endonucleasa, transposasas, etc. Por lo tanto, estos UMI "aplicados" también se denominan UMI físicos. En algunos contextos, también pueden denominarse UMI exógenos. Los UMI identificados dentro de las moléculas de ADN originales se denominan UMI virtuales. En algún contexto, los UMI virtuales también pueden denominarse UMI endógenos.
Los UMI físicos se pueden definir de muchas maneras. Por ejemplo, pueden ser secuencias de nucleótidos aleatorias, pseudoaleatorias o parcialmente aleatorias o no aleatorias que se insertan en adaptadores o se incorporan de otro modo en las moléculas de ADN originales para ser secuenciadas. En algunas realizaciones, los UMI físicos pueden ser tan únicos que se espera que cada uno de ellos identifique de forma única cualquier molécula de ADN original presente en una muestra. Se genera la colección de adaptadores, cada uno con un UMI físico, y los adaptadores están unidos a fragmentos u otras moléculas de ADN original para ser secuenciados, y cada una de las moléculas secuenciadas tiene un UMI que ayuda a distinguirla de todos los demás fragmentos. En tales realizaciones, se puede usar una gran cantidad de UMI físicos diferentes (por ejemplo, de muchos miles a millones) para identificar de manera única los fragmentos de ADN en una muestra.
Por supuesto, el UMI físico debe tener una longitud suficiente para garantizar esta singularidad para cada molécula de ADN original. En algunas realizaciones, se puede utilizar un identificador molecular menos único junto con otras técnicas de identificación para garantizar que cada molécula de ADN original se identifica de forma única durante el procedimiento de secuenciación. En tales realizaciones, numerosos fragmentos o adaptadores pueden tener el mismo UMI físico. Otra información, como la ubicación del alineamiento o los UMI virtuales, se pueden combinar con el UMI físico para identificar de manera única las lecturas procedentes de una sola molécula/fragmento de ADN original. En algunas realizaciones, los adaptadores incluyen UMI físicos limitados a un número relativamente pequeño de secuencias no aleatorias, por ejemplo, 96 secuencias no aleatorias. Tales UMI físicos también se denominan UMI no aleatorios. En algunas realizaciones, los UMI no aleatorios pueden combinarse con la información de la posición de la secuencia y/o UMI virtuales para identificar las lecturas atribuibles a una misma molécula de ADN original. Las lecturas identificadas pueden colapsarse para obtener una secuencia de consenso que refleje la secuencia de la molécula de ADN original como se describe en la presente memoria.
Un "índice molecular único virtual " o "UMI virtual" es una subsecuencia única en una molécula de ADN original. En algunas realizaciones, los UMI virtuales se ubican en, o cerca de, los extremos de la molécula de ADN original. Una o más de estas posiciones terminales únicas pueden, solas o junto a otra información, identificar de manera única una molécula de ADN original. En función de la cantidad de moléculas de ADN original distintas y de la cantidad de nucleótidos en el UMI virtual, uno o más UMI virtuales pueden identificar de forma única las moléculas de ADN original en una muestra. En algunos casos, se requiere una combinación de dos identificadores moleculares únicos virtuales para identificar una molécula de ADN original. Tales combinaciones pueden ser extremadamente raras, posiblemente se encuentran solo una vez en una muestra. En algunos casos, uno o más UMI virtuales en combinación con uno o más UMI físicos pueden identificar juntos de forma única una molécula de ADN original.
Un "UMI aleatorio" puede considerarse un UMI físico seleccionado como una muestra aleatoria, con o sin reemplazo, a partir de un conjunto de UMI que consisten en todas las posibles secuencias de oligonucleótidos diferentes con una o más longitudes de secuencia. Por ejemplo, si cada UMI en el conjunto de UMI tiene n nucleótidos, entonces el conjunto incluye 4n UMI que tienen secuencias que son diferentes entre sí. Una muestra aleatoria seleccionada de las 4n UMI constituye un UMI aleatorio.
Por el contrario, un "UMI no aleatorio", tal como se usa en la presente memoria, se refiere a un UMI físico que no es un UMI aleatorio. En algunas realizaciones, los UMI no aleatorios disponibles están predefinidos para un experimento o aplicación particular. En ciertas realizaciones, se usan reglas para generar secuencias para un conjunto o para seleccionar una muestra del conjunto para obtener un UMI no aleatorio. Por ejemplo, las secuencias de un conjunto pueden generarse de manera que las secuencias tengan un patrón o patrones particulares. En algunas realizaciones, cada secuencia difiere de cualquier otra secuencia del conjunto por un número particular de (por ejemplo, 2, 3 o 4) nucleótidos. Es decir, ninguna secuencia de UMI no aleatorio se puede convertir en ninguna otra secuencia de UMI no aleatorio por el reemplazo de menos del número particular de nucleótidos. En algunas realizaciones, se selecciona un UMI no aleatorio de un conjunto de UMI que incluye menos de todos los UMI posibles dada una longitud de secuencia particular. Por ejemplo, un UMI no aleatorio que tiene 6 nucleótidos puede seleccionarse de un total de 96 secuencias diferentes (en lugar de un total de 46 = 4096 posibles secuencias diferentes). En otras realizaciones, las secuencias no se seleccionan aleatoriamente de un conjunto. En cambio, algunas secuencias se seleccionan con mayor probabilidad que otras secuencias.
En algunas realizaciones donde los UMI no aleatorios se seleccionan de un conjunto con menos que todas las secuencias diferentes posibles, el número de UMI no aleatorios es menor, a veces muy significativamente, que el número de moléculas de ADN original. En tales realizaciones, la información del UMI no aleatorio puede combinarse con otra información, tal como UMI virtual y/o información de secuencia, para identificar lecturas de secuencias procedentes de una misma molécula de ADN original.
El término "lecturas emparejadas" o "lecturas de extremos emparejados" se refiere a las lecturas obtenidas de la secuenciación desde los dos extremos con lo que se obtiene una lectura de cada extremo de un fragmento nucleico. La secuenciación de los extremos emparejados implica fragmentar el ADN en secuencias llamadas insertos. En algunos protocolos, como algunos utilizados por Illumina, las lecturas de insertos más cortos (por ejemplo, del orden de decenas a cientos de pb) se denominan lecturas de extremos emparejados de insertos pequeños o simplemente lecturas de extremos emparejados. En cambio, las lecturas de insertos más largos (por ejemplo, del orden de varios miles de pb) se denominan parejas de lecturas ligadas. En esta descripción, se pueden usar las lecturas de los extremos emparejados de insertos pequeños y las parejas de lecturas de insertos largos y no se diferencian con respecto al procedimiento para determinar la secuencia de los fragmentos de ADN. Por lo tanto, el término "lecturas de extremos emparejados" o "lecturas emparejadas" puede referirse tanto a las lecturas desde los dos extremos de insertos pequeños como a las parejas de lecturas ligadas de insertos largos, que se describen más adelante en la presente memoria. En algunas realizaciones, las lecturas de extremos emparejados incluyen las lecturas de aproximadamente 20 pb a 1000 pb. En algunas realizaciones, las lecturas de extremos emparejados incluyen las lecturas de aproximadamente 50 pb a 500 pb, aproximadamente 80 pb a 150 pb, o aproximadamente 100 pb.
Tal y como se usa en la presente memoria, los términos "alinemiento" y "alinear" se refieren al procedimiento de comparar una lectura con una secuencia de referencia y, gracias a ello, determinar si la secuencia de referencia contiene la secuencia de la lectura. Un procedimiento de alineamiento intenta determinar si una lectura se puede mapear en una secuencia de referencia, pero no siempre da lugar a una lectura alineada con la secuencia de referencia. Si la secuencia de referencia contiene la lectura, la lectura puede mapearse en la secuencia de referencia o, en ciertas realizaciones, en una posición concreta de la secuencia de referencia. En algunos casos, el alineamiento simplemente indica si una lectura es o no miembro de una secuencia de referencia particular (es decir, si la lectura está presente o ausente de la secuencia de referencia). Por ejemplo, el alineamiento de una lectura con la secuencia de referencia del cromosoma 13 humano indicará si la lectura está presente en la secuencia de referencia del cromosoma 13. Una herramienta que proporciona esta información puede llamarse un comprobador de pertenencia al conjunto. En algunos casos, un alineamiento indica además una ubicación en la secuencia de referencia en la que mapea la lectura. Por ejemplo, si la secuencia de referencia es la secuencia completa del genoma humano, un alineamiento puede indicar que hay una lectura presente en el cromosoma 13, y puede indicar además que la lectura está en una cadena y/o sitio particular del cromosoma 13. En algunos contextos, las herramientas de alineamiento son imperfectas, ya que a) no se encuentran todas las alineaciones válidas, y b) algunas alineaciones obtenidas no son válidas. Esto sucede por varias razones, por ejemplo, las lecturas pueden contener errores, y las lecturas secuenciadas pueden ser diferentes del genoma de referencia debido a las diferencias de haplotipo. En algunas aplicaciones, las herramientas de alineamiento incluyen la incorporación de tolerancia a las discordancias, que tolera ciertos grados de discordancia de pares de bases y aún permite el alineamiento de las lecturas a una secuencia de referencia. Esto puede ayudar a identificar el alineamiento válido de las lecturas que de otro modo se perderían.
Las lecturas alineadas son una o más secuencias que se identifican como una coincidencia en términos del orden de sus moléculas de ácido nucleico con una secuencia de referencia conocida, tal como un genoma de referencia. Una lectura alineada y su ubicación determinada en la secuencia de referencia constituyen una etiqueta de secuencia. El alineamiento se puede hacer manualmente, aunque lo típico es que se realice mediante un algoritmo informático, ya que sería imposible alinear las lecturas en un período de tiempo razonable para realizar los métodos descritos en la presente memoria. Un ejemplo de un algoritmo de alineamiento de secuencias es el programa informático Efficient Local Alignment of Nucleotide Data (ELAND) distribuido como parte del flujo de trabajo Genomics Analysis de Illumina. Como alternativa, se puede emplear un filtro Bloom o un comprobador de pertenencia al conjunto similar para alinear las lecturas con los genomas de referencia. Véase la publicación de patente de los EE. UU. US2014-0274752A1, registrada el 25 de abril de 2014. La coincidencia de una lectura de secuencia en el alineamiento puede ser una coincidencia de secuencia del 100% o de menos del 100% (es decir, una coincidencia imperfecta).
El término "mapeo" usado en la presente memoria se refiere a la asignación de una secuencia de lectura a una secuencia más grande, por ejemplo, un genoma de referencia, por alineamiento.
Los términos "polinucleótido", "ácido nucleico" y "moléculas de ácido nucleico" se usan indistintamente y se refieren a una secuencia de nucleótidos unida covalentemente (es decir, ribonucleótidos para ARN y desoxirribonucleótidos para ADN) en la que la posición 3' de la pentosa de un nucleótido está unida por un grupo fosfodiéster a la posición 5' de la pentosa del siguiente. Los nucleótidos incluyen secuencias de cualquier forma de ácido nucleico, que incluye, entre otras, moléculas de ARN y ADN, tales como moléculas de ADN libres de células (cfDNA). El término "polinucleótido" incluye, sin limitación, polinucleótidos monocatenarios y bicatenarios.
El término "muestra problema" en la presente memoria se refiere a una muestra, típicamente procedente de un líquido biológico, célula, tejido, órgano u organismo, que incluye un ácido nucleico o una mezcla de ácidos nucleicos que tienen al menos una secuencia de ácido nucleico que debe ser cribada por la variación del número de copias y otras alteraciones genéticas, tales como, pero sin limitarse a ellas, polimorfismo de un solo nucleótido, inserciones, deleciones y variaciones estructurales. En ciertas realizaciones, la muestra tiene al menos una secuencia de ácido nucleico cuyo número de copias se sospecha que ha sufrido una variación. Dichas muestras incluyen, pero no se limitan a ellas, esputo/líquido oral, líquido amniótico, sangre, una fracción de sangre o muestras de biopsia con aguja fina, orina, líquido peritoneal, líquido pleural y similares. Aunque la muestra a menudo se toma de un sujeto humano (p. ej., un paciente), los ensayos se pueden usar para muestras de cualquier mamífero, incluidos, entre otros, perros, gatos, caballos, cabras, ovejas, vacas, cerdos, etc., así como poblaciones mixtas, como poblaciones microbianas de la naturaleza, o poblaciones víricas de pacientes. La muestra puede usarse directamente según se obtiene de la fuente biológica o después de un tratamiento previo para modificar el carácter de la muestra. Por ejemplo, dicho tratamiento previo puede incluir preparar plasma a partir de sangre, dilución de líquidos viscosos, etc. Los métodos de tratamiento previo también pueden incluir, entre otros, filtración, precipitación, dilución, destilación, mezcla, centrifugación, congelación, liofilización, concentración, amplificación, fragmentación de ácido nucleico, inactivación de componentes que interfieren, la adición de reactivos, lisis, etc. Si tales métodos de tratamiento previo se emplean con respecto a la muestra, tales métodos de tratamiento previo son típicamente tales que los ácidos nucleicos de interés permanecen en la muestra problema, a veces a una concentración proporcional a la de una muestra problema no tratada (por ejemplo, a saber, una muestra que no está sujeta a ninguno de estos métodos de tratamiento previo). Tales muestras "tratadas" o "procesadas" todavía se consideran muestras biológicas "problema" con respecto a los métodos descritos en la presente memoria.
El término "secuenciación de última generación (NGS)" en la presente memoria se refiere a los métodos de secuenciación que permiten la secuenciación masiva en paralelo de moléculas amplificadas clonalmente y de moléculas de ácido nucleico individuales. Los ejemplos no limitantes de NGS incluyen la secuenciación por síntesis que emplea terminadores reversibles coloreados y la secuenciación por ligación.
El término "lectura" se refiere a una lectura de secuencia de una porción de una muestra de ácido nucleico. Típicamente, aunque no necesariamente, una lectura representa una secuencia corta de pares de bases contiguas en la muestra. La lectura puede representarse simbólicamente por la secuencia de pares de bases en A, T, C y G de la porción de muestra, junto con una estimación probabilística de lo correcta que es la base (puntuación de la calidad). Puede almacenarse en un dispositivo de memoria y procesarse según corresponda para determinar si coincide con una secuencia de referencia o cumple con otros criterios. Se puede obtener una lectura directamente de un aparato de secuenciación o indirectamente de la información de secuencia almacenada relativa a la muestra. En algunos casos, una lectura es una secuencia de ADN de longitud suficiente (por ejemplo, al menos aproximadamente 20 pb) que se puede usar para identificar una secuencia o región más grande, por ejemplo, que se puede alinear y mapear en un cromosoma o región genómica o gen.
Los términos "sitio" y "ubicación del alineamiento" se usan indistintamente para referirse a una posición única (es decir, ID del cromosoma, posición en el cromosoma y orientación) en un genoma de referencia. En algunas realizaciones, un sitio puede ser un residuo, una etiqueta de secuencia o la posición de un segmento en una secuencia de referencia.
Tal y como se usa en la presente memoria, el término "genoma de referencia" o "secuencia de referencia" se refiere a cualquier secuencia de genoma conocida particular, ya sea parcial o completa, de cualquier organismo o virus que pueda usarse para hacer referencia a las secuencias identificadas de un sujeto. Por ejemplo, un genoma de referencia utilizado para sujetos humanos, así como muchos otros organismos, se encuentra en el Centro Nacional de Información Biotecnológica en ncbi.nlm.nih.gov. Un "genoma" se refiere a la información genética completa de un organismo o virus, expresada en secuencias de ácido nucleico. Sin embargo, se entiende que "completo" es un concepto relativo, porque se espera que incluso el mejor genoma de referencia estándar incluya huecos y errores.
En diversas realizaciones, la secuencia de referencia es significativamente mayor que las lecturas que están alineadas en ella. Por ejemplo, puede ser al menos aproximadamente 100 veces más grande, o al menos aproximadamente 1000 veces más grande, o al menos aproximadamente 10000 veces más grande, o al menos aproximadamente 105 veces más grande, o al menos aproximadamente 106 veces más grande, o al menos aproximadamente 107 veces más grande.
En un ejemplo, la secuencia de referencia es la de un genoma humano completo. Dichas secuencias pueden denominarse secuencias genómicas de referencia. En otro ejemplo, la secuencia de referencia está limitada a un cromosoma humano específico, tal como el cromosoma 13. En algunas realizaciones, un cromosoma Y de referencia es la secuencia de cromosoma Y de la versión hg 19 del genoma humano. Dichas secuencias pueden denominarse secuencias cromosómicas de referencia. Otros ejemplos de secuencias de referencia incluyen genomas de otras especies, así como cromosomas, regiones subcromosómicas (como cadenas), etc., de cualquier especie.
En algunas realizaciones, una secuencia de referencia para el alineamiento puede tener una longitud de secuencia de aproximadamente 1 a aproximadamente 100 veces la longitud de una lectura. En tales realizaciones, el alineamiento y la secuenciación se consideran un alineamiento o secuenciación dirigidos, en lugar de un alineamiento o secuenciación de todo el genoma. En estas realizaciones, la secuencia de referencia incluye típicamente una secuencia génica y/u otra secuencia restringida de interés.
En diversas realizaciones, la secuencia de referencia es una secuencia de consenso u otra combinación derivada de muchos individuos. Sin embargo, en ciertas aplicaciones, la secuencia de referencia puede tomarse de un individuo en particular.
El término "derivado" o "procedente" cuando se usa en el contexto de un ácido nucleico o una mezcla de ácidos nucleicos, se refiere en la presente memoria a los medios por los cuales el ácido o ácidos nucleicos se obtienen de la fuente de la que se originan. Por ejemplo, en una realización, una mezcla de ácidos nucleicos que procede de dos genomas diferentes significa que los ácidos nucleicos, por ejemplo, cfDNA, fueron liberados de manera natural por las células a través de procesos naturales como la necrosis o la apoptosis. En otra realización, una mezcla de ácidos nucleicos que procede de dos genomas diferentes significa que los ácidos nucleicos se extrajeron de dos tipos diferentes de células de un sujeto.
El término "líquido biológico" en la presente memoria se refiere a un líquido tomado de una fuente biológica e incluye, por ejemplo, sangre, suero, plasma, esputo, líquido de lavado, líquido cefalorraquídeo, orina, semen, sudor, lágrimas, saliva y similares. Tal como se usa en la presente memoria, los términos "sangre", "plasma" y "suero" abarcan expresamente fracciones o porciones procesadas de los mismos. De manera similar, cuando se toma una muestra de una biopsia, hisopo, frotis, etc., la "muestra" abarca expresamente una fracción o porción procesada derivada de la biopsia, hisopo, frotis, etc.
Tal como se usa en la presente memoria, el término "cromosoma" se refiere al portador de genes que lleva la herencia de una célula viva, que se deriva de cadenas de cromatina que incluyen componentes de tipo ADN y proteínas (especialmente histonas). En la presente memoria se emplea el sistema convencional de numeración de cada uno de los cromosomas del genoma humano reconocido internacionalmente.
Tal como se usa en la presente memoria, el término "longitud de polinucleótido" se refiere al número absoluto de moléculas de ácido nucleico (nucleótidos) en una secuencia o en una región de un genoma de referencia. El término "longitud del cromosoma" se refiere a la longitud conocida del cromosoma dado en pares de bases, por ejemplo, proporcionado en el ensamblaje NCBI36/hg18 de los cromosomas humanos que se encuentra en |genome|.|Ucsc|.|edu/cgi-bin/hgTracks?hgsid=167155613&chromInfoPage= en la World Wide Web.
El término "cebador", tal como se usa en la presente memoria, se refiere a un oligonucleótido aislado que es capaz de actuar como un punto de inicio de la síntesis cuando se coloca en condiciones inductivas para la síntesis de un producto de extensión (por ejemplo, las condiciones incluyen nucleótidos, un agente inductor tal como ADN polimerasa, los iones y moléculas necesarios, y una temperatura y pH adecuados). El cebador puede ser preferiblemente monocatenario para la máxima eficiencia en la amplificación, pero como alternativa puede ser bicatenario. Si es bicatenario, el cebador se trata primero para separar sus hebras antes de usarse para preparar los productos de extensión. El cebador puede ser un oligodesoxirribonucleótido. El cebador es suficientemente largo para cebar la síntesis de productos de extensión en presencia del agente inductor. La longitud exacta de los cebadores dependerá de muchos factores, incluida la temperatura, la fuente del cebador, el uso del método y los parámetros utilizados para el diseño del cebador.
Introducción y contexto
La tecnología de secuenciación de última generación (NGS) se ha desarrollado rápidamente y proporciona nuevas herramientas para avanzar en la investigación y la ciencia, así como servicios de salud y servicios que dependen de información genética y biológica relacionada. Los métodos de NGS se realizan de forma masiva y paralela, lo que permite incrementar enormemente la velocidad de determinación de la información de secuencia de las biomoléculas. Sin embargo, muchos de los métodos de NGS y las técnicas de manipulación de muestras asociadas introducen errores tales que las secuencias resultantes tienen una tasa de error relativamente alta, que varía de un error en unos pocos cientos de pares de bases a un error en unos pocos miles de pares de bases. Tales tasas de error a veces son aceptables para determinar la información genética heredable, como las mutaciones de la línea germinal, porque dicha información es constante en la mayoría de las células somáticas, que proporcionan muchas copias del mismo genoma en una muestra problema. Un error que se origina al leer una copia de una secuencia tiene un impacto menor o despreciable cuando se leen sin error muchas copias de la misma secuencia. Por ejemplo, si una lectura errónea de una copia de una secuencia no puede alinearse correctamente a una secuencia de referencia, simplemente puede descartarse del análisis. Las lecturas sin errores de otras copias de la misma secuencia pueden seguir proporcionando información suficiente para análisis válidos. Como alternativa, en lugar de descartar la lectura que tiene un par de bases diferente de otras lecturas de la misma secuencia, se puede ignorar el par de bases diferente como resultado de una fuente de error conocida o desconocida.
Sin embargo, dichas estrategias de corrección de errores no funcionan bien para detectar secuencias con baja frecuencia alélica, tal como mutaciones somáticas subclonales encontradas en los ácidos nucleicos del tejido tumoral, ADN tumoral circulante, cfDNA fetal de baja concentración en plasma materno, mutaciones de resistencia a los medicamentos en los patógenos, etc. En estos ejemplos, un fragmento de ADN puede albergar una mutación somática de interés en un sitio de la secuencia, mientras que muchos otros fragmentos en el mismo sitio de la secuencia no tienen la mutación de interés. En este contexto, las lecturas de secuencia o los pares de bases del fragmento de ADN mutado podrían no usarse o interpretarse incorrectamente en la secuenciación convencional, con lo que se perdería así información para detectar la mutación de interés.
Debido a estas diversas fuentes de error, el aumento de la profundidad de la secuenciación por sí sola no puede garantizar la detección de variaciones somáticas con muy baja frecuencia alélica (por ejemplo, <1%). Algunas realizaciones descritas en la presente memoria proporcionan métodos de secuenciación bicatenarios que suprimen eficazmente los errores en situaciones en las que las señales de secuencias válidas de interés son bajas, como las muestras con baja frecuencia alélica. Los métodos usan índices moleculares únicos (UMI) virtuales junto con índices moleculares únicos físicos pequeños colocados en un brazo o en ambos brazos de adaptadores de secuenciación, como el adaptador TruSeq® de Illumina. Estas realizaciones se basan en la estrategia de usar UMI físicos en secuencias de adaptador y UMI virtuales en secuencias de fragmentos de ADN de muestra. En algunas realizaciones, las posiciones de alineamiento de las lecturas también se utilizan para suprimir errores. Por ejemplo, cuando varias lecturas (o pares de lecturas) comparten un UMI físico y se alinean dentro del mismo intervalo (rango restringido de posiciones) en la referencia, se espera que las lecturas se originaron a partir de un solo fragmento de ADN. Los UMI físicos, los UMI virtuales y las posiciones de alineamiento asociadas a las lecturas proporcionan "índices" que están, solos o en combinación, asociados de forma única a un fragmento de ADN bicatenario específico de una muestra. Con el uso de estos índices, uno puede identificar numerosas lecturas procedentes de un solo fragmento de ADN (una sola molécula), que puede ser solo uno de los muchos fragmentos del mismo sitio genómico. Con el uso de las muchas lecturas de una sola molécula de ADN, la corrección de errores puede realizarse de manera eficaz. Por ejemplo, la metodología de secuenciación puede obtener una secuencia de nucleótidos de consenso (en adelante denominada "una secuencia de consenso") de las muchas lecturas procedentes del mismo fragmento de ADN, cuya corrección no descarta información válida de secuencia de este fragmento de ADN.
El diseño de los adaptadores puede proporcionar UMI físicos que permiten determinar de qué cadena del fragmento de ADN se derivan las lecturas. Algunas realizaciones aprovechan esto para determinar una primera secuencia de consenso para lecturas procedentes de una cadena del fragmento de ADN, y una segunda secuencia de consenso para la cadena complementaria. En muchas realizaciones, una secuencia de consenso incluye los pares de bases detectados en todas o en la mayoría de las lecturas, mientras que excluye los pares de bases que aparecen en algunas de las lecturas. Se pueden realizar diferentes criterios de consenso. El proceso de combinar lecturas basadas en los UMI o la posición del alineamiento para obtener una secuencia de consenso también se conoce como "colapsar" las lecturas. Con el uso de UMI físicos, UMI virtuales y/o las posiciones de los alineamientos, se puede determinar que las lecturas para la primera y segunda secuencia de consenso proceden del mismo fragmento bicatenario. Por lo tanto, en algunas realizaciones, se determina una tercera secuencia de consenso usando la primera y la segunda secuencias de consenso obtenidas para la misma molécula/fragmento de ADN, en donde la tercera secuencia de consenso incluye pares de bases comunes para la primera y para la segunda secuencias de consenso, mientras que excluye las discordantes entre dos. En las realizaciones alternativas, solo se puede obtener directamente una secuencia de consenso mediante el colapso de todas las lecturas derivadas de ambas cadenas del mismo fragmento, en lugar de comparar las dos secuencias de consenso obtenidas de las dos cadenas. Finalmente, la secuencia del fragmento puede determinarse a partir de la tercera o la única secuencia de consenso, que incluye pares de bases que son constantes a lo largo las lecturas derivadas de ambas cadenas del fragmento.
Diversas realizaciones combinan lecturas de dos cadenas de un fragmento de ADN para suprimir errores. Sin embargo, en algunas realizaciones, el método aplica UMI físicos y virtuales a fragmentos de ácido nucleico monocatenario (p. ej., ADN o ARN) y combina lecturas que comparten los mismos UMI físicos y virtuales para suprimir los errores. Se pueden emplear diversos métodos para capturar los fragmentos de ácido nucleico monocatenario de una muestra.
En algunas realizaciones, el método combina diferentes tipos de índices para determinar el polinucleótido original del que proceden las lecturas. Por ejemplo, el método puede usar UMI físicos y virtuales para identificar las lecturas derivadas de una única molécula de ADN. Al usar una segunda forma de UMI, además del UMI físico, los UMI físicos pueden ser más cortos que cuando se usan solo los UMI físicos para determinar el polinucleótido original. Esta estrategia tiene un impacto mínimo en el rendimiento de la preparación del banco de fragmentos y no requiere una secuenciación adicional de la longitud de la lectura.
Las aplicaciones de los métodos descritos incluyen:
• Supresión de errores para la detección de mutaciones somáticas. Por ejemplo, la detección de mutaciones con menos del 0,1% de frecuencia alélica es muy crítica en la biopsia líquida de ADN tumoral circulante.
• Corrección de la sincronización por adelanto o por retraso, y otros errores de secuenciación, para lograr lecturas largas de gran calidad (por ejemplo, 1 x 1000 pb)
• Disminución de la duración del ciclo para una longitud de lectura fija y corrección del aumento de adelantos y retrasos mediante este método.
• Uso de UMI en ambos lados del fragmento para crear lecturas virtuales largas de extremos emparejados. Por ejemplo, hilvana una lectura de 2 x 500 a partir de 500 50 en duplicados.
Ejemplo de flujo de trabajo para secuenciar fragmentos de ácido nucleico con el uso de UMI
La figura 1A es un diagrama de flujo que ilustra un flujo de trabajo de ejemplo 100 para usar UMI para secuenciar fragmentos de ácido nucleico. La operación 102 proporciona fragmentos de ADN bicatenario. Los fragmentos de ADN pueden obtenerse por fragmentación del ADN genómico, recogida del ADN fragmentado de forma natural (por ejemplo, cfDNA o ctDNA), o por síntesis de fragmentos de ADN a partir de ARN, por ejemplo. En algunas realizaciones, para sintetizar fragmentos de ADN a partir de ARN, el ARN mensajero se purifica primero con la selección de poliA o el agotamiento del ARN ribosómico, luego el ARNm seleccionado se fragmenta químicamente y se convierte en ADNc monocatenario mediante el cebado aleatorio con hexámeros. Se genera una cadena complementaria del ADNc para crear un ADNc bicatenario que está listo para la construcción del banco de fragmentos. Para obtener fragmentos de ADN bicatenarios a partir de ADN genómico (ADNg), el ADNg de entrada se fragmenta, por ejemplo, por cizallamiento hidrodinámico, nebulización, fragmentación enzimática, etc., para generar fragmentos con la longitud apropiada, por ejemplo, aproximadamente 1000 pb, 800 pb, 500 pb o 200 pb. Por ejemplo, la nebulización puede romper el ADN en pedazos de menos de 800 pb en cortos períodos de tiempo. Este proceso genera fragmentos de ADN bicatenarios que contienen protuberancias en 3' y/o 5'.
En la figura 1B se muestra un fragmento/molécula de ADN y los adaptadores empleados en los pasos iniciales del flujo de trabajo 100 de la figura 1A. Aunque solo se ilustra un fragmento bicatenario en la figura 1B, en el flujo de trabajo se pueden preparar simultáneamente miles o millones de fragmentos de una muestra. La fragmentación del ADN por métodos físicos produce extremos heterogéneos, que incluyen una mezcla de protuberancias en 3', protuberancias en 5' y extremos romos. Las protuberancias serán de diferente longitud y los extremos pueden o no estar fosforilados. Un ejemplo de los fragmentos de ADN bicatenarios obtenidos de la fragmentación del ADN genómico de la operación 102 se muestra como fragmento 123 en la figura 1B.
El fragmento 123 tiene una protuberancia en 3' en el extremo izquierdo y una protuberancia en 5' en el extremo derecho, y está marcado con p y $, lo que indica dos secuencias en el fragmento que pueden usarse como UMI virtuales, que, cuando se usan solos o combinados con UMI físicos de un adaptador para ser ligado al fragmento, puede identificar de forma única el fragmento. Los UMI están asociados exclusivamente a un solo fragmento de ADN en una muestra que incluye un polinucleótido original y su cadena complementaria. Un UMI físico es una secuencia de un oligonucleótido unido al polinucleótido original, su cadena complementaria o un polinucleótido derivado del polinucleótido original. Un UMI virtual es una secuencia de un oligonucleótido dentro del polinucleótido original, su cadena complementaria o un polinucleótido derivado del polinucleótido original. Dentro de este esquema, uno también puede referirse al UMI físico como un UMI extrínseco, y al UMI virtual como un UMI intrínseco.
Las dos secuencias p y $ en realidad se refieren a dos secuencias complementarias en el mismo sitio genómico, pero por simplicidad, se indican en una sola cadena en algunos de los fragmentos bicatenarios que se muestran en la presente memoria. Los UMI virtuales tales como p y $ se pueden usar en un paso posterior del flujo de trabajo para ayudar a identificar las lecturas que se originan en una o ambas cadenas de un único fragmento original de ADN. Con las lecturas así identificadas, se pueden colapsar para obtener una secuencia de consenso.
Si los fragmentos de ADN se producen por métodos físicos, el flujo de trabajo 100 procede a realizar la operación de reparación de extremos 104, que produce fragmentos de extremos romos que tienen los extremos fosforilados en 5'. En algunas realizaciones, este paso convierte las protuberancias resultantes de la fragmentación en extremos romos con el uso de la ADN polimerasa de T4 y la enzima Klenow. La actividad exonucleasa de 3' a 5' de estas enzimas elimina las protuberancias en 3' y la actividad de polimerasa de 5' a 3' rellena las protuberancias en 5'. Además, la polinucleótido cinasa de T4 en esta reacción fosforila los extremos 5' de los fragmentos de ADN. El fragmento 125 en la figura 1B es un ejemplo de un producto de extremos romos por la reparación de los extremos.
Después de la reparación de los extremos, el flujo de trabajo 100 pasa a la operación 106 para adenilar los extremos 3' de los fragmentos, lo que también se conoce como adición de la cola de A o de dA, porque se agrega un único dATP a los extremos 3' de los fragmentos romos para evitar que se liguen entre sí durante la reacción de ligación del adaptador. La molécula bicatenaria 127 de la figura 1B muestra un fragmento con cola de A que tiene extremos romos con protuberancia de dA en 3' y extremos 5' con fosfato. Un único nucleótido 'T' en el extremo 3' de cada uno de los dos adaptadores de secuenciación como se ve en el elemento 129 de la figura 1B proporciona una protuberancia complementaria a la protuberancia de dA en 3' en cada extremo del inserto para ligar los dos adaptadores al inserto.
Después de adenilar los extremos 3', el flujo de trabajo 100 pasa a la operación 108 para ligar los adaptadores parcialmente bicatenarios a ambos extremos de los fragmentos. En algunas realizaciones, los adaptadores utilizados en una reacción incluyen oligonucleótidos que son todos diferentes entre sí, en donde dichos oligonucleótidos proporcionan UMI físicos para asociar las lecturas de secuencia a un único polinucleótido original, que puede ser un fragmento de ADN monocatenario o bicatenario. Debido a que todos los oligonucleótidos con UMI físicos son diferentes, los dos oligonucleótidos con UMI ligados a dos extremos de un fragmento particular son diferentes entre sí. Además, los dos UMI físicos para el fragmento particular son diferentes de los UMI físicos de los demás fragmentos. A este respecto, los dos UMI físicos están asociados de forma exclusiva con el fragmento particular.
El elemento 129 de la figura 1B ilustra dos adaptadores que se ligarán al fragmento bicatenario que incluye dos UMI virtuales p y $ cerca de los extremos del fragmento. Estos adaptadores se ilustran en función de los adaptadores de secuenciación de la plataforma Illumina, ya que varias realizaciones pueden usar la plataforma de NGS de Illumina para obtener lecturas y detectar las secuencias de interés. El adaptador que se muestra a la izquierda incluye el UMI físico a en su brazo P5, mientras que el adaptador de la derecha incluye el UMI físico p en su brazo P5. En la cadena que tiene el extremo 5' desnaturalizado, desde la dirección de 5' a 3', los adaptadores tienen una secuencia P5, un UMI físico (a o p) y una secuencia del cebador de lectura 2. En la cadena que tiene el extremo 3' desnaturalizado, desde la dirección de 3' a 5', los adaptadores tienen una secuencia P7', una secuencia de índice y una secuencia de cebador de lectura 1. Los oligonucleótidos con P5 y P7' son complementarios a los cebadores de amplificación unidos a la superficie de las celdas de flujo de la plataforma de secuenciación de Illumina. En algunas realizaciones, la secuencia de índice proporciona un medio para realizar un seguimiento de la fuente de una muestra, con lo que se permite así la multiplexación de numerosas muestras en la plataforma de secuenciación. Se pueden usar otros diseños de adaptadores y plataformas de secuenciación en diversas realizaciones. Los adaptadores y la tecnología de secuenciación se describen con más detalle en las secciones que siguen. La reacción representada en la figura 1B añade secuencias distintas a los extremos 5' y 3' de cada cadena en el fragmento genómico. En la figura 1B se ilustra un producto de ligación 131 del mismo fragmento descrito anteriormente. Este producto de ligación 131 tiene el UMI físico a, el UMI virtual p y el UMI virtual $ en su cadena superior, en la dirección de 5' a 3'. El producto de ligación también tiene el UMI físico p, el UMI virtual $ y el UMI virtual p en su cadena inferior, en la dirección de 5' a 3'. El producto de ligación y los UMI físicos y los UMI virtuales contenidos en ella mostrados en 132 son similares a los de la mitad superior de la figura 3A. Esta descripción incluye métodos que utilizan tecnologías de secuenciación y adaptadores distintos de los proporcionados por Illumina.
En algunas realizaciones, los productos de esta reacción de ligación se purifican y/o seleccionan por tamaño mediante electroforesis en gel de agarosa o con perlas magnéticas. El ADN seleccionado por tamaño se amplifica por PCR para enriquecer los fragmentos que tienen adaptadores en ambos extremos. Véase el bloque 110. La mitad inferior de la figura 3A ilustra que ambas cadenas del producto de ligación, al someterse a amplificación por PCR, producen dos familias de fragmentos que tienen UMI físicos diferentes (a y p). Las dos familias tienen cada una solo un UMI físico. Las dos familias tienen los UMI virtuales p y $, pero el orden de los UMI virtuales con respecto a los UMI físicos es diferente: a-p-$ frente a p-$-p. En algunas realizaciones se purifican los productos de PCR y se selecciona un margen de tamaño de las plantillas apropiadas para la posterior generación de agrupamientos.
El flujo de trabajo 100 luego procede a agrupar los productos de PCR amplificados en una plataforma de Illumina. Véase la operación 112. Al agrupar los productos de PCR, los bancos de fragmentos se pueden reunir para la multiplexación, por ejemplo, con hasta 12 muestras por carril, utilizando diferentes secuencias de índice en los adaptadores para el seguimiento de las diferentes muestras.
Después de la amplificación del agrupamiento, las lecturas de secuenciación se pueden obtener mediante la secuenciación por síntesis en la plataforma de Illumina. Véase la operación 114. Aunque los adaptadores y el procedimiento de secuenciación descritos aquí se basan en la plataforma de Illumina, se pueden usar otras tecnologías de secuenciación, especialmente los métodos de NGS en lugar de la plataforma de Illumina, o además de esta.
También se espera que las lecturas de secuenciación procedentes del segmento que se muestra en las figuras 1B y 3A incluyan los UMI a-p-$ o p-$-p. El flujo de trabajo 100 usa esta característica para colapsar las lecturas que tienen los mismos UMI físicos y/o los mismos UMI virtuales en uno o más grupos, con lo que se obtiene así una o más secuencias de consenso. Véase la operación 116. Una secuencia de consenso incluye bases de nucleótidos que son constantes o cumplen un criterio de consenso en todas las lecturas en un grupo colapsado. Tal y como se muestra en la operación 116, los UMI físicos, los UMI virtuales y la información de la posición se pueden combinar de diferentes maneras para colapsar las lecturas para obtener las secuencias de consenso para determinar la secuencia de un fragmento o al menos una porción de la misma. En algunas realizaciones, los UMI físicos se combinan con los UMI virtuales para colapsar las lecturas. En otras realizaciones, los UMI físicos y las posiciones de las lecturas se combinan para colapsar las lecturas. La información de la posición de las lecturas puede obtenerse mediante diversas técnicas con el uso de diferentes medidas de la posición, por ejemplo, coordenadas genómicas de las lecturas, posiciones en una secuencia de referencia o posiciones cromosómicas. En otras realizaciones, los UMI físicos, los UMI virtuales y las posiciones de las lecturas se combinan para colapsar las lecturas.
Finalmente, el flujo de trabajo 100 usa una o más secuencias de consenso para determinar la secuencia del fragmento de ácido nucleico de la muestra. Véase la operación 118. Esto puede implicar la determinación de la secuencia del fragmento de ácido nucleico como la tercera secuencia de consenso o la secuencia de consenso única descrita anteriormente.
En una realización particular que incluye operaciones similares a las operaciones 108 a 119, un método para secuenciar las moléculas de ácido nucleico de una muestra con el uso de UMI no aleatorios implica lo siguiente: (a) aplicar adaptadores a ambos extremos de los fragmentos de ADN en la muestra, en donde cada uno de los adaptadores incluye una región hibridada bicatenaria, un brazo 5' monocatenario, un brazo 3' monocatenario y un UMI no aleatorio, con lo que se obtienen productos de adaptadores unidos a ADN; (b) amplificar los productos ADN-adaptadores para obtener muchos polinucleótidos amplificados; (c) secuenciar los muchos polinucleótidos amplificados, con lo que se obtienen así muchas lecturas asociadas con numerosos UMI no aleatorios; (d) a partir de las muchas lecturas, identificar las lecturas que comparten un UMI no aleatorio común y una posición de lectura común; y (e) a partir de las lecturas identificadas, determinar la secuencia de al menos una porción de un fragmento de ADN.
En diversas realizaciones, las lecturas de secuencia obtenidas están asociadas a los UMI físicos (por ejemplo, UMI aleatorios o no aleatorios). En tales realizaciones, un UMI es parte de una secuencia de lectura o parte de una secuencia de lectura diferente, en donde se sabe que la lectura diferente y la lectura en cuestión provienen del mismo fragmento; por ejemplo, por lecturas emparejadas o información específica de la ubicación. Tales como los UMI virtuales.
En algunas realizaciones, las lecturas de secuencia son lecturas emparejadas. Cada lectura incluye un UMI no aleatorio o está asociada a un UMI no aleatorio en las dos lecturas emparejadas. En algunas realizaciones, la longitud de las lecturas es más corta que los fragmentos de ADN o más corta que la mitad de la longitud de los fragmentos. En tales casos, a veces no se determina la secuencia completa del fragmento completo. Más bien, se determinan los dos extremos del fragmento. Por ejemplo, un fragmento de ADN puede tener 500 pb de largo, del que pueden derivarse dos lecturas emparejadas de 100 pb. En este ejemplo, se pueden determinar las 100 bases en cada extremo del fragmento, y los 300 pb en el medio del fragmento no se pueden determinar sin utilizar la información de otras lecturas. En algunas realizaciones, si las dos lecturas emparejadas son lo suficientemente largas como para solaparse, la secuencia completa del fragmento completo puede determinarse a partir de las dos lecturas. Por ejemplo, véase el ejemplo descrito en asociación con la figura 5.
En algunas realizaciones, cada UMI no aleatorio difiere de cualquier otro UMI no aleatorio en al menos dos nucleótidos en las posiciones de secuencia correspondientes de los UMI no aleatorios. En diversas realizaciones, los numerosos UMI no aleatorios incluyen no más de aproximadamente 10000, 1000 o 100 UMI no aleatorios únicos. En algunas realizaciones, los numerosos UMI no aleatorios incluyen 96 UMI no aleatorios únicos.
En algunas realizaciones, un adaptador tiene un UMI no aleatorio de doble cadena en la región bicatenaria del adaptador, y cada lectura incluye un primer UMI no aleatorio en un extremo y un segundo UMI no aleatorio en el otro extremo.
Adaptadores y UMI
Adaptadores
Además del diseño del adaptador descrito en el flujo de trabajo de ejemplo de más arriba, se pueden usar otros diseños de adaptadores en diversas realizaciones de los métodos y sistemas descritos en la presente memoria. En la figura 2A se ilustran esquemáticamente cinco diseños diferentes de adaptador con uno o varios UMI que pueden adoptarse en las diversas realizaciones.
En la figura 2A(i) se muestra un adaptador de índice doble estándar de TruSeq® de Illumina. El adaptador es parcialmente bicatenario y se forma al alinear dos oligonucleótidos correspondientes a las dos cadenas. Las dos cadenas tienen una serie de pares de bases complementarias (por ejemplo, de 12 a 17 pb) que permiten que los dos oligonucleótidos se hibriden por el extremo para ligarse con un fragmento de ADN bicatenario. Un fragmento de ADN bicatenario que se va a ligar en ambos extremos para obtener lecturas emparejadas también se denomina inserto. Otros pares de bases no son complementarios en las dos cadenas, lo que da como resultado un adaptador con forma de horquilla que tiene dos protuberancias flexibles. En el ejemplo de la figura 2A(i), los pares de bases complementarios son parte de la secuencia cebadora de la lectura 2 y de la secuencia cebadora de la lectura 1. Detrás de la secuencia cebadora de la lectura 2 hay un único nucleótido probuberante 3'-T, que proporciona una protuberancia complementaria a la protuberancia del único nucleótido 3'-A de un fragmento de ADN bicatenario que se secuenciará, lo que puede facilitar la hibridación de las dos protuberancias. La secuencia cebadora de la lectura 1 está en el extremo 5' de la cadena complementaria, a la que está unido un grupo fosfato. El grupo fosfato facilita la ligación del extremo 5' de la secuencia cebadora de la lectura 1 a la 3'-A protuberante del fragmento de ADN. En la cadena que tiene la protuberancia flexible en 5' (la cadena superior), desde la dirección de 5' a 3', el adaptador tiene una secuencia P5, una secuencia de índice i5 y la secuencia cebadora de la lectura 2. En la cadena que tiene la protuberancia flexible en 3', desde la dirección de 3' a 5', el adaptador tiene una secuencia P7', una secuencia de índice i7 y la secuencia cebadora de la lectura 1. Los oligonucleótidos de P5 y P7' son complementarios a los cebadores de amplificación unidos a la superficie de las celdas de flujo de una plataforma de secuenciación de Illumina. En algunas realizaciones, las secuencias de índice proporcionan el medio para realizar un seguimiento de la fuente de una muestra, con lo que se permite así la multiplexación de varias muestras en la plataforma de secuenciación.
En la figura 2A(ii) se muestra un adaptador que tiene un único UMI físico que reemplaza la región de índice i7 del adaptador de índice doble estándar que se muestra en la figura 2A(i). Este diseño del adaptador es un reflejo del que se muestra en el flujo de trabajo de ejemplo descrito anteriormente en asociación con la figura 1B. En ciertas realizaciones, los UMI físicos a y p están diseñados para estar solo en el brazo 5' de los adaptadores bicatenarios, lo que da como resultado productos de ligación que tienen solo un UMI físico en cada hebra. En comparación, los UMI físicos incorporados en ambas cadenas de los adaptadores dan como resultado productos de ligación que tienen dos UMI físicos en cada cadena, duplicando el tiempo y el coste para secuenciar los UMI físicos. Sin embargo, esta descripción incluye métodos que emplean UMI físicos en ambas cadenas de los adaptadores como se representa en las figuras 2A(iii) a 2A(vi), que dan a conocer información adicional que puede utilizarse para colapsar diferentes lecturas para obtener secuencias de consenso.
En algunas realizaciones, los UMI físicos en los adaptadores incluyen UMI aleatorios. En algunas realizaciones, los UMI físicos en los adaptadores incluyen UMI no aleatorios.
En la figura 2A(iii) se muestra un adaptador que tiene dos UMI físicos agregados al adaptador de índice doble estándar. Los UMI físicos que se muestran aquí pueden ser UMI aleatorios o UMI no aleatorios. El primer UMI físico está en sentido ascendente a la secuencia del índice i7, y el segundo UMI físico está en sentido ascendente a la secuencia del índice i5. En la figura 2A(iv) se muestra un adaptador que también tiene dos UMI físicos agregados al adaptador de índice doble estándar. El primer UMI físico está en sentido descendente a la secuencia del índice i7, y el segundo UMI físico está en sentido descendente a la secuencia del índice i5. Del mismo modo, los dos UMI físicos pueden ser UMI aleatorios o UMI no aleatorios.
Un adaptador que tiene dos UMI físicos en los dos brazos de la región monocatenaria, tal como las que se muestran en 2A(iii) y 2A(iv), puede unir dos cadenas de un fragmento de ADN bicatenario, sia priorio posteriormente se conoce la información que asocia los dos UMI físicos no complementarios. Por ejemplo, un investigador puede conocer la secuencia del UMI 1 y del UMI 2 antes de integrarlos en el mismo adaptador en el diseño que se muestra en la figura 2A(iv). Esta información de asociación se puede usar para inferir que las lecturas que tienen el UMI 1 y el UMI 2 proceden de dos cadenas del fragmento de ADN al que se ligó el adaptador. Por lo tanto, uno puede colapsar no solo las lecturas que tienen el mismo UMI físico, sino también las lecturas que tienen cualquiera de los dos UMI físicos no complementarios. Curiosamente, y tal como se analiza a continuación, un fenómeno denominado "salto de UMI" puede complicar la inferencia de la asociación entre los UMI físicos en las regiones monocatenarias de los adaptadores.
Los dos UMI físicos en las dos cadenas de los adaptadores en la figura 2A(iii) y la figura 2A(iv) no están ubicados en el mismo sitio ni son complementarios entre sí. Sin embargo, esta descripción incluye métodos que emplean UMI físicos que están en el mismo sitio en las dos cadenas del adaptador y/o son complementarios entre sí. En la figura 2A(v) se muestra un adaptador bicatenario en el que los dos UMI físicos son complementarios en una región bicatenaria en, o cerca del, extremo del adaptador. En algunas realizaciones, un UMI físico cerca del extremo del adaptador puede ser de 1 nucleótido, 2 nucleótidos, 3 nucleótidos, 4 nucleótidos, 5 nucleótidos o aproximadamente 10 nucleótidos desde un extremo de la región bicatenaria del adaptador, en donde el extremo está opuesto a la región ahorquillada del adaptador. Los dos UMI físicos pueden ser UMI aleatorios o UMI no aleatorios. En la figura 2A(vi) se muestra un adaptador similar, pero más corto que el de la figura 2A(v), pero que no incluye las secuencias de índice ni las secuencias P5 y P7' complementarias a los cebadores de amplificación de la superficie de la celda de flujo. Del mismo modo, los dos UMI físicos pueden ser UMI aleatorios o UMI no aleatorios.
En comparación con los adaptadores que tienen uno o más UMI físicos monocatenarios en los brazos monocatenarios, los adaptadores que tienen un UMI físico bicatenario en la región bicatenaria pueden proporcionar un enlace directo entre dos cadenas de un fragmento de ADN bicatenario al que el adaptador está ligado, como se muestra en la figura 2A(v) y en la figura 2A(vi). Dado que las dos cadenas de un UMI físico bicatenario son complementarias entre sí, la asociación entre las dos cadenas del UMI bicatenario se refleja inherentemente en las secuencias complementarias y puede establecerse sin requerir ninguna informacióna priorinia posteriori.Esta información puede usarse para inferir que las lecturas que tienen las dos secuencias complementarias de un UMI físico bicatenario de un adaptador se derivan del mismo fragmento de ADN al que se ligó el adaptador, pero las dos secuencias complementarias del UMI físico están ligadas al extremo 3' en una cadena y al extremo 5' en la otra cadena del fragmento de ADN. Por lo tanto, se pueden colapsar no solo las lecturas que tienen el mismo orden de dos secuencias de UMI físicos en dos extremos, sino también las lecturas que tienen el orden inverso de dos secuencias complementarias en los dos extremos.
En algunas realizaciones, puede ser ventajoso emplear UMI físicos relativamente cortos porque los UMI físicos cortos son más fáciles de incorporar en los adaptadores. Además, los UMI físicos más cortos son más rápidos y fáciles de secuenciar en los fragmentos amplificados. Sin embargo, a medida que los UMI físicos se vuelven muy cortos, el número total de UMI físicos diferentes puede ser menor que la cantidad de moléculas adaptadoras requeridas para el procesamiento de la muestra. Para proporcionar suficientes adaptadores, el mismo UMI tendría que repetirse en dos o más moléculas adaptadoras. En tales circunstancias, los adaptadores que tienen los mismos UMI físicos pueden ligarse a moléculas de ADN de muchas fuentes. Sin embargo, estos UMI físicos cortos pueden proporcionar suficiente información, cuando se combinan con otra información, tal como los UMI virtuales y/o la ubicación del alineamiento de las lecturas, para identificar de manera única las lecturas procedentes de un polinucleótido original o fragmento de ADN concretos en una muestra. Esto es así porque incluso aunque el mismo UMI físico puede estar ligado a dos fragmentos diferentes, es poco probable que los dos fragmentos diferentes también tengan las mismas ubicaciones de alineamiento o coincidan las subsecuencias que sirven de como UMI virtuales. Entonces, si dos lecturas tienen el mismo UMI físico corto y la misma ubicación de alineamiento (o el mismo UMI virtual), es probable que las dos lecturas procedan del mismo fragmento de ADN.
Además, en algunas realizaciones, el colapso de las lecturas se basa en dos UMI físicos en los dos extremos de un inserto. En tales realizaciones, se combinan dos UMI físicos muy cortos (por ejemplo, 4 pb) para determinar la fuente de los fragmentos de ADN, en donde la longitud combinada de los dos UMI físicos proporciona información suficiente para distinguir entre diferentes fragmentos.
En diversas realizaciones, los UMI físicos tienen aproximadamente 12 pares de bases o menos, aproximadamente 11 pares de bases o menos, aproximadamente 10 pares de bases o menos, aproximadamente 9 pares de bases o menos, aproximadamente 8 pares de bases o menos, aproximadamente 7 pares de bases o menos, aproximadamente 6 pares de bases o menos, aproximadamente 5 pares de bases o menos, aproximadamente 4 pares de bases o menos, o aproximadamente 3 pares de bases o menos. En algunas realizaciones donde los UMI físicos son UMI no aleatorios, los UMI tienen aproximadamente 12 pares de bases o menos, aproximadamente 11 pares de bases o menos, aproximadamente 10 pares de bases o menos, aproximadamente 9 pares de bases o menos, aproximadamente 8 pares de bases o menos, aproximadamente 7 pares de bases o menos, o aproximadamente 6 pares de bases.
El salto de UMI puede afectar a la inferencia de asociación entre los UMI físicos en un brazo o en ambos brazos de los adaptadores, tal como en los adaptadores de las figuras 2A(ii) a (iv). Se ha observado que, al aplicar estos adaptadores a fragmentos de ADN, los productos de amplificación pueden incluir un mayor número de fragmentos que tienen UMI físicos únicos que el número real de fragmentos en la muestra.
Además, cuando se aplican adaptadores que tienen UMI físicos en ambos brazos, se supone que los fragmentos amplificados que tienen un UMI físico común en un extremo tienen otro UMI físico común en el otro extremo. Sin embargo, a veces este no es el caso. Por ejemplo, en el producto de reacción de una reacción de amplificación, algunos fragmentos pueden tener un primer UMI físico y un segundo UMI físico en sus dos extremos; otros fragmentos pueden tener el segundo UMI físico y un tercer UMI físico; otros fragmentos más pueden tener el primer UMI físico y el tercer UMI físico; otros fragmentos más pueden tener el tercer UMI físico y un cuarto UMI físico, y así sucesivamente. En este ejemplo, los fragmentos originales para estos fragmentos amplificados pueden ser difíciles de determinar. Aparentemente, durante el proceso de amplificación, el UMI físico puede haber sido "intercambiado" por otro UMI físico.
Una posible estrategia para abordar este problema de salto de UMI considera que solo los fragmentos que comparten ambos UMI proceden de la misma molécula original, mientras que los fragmentos que comparten solo un UMI quedarán excluidos del análisis. Sin embargo, algunos de estos fragmentos que comparten solo un UMI físico pueden proceder de la misma molécula que los que comparten ambos UMI físicos. Al excluir los fragmentos que comparten un solo UMI físico de la consideración, se puede perder información útil. Otra posible estrategia considera que cualquier fragmento que tenga un UMI físico común procede de la misma molécula original. Pero esta estrategia no permite combinar dos UMI físicos en dos extremos de los fragmentos para el análisis posterior. Además, según cualquiera de las estrategias, para el ejemplo de más arriba, no se consideraría que los fragmentos que comparten el primer y segundo UMI físicos proceden de la misma molécula original que los fragmentos que comparten el tercer y cuarto UMI físicos. Esto puede o no ser cierto. Una tercera estrategia puede abordar el problema de salto de UMI mediante el uso de adaptadores con UMI físicos en ambas cadenas de la región monocatenaria, como los adaptadores en las figuras 2A(v) a (vi). La tercera estrategia se explica a continuación con más detalle, siguiendo una descripción de un mecanismo hipotético subyacente en el salto de UMI.
En la figura 2B se ilustra un procedimiento hipotético en el que se produce un salto de UMI en una reacción de PCR que implica adaptadores que tienen dos UMI físicos en los dos brazos. Los dos UMI físicos pueden ser UMI aleatorios o UMI no aleatorios. El mecanismo subyacente real del salto de UMI y el procedimiento hipotético descrito aquí no afectan a la utilidad de los adaptadores y de los métodos descritos en la presente memoria. La reacción de PCR comienza aportando al menos un fragmento de ADN original bicatenario 202 y los adaptadores 204 y 206. Los adaptadores 204 y 206 son similares a los adaptadores ilustrados en la figura 2A(iii) y (iv). El adaptador 204 tiene una secuencia de adaptador P5 y un UMI físico a1 en su brazo 5'. El adaptador 204 también tiene una secuencia de adaptador P7' y un UMI físico a2 en su brazo 3'. El adaptador 206 tiene una secuencia de adaptador P5 y un UMI físico p2 en su brazo 5', y una secuencia de adaptador P7' y un UMI físico p1 en su brazo 3'. El procedimiento continúa con la ligación del adaptador 204 y del adaptador 206 al fragmento 202, para obtener el producto de ligación 208. El procedimiento continúa con la desnaturalización del producto de ligación 208, lo que da como resultado un fragmento 212 desnaturalizado monocatenario. Mientras tanto, una mezcla de reacción a menudo incluye adaptadores residuales en esta etapa. Porque incluso si el procedimiento ya ha implicado la eliminación del exceso de adaptadores, tal como el uso de perlas de inmovilización reversible en fase sólida (SPRI), todavía quedan algunos adaptadores en la mezcla de reacción. Tal adaptador sobrante se ilustra como el adaptador 210, que es similar al adaptador 206, excepto que el adaptador 210 tiene los UMI físicos<y>1 y Y2 en sus brazos 3' y 7', respectivamente. La condición desnaturalizante que produce el fragmento desnaturalizado 212 también produce un oligonucleótido adaptador desnaturalizado 216, que tiene el UMI físico<y>1 cerca de su secuencia de adaptador P7'.
La reacción de PCR implica cebar el fragmento desnaturalizado 212 con un cebador de PCR 214 y extender el cebador 214, con lo que se forma así un fragmento bicatenario que luego se desnaturaliza para formar un fragmento intermedio 220 monocatenario complementario al fragmento 212. El procedimiento de PCR también ceba el oligonucleótido desnaturalizado 216 con un cebador de PCR 218 y extiende el cebador 218, con lo que se forma así un fragmento bicatenario que luego se desnaturaliza para formar un oligonucleótido adaptador intermedio 222 monocatenario que es complementario al fragmento 212. Antes del siguiente ciclo de amplificación por PCR, los oligonucleótidos adaptadores intermedios 222 se hibridan con el fragmento intermedio 220 cerca del extremo P7' y detrás del UMI físico p1. La región hibridada corresponde a las regiones monocatenarias del adaptador 206 y del adaptador 210, porque estas regiones monocatenarias comparten la misma secuencia.
El producto hibridado del fragmento intermedio 220 y el oligonucleótido adaptador intermedio 222 proporciona una plantilla que luego puede cebarse mediante un cebador de PCR P7' 224 en el extremo 5' del oligonucleótido 222 y extenderse. Durante la extensión, la plantilla de extensión cambia al fragmento intermedio 220 cuando finaliza el oligonucleótido adaptador 222 intermedio. El cambio de plantilla proporciona un posible mecanismo para el salto de UMI. Después de la extensión y desnaturalización, se produce un fragmento monocatenario 226, que de otro modo es complementario al fragmento intermedio 220, pero que tiene el UMI físico y1 en lugar del UMI físico p1 en el fragmento intermedio 220. De manera similar, el fragmento 226 monocatenario es el mismo que el fragmento 212, excepto que tiene el UMI físico y1 en lugar del UMI físico p1.
En algunas realizaciones de la descripción, el uso de adaptadores que tienen UMI físicos en ambas cadenas de la región bicatenaria de los adaptadores, tal como los adaptadores en las figuras 2A(v) y (vi), puede impedir o reducir el salto de UMI. Esto puede deberse al hecho de que los UMI físicos en un adaptador en la región bicatenaria son diferentes de los UMI físicos en todos los demás adaptadores. Esto ayuda a reducir la complementariedad entre los oligonucleótidos adaptadores intermedios y los fragmentos intermedios, con lo que se evita así la hibridación tal como la mostrada para el oligonucleótido intermedio 222 y el fragmento intermedio 220, con lo que se reduce o impide el salto de UMI.
UMI físicos aleatorios y UMI físicos no aleatorios
En algunas realizaciones de los adaptadores descritos anteriormente, los UMI físicos en los adaptadores incluyen UMI aleatorios. En algunas realizaciones, cada UMI aleatorio es diferente de cualquier otro UMI aleatorio aplicado a fragmentos de ADN. En otras palabras, los UMI aleatorios se seleccionan aleatoriamente sin reemplazo de un conjunto de UMI que incluyen todos los UMI diferentes posibles dada la longitud o longitudes de las secuencias. En otras realizaciones, los UMI aleatorios se seleccionan aleatoriamente con reemplazo. En estas realizaciones, dos adaptadores pueden tener el mismo UMI debido a la elección aleatoria.
En algunas realizaciones, los UMI físicos en los adaptadores incluyen UMI no aleatorios. En algunas realizaciones, numerosos adaptadores incluyen la misma secuencia de UMI no aleatorio. Por ejemplo, se puede aplicar un conjunto de 96 UMI no aleatorios diferentes a 100000 moléculas/fragmentos distintos de una muestra. En algunas realizaciones, cada UMI no aleatorio del conjunto difiere de cualquier otro UMI del conjunto en dos nucleótidos. En otras palabras, cada UMI no aleatorio requiere que al menos dos de sus nucleótidos estén reemplazados antes de hacer coincidir la secuencia de cualquier otro UMI no aleatorio utilizado en la secuenciación. En otras realizaciones, cada UMI no aleatorio del conjunto difiere de cualquier otro UMI del conjunto en tres o más nucleótidos.
En la figura 2C se muestra un procedimiento para fabricar adaptadores que tengan UMI aleatorios en ambas cadenas de los adaptadores en la región bicatenaria, en donde dos adaptadores en las dos cadenas son complementarios entre sí. El procedimiento comienza aportando un adaptador de secuencia 230 que tiene una región hibridada bicatenaria y dos brazos monocatenarios. El adaptador resultante es similar al que se muestra en la figura 2A(v). En el ejemplo ilustrado aquí, la secuencia D7XX corresponde a la secuencia de índice i7 en la figura 2A(v); la secuencia SBS12' corresponde a la secuencia cebadora de la lectura 1 en la figura 2A(v); la D50X corresponde a la secuencia del índice i5 en la figura 2A(v); y la SBS3 corresponde a la secuencia cebadora de la lectura 2 en la figura 2A(v). El adaptador de secuenciación 232 incluye una protuberancia de 15 nucleótidos CCANNNNANNNNTGG (SEQ ID n.° 1) en el extremo de la región hibridada bicatenaria por delante de la secuencia de cebador de lectura SBS12'. La letra N representa nucleótidos aleatorios, de los cuales los cuatro entre A y TGG se utilizarán para proporcionar un UMI físico en el extremo 5' de la cadena SBS12'. La protuberancia de 15 nucleótidos puede ser reconocida por la enzima de restricción Xcm1, porque Xcm1 reconoce 15 nucleótidos que tienen CCA en el extremo 5 ' y TGG en el extremo 3'. El procedimiento 230 luego procede a extender el extremo 3' de la cadena SPS3 con el uso de los 15 nucleótidos como plantilla de extensión, con lo que se produce así un producto de extensión 234. El producto de extensión 234 tiene una timina en el punto medio de los 15 nucleótidos en la cadena SBS3 correspondiente a la adenosina en la cadena SBS12'. El resto de timina se convertirá en el resto en el extremo 3' de la región bicatenaria del producto del extremo del adaptador del procedimiento 230. El resto de timina puede hibridarse con el resto de adenosina en la A de la cola 3' de un inserto.
El procedimiento 230 continúa con la aplicación de la enzima de restricción Xcm1 para digerir el extremo recién extendido del producto de extensión 234. Xcm1 es una endonucleasa de restricción que reconoce 15 nucleótidos que tienen CCA en el extremo 5' y TGG en el extremo 3', y su actividad fosfodiesterasa digiere una cadena de ácido nucleico al cortar el enlace fosfodiéster entre el 8.° y 9.° nucleótidos contando desde el extremo 5’ de CAA. Este mecanismo de digestión digiere el extremo bicatenario del producto de extensión 234 inmediatamente detrás del resto de adenosina en la cadena SBS12' y detrás del resto de timina en la cadena SBS3. La digestión da como resultado un adaptador 236 que tiene cuatro nucleótidos aleatorios en el extremo 5' de su región bicatenaria delante de la secuencia SBS12'. El adaptador 236 también tiene una protuberancia de timina y cuatro nucleótidos aleatorios en el extremo 3' de su región bicatenaria detrás de la secuencia SBS3. Los cuatro nucleótidos aleatorios en cada cadena proporcionan un UMI físico, y los dos UMI físicos en las dos cadenas son complementarios entre sí.
En la figura 2D se muestra un diagrama de un adaptador que tiene una cadena superior del brazo SBS13 (SEQ ID n.° 2) y una cadena inferior del brazo SBS3 (SEQ ID n.° 3), que ilustra los nucleótidos en el adaptador. El adaptador es similar al adaptador 236 en la figura 2C, pero tiene cuatro pares de bases entre el sitio de reconocimiento de Xcm1 y las secuencias de lectura del adaptador. De igual forma, el adaptador que se muestra en la figura 2D es una versión acortada del adaptador 236 que elimina el P7/P5 y la secuencia de índice en el adaptador, lo que aumenta la estabilidad del adaptador. En la cadena superior del adaptador (SEQ ID n.° 2) en la región bicatenaria, comenzando desde el extremo 5', el adaptador tiene cuatro nucleótidos aleatorios para un UMI físico, seguido de TGG como el sitio de reconocimiento para la enzima de restricción Xcm1, seguido de TCGC delante de la secuencia de la lectura. Los nucleótidos TCGC se incorporan para aportar estabilidad al adaptador. Son opcionales en algunas realizaciones.
Se pueden agregar nucleótidos para aportar estabilidad en la producción de adaptadores, la preparación de muestras y el procesamiento. Se ha observado que se mejora la eficiencia de hibridación de los oligonucleótidos superiores e inferiores para crear la plantilla de adaptador inicial al proporcionar las bases TCGC adicionales incluso a temperatura ambiente. Debido a que la extensión con Klenow y la digestión con Xcm1 durante la producción del adaptador se realiza a temperaturas más altas (30 °C y 37 °C, respectivamente), la adición de TCGC puede mejorar la estabilidad del adaptador. Es posible utilizar diferentes secuencias o variar la cantidad de nucleótidos junto a TCGC para mejorar la estabilidad de los adaptadores.
En algunas realizaciones, pueden incorporarse en el adaptador secuencias adicionales distintas de las secuencias estabilizadoras para otros fines sin afectar a la función del adaptador a la hora de proporcionar índices únicos a los fragmentos de ADN. La hebra inferior del adaptador (SEQ ID n.° 3) en la región bicatenaria es complementaria a la hebra superior, excepto que incluye una T protuberante en el extremo 3'. Los cuatro nucleótidos aleatorios en la cadena inferior proporcionan un segundo UMI físico.
Los UMI aleatorios tales como los que se ilustran en las figuras 2C y 2D proporcionan un mayor número de UMI únicos que los UMI no aleatorios de la misma longitud de secuencia. En otras palabras, los UMI aleatorios tienen más probabilidades de ser únicos que los UMI no aleatorios. Sin embargo, en algunas realizaciones, los UMI no aleatorios pueden ser más fáciles de fabricar o pueden tener una mayor eficacia de conversión. Cuando los UMI no aleatorios se combinan con otra información, tal como la posición de la secuencia y el UMI virtual, pueden proporcionar un mecanismo eficiente para indexar las moléculas originales de los fragmentos de ADN.
En diversas realizaciones, los UMI no aleatorios se identifican teniendo en cuenta diversos factores, incluidos, entre otros, los medios para detectar errores dentro de las secuencias de los UMI, la eficiencia de conversión, la compatibilidad del ensayo, el contenido de GC, los homopolímeros y cuestiones de fabricación.
Por ejemplo, los UMI no aleatorios pueden diseñarse para proporcionar un mecanismo para facilitar la detección de errores. En la figura 2E se ilustra esquemáticamente un diseño de UMI no aleatorio que proporciona un mecanismo para detectar errores que ocurren en la secuencia del UMI durante un procedimiento de secuenciación. Según este diseño, cada uno de los UMI no aleatorios tiene seis nucleótidos y difiere de los otros UMI en al menos dos nucleótidos. Como se ilustra en la figura 2E, el UMI no aleatorio 244 difiere del UMI no aleatorio 242 en los primeros dos nucleótidos de la izquierda, tal y como se muestra con los nucleótidos subrayados T y G en el UMI 244 y los nucleótidos A y C en el UMI 242. El UMI 246 es una secuencia identificada como parte de una lectura, y es diferente de todos los demás UMI de adaptadores proporcionados en el procedimiento. Dado que la secuencia de UMI en una lectura supuestamente procede de un UMI en un adaptador, es probable que se haya producido un error durante el procedimiento de secuenciación, tal como durante la amplificación o la secuenciación. El UMI 242 y el UMI 244 se ilustran como los dos UMI más similares al UMI 246 en la lectura. Se puede ver que el UMI 246 difiere del UMI 242 en un nucleótido por el primer nucleótido de la izquierda, que es T en lugar de A. Además, el UMI 246 también difiere del UMI 244 en un nucleótido, aunque en el segundo nucleótido de la izquierda, que es C en lugar de G. Debido a que el UMI 246 en la lectura difiere tanto del UMI 242 como del UMI 244 por un nucleótido, a partir de la información ilustrada, no se puede determinar si el UMI 246 procede del UMI 242 o del UMI 244. Sin embargo, en muchas otras situaciones, los errores de los UMI en las lecturas no son igualmente diferentes de los dos UMI más similares. Como se muestra en el ejemplo para el UMI 248, el UMI 242 y el UMI 244 también son los dos UMI más similares al UMI 248. Se puede ver que el UMI 248 difiere del UMI 242 por un nucleótido en la tercera posición de la izquierda, que es A en lugar de T. En cambio, el UMI 248 difiere del UMI 244 por tres nucleótidos. Por lo tanto, no se puede determinar que el UMI 248 proceda del UMI 242 en lugar del UMI 244, y es probable que se haya producido un error en el tercer nucleótido de la izquierda.
UMI virtuales
En cuanto al UMI virtual, los UMI virtuales que se definen en, o con respecto a, las posiciones terminales de las moléculas de ADN originales pueden definir de forma única o casi única cada una de las moléculas de ADN originales cuando las ubicaciones de las posiciones terminales son generalmente aleatorias, como ocurre con algunos procedimientos de fragmentación y con el cfDNA que se produce de forma natural. Cuando la muestra contiene relativamente pocas moléculas de ADN originales, los UMI virtuales pueden identificar de manera única cada una de las moléculas de ADN original. El uso de una combinación de dos UMI virtuales, cada uno asociado a un extremo diferente de una molécula de ADN original, aumenta la probabilidad de que los UMI virtuales por sí solos puedan identificar de manera única las moléculas de ADN originales. Por supuesto, incluso en situaciones en las que uno o dos UMI virtuales no pueden identificar por sí solos las moléculas de ADN originales, la combinación de tales UMI virtuales con uno o más UMI físicos sí puede tener éxito.
Si dos lecturas proceden del mismo fragmento de ADN, dos subsecuencias que tengan los mismos pares de bases también tendrán la misma ubicación relativa en las lecturas. Por el contrario, si dos lecturas proceden de dos fragmentos de ADN diferentes, es poco probable que dos subsecuencias que tengan los mismos pares de bases tengan exactamente la misma ubicación relativa en las lecturas. Por lo tanto, si dos o más subsecuencias de dos o más lecturas tienen los mismos pares de bases y la misma ubicación relativa en las dos o más lecturas, se puede inferir que las dos o más lecturas proceden del mismo fragmento.
En algunas realizaciones, las subsecuencias en o cerca de los extremos de un fragmento de ADN se usan como UMI virtuales. Esta elección de diseño tiene algunas ventajas prácticas. Primero, las ubicaciones relativas de estas subsecuencias en las lecturas se determinan fácilmente, ya que están en o cerca del comienzo de las lecturas y el sistema no necesita usar un desplazamiento para encontrar el UMI virtual. Además, dado que los pares de bases en los extremos de los fragmentos es lo primero que se secuencia, esos pares de bases están disponibles incluso si las lecturas son relativamente cortas. Además, los pares de bases que se determinan primero en una lectura larga tienen una tasa de error de secuenciación menor que los determinados más adelante. Sin embargo, en otras realizaciones, las subsecuencias ubicadas lejos de los extremos de las lecturas se pueden usar como UMI virtuales, pero es posible que sea necesario determinar sus posiciones relativas en las lecturas para inferir que las lecturas se obtienen del mismo fragmento.
Se pueden usar una o más subsecuencias en una lectura como UMI virtuales. En algunas realizaciones, dos subsecuencias, cada una rastreada desde un extremo diferente de la molécula de ADN original, se utilizan como UMI virtuales. En diversas realizaciones, los UMI virtuales son de aproximadamente 24 pares de bases o menos, de aproximadamente 20 pares de bases o menos, de aproximadamente 15 pares de bases o menos, de aproximadamente 10 pares de bases o menos, de aproximadamente 9 pares de bases o menos, de aproximadamente 8 pares de bases o menos, de aproximadamente 7 pares de bases o menos, o de aproximadamente 6 pares de bases o menos. En algunas realizaciones, los UMI virtuales son de aproximadamente 6 a 10 pares de bases. En otras realizaciones, los UMI virtuales son de aproximadamente 6 a 24 pares de bases.
Cómo colapsar las lecturas y obtener secuencias de consenso
En diversas realizaciones que usan los UMI, muchas lecturas de secuencias que tienen los mismos UMI se colapsan para obtener una o más secuencias de consenso, que luego se usan para determinar la secuencia de una molécula de ADN original. Se pueden generar muchas lecturas distintas a partir de instancias distintas de la misma molécula de ADN original, y estas lecturas se pueden comparar para producir una secuencia de consenso como se describe en la presente memoria. Los ejemplos pueden generarse por amplificación de una molécula de ADN original antes de la secuenciación, de modo que se realicen distintas operaciones de secuenciación en productos de amplificación distintos, en donde cada uno comparte la secuencia de la molécula de ADN original. Por supuesto, la amplificación puede introducir errores tales que las secuencias de los distintos productos de amplificación tienen diferencias. En el contexto, algunas tecnologías de secuenciación como la secuenciación por síntesis de Illumina, una molécula de ADN original o un producto de amplificación de la misma forman un agrupamiento de moléculas de ADN unidas a una región de una celda de flujo. Las moléculas del agrupamiento proporcionan en conjunto una lectura. Típicamente, se requieren al menos dos lecturas para proporcionar una secuencia de consenso. La profundidad de secuenciación de 100, 1000 y 10000 son ejemplos de profundidades de secuenciación útiles en las realizaciones descritas para crear lecturas de consenso para bajas frecuencias alélicas (por ejemplo, aproximadamente 1% o menos).
En algunas realizaciones, los nucleótidos que son constantes en el 100% de las lecturas que comparten un UMI o una combinación de UMI se incluyen en la secuencia de consenso. En otras realizaciones, el criterio de consenso puede ser inferior al 100%. Por ejemplo, se puede utilizar un criterio de consenso del 90%, lo que significa que los pares de bases que existen en el 90% o más de las lecturas en el grupo se incluyen en la secuencia de consenso. En diversas realizaciones, el criterio de consenso puede establecerse en aproximadamente el 30%, aproximadamente el 40%, aproximadamente el 50%, aproximadamente el 60%, aproximadamente el 70%, aproximadamente el 80%, aproximadamente el 90%, aproximadamente el 95% o aproximadamente el 100%.
Colapso por los UMI físicos y los UMI virtuales
Se pueden usar muchas técnicas para colapsar las lecturas que incluyen numerosos UMI. En algunas realizaciones, las lecturas que comparten un UMI físico común pueden colapsarse para obtener una secuencia de consenso. En algunas realizaciones, si el UMI físico común es un UMI aleatorio, el UMI aleatorio puede ser lo suficientemente único como para identificar una molécula original particular de un fragmento de ADN en una muestra. En otras realizaciones, si el UMI físico común es un UMI no aleatorio, el UMI puede no ser lo suficientemente único por sí solo para identificar una molécula original particular. En cualquier caso, un UMI físico puede combinarse con un UMI virtual para proporcionar un índice de la molécula original.
En el flujo de trabajo de ejemplo descrito anteriormente y representado en las figuras 1B, 3A y 4, algunas lecturas incluyen los UMI a-p-$, mientras que otras incluyen los UMI p-$-p. El UMI físico a produce lecturas que tienen a. Si todos los adaptadores utilizados en un flujo de trabajo tienen UMI físicos diferentes (p. ej., UMI aleatorios diferentes), todas las lecturas que tienen a en la región del adaptador probablemente procedan de la misma cadena del fragmento de ADN. De manera similar, el UMI físico p produce lecturas que tienen p, todas las cuales proceden de la misma cadena complementaria del fragmento de ADN. Por lo tanto, es útil colapsar todas las lecturas que incluyen a para obtener una secuencia de consenso, y colapsar todas las lecturas que incluyen p para obtener otra secuencia de consenso. Esto se ilustra como el colapso de primer nivel en las figuras 4B-4C. Debido a que todas las lecturas en un grupo proceden del mismo polinucleótido original en una muestra, los pares de bases incluidos en la secuencia de consenso probablemente reflejen la secuencia verdadera del polinucleótido original, mientras que un par de bases excluido de la secuencia de consenso probablemente refleje una variación o error introducido en el flujo de trabajo.
Además, los UMI virtuales p y $ pueden proporcionar información para determinar que las lecturas que incluyen uno o ambos UMI virtuales proceden del mismo fragmento de ADN original. Debido a que los UMI virtuales p y $ están internos en los fragmentos de ADN original, la explotación de los UMI virtuales no supone una sobrecarga de la preparación o secuenciación en la práctica. Después de obtener las secuencias de los UMI físicos a partir de las lecturas, una o más subsecuencias en las lecturas pueden determinarse como UMI virtuales. Si los UMI virtuales incluyen suficientes pares de bases y tienen la misma ubicación relativa en las lecturas, pueden identificar de manera única las lecturas procedentes del fragmento de ADN original. Por lo tanto, las lecturas que tienen uno o ambos UMI virtuales p y $ pueden colapsarse para obtener una secuencia de consenso. La combinación de los UMI virtuales y los UMI físicos puede proporcionar información que guíe un colapso de segundo nivel cuando solo se asigna un UMI físico a una secuencia de consenso de primer nivel de cada cadena, tal y como se muestra en la figura 3A y en las figuras 4A-4C. Sin embargo, en algunas realizaciones, este colapso de segundo nivel que utiliza los UMI virtuales puede ser difícil si hay moléculas de ADN de entrada demasiado abundantes o si la fragmentación no es aleatoria.
En las realizaciones alternativas, las lecturas que tienen dos UMI físicos en ambos extremos, como las que se muestran en la figura 3B y en las figuras 4D y 4E, pueden colapsarse en un colapso de segundo nivel basado en una combinación de los UMI físicos y los UMI virtuales. Esto es especialmente útil cuando los UMI físicos son demasiado cortos para identificar de forma exclusiva los fragmentos de ADN original sin utilizar los UMI virtuales. En estas realizaciones, se puede realizar el colapso de segundo nivel, con los UMI físicos de la parte bicatenaria como se muestra en la figura 3B, mediante el colapso de las lecturas de consenso a-p-$-p y las lecturas de consenso p-$-p-a de la misma molécula de ADN, con lo que se obtiene así una secuencia de consenso que incluye los nucleótidos constantes entre todas las lecturas.
Mediante el uso de los UMI y el esquema de colapso descrito en la presente memoria, varias realizaciones pueden suprimir diferentes fuentes de error que afectan a la secuencia determinada de un fragmento incluso si el fragmento incluye alelos con frecuencias alélicas muy bajas. Se agrupan las lecturas que comparten los mismos UMI (físicos y/o virtuales). Al colapsar las lecturas agrupadas, se pueden eliminar las variantes (SNV e indels pequeños) debido a la PCR, la preparación del banco de fragmentos, el agrupamiento y los errores de secuenciación. En las figuras 4A-4E se ilustra cómo puede un método como el que se describe en un flujo de trabajo de ejemplo suprimir diferentes fuentes de error al determinar la secuencia de un fragmento de ADN bicatenario. Las lecturas ilustradas incluyen los UMI a-p-$ o p-$-p en las figuras 3A y 4A-4C, y los UMI a-p-$-p o p-$-p-a en las figuras 3B, 4D y 4E. Los UMI a y p son<u>M<i>físicos monocatenarios en las figuras 3A y 4A-4C. Los UMI a y p son UMI bicatenarios en las figuras 3B, 4 d y 4E. Los UMI virtuales p y $ están ubicados en los extremos de un fragmento de ADN.
El método que usa UMI físicos monocatenarios como se muestra en las figuras 4A-4C implica primero colapsar las lecturas que tienen el mismo UMI físico a o p, ilustrado como el colapso de primer nivel. El colapso de primer nivel obtiene una secuencia de consenso a para lecturas que tienen el UMI físico a, cuyas lecturas proceden de una cadena del fragmento bicatenario. El colapso de primer nivel también obtiene una secuencia de consenso p para lecturas que tienen el UMI físico p, cuyas lecturas proceden de otra cadena del fragmento bicatenario. En un segundo nivel de colapso, el método obtiene una tercera secuencia de consenso a partir de la secuencia de consenso a y la secuencia de consenso p. La tercera secuencia de consenso refleja las pares de bases de consenso de lecturas que tienen los mismos UMI virtuales bicatenarios p y $, cuyas lecturas proceden de dos cadenas complementarias del fragmento original. Finalmente, la secuencia del fragmento de ADN bicatenario se determina como la tercera secuencia de consenso.
El método que usa UMI físicos bicatenarios, como se muestra en las figuras 4D-4E, implica primero colapsar las lecturas que tienen los UMI físicos a y p con un orden a ^ p en la dirección de 5' a 3', ilustrado como colapso de primer nivel. El colapso de primer nivel obtiene una secuencia de consenso a-p para las lecturas que tienen los UMI físicos a y p, cuyas lecturas proceden de una primera cadena del fragmento bicatenario. El colapso de primer nivel también obtiene una secuencia de consenso p-a para las lecturas que tienen los UMI físicos p y a con un orden p ^ a en la dirección de 5' a 3', cuyas lecturas proceden de una segunda cadena complementaria a la primera cadena del fragmento bicatenario. En un segundo nivel de colapso, el método obtiene una tercera secuencia de consenso a partir de la secuencia de consenso a-p y de la secuencia de consenso p-a. La tercera secuencia de consenso refleja los pares de bases de consenso a partir de las lecturas que tienen los mismos UMI virtuales bicatenarios p y 9 cuyas lecturas proceden de dos cadenas del fragmento. Finalmente, la secuencia del fragmento de ADN bicatenario se determina como la tercera secuencia de consenso.
En la figura 4A se ilustra cómo un colapso de primer nivel puede suprimir los errores de secuenciación. Los errores de secuenciación ocurren en la plataforma de secuenciación después de la preparación de la muestra y del banco de fragmentos (por ejemplo, amplificación por PCR). Los errores de secuenciación pueden introducir diferentes bases erróneas en diferentes lecturas. Las bases positivas verdaderas se ilustran con letras sólidas, mientras que las bases positivas falsas se ilustran con letras sombreadas. Los nucleótidos falsos positivos en diferentes lecturas en la familia a-p-$ se han excluido de la secuencia de consenso a. El verdadero nucleótido positivo "A" ilustrado en el extremo izquierdo de las lecturas de la familia a-p-$ se conserva para la secuencia de consenso a. Del mismo modo, los nucleótidos falsos positivos en diferentes lecturas en la familia p-$-p se han excluido de la secuencia de consenso p, que conservan el nucleótido positivo verdadero "A". Como se ilustra aquí, el colapso de primer nivel puede retirar con eficacia los errores de secuenciación. En la figura 4A también se muestra un colapso opcional de segundo nivel que se basa en los UMI virtuales p y $. Este colapso de segundo nivel puede suprimir aún más los errores como se explicó anteriormente, pero dichos errores no se ilustran en la figura 4A.
Los errores de la PCR ocurren antes de la amplificación de agrupamiento. Por lo tanto, un par de bases erróneo introducido en un ADN monocatenario mediante el procedimiento de PCR puede amplificarse durante la amplificación de agrupamiento, con lo que aparece así en muchos agrupamientos y lecturas. Como se ilustra en la figura 4B y en la figura 4D, un par de bases falso positivo introducido mediante un error de la PCR puede aparecer en muchas lecturas. La base "T" en las lecturas de la familia a-p-$ (figura 4B) o a-p (figura 4D) y la base "C" en las lecturas de la familia p-$-p (figura 4B) o p-a (figura 4D) son tales errores de la PCR. En cambio, los errores de secuenciación que se muestran en la figura 4A aparecen en una o unas pocas lecturas de la misma familia. Debido a que los errores de secuenciación de la PCR aparecen en muchas lecturas de la familia, un colapso de primer nivel de las lecturas en una cadena no retira los errores de la PCR, incluso aunque el colapso de primer nivel retira los errores de secuenciación (por ejemplo, G y A retirados de la familia a-p-$ en la figura 4B y de la familia a-p en la figura 4D). Sin embargo, dado que se introduce un error de PCR en un ADN monocatenario, la cadena complementaria del fragmento original y las lecturas procedentes del mismo generalmente no tienen el mismo error de PCR. Por lo tanto, el colapso de segundo nivel basado en las lecturas de las dos cadenas del fragmento original puede retirar con eficacia los errores de la PCR, tal y como se muestra en la parte inferior de las figuras 4B y 4D.
En algunas plataformas de secuenciación, se producen errores en los homopolímeros que introducen pequeños errores de tipo indel en los homopolímeros de un único nucleótido repetido. En las figuras 4C y 4E se ilustra la corrección de errores en los homopolímeros con los métodos descritos en la presente memoria. En las lecturas de la familia a-p-$ (figura 4C) o a-p-^-p (figura 4E), se han eliminado dos nucleótidos "T" de la segunda lectura de la parte superior, y se ha eliminado un nucleótido "T" de la tercera lectura desde la parte superior. En las lecturas de la familia p-^-p (figura 4C) o p-^-p-a (figura 4E), se ha insertado un nucleótido "A" en la primera lectura desde la parte superior. Similar al error de secuenciación que se ilustra en la figura 4A, los errores en los homopolímeros ocurren después de la amplificación por PCR, por lo tanto, diferentes lecturas tienen diferentes errores en los homopolímeros. Como resultado, el colapso de primer nivel puede retirar con eficacia los errores de tipo indel.
Las secuencias de consenso se pueden obtener mediante el colapso de las lecturas que tienen uno o más UMI no aleatorios comunes y uno o más UMI virtuales comunes. Además, la información de posición también puede usarse para obtener secuencias de consenso como se describe a continuación.
Colapso por posición
En algunas realizaciones, las lecturas se procesan para alinearse con una secuencia de referencia para determinar la ubicación de los alineamientos de las lecturas en la secuencia de referencia (localización). Sin embargo, en algunas realizaciones no ilustradas anteriormente, la localización se logra mediante el análisis de similitud de ft-meros y el alineamiento de lectura con lectura. Esta segunda realización tiene dos ventajas: primero, puede colapsar (corregir errores) las lecturas que no coinciden con la referencia, debido a las diferencias o translocaciones del haplotipo, y, en segundo lugar, no depende de un algoritmo de alineamiento, con lo que se elimina así la posibilidad de que haya artefactos inducidos por el alineador (errores en el alineador). En algunas realizaciones, las lecturas que comparten la misma información de localización pueden colapsarse para obtener secuencias de consenso para determinar la secuencia de los fragmentos de ADN originales. En algunos contextos, el procedimiento de alineamiento también se conoce como un procedimiento de mapeo. Las lecturas de las secuencias se someten a un procedimiento de alineamiento para mapearse a una secuencia de referencia. Se pueden usar varias herramientas y algoritmos de alineamiento para alinear las lecturas con la secuencia de referencia como se describe en otra parte de la descripción.
Como es habitual, en los algoritmos de alineamiento, algunas lecturas se alinean con éxito a la secuencia de referencia, mientras que otras pueden no alinearse con éxito o pueden alinearse mal a la secuencia de referencia. Las lecturas que se alinean sucesivamente con la secuencia de referencia están asociadas a sitios en la secuencia de referencia. Las lecturas alineadas y sus sitios asociados también se denominan etiquetas de secuencia. Algunas lecturas de las secuencias que contienen una gran cantidad de repeticiones tienden a ser más difíciles de alinear con la secuencia de referencia. Cuando una lectura se alinea a una secuencia de referencia con varias bases discordantes por encima de cierto criterio, la lectura se considera mal alineada. En diversas realizaciones, las lecturas se consideran mal alineadas cuando están alineadas con al menos aproximadamente 1, 2, 3, 4, 5, 6, 7, 8, 9 o 10 discordancias. En otras realizaciones, las lecturas se consideran mal alineadas cuando están alineadas con al menos aproximadamente el 5% de discordancias. En otras realizaciones, las lecturas se consideran mal alineadas cuando están alineadas con al menos aproximadamente el 10%, 15% o 20% de bases discordantes.
En algunas realizaciones, los métodos descritos combinan información de la posición con información de los UMI físicos para indexar las moléculas originales de los fragmentos de ADN. Las lecturas de secuencia que comparten una misma posición de lectura y un mismo UMI físico no aleatorio o aleatorio pueden colapsarse para obtener una secuencia de consenso para determinar la secuencia de un fragmento o porción del mismo. En algunas realizaciones, las lecturas de secuencia que comparten la misma posición de lectura, el mismo UMI físico no aleatorio y un UMI físico aleatorio pueden colapsarse para obtener una secuencia de consenso. En tales realizaciones, el adaptador puede incluir un UMI físico no aleatorio y un UMI físico aleatorio. En algunas realizaciones, las lecturas de secuencia que comparten la misma posición de lectura y el mismo UMI virtual pueden colapsarse para obtener una secuencia de consenso.
La información de la posición de las lecturas se puede obtener mediante diferentes técnicas. Por ejemplo, en algunas realizaciones, las coordenadas genómicas pueden usarse para proporcionar información de la posición de la lectura. En algunas realizaciones, la posición en una secuencia de referencia a la que se alinea una lectura puede usarse para proporcionar información de la posición de la lectura. Por ejemplo, las posiciones de inicio y parada de una lectura en un cromosoma pueden usarse para proporcionar información de la posición de la lectura. En algunas realizaciones, las posiciones de las lecturas se consideran iguales si tienen la misma información de posición. En algunas realizaciones, las posiciones de las lecturas se consideran iguales si la diferencia entre la información de posición es menor que un criterio definido. Por ejemplo, dos lecturas que tienen posiciones genómicas iniciales que difieren en menos de 2, 3, 4 o 5 pares de bases pueden considerarse lecturas que tienen la misma posición de lectura. En otras realizaciones, las posiciones de las lecturas se consideran iguales si su información de la posición se puede convertir y coincidir en un espacio de posición particular. Se puede proporcionar una secuencia de referencia antes de la secuenciación, por ejemplo, puede ser una secuencia genómica humana bien conocida y ampliamente utilizada, o se puede determinar a partir de las lecturas obtenidas durante la secuenciación de la muestra.
Independientemente de la plataforma y el protocolo de secuenciación específicos, al menos una parte de los ácidos nucleicos contenidos en la muestra se secuencian para generar decenas de miles, cientos de miles o millones de lecturas de las secuencias, por ejemplo, lecturas de 100 pb. En algunas realizaciones, las lecturas de las secuencias incluyen aproximadamente 20 pb, aproximadamente 25 pb, aproximadamente 30 pb, aproximadamente 35 pb, aproximadamente 36 pb, aproximadamente 40 pb, aproximadamente 45 pb, aproximadamente 50 pb, aproximadamente 55 pb, aproximadamente 60 pb, aproximadamente 65 pb, aproximadamente 70 pb, aproximadamente 75 pb, aproximadamente 80 pb, aproximadamente 85 pb, aproximadamente 90 pb, aproximadamente 95 pb, aproximadamente 100 pb, aproximadamente 110 pb, aproximadamente 120 pb, aproximadamente 130, aproximadamente 140 pb, aproximadamente 150 pb, aproximadamente 200 pb, aproximadamente 250 pb, aproximadamente 300 pb, aproximadamente 350 pb, aproximadamente 400 pb, aproximadamente 450 pb, aproximadamente 500 pb, aproximadamente 800 pb , aproximadamente 1000 pb, o aproximadamente 2000 pb.
En algunas realizaciones, las lecturas están alineadas a un genoma de referencia, por ejemplo, hg19. En otras realizaciones, las lecturas están alineadas a una porción de un genoma de referencia, por ejemplo, un cromosoma o un segmento cromosómico. Las lecturas que mapean en un único sitio del genoma de referencia se conocen como etiquetas de secuencia. En una realización, al menos aproximadamente 3 x 106 etiquetas de secuencia aptas, al menos aproximadamente 5 x 106 etiquetas de secuencia aptas, al menos aproximadamente 8 x 106 etiquetas de secuencia aptas, al menos aproximadamente 10 x 106 etiquetas de secuencia aptas, al menos aproximadamente 15 x 106 etiquetas de secuencia aptas, al menos aproximadamente 20 x 106 etiquetas de secuencia aptas, al menos aproximadamente 30 x 106 etiquetas de secuencia aptas, al menos aproximadamente 40 x 106 etiquetas de secuencia aptas, o al menos aproximadamente 50 x 106 etiquetas de secuencia aptas se obtienen a partir de lecturas que mapean en un único sitio en un genoma de referencia.
Aplicaciones
En diversas aplicaciones, las estrategias de corrección de errores que se describen en la presente memoria pueden dar a conocer uno o más de los siguientes beneficios: (i) detectar mutaciones somáticas de muy baja frecuencia alélica, (ii) disminuir la duración del ciclo al mitigar los errores de desfase por adelanto/desfase por retraso y/o (iii) aumentar la longitud de las lecturas al mejorar la calidad del reconocimiento de las bases en la parte final de las lecturas, etc. Las aplicaciones y los fundamentos relacionados con la detección de mutaciones somáticas de baja frecuencia alélica se analizaron anteriormente.
En ciertas realizaciones, las técnicas descritas en la presente memoria pueden permitir el reconocimiento fiable de alelos que tienen frecuencias de aproximadamente el 2% o menos, o aproximadamente el 1% o menos, o aproximadamente el 0,5% o menos. Estas bajas frecuencias son habituales en el cfDNA que se origina en las células tumorales de un paciente con cáncer. En algunas realizaciones, las técnicas descritas aquí pueden permitir la identificación de cepas raras en las muestras metagenómicas, así como la detección de variantes raras en las poblaciones víricas u otras poblaciones cuando, por ejemplo, un paciente ha sido infectado por varias cepas víricas, y/o ha sido sometido a un tratamiento médico.
En ciertas realizaciones, las técnicas descritas en la presente memoria pueden permitir una menor duración del ciclo de la química de la secuenciación. La menor duración del ciclo aumenta los errores de secuenciación, que pueden corregirse con el método descrito anteriormente.
En algunas realizaciones que implican los UMI, se pueden obtener lecturas largas de la secuenciación de extremos emparejados con el uso de longitudes de lectura asimétricas para un par de lecturas emparejadas (PE) desde los dos extremos de un segmento. Por ejemplo, una pareja de lecturas que tienen 50 pb en una lectura de la pareja y 500 pb en la otra lectura de la pareja se pueden "hilvanar" con otra pareja de lecturas para producir una lectura larga de 1000 pb. Estas realizaciones pueden proporcionar una velocidad de secuenciación más rápida para determinar fragmentos largos de baja frecuencia alélica.
En la figura 5 se ilustra esquemáticamente un ejemplo para obtener eficientemente lecturas emparejadas largas en este tipo de aplicaciones mediante la aplicación de UMI físicos y UMI virtuales. Los bancos de fragmentos de ambas cadenas de los mismos fragmentos de ADN se agrupan en la celda de flujo. El tamaño del inserto del banco de fragmentos es de más de 1 kb. La secuenciación se realiza con longitudes de lecturas asimétricas (p. ej., lectura 1 = 500 pb, lectura 2 = 50 pb), para garantizar la calidad de las lecturas largas de 500 pb. Al hilvanar las dos cadenas, se pueden crear lecturas emparejadas largas de 1000 pb con solo una secuenciación de 500 50 pb.
Muestras
Las muestras que se usan para determinar la secuencia de fragmentos de ADN pueden incluir muestras tomadas de cualquier célula, líquido, tejido u órgano, incluidos los ácidos nucleicos en los que se determinarán las secuencias de interés. En algunas realizaciones que implican el diagnóstico de cánceres, el a Dn tumoral circulante puede obtenerse de líquido corporal de un sujeto, p. ej., sangre o plasma. En algunas realizaciones que implican el diagnóstico del feto, es ventajoso obtener ácidos nucleicos libres de células, por ejemplo, ADN libre de células (cfDNA), a partir de líquido corporal materno. Los ácidos nucleicos libres de células, incluido el ADN libre de células, se pueden obtener mediante diversos métodos conocidos en la técnica a partir de muestras biológicas que incluyen, pero no se limitan a ellas, plasma, suero y orina (véanse, por ejemplo, Fan et al.,Proc Natl Acad Sci105: 16266-16271 [2008]; Koide et al.,Prenatal Diagnosis25: 604-607 [2005]; Chen et al.,Nature Med.2: 1033-1035 [1996]; Lo et al.,Lancet350: 485-487 [1997]; Botezatu et al.,Clin Chem.46: 1078-1084, 2000; y Su et al.,J Mol. Diagn.6: 101-107 [2004]).
En diversas realizaciones, los ácidos nucleicos (por ejemplo, ADN o ARN) presentes en la muestra pueden enriquecerse específica o inespecíficamente antes de su uso (por ejemplo, antes de preparar un banco de fragmentos para la secuenciación). El enriquecimiento inespecífico de la muestra de ADN se refiere a la amplificación del genoma completo de los fragmentos de ADN genómico de la muestra que puede usarse para aumentar el nivel de ADN de la muestra antes de preparar un banco de fragmentos para secuenciación el cfDNA. Los métodos para la amplificación del genoma completo se conocen en la técnica. La PCR cebada con oligonucleótidos degenerados (DOP), la técnica de PCR de extensión de los cebadores (PEP) y la amplificación por desplazamiento múltiple (MDA) son ejemplos de métodos de amplificación del genoma completo. En algunas realizaciones, en la muestra no está enriquecido el ADN.
La muestra que incluye los ácidos nucleicos a los que se aplican los métodos descritos en la presente memoria incluye típicamente una muestra biológica ("muestra problema") como se describe anteriormente. En algunas realizaciones, los ácidos nucleicos a secuenciar se purifican o aíslan por cualquiera de los distintos métodos de dominio público.
Por consiguiente, en ciertas realizaciones, la muestra incluye o consiste esencialmente en un polinucleótido purificado o aislado, o puede incluir muestras tales como una muestra de tejido, una muestra de líquido biológico, una muestra de células y similares. Las muestras de líquidos biológicos adecuados incluyen, pero no se limitan a ellos, muestras de sangre, plasma, suero, sudor, lágrimas, esputo, orina, esputo, otorrea, linfa, saliva, líquido cefalorraquídeo, efusiones, suspensión de médula ósea, flujo vaginal, lavado transcervical, líquido encefálico, ascitis, leche, secreciones de las vías respiratorias, intestinales y genitourinarias, líquido amniótico, leche y leucoforesis. En algunas realizaciones, la muestra es una muestra que se puede obtener fácilmente mediante procedimientos no invasivos, por ejemplo, sangre, plasma, suero, sudor, lágrimas, esputo, orina, heces, esputo, otorrea, saliva o excrementos. En ciertas realizaciones, la muestra es una muestra de sangre periférica, o fracciones de plasma y/o suero de una muestra de sangre periférica. En otras realizaciones, la muestra biológica es un hisopo o frotis, una muestra de biopsia o un cultivo celular. En otra realización, la muestra es una mezcla de dos o más muestras biológicas, por ejemplo, una muestra biológica puede incluir dos o más de una muestra de líquido biológico, una muestra de tejido y una muestra de cultivo celular. Según se usa en la presente memoria, los términos "sangre", "plasma" y "suero" abarcan expresamente fracciones o porciones procesadas de los mismos. De manera similar, cuando se toma una muestra de una biopsia, hisopo, frotis, etc., la "muestra" abarca expresamente una fracción o porción procesada procedente de la biopsia, hisopo, frotis, etc.
En ciertas realizaciones, se pueden obtener muestras de fuentes que incluyen, pero no se limitan a ellas, muestras de diferentes individuos, muestras de diferentes etapas del desarrollo del mismo o de diferentes individuos, muestras de diferentes individuos enfermos (por ejemplo, individuos que se sospecha que tienen un trastorno genético), individuos normales, muestras obtenidas en diferentes etapas de una enfermedad de un individuo, muestras obtenidas de un individuo sometido a diferentes tratamientos para una enfermedad, muestras de individuos sujetos a diferentes factores ambientales, muestras de individuos con predisposición a una enfermedad, muestras de individuos con exposición a un agente de enfermedades infecciosas, y similares.
En una realización ilustrativa, pero no limitativa, la muestra es una muestra materna que se obtiene de una hembra embarazada, por ejemplo, una mujer embarazada. En este caso, la muestra puede analizarse con los métodos descritos en la presente memoria para proporcionar un diagnóstico prenatal de posibles anomalías cromosómicas en el feto. La muestra materna puede ser una muestra de tejido, una muestra de líquido biológico o una muestra celular. Un líquido biológico incluye, como ejemplos no limitativos, muestras de sangre, plasma, suero, sudor, lágrimas, esputo, orina, esputo, otorrea, linfa, saliva, líquido cefalorraquídeo, efusiones, suspensión de médula ósea, flujo vaginal, lavado transcervical, líquido encefálico, ascitis, leche, secreciones de las vías respiratorias, intestinales y genitourinarias, y leucoforesis.
En ciertas realizaciones, las muestras también pueden obtenerse de tejidos o células cultivadosin vitrou otras fuentes que contienen polinucleótidos. Las muestras cultivadas se pueden tomar de fuentes que incluyen, pero no se limitan a ellas, cultivos (por ejemplo, tejidos o células) mantenidos en diferentes medios y condiciones (por ejemplo, pH, presión o temperatura), cultivos (por ejemplo, tejidos o células) mantenidos durante diferentes períodos de tiempo, cultivos (p. ej., tejidos o células) tratados con diferentes factores o reactivos (p. ej., un candidato a fármaco o un modulador) o cultivos de diferentes tipos de tejidos y/o células.
Los métodos para aislar ácidos nucleicos a partir de fuentes biológicas son bien conocidos y diferirán según la naturaleza de la fuente. Un experto en la técnica puede aislar fácilmente ácidos nucleicos de una fuente según sea necesario para el método descrito en la presente memoria. En algunos casos, puede ser ventajoso fragmentar las moléculas de ácido nucleico en la muestra de ácido nucleico. La fragmentación puede ser aleatoria, o puede ser específica, como se logra, por ejemplo, por la digestión con endonucleasas de restricción. Los métodos para la fragmentación aleatoria se conocen bien en la técnica e incluyen, por ejemplo, digestión con ADNsa en condiciones limitantes, tratamiento con álcali y cizallamiento físico.
Preparación del banco de fragmentos para la secuenciación
En diversas realizaciones, la secuenciación puede realizarse en diversas plataformas de secuenciación que requieren la preparación de un banco de fragmentos para la secuenciación. La preparación típicamente implica fragmentar el ADN (sonicación, nebulización o cizallamiento), seguido de la reparación del ADN y el pulido de los extremos (extremo romo o A protuberante) y ligación de los adaptadores específicos de la plataforma. En una realización, los métodos descritos en la presente memoria pueden utilizar tecnologías de secuenciación de última generación (NGS), que permiten secuenciar numerosas muestras individualmente como moléculas genómicas (es decir, secuenciación unimolecular) o como conjunto de muestras que incluyen moléculas genómicas indexadas (por ejemplo, secuenciación multimolecular) en una sola reacción de secuenciación. Estos métodos pueden generar hasta varios miles de millones de lecturas de secuencias de ADN. En diversas realizaciones, las secuencias de ácidos nucleicos genómicos y/o de ácidos nucleicos genómicos indexados se pueden determinar gracias a, por ejemplo, las tecnologías de secuenciación de última generación (NGS) descritas en la presente memoria. En diversas realizaciones, el análisis de la cantidad masiva de datos de secuencias obtenidos con la NGS puede realizarse con uno o más procesadores, tal y como se describe en la presente memoria.
En diversas realizaciones, el uso de tales tecnologías de secuenciación no implica la preparación de bancos de fragmentos para secuenciación.
Sin embargo, en ciertas realizaciones, los métodos de secuenciación contemplados en la presente memoria implican la preparación de bancos de fragmentos para secuenciación. En una estrategia ilustrativa, la preparación del banco de fragmentos para secuenciación implica la producción de una colección aleatoria de fragmentos de ADN modificados con adaptadores (por ejemplo, polinucleótidos) que están listos para ser secuenciados. Los bancos de fragmentos para secuenciación de polinucleótidos se pueden preparar a partir de ADN o ARN, entre ellos equivalentes, análogos de cualquier ADN o ADNc, por ejemplo, ADN o ADNc que es complementario o copia de ADN producido a partir de una plantilla de ARN, por la acción de la transcriptasa inversa. Los polinucleótidos pueden originarse en forma bicatenaria (p. ej., ADN bicatenario tal como fragmentos de ADN genómico, ADNc, productos de amplificación por PCR y similares) o, en ciertas realizaciones, los polinucleótidos pueden originarse en forma monocatenaria (p. ej., ADN monocatenario, ARN, etc.) y se han convertido a la forma de ADN bicatenario. A modo de ilustración, en ciertas realizaciones, las moléculas de ARNm monocatenarias pueden copiarse en ADNc bicatenarios adecuados para ser usados en la preparación de un banco de fragmentos para secuenciación. La secuencia precisa de las moléculas de polinucleótidos primarios no es por lo general material para el método de preparación de bancos de fragmentos, y puede ser conocida o desconocida. En una realización, las moléculas de polinucleótidos son moléculas de ADN. Más particularmente, en ciertas realizaciones, las moléculas de polinucleótidos representan el complemento genético completo de un organismo o sustancialmente el complemento genético completo de un organismo, y son moléculas de ADN genómico (p. ej., ADN celular, ADN libre de células (cfDNA), etc.), que típicamente incluyen tanto la secuencia de intrones como la secuencia de exones (secuencia codificante), así como secuencias reguladoras no codificantes, tales como secuencias promotoras y potenciadoras. En ciertas realizaciones, las moléculas de polinucleótidos primarios incluyen moléculas de ADN genómico humano, por ejemplo, moléculas de cfDNA presentes en la sangre periférica de una embarazada.
La preparación de bancos de fragmentos para secuenciación para algunas plataformas de secuenciación por NGS se facilita mediante el uso de polinucleótidos que incluyen un margen específico de tamaño de fragmentos. La preparación de tales bancos de fragmentos implica típicamente la fragmentación de polinucleótidos grandes (por ejemplo, ADN genómico celular) para obtener polinucleótidos del margen de tamaños deseado.
Las lecturas emparejadas se pueden usar para los métodos y sistemas de secuenciación descritos en la presente memoria. La longitud del fragmento o inserto es mayor que la longitud de la lectura, y algunas veces más larga que la suma de la longitud de las dos lecturas.
En algunas realizaciones ilustrativas, los ácidos nucleicos de la muestra se obtienen como ADN genómico, que se somete a fragmentación para dar fragmentos de más de aproximadamente 50, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 2000 o 5000 pares de bases, a los que se pueden aplicar fácilmente los métodos de NGS. En algunas realizaciones, las lecturas emparejadas se obtienen a partir de insertos de aproximadamente de 100 a 5000 pb. En algunas realizaciones, los insertos tienen aproximadamente de 100 a 1000 pb de longitud. A veces se realizan como lecturas emparejadas regulares de insertos cortos. En algunas realizaciones, los insertos tienen aproximadamente de 1 000 a 5000 pb de longitud. A veces se realizan como parejas de lecturas ligadas de insertos largos como se describe anteriormente.
En algunas realizaciones, los insertos largos están diseñados para evaluar secuencias muy largas. En algunas realizaciones, las parejas de lecturas ligadas se pueden aplicar para obtener lecturas separadas por miles de pares de bases. En estas realizaciones, los insertos o fragmentos varían de cientos a miles de pares de bases, con dos adaptadores de unión biotinilados en los dos extremos de un inserto. Luego, los adaptadores de unión biotinilados unen los dos extremos del inserto para formar una molécula circularizada, que luego se fragmenta de nuevo. Un subfragmento que incluye los adaptadores de unión biotinilados y los dos extremos del inserto original se selecciona para secuenciar en una plataforma que está diseñada para secuenciar fragmentos más cortos.
La fragmentación se puede lograr mediante cualquiera de los diversos métodos conocidos por los expertos en la técnica. Por ejemplo, la fragmentación se puede lograr por medios mecánicos que incluyen, pero sin limitarse a ellos, nebulización, sonicación e hidrocizallamiento. Sin embargo, la fragmentación mecánica típicamente escinde el esqueleto del ADN en los enlaces C-O, P-O y C-C, lo que da como resultado una mezcla heterogénea de extremos romos y 3' protuberantes y 5' protuberantes con enlaces C-O, P-O y/o C-C rotos (véase, por ejemplo, Alnemri y Liwack,J Biol. Chem265: 17323-17333 [1990] ; Richards y Boyer,J Mol Biol11: 327-240 [1965]) que pueden necesitar reparación ya que pueden carecer del 5'-fosfato requerido para las reacciones enzimáticas posteriores, por ejemplo, la ligación de los adaptadores de secuenciación, que se requieren para preparar el ADN para la secuenciación.
Por el contrario, el cfDNA típicamente existe como fragmentos de menos de aproximadamente 300 pares de bases y, en consecuencia, la fragmentación no es típicamente necesaria para generar un banco de fragmentos para secuenciación con el uso de las muestras de cfDNA.
Típicamente, si los polinucleótidos están fragmentados por la fuerza (por ejemplo, fragmentadosin vitro),o existen de forma natural como fragmentos, se convierten en ADN de extremos romos que tienen fosfatos en 5' e hidroxilos en 3'. Los protocolos estándares, p. ej., protocolos para la secuenciación que utilizan, por ejemplo, la plataforma de Illumina como se describe en el flujo de trabajo de ejemplo de más arriba con referencia a las figuras 1A y 1B, indican a los usuarios que reparen los extremos del ADN de la muestra, que purifiquen los productos con los extremos reparados antes de la adenilación o la adición de colas de dA en los extremos 3', y que purifiquen los productos con las colas de dA antes de las etapas de ligación de los adaptadores de la preparación del banco de fragmentos.
Diversas realizaciones de los métodos de preparación del banco de fragmentos para secuenciar descritas en la presente memoria evitan la necesidad de realizar una o más de las etapas típicamente ordenadas por los protocolos estándares para obtener un producto de ADN modificado que puede ser secuenciado por NGS. Un método abreviado (método ABB), un método de 1 paso y un método de 2 pasos son ejemplos de métodos para la preparación de un banco de fragmentos para secuenciación, que se pueden encontrar en la patente de los EE. UU. n.° US2013-0029852A1 presentada el 20 de julio de 2012.
Métodos de secuenciación
Los métodos y aparatos descritos en la presente memoria pueden emplear la tecnología de secuenciación de última generación (NGS), que permite la secuenciación masiva en paralelo. En ciertas realizaciones, las plantillas de ADN amplificadas clonalmente o las moléculas de ADN individuales se secuencian de manera masiva en paralelo dentro de una celda de flujo (por ejemplo, según se describe en Volkerding et al.Clin Chem55: 641-658 [2009]; Metzker MNature Rev11: 31-46 [2010]). Las tecnologías de secuenciación por NGS incluyen, pero no se limitan a ellas, pirosecuenciación, secuenciación por síntesis con terminadores reversibles coloreados, secuenciación por ligación de sondas oligonucleotídicas y secuenciación por semiconductores iónicos. El ADN de las muestras individuales se puede secuenciar independientemente (es decir, secuenciación unimolecular) o el ADN de muchas muestras se puede agrupar y secuenciar como moléculas genómicas indexadas (es decir, secuenciación multimolecular) en una sola reacción de secuenciación, para generar hasta varios cientos de millones de lecturas de secuencias de ADN. Aquí se describen adicionalmente ejemplos de tecnologías de secuenciación que se pueden usar para obtener la información de las secuencias de acuerdo con el presente método.
Algunas tecnologías de secuenciación están a la venta, tal como la plataforma de secuenciación por hibridación de Affymetrix Inc. (Sunnyvale, CA) y las plataformas de secuenciación por síntesis de 454 Life Sciences (Bradford, CT), Illumina/Solexa (Hayward, CA) y Helicos Biosciences (Cambridge, MA), y la plataforma de secuenciación por ligación de Applied Biosystems (Foster City, CA), como se describe a continuación. Además de la secuenciación de una única molécula realizada con la secuenciación por síntesis de Helicos Biosciences, otras tecnologías de secuenciación de una única molécula incluyen, pero sin limitación, la tecnología SMRT™ de Pacific Biosciences, la tecnología ION TORRENT™ y la secuenciación en nanoporos desarrollada, por ejemplo, por Oxford Nanopore Technologies.
Si bien el método automatizado de Sanger se considera una tecnología de 'primera generación', la secuenciación de Sanger, incluida la secuencia automatizada de Sanger, también se puede emplear en los métodos descritos en la presente memoria. Los métodos de secuenciación adecuados adicionales incluyen, pero sin limitación, tecnologías de toma de imágenes de ácidos nucleicos, por ejemplo, microscopía de fuerza atómica (AFM) o microscopía electrónica de transmisión (TEM). Las tecnologías de secuenciación ilustrativas se describen con mayor detalle a continuación.
En algunas realizaciones, los métodos descritos implican obtener información de las secuencias para los ácidos nucleicos en la muestra problema mediante la secuenciación masiva en paralelo de millones de fragmentos de ADN con el uso de la secuenciación por síntesis de Illumina y la química de secuenciación basada en terminadores reversibles (por ejemplo, como se describe en Bentley et al.,Nature6: 53-59 [2009]). El ADN de la plantilla puede ser ADN genómico, por ejemplo, ADN celular o cfDNA. En algunas realizaciones, el ADN genómico de células aisladas se usa como plantilla, y se fragmenta en longitudes de varios cientos de pares de bases. En otras realizaciones, se usa el cfDNA o el ADN tumoral circulante (ctDNA) como plantilla, y no se requiere fragmentación, ya que el cfDNA o el ctDNA existen como fragmentos pequeños. Por ejemplo, el cfDNA fetal circula por el torrente circulatorio como fragmentos de aproximadamente 170 pares de bases (pb) de longitud (Fan et al.,Clin Chem56: 1279-1286 [2010]), y no se requiere la fragmentación del ADN antes de la secuenciación. La tecnología de secuenciación de Illumina se basa en la unión del ADN genómico fragmentado a una superficie plana, ópticamente transparente, en la que están unidos los oligonucleótidos de anclaje. Al ADN de plantilla se le reparan los extremos para generar extremos romos fosforilados en 5', y la actividad polimerasa del fragmento Klenow se usa para agregar una sola base A al extremo 3' de los fragmentos de ADN fosforilados romos. Esta adición prepara los fragmentos de ADN para la ligación a los adaptadores oligonucleotídicos, que tienen una protuberancia de una única base T en su extremo 3' para aumentar la eficacia de la ligación. Los oligonucleótidos adaptadores son complementarios a los oligonucleótidos de anclaje de las celdas de flujo. En condiciones de dilución limitante, a la celda de flujo se le añade el ADN de plantilla monocatenario modificado con los adaptadores y se inmoviliza por hibridación a los oligonucleótidos de anclaje. Los fragmentos de ADN unidos se extienden y amplifican en puente para crear una célula de flujo de secuenciación de densidad ultraalta con cientos de millones de agrupamientos, cada uno de los cuales contiene aproximadamente 1000 copias de la misma plantilla. En una realización, el ADN genómico fragmentado aleatoriamente se amplifica por PCR antes de someterse a la amplificación del agrupamiento. Como alternativa, se usa una preparación de banco de fragmentos genómicos sin amplificación, y el ADN genómico fragmentado al azar se enriquece con el uso de solo la amplificación del agrupamiento (Kozarewa et al.,Nature Methods6: 291-295 [2009]). En algunas aplicaciones, las plantillas se secuencian con una tecnología robusta de secuenciación por síntesis de ADN de cuatro colores que emplea terminadores reversibles con colorantes fluorescentes retirables. La detección de fluorescencia de alta sensibilidad se logra gracias a la excitación con láser y la óptica de reflexión interna total. Las lecturas de secuencias cortas de aproximadamente decenas a unos pocos cientos de pares de bases se alinean sobre un genoma de referencia y el mapeo único de las lecturas de secuencias cortas en el genoma de referencia se identifican con un programa informático que encadena tareas de análisis de datos desarrollado con este propósito. Después de completar la primera lectura, las plantillas se pueden regenerarin situpara permitir una segunda lectura desde el extremo opuesto de los fragmentos. Por lo tanto, se puede usar la secuenciación de un único extremo o de los extremos emparejados de los fragmentos de ADN.
Diversas realizaciones de la descripción pueden usar la secuenciación por síntesis que permite la secuenciación de extremos emparejados. En algunas realizaciones, la plataforma de secuenciación por síntesis de Illumina implica la agrupación de fragmentos. La agrupación es un procedimiento en el que cada molécula de fragmento se amplifica isotérmicamente. En algunas realizaciones, como en el ejemplo descrito aquí, el fragmento tiene dos adaptadores diferentes unidos a los dos extremos del fragmento, en donde los adaptadores permiten que el fragmento se hibride con los dos oligonucleótidos diferentes en la superficie de un carril de celdas de flujo. El fragmento además incluye o está conectado a dos secuencias de índice en dos extremos del fragmento, en donde dichas secuencias de índice proporcionan etiquetas para identificar diferentes muestras en la secuenciación multimolecular. En algunas plataformas de secuenciación, un fragmento a secuenciar desde ambos extremos también se denomina inserto.
En algunas realizaciones, una celda de flujo para el agrupamiento en la plataforma de Illumina es un portaobjetos de vidrio con carriles. Cada carril es un canal de vidrio recubierto con un césped de dos tipos de oligonucleótidos (por ejemplo, los oligonucleótidos P5 y P7'). La hibridación comienza por el primero de los dos tipos de oligonucleótidos de la superficie. Este oligonucleótido es complementario a un primer adaptador en un extremo del fragmento. Una polimerasa crea una cadena complementaria del fragmento hibridado. La molécula bicatenaria se desnaturaliza y se retira la cadena de plantilla original por lavado. La cadena restante, en paralelo con muchas otras cadenas restantes, se amplifica clonalmente mediante la aplicación en puente.
En la amplificación en puente y otros métodos de secuenciación que implican un agrupamiento, una cadena se pliega para que una segunda región adaptadora en un segundo extremo de la cadena se hibride con el segundo tipo de oligonucleótido de la superficie de la celda de flujo. Una polimerasa genera una cadena complementaria, con lo que se forma una molécula bicatenaria de puente. Esta molécula bicatenaria se desnaturaliza y da como resultado dos moléculas monocatenarias enganchadas a la celda de flujo a través de dos oligonucleótidos diferentes. El procedimiento se repite una y otra vez y ocurre simultáneamente en los millones de agrupamientos, lo que da lugar a la amplificación clonal de todos los fragmentos. Después de la amplificación en puente, las hebras inversas se cortan y se retiran por lavado, dejando solo las hebras directas. Los extremos 3' se bloquean para impedir el cebado indeseado.
Después del agrupamiento, la secuencia comienza con la extensión de un primer cebador de secuenciación para generar la primera lectura. Con cada ciclo, los nucleótidos marcados con fluorescencia compiten por la adición a la cadena en crecimiento. Solo se incorpora uno en función de la secuencia de la plantilla. Después de la adición de cada nucleótido, el agrupamiento se excita mediante una fuente de luz y se emite una señal fluorescente característica. El número de ciclos determina la longitud de la lectura. La longitud de onda de la emisión y la intensidad de la señal determinan la atribución de la base. Para un agrupamiento dado, todas las cadenas idénticas se leen simultáneamente. Cientos de millones de agrupamientos se secuencian de forma masiva en paralelo. Al finalizar la primera lectura, se lava el producto de la lectura.
En la siguiente etapa de los protocolos que implican dos cebadores de índice, se introduce un cebador de índice 1 y se hibrida con una región de índice 1 en la plantilla. Las regiones de índice permiten la identificación de los fragmentos, lo cual es útil para desmultiplicar las muestras en un procedimiento de secuenciación multimolecular. La lectura con el índice 1 se genera de manera similar a la primera lectura. Después de completar la lectura con el índice 1, se lava el producto de la lectura y se desprotege el extremo 3' de la hebra. La hebra de plantilla se pliega entonces y se une a un segundo oligonucleótido en la celda de flujo. Una secuencia de índice 2 se lee de la misma manera que el índice 1. Luego, un producto de lectura con el índice 2 se elimina con un lavado al finalizar la etapa.
Después de leer dos índices, se inicia la lectura 2 usando polimerasas para extender los oligonucleótidos de la segunda celda de flujo, con lo que forman un puente bicatenario. Se desnaturaliza este ADN bicatenario y se le bloquea el extremo 3'. Se corta la cadena directa original y se retira con un lavado, dejando la cadena inversa. La lectura 2 comienza con la introducción de un cebador de secuenciación de la lectura 2. Al igual que con la lectura 1, las etapas de secuenciación se repiten hasta que se alcanza la longitud deseada. Se lava el producto de lectura 2. Todo este procedimiento genera millones de lecturas, que representan todos los fragmentos. Las secuencias de los bancos de fragmentos de las muestras combinadas se separan en función de los índices únicos introducidos durante la preparación de las muestras. Para cada muestra, las lecturas con tramos similares de bases atribuidas se agrupan localmente. Las lecturas directa e inversa se emparejan para crear secuencias contiguas. Estas secuencias contiguas se alinean con el genoma de referencia para la identificación de las variantes.
El ejemplo de secuenciación por síntesis descrito anteriormente implica lecturas emparejadas, que se usan en muchas de las realizaciones de los métodos descritos. La secuenciación de extremos emparejados afecta a 2 lecturas desde los dos extremos de un fragmento. Las lecturas emparejadas se utilizan para resolver alineamientos ambiguos. La secuenciación de extremos emparejados permite que los usuarios elijan la longitud del inserto (o del fragmento a secuenciar) y secuenciar cada extremo del inserto, lo que genera datos de secuencia alineables de alta calidad. Debido a que se conoce la distancia entre cada pareja de lecturas, los algoritmos de alineamiento pueden usar esta información para mapear las lecturas sobre las regiones repetitivas con mayor precisión. Esto da como resultado un mejor alineamiento de las lecturas, especialmente en las regiones repetitivas del genoma difíciles de secuenciar. La secuenciación de extremos emparejados puede detectar reordenamientos, incluidas las inserciones y deleciones (indels) e inversiones.
Las lecturas emparejadas pueden usar insertos de diferente longitud (es decir, diferente tamaño de fragmento a secuenciar). Como significado predeterminado en esta descripción, las lecturas emparejadas se usan para referirse a las lecturas obtenidas de longitudes de inserto diferentes. En algunos casos, para distinguir las lecturas emparejadas de insertos cortos de las lecturas emparejadas de insertos largos, estos últimos se denominan específicamente parejas de lecturas ligadas. En algunas realizaciones que implican parejas de lecturas ligadas, dos adaptadores de unión biotinilados se unen primero a dos extremos de un inserto relativamente largo (por ejemplo, varias kb). Los adaptadores de unión biotinilados luego conectan los dos extremos del inserto para formar una molécula circularizada. Entonces se puede obtener un subfragmento que abarca los adaptadores de unión biotinilados mediante la fragmentación adicional de la molécula circularizada. El subfragmento que incluye los dos extremos del fragmento original en orden de secuencia opuesto se puede secuenciar mediante el mismo procedimiento que para la secuenciación de extremos emparejados de insertos cortos descrita anteriormente. En una publicación en línea en la dirección res.illumina.com/documents/products/technotes/technote_nextera_matepair_data_processing.pdf se muestran más detalles sobre la secuenciación de parejas ligadas con el uso de una plataforma de Illumina.
Después de la secuenciación de los fragmentos de ADN, las lecturas de las secuencias de longitud predeterminada, por ejemplo, 100 pb, se localizan mediante mapeo (alineamiento) en un genoma de referencia conocido. Las lecturas mapeadas y sus ubicaciones correspondientes en la secuencia de referencia también se denominan etiquetas. En otra realización del procedimiento, la localización se realiza por los k-meros compartidos y el alineamiento de lectura con lectura. Los análisis de muchas realizaciones descritas en la presente memoria hacen uso de lecturas que están mal alineadas o que no pueden alinearse, así como lecturas alineadas (etiquetas). En una realización, la secuencia del genoma de referencia es la secuencia NCBI36/hg18, que está disponible en internet en genome.ucsc.edu/cgibin/hgGateway?org=Human&db=hg18&hgsid=166260105). Como alternativa, la secuencia del genoma de referencia es GRCh37/hg19 o GRCh38, que está disponible en internet en genome.ucsc.edu/cgi-bin/hgGateway. Otras fuentes de información de secuencias públicas incluyen GenBank, dbEST, dbSTS, EMBL (el Laboratorio Europeo de Biología Molecular) y el DDBJ (en Banco de Datos de ADN de Japón). Hay varios algoritmos informáticos disponibles para alinear secuencias, incluidos, entre otros, BLAST (Altschul et al., 1990), BLITZ (MPsrch) (Sturrock y Collins, 1993), FASTA (Pearson y Lipman, 1988), BOw T iE (Langmead et al.,Genome Biology10: R25.1-R25.10 [2009]) o ELAND (Illumina, Inc., San Diego, CA, EE. UU.). En una realización, un extremo de las copias expandidas clonalmente de las moléculas de cfDNA de plasma se secuencia y se procesa mediante el análisis bioinformático del alineamiento para el Genome Analyzer de Illumina, que usa el programa informático Efficient Large-Scale Alignment of Nucleotide Databases (ELAND).
En una realización ilustrativa, pero no limitativa, los métodos descritos en la presente memoria incluyen la obtención de información de secuencias para los ácidos nucleicos en una muestra problema, mediante el uso de la tecnología de secuenciación de una única molécula de la tecnología de secuenciación de moléculas únicas verdaderas de Helicos (tSMS) (por ejemplo, como se describe en Harris T. D. et al.,Science320: 106-109 [2008]). En la técnica tSMS, una muestra de ADN se escinde en cadenas de aproximadamente 100 a 200 nucleótidos, y se les añade una secuencia de poliA al extremo 3' de cada cadena de ADN. Cada cadena se marca mediante la adición de un nucleótido de adenosina marcado con fluorescencia. Las cadenas de ADN se hibridan luego con una celda de flujo, que contiene millones de sitios de captura de oligo-T que están inmovilizados en la superficie de la celda de flujo. En ciertas realizaciones, las plantillas pueden tener una densidad de aproximadamente 100 millones de plantillas/cm2. La celda de flujo se carga en un instrumento, por ejemplo, el secuenciador HeliScope™, y un láser ilumina la superficie de la celda de flujo para revelar la posición de cada plantilla. Una cámara CCD puede mapear la posición de las plantillas en la superficie de la celda de flujo. La etiqueta fluorescente de la plantilla se escinde entonces y se lava. La reacción de secuenciación comienza con la introducción de una ADN polimerasa y un nucleótido marcado con fluorescencia. El ácido nucleico de oligo-T sirve como cebador. La polimerasa incorpora los nucleótidos marcados al cebador de una manera dirigida por la plantilla. Se retiran la polimerasa y los nucleótidos no incorporados. Las plantillas que han dirigido la incorporación del nucleótido marcado con fluorescencia se identifican mediante la toma imágenes de la superficie de la celda de flujo. Después de la toma de imágenes, una etapa de escisión retira la etiqueta fluorescente, y el procedimiento se repite con otros nucleótidos marcados con fluorescencia hasta que se alcanza la longitud de lectura deseada. La información de las secuencias se recoge con cada etapa de adición de nucleótido. La secuenciación del genoma completo mediante las tecnologías de secuenciación de una única molécula excluye u obvia típicamente la amplificación por PCR en la preparación de los bancos de fragmentos para secuenciación, y los métodos hacen posible la medición directa de la muestra, en lugar de la medición de copias de esa muestra.
En otra realización ilustrativa, pero no limitativa, los métodos descritos en la presente memoria incluyen obtener información de secuencia para los ácidos nucleicos en la muestra problema con el uso de la secuenciación por 454 (Roche) (por ejemplo, como se describe en Margulies, M. y col.Nature437: 376-380 [2005]). La secuenciación por 454 generalmente implica dos etapas. En la primera etapa, el ADN se corta en fragmentos de aproximadamente 300 a 800 pares de bases, y los fragmentos tienen extremos romos. Los adaptadores oligonucleotídicos se unen luego a los extremos de los fragmentos. Los adaptadores sirven como cebadores para la amplificación y la secuenciación de los fragmentos. Los fragmentos se pueden unir a perlas de captura del ADN, por ejemplo, perlas recubiertas con estreptavidina con el uso de, por ejemplo, el adaptador B, que contiene la etiqueta de biotina en 5'. Los fragmentos unidos a las perlas se amplifican por PCR dentro de las gotitas de una emulsión de aceite y agua. El resultado son numerosas copias de fragmentos de ADN amplificados clonalmente en cada perla. En la segunda etapa, las perlas se capturan en pocillos (por ejemplo, pocillos cuyo tamaño está en el orden de los picolitros). La pirosecuenciación se realiza en cada fragmento de ADN en paralelo. La adición de uno o más nucleótidos genera una señal óptica que es grabada por una cámara CCD en un instrumento de secuenciación. La intensidad de la señal es proporcional al número de nucleótidos incorporados. La pirosecuenciación hace uso del pirofosfato (PPi) que se libera tras la adición de los nucleótidos. El PPi se convierte en ATP por la ATP sulfurilasa en presencia de 5'-fosfosulfato de adenosina. La luciferasa usa el ATP para convertir la luciferina en oxiluciferina, y esta reacción genera la luz que se mide y analiza.
En otra realización ilustrativa, pero no limitativa, los métodos descritos en la presente memoria incluyen la obtención de información de secuencia para los ácidos nucleicos en la muestra problema mediante el uso de la tecnología SOLiD™ (Applied Biosystems). En la secuenciación por ligación de SOLiD™, el ADN genómico se cizalla en fragmentos y los adaptadores se unen a los extremos 5' y 3' de los fragmentos para generar un banco de fragmentos. Como alternativa, los adaptadores internos se pueden introducir mediante la ligación de los adaptadores a los extremos 5' y 3' de los fragmentos, circularización de los fragmentos, digestión del fragmento circularizado para generar un adaptador interno y unión de los adaptadores a los extremos 5' y 3' de los fragmentos resultantes para generar un banco de fragmentos de parejas ligadas. A continuación, las poblaciones de perlas clonales se preparan en microrreactores que contienen perlas, cebadores, plantilla y componentes de la PCR. Después de la PCR, se desnaturalizan las plantillas y se enriquecen las perlas para separar las perlas con plantillas extendidas. Las plantillas de la superficie de las perlas seleccionadas se someten a una modificación en 3' que les permite unirse a un portaobjetos de vidrio. La secuencia se puede determinar mediante la hibridación secuencial y ligación de oligonucleótidos parcialmente aleatorios con una base determinada central (o un par de bases) que está identificada con un fluoróforo específico. Después de registrar un color, el oligonucleótido ligado se escinde y se retira, y luego se repite el procedimiento.
En otra realización ilustrativa, pero no limitativa, los métodos descritos en la presente memoria incluyen la obtención de información de secuencia para los ácidos nucleicos en la muestra problema mediante el uso de la tecnología de secuenciación de moléculas únicas en tiempo real (SMRT™) de Pacific Biosciences. En la secuenciación de SMRT, la incorporación continua de nucleótidos marcados con colorante se captura en imágenes durante la síntesis del ADN. Cada molécula de ADN polimerasa está unida a la superficie inferior de detectores individuales de longitud de onda de modo cero (detectores ZMW) que obtienen la información de las secuencias mientras se incorporan nucleótidos fosfoconectados en la cadena del cebador en crecimiento. Un detector ZMW incluye una estructura de confinamiento que permite la observación de la incorporación de un solo nucleótido por la ADN polimerasa contra un fondo de nucleótidos fluorescentes que entran y salen rápidamente del ZMW por difusión (por ejemplo, en microsegundos). Típicamente tarda varios milisegundos en incorporar un nucleótido en una cadena en crecimiento. Durante este tiempo, la etiqueta fluorescente se excita y produce una señal fluorescente, y se escinde la etiqueta fluorescente. La medición de la fluorescencia correspondiente del colorante indica la base que se incorporó. El procedimiento se repite para proporcionar una secuencia.
En otra realización ilustrativa, pero no limitativa, los métodos descritos en la presente memoria incluyen obtener información de secuencia para los ácidos nucleicos en la muestra problema mediante es uso de la secuenciación en nanoporos (por ejemplo, como se describe en Soni GV y Meller A.Clin Chem53: 1996-2001 [2007]). Las técnicas de análisis de ADN de secuenciación en nanoporos las desarrollan varias empresas, incluidas, por ejemplo, Oxford Nanopore Technologies (Oxford, Reino Unido), Sequenom, NABsys y similares. La secuenciación en nanoporos es una tecnología de secuenciación de una única molécula mediante la cual una única molécula de ADN se secuencia directamente a medida que pasa a través de un nanoporo. Un nanoporo es un pequeño orificio, típicamente del orden de 1 nanómetro de diámetro. La inmersión de un nanoporo en un líquido conductor y la aplicación de un potencial (voltaje) a través de él da como resultado una ligera corriente eléctrica debido a la conducción de iones a través del nanoporo. La cantidad de corriente que fluye es sensible al tamaño y la forma del nanoporo. A medida que una molécula de ADN pasa a través de un nanoporo, cada nucleótido en la molécula de ADN obstruye el nanoporo en un grado diferente, lo que cambia la magnitud de la corriente a través del nanoporo en diferentes grados. Por lo tanto, este cambio de la corriente a medida que la molécula de ADN pasa a través del nanoporo proporciona una lectura de la secuencia de ADN.
En otra realización ilustrativa, pero no limitante, los métodos descritos en la presente memoria incluyen la obtención de información de secuencia para los ácidos nucleicos en la muestra problema mediante el uso de la matriz de transistores de efecto de campo sensibles a la naturaleza química (chemFET) (por ejemplo, como se describe en la publicación de la solicitud de patente de los EE. UU. n.° 2009/0026082). En un ejemplo de esta técnica, las moléculas de ADN pueden colocarse en cámaras de reacción, y las moléculas de la plantilla pueden hibridarse con un cebador de secuenciación unido a una polimerasa. La incorporación de uno o más trifosfatos en una nueva cadena de ácido nucleico en el extremo 3' del cebador de secuenciación puede ser percibida como un cambio de la corriente por un chemFET. Una matriz puede tener numerosos sensores chemFET. En otro ejemplo, los ácidos nucleicos individuales pueden unirse a las perlas, y los ácidos nucleicos pueden amplificarse sobre la perla, y cada una de las perlas puede transferirse a cámaras de reacción individuales en una matriz de chemFET, en donde cada cámara tiene un sensor de chemFET, y los ácidos nucleicos pueden secuenciarse.
En otra realización, la tecnología de secuenciación de ADN es la secuenciación de moléculas únicas de Ion Torrent, que combina la tecnología de semiconductores con una química de secuenciación simple para traducir directamente la información codificada químicamente (A, C, G, T) en información digital (0, 1) en un chip semiconductor. En la naturaleza, cuando una polimerasa incorpora un nucleótido en una cadena de ADN, se libera un ion de hidrógeno como subproducto. Ion Torrent utiliza una matriz de alta densidad de pocillos micromaquinados para realizar este proceso bioquímico de una manera masiva en paralelo. Cada pocillo contiene una molécula de ADN diferente. Debajo de los pocillos hay una capa sensible a los iones y debajo de ella, un sensor de iones. Cuando se agrega un nucleótido, por ejemplo, una C, a una plantilla de ADN y luego se incorpora a una cadena de ADN, se liberará un ion de hidrógeno. La carga de este ion cambiará el pH de la solución, que puede ser detectada por el sensor de iones de Ion Torrent. El secuenciador, esencialmente el medidor de pH de estado sólido más pequeño del mundo, atribuye la base, y pasa directamente de la información química a la información digital. El secuenciador Ion Personal Genome Machine (PGM™) inunda a continuación y secuencialmente el chip con un nucleótido tras otro. Si el siguiente nucleótido que inunda el chip no coincide, no se registrará ningún cambio de voltaje ni se atribuirá ninguna base. Si hay dos bases idénticas en la cadena de ADN, el voltaje será del doble y el chip registrará la atribución de dos bases idénticas. La detección directa permite el registro de la incorporación de nucleótidos en segundos.
En otra realización, el presente método incluye obtener información de secuencia para los ácidos nucleicos en la muestra problema mediante el uso de la secuenciación por hibridación. La secuenciación por hibridación incluye poner en contacto las numerosas secuencias de polinucleótidos con las muchas sondas de polinucleótidos, en donde cada una de las muchas sondas de polinucleótidos puede estar opcionalmente unida a un sustrato. El sustrato podría ser una superficie plana que incluye una matriz de secuencias de nucleótidos conocidas. El patrón de hibridación con la matriz se puede usar para determinar las secuencias de los polinucleótidos presentes en la muestra. En otras realizaciones, cada sonda está unida a una perla, por ejemplo, una perla magnética o similar. La hibridación con las perlas se puede determinar y usar para identificar las numerosas secuencias de polinucleótidos dentro de la muestra.
En algunas realizaciones de los métodos descritos en la presente memoria, las lecturas de las secuencias son de aproximadamente 20 pb, aproximadamente 25 pb, aproximadamente 30 pb, aproximadamente 35 pb, aproximadamente 40 pb, aproximadamente 45 pb, aproximadamente 50 pb, aproximadamente 55 pb, aproximadamente 60 pb, aproximadamente 65 pb, aproximadamente 70 pb, aproximadamente 75 pb, aproximadamente 80 pb, aproximadamente 85 pb, aproximadamente 90 pb, aproximadamente 95 pb, aproximadamente 100 pb, aproximadamente 110 pb, aproximadamente 120 pb, aproximadamente 130, aproximadamente 140 pb, aproximadamente 150 pb, aproximadamente 200 pb, aproximadamente 250 pb, aproximadamente 300 pb, aproximadamente 350 pb, aproximadamente 400 pb, aproximadamente 450 pb, o de aproximadamente 500 pb. Se espera que los avances tecnológicos permitan lecturas desde un solo extremo de más de 500 pb que permitan lecturas de más de aproximadamente 1000 pb cuando se generen lecturas emparejadas. En algunas realizaciones, las lecturas emparejadas se usan para determinar secuencias de interés, que incluyen lecturas de secuencia que son de aproximadamente 20 pb a 1000 pb, de aproximadamente 50 pb a 500 pb, o de 80 pb a 150 pb. En diversas realizaciones, las lecturas emparejadas se usan para evaluar una secuencia de interés. La secuencia de interés es más larga que las lecturas. En algunas realizaciones, la secuencia de interés es de más de aproximadamente 100 pb, 500 pb, 1000 pb o 4000 pb. El mapeo de las lecturas de secuencia se logra comparando la secuencia de las lecturas con la secuencia de la referencia para determinar el origen cromosómico de la molécula de ácido nucleico secuenciada, y no se necesita información específica de la secuencia genética. Se puede permitir que un pequeño grado de discordancia (de 0 a 2 discordancias por lectura) explique los polimorfismos menores que pueden existir entre el genoma de referencia y los genomas en la muestra mixta. En algunas realizaciones, las lecturas que están alineadas con la secuencia de referencia se usan como lecturas de anclaje, y las lecturas emparejadas con las lecturas de anclaje, pero que no pueden alinearse o se alinean mal con la referencia, se usan como lecturas ancladas. En algunas realizaciones, las lecturas mal alineadas pueden tener un número porcentual relativamente grande de discordancias por lectura, por ejemplo, al menos aproximadamente el 5%, al menos aproximadamente el 10%, al menos aproximadamente el 15% o al menos aproximadamente el 20% de discordancias por lectura.
Típicamente se obtienen numerosas etiquetas de secuencia (es decir, lecturas alineadas con una secuencia de referencia) por muestra. En algunas realizaciones, al menos aproximadamente 3 x 106 etiquetas de secuencia, al menos aproximadamente 5 x 106 etiquetas de secuencia, al menos aproximadamente 8 x 106 etiquetas de secuencia, al menos aproximadamente 10 x 106 etiquetas de secuencia, al menos aproximadamente 15 x 106 etiquetas de secuencia, al menos aproximadamente 20 x 106 etiquetas de secuencia, al menos aproximadamente 30 x 106 etiquetas de secuencia, al menos aproximadamente 40 x 106 etiquetas de secuencia o al menos aproximadamente 50 x 106 etiquetas de secuencia de, por ejemplo, 100 pb se obtienen del mapeo de las lecturas sobre el genoma de referencia por muestra. En algunas realizaciones, todas las lecturas de secuencia se mapean en todas las regiones del genoma de referencia, lo que proporciona lecturas de todo el genoma. En otras realizaciones, las lecturas se mapean en una secuencia de interés.
Aparatos y sistemas para secuenciar mediante los UMI
El análisis de los datos de secuenciación y el diagnóstico derivado de ellos se realizan típicamente mediante diferentes algoritmos y programas ejecutados por ordenador. Por lo tanto, ciertas realizaciones emplean procedimientos que implican datos almacenados o transferidos a través de uno o más sistemas informáticos u otros sistemas de procesamiento. Las realizaciones descritas en la presente memoria también se refieren a un aparato para realizar estas operaciones. Este aparato puede construirse especialmente para los fines requeridos o puede ser un ordenador cualquiera (o un grupo de ordenadores) activado o reconfigurado selectivamente mediante un programa informático y/o estructura de datos almacenados en el ordenador. En algunas realizaciones, un grupo de procesadores realiza algunas o todas las operaciones analíticas citadas en colaboración (por ejemplo, a través de una red o computación en la nube) y/o en paralelo. Un procesador o grupo de procesadores para realizar los métodos descritos en la presente memoria puede ser de varios tipos, incluidos microcontroladores y microprocesadores, tales como dispositivos programables (por ejemplo, CPLD y FPGA) y dispositivos no programables, tales como ASIC con matrices de puertas lógicas o microprocesadores de uso general.
Una realización da a conocer un sistema para usar en la determinación de una secuencia con baja frecuencia alélica en una muestra problema que incluye ácidos nucleicos, en donde el sistema incluye un secuenciador para recibir una muestra de ácido nucleico y proporciona información de la secuencia de los ácidos nucleicos de la muestra; un procesador; y un medio de almacenamiento legible por ordenador que ha almacenado en él las instrucciones para la ejecución en dicho procesador para determinar una secuencia de interés en la muestra problema, al: (a) recibir secuencias de los muchos polinucleótidos amplificados, en donde los muchos polinucleótidos amplificados se obtienen mediante la amplificación de los fragmentos de ADN bicatenario en la muestra que incluye la secuencia de interés y la unión de adaptadores a los fragmentos de ADN bicatenario; (b) identificar los numerosos UMI físicos que se encuentran en uno de los muchos polinucleótidos amplificados, en donde cada UMI físico procede de un adaptador unido a uno de los fragmentos de ADN bicatenarios; (c) identificar los numerosos UMI virtuales que se encuentran en uno de los muchos polinucleótidos amplificados, en donde cada UMI virtual procede de una molécula individual de uno de los fragmentos de ADN bicatenarios; y (d) determinar secuencias de los fragmentos de ADN bicatenarios usando las secuencias de los muchos polinucleótidos amplificados, los numerosos UMI físicos y los numerosos UMI virtuales, con lo que se reducen así los errores en las secuencias determinadas de los fragmentos de ADN bicatenarios.
Otra realización da a conocer un sistema que incluye un secuenciador para recibir una muestra de ácido nucleico y proporcionar información de secuencia del ácido nucleico de la muestra; un procesador y un medio de almacenamiento legible por ordenador que tiene almacenado en él instrucciones de ejecución en dicho procesador para determinar una secuencia de interés en la muestra problema. Las instrucciones incluyen: (a) aplicar adaptadores a ambos extremos de los fragmentos de ADN en la muestra, en donde cada uno de los adaptadores incluye una región hibridada bicatenaria, un brazo 5' monocatenario, un brazo 3' monocatenario y un índice molecular único (UMI) no aleatorio en una hebra o en cada hebra de los adaptadores, obteniendo así productos de adaptador unido al ADN; (b) amplificar los productos ADN-adaptador para obtener numerosos polinucleótidos amplificados; (c) secuenciar los muchos polinucleótidos amplificados, con lo que se obtienen así las muchas lecturas asociadas a los numerosos UMI no aleatorios; (d) de las muchas lecturas, identificar las lecturas que comparten un UMI no aleatorio común; y (e) a partir de las lecturas identificadas que comparten el UMI no aleatorio común, determinar la secuencia de al menos una porción de un fragmento de ADN, de la muestra, que tiene un adaptador aplicado con el UMI no aleatorio común. En algunas realizaciones, las instrucciones incluyen, además: de las lecturas que comparten el UMI no aleatorio común, la selección de lecturas que comparten el UMI no aleatorio común y una posición de lectura común, y en donde en la determinación de la secuencia del fragmento de ADN en (e) solo se usan lecturas que comparten el UMI no aleatorio común y la posición de lectura común en una secuencia de referencia.
En otra realización, las instrucciones incluyen: (a) aplicar adaptadores a ambos extremos de los fragmentos de ADN bicatenarios en la muestra, en donde los adaptadores incluyen cada uno una región hibridada bicatenaria, un brazo 5' monocatenario, un brazo 3’ monocatenario y un índice molecular único (UMI) no aleatorio en una hebra o en cada hebra de los adaptadores, con lo que se obtienen así productos de adaptadores unidos al ADN, en los que el UMI no aleatorio se puede combinar con otra información para identificar de manera única una molécula individual de los fragmentos de ADN bicatenarios; (b) amplificar ambas cadenas de los productos ADN-adaptadores para obtener muchos polinucleótidos amplificados; (c) secuenciar los muchos polinucleótidos amplificados, con lo que se obtienen así las muchas lecturas cada una asociada a un UMI no aleatorio; (d) identificar numerosos UMI no aleatorios asociados a las muchas lecturas; y (e) usar las muchas lecturas y los numerosos UMI no aleatorios para determinar secuencias de los fragmentos de ADN bicatenarios en la muestra.
En algunas realizaciones de cualquiera de los sistemas dados a conocer en la presente memoria, el secuenciador está configurado para realizar la secuenciación de última generación (NGS). En algunas realizaciones, el secuenciador está configurado para realizar una secuenciación masiva en paralelo mediante la secuenciación por síntesis con terminadores coloreados reversibles. En otras realizaciones, el secuenciador está configurado para realizar la secuenciación por ligación. En otras realizaciones más, el secuenciador está configurado para realizar una secuenciación de molécula única.
Además, ciertas realizaciones se refieren a medios tangibles y/o no transitorios legibles por ordenador o productos de programas informáticos que incluyen instrucciones de programa y/o datos (incluidas las estructuras de datos) para realizar diversas operaciones implementadas por ordenador. Los ejemplos de los medios legibles por ordenador incluyen, entre otros, dispositivos de memoria semiconductores, medios magnéticos tales como unidades de disco, cinta magnética, medios ópticos tales como CD, medios magnetoópticos y equipos informáticos especialmente configurados para almacenar y realizar las instrucciones del programa, tales como dispositivos de memoria de solo lectura (ROM) y memoria de acceso aleatorio (RAM). Los medios legibles por ordenador pueden ser controlados directamente por un usuario final o los medios pueden ser controlados indirectamente por el usuario final. Los ejemplos de medios controlados directamente incluyen los medios ubicados en una instalación para usuarios y/o los medios que no se comparten con otras entidades. Los ejemplos de medios controlados indirectamente incluyen los medios accesibles indirectamente para el usuario a través de una red externa y/o un servicio que proporciona recursos compartidos, tales como la "nube". Los ejemplos de instrucciones del programa incluyen tanto el código máquina, como el producido por un compilador, y los archivos que contienen un código de alto nivel que el ordenador puede ejecutar con un intérprete.
En diversas realizaciones, los datos o información empleados en los métodos y aparatos descritos se proporcionan en un formato electrónico. Dichos datos o información pueden incluir lecturas y etiquetas procedentes de una muestra de ácido nucleico, secuencias de referencia (incluidas las secuencias de referencia que proporcionan únicamente, o principalmente, polimorfismos), atribuciones tales como atribuciones sobre el diagnóstico de cáncer, recomendaciones de asesoramiento, diagnósticos y similares. Tal y como se usa en la presente memoria, los datos u otra información proporcionada en formato electrónico están disponibles para el almacenamiento en un ordenador y la transmisión entre ordenadores. Convencionalmente, los datos en formato electrónico se proporcionan digitalmente y se pueden almacenar como bits y/o bytes en diferentes estructuras de datos, listas, bases de datos, etc. Los datos se pueden incorporar de forma electrónica, óptica, etc.
Una realización da a conocer un producto de programa informático para generar una salida que indica la secuencia de un fragmento de ADN de interés en una muestra problema. El producto informático puede contener instrucciones para realizar uno o más de los métodos descritos anteriormente para determinar una secuencia de interés. Según se explicó, el producto informático puede incluir un medio legible por ordenador no transitorio y/o tangible que tiene una lógica ejecutable o compilable por ordenador (por ejemplo, instrucciones) grabada en él para permitir que un procesador determine una secuencia de interés. En un ejemplo, el producto informático incluye un medio legible por ordenador que tiene una lógica ejecutable o compilable por ordenador (por ejemplo, instrucciones) grabada en él para permitir que un procesador diagnostique una afección o determine una secuencia de ácido nucleico de interés.
Debe entenderse que no es práctico, o incluso posible en la mayoría de los casos, que un ser humano sin ayuda realice las operaciones computacionales de los métodos descritos en la presente memoria. Por ejemplo, mapear una sola lectura de 30 pb de una muestra a cualquiera de los cromosomas humanos puede requerir años de esfuerzo sin la ayuda de un aparato computacional. Por supuesto, el problema se agrava porque las asignaciones fiables de mutaciones de baja frecuencia alélica requieren por lo general el mapeo de miles (por ejemplo, al menos aproximadamente 10000) o incluso millones de lecturas en uno o más cromosomas.
Los métodos descritos en la presente memoria pueden realizarse con el uso de un sistema para determinar una secuencia de interés en una muestra problema. El sistema puede incluir: (a) un secuenciador para recibir ácidos nucleicos de la muestra problema que proporciona información de la secuencia del ácido nucleico de la muestra; (b) un procesador; y (c) uno o más medios de almacenamiento legibles por ordenador que tienen almacenadas las instrucciones de ejecución en dicho procesador para determinar una secuencia de interés en la muestra problema. En algunas realizaciones, las instrucciones para los métodos vienen en un medio legible por ordenador que tiene almacenadas en él instrucciones legibles por ordenador para llevar a cabo un método para determinar la secuencia de interés. Por lo tanto, una realización da a conocer un producto de programa informático que incluye un código de programa de almacenamiento en medio legible por ordenador no transitorio que, cuando se ejecuta en uno o más procesadores de un sistema informático, hace que el sistema informático realice un método para determinar la secuencia de los fragmentos de ácido nucleico en una muestra problema. El código del programa puede incluir: (a) código para recibir las secuencias de muchos polinucleótidos amplificados, en el que los muchos polinucleótidos amplificados se obtienen por la amplificación de los fragmentos de ADN bicatenarios en la muestra, incluida la secuencia de interés, y la unión de los adaptadores a los fragmentos de ADN bicatenarios; (b) código para identificar los numerosos UMI físicos que se encuentran en uno de los muchos polinucleótidos amplificados, en donde cada UMI físico procede de un adaptador unido a uno de los fragmentos de ADN bicatenarios; (c) código para identificar los numerosos UMI virtuales que se encuentran en uno de los muchos polinucleótidos amplificados, en donde cada UMI virtual procede de una molécula individual de uno de los fragmentos de ADN bicatenario; y (d) código para determinar la secuencia de los fragmentos de ADN bicatenario mediante el uso de la secuencia de los muchos polinucleótidos amplificados, los numerosos UMI físicos y los numerosos UMI virtuales, gracias a lo cual se reducen los errores en las secuencias determinadas de los fragmentos de ADN bicatenario.
En algunas realizaciones, los UMI físicos incluyen UMI no aleatorios. En otras realizaciones, los UMI físicos incluyen UMI aleatorios.
Otra realización da a conocer un producto de programa informático que incluye un código de programa de almacenamiento no transitorio y legible por ordenador que, cuando es ejecutado por uno o más procesadores de un sistema informático, hace que el sistema informático realice un método para determinar la secuencia de los fragmentos de ácido nucleico en una muestra problema. El código del programa puede incluir: (a) código para aplicar los adaptadores a ambos extremos de los fragmentos de ADN en la muestra, en donde los adaptadores incluyen cada uno una región hibridada bicatenaria, un brazo 5' monocatenario, un brazo 3' monocatenario, y un índice molecular único (UMI) no aleatorio en una hebra o en cada hebra de los adaptadores, con lo que se obtienen así los productos adaptadores unidos al ADN; (b) código para amplificar los productos ADN-adaptadores para obtener muchos polinucleótidos amplificados; (c) código para secuenciar los muchos polinucleótidos amplificados, con lo que se obtienen así las muchas lecturas asociadas a los numerosos UMI no aleatorios; (d) código para identificar, a partir de las muchas lecturas, las lectura que comparten un UMI no aleatorio común; y (e) código para determinar, a partir de las lecturas identificadas que comparten el UMI no aleatorio común, la secuencia de al menos una porción de un fragmento de ADN, de la muestra, que tiene un adaptador aplicado con el UMI no aleatorio común.
En otra realización, los códigos del programa incluyen: (a) código para aplicar adaptadores a ambos extremos de los fragmentos de ADN bicatenarios en la muestra, en donde los adaptadores incluyen una región hibridada bicatenaria, un brazo 5' monocatenario, un brazo 3' monocatenario y un índice molecular único (UMI) no aleatorio en una cadena o en cada cadena de los adaptadores, con lo que se obtienen así los productos de adaptadores unidos al ADN, en donde el UMI no aleatorio se puede combinar con otra información para identificar de manera única una molécula individual de los fragmentos de ADN bicatenarios; (b) código para amplificar ambas cadenas de los productos ADN-adaptador para obtener numerosos polinucleótidos amplificados; (c) código para secuenciar los muchos polinucleótidos amplificados, con lo que se obtienen así muchas lecturas cada una asociada a un UMI no aleatorio; (d) identificar los numerosos UMI no aleatorios asociados a las muchas lecturas; y (e) código para usar las muchas lecturas y los numerosos UMI no aleatorios para determinar la secuencia de los fragmentos de ADN bicatenarios en la muestra.
En algunas realizaciones, las instrucciones pueden incluir además la grabación automática de información pertinente al método. El registro médico del paciente lo puede mantener, por ejemplo, un laboratorio, consultorio médico, un hospital, una organización para el mantenimiento de la salud, una compañía de seguros o un sitio web de registros médicos personales. Además, según los resultados del análisis realizado por el procesador, el método puede implicar además prescribir, iniciar y/o alterar el tratamiento de un sujeto humano del que se tomó la muestra problema. Esto puede implicar la realización de una o más pruebas o análisis adicionales en otras muestras tomadas del sujeto.
Los métodos descritos también se pueden realizar con un sistema de procesamiento informático que está adaptado o configurado para realizar un método para determinar una secuencia de interés. Una realización da a conocer un sistema de procesamiento informático que está adaptado o configurado para realizar un método como se describe en la presente memoria. En una realización, el aparato incluye un dispositivo de secuenciación adaptado o configurado para secuenciar al menos una porción de las moléculas de ácido nucleico en una muestra para obtener el tipo de información de secuencia descrita en otra parte de la presente memoria. El aparato también puede incluir componentes para procesar la muestra. Dichos componentes se describen en otra parte de la presente memoria.
La secuencia u otros datos se pueden ingresarse en un ordenador o almacenarse en un medio legible por ordenador, ya sea directa o indirectamente. En una realización, un sistema informático está directamente acoplado a un dispositivo de secuenciación que lee y/o analiza secuencias de ácidos nucleicos de muestras. Las secuencias u otra información de dichas herramientas se introducen a través de la interfaz en el sistema informático. Como alternativa, las secuencias procesadas por el sistema se introducen desde una fuente de almacenamiento de secuencias, como una base de datos u otro repositorio. Una vez disponible para el aparato de procesamiento, un dispositivo de memoria o dispositivo de almacenamiento masivo intermedia o almacena, al menos temporalmente, las secuencias de los ácidos nucleicos. Además, el dispositivo de memoria puede almacenar recuentos de etiquetas para diferentes cromosomas o genomas, etc. La memoria también puede almacenar diversas rutinas y/o programas para analizar la presentación de la secuencia o los datos mapeados. Dichos programas/rutinas pueden incluir programas para realizar análisis estadísticos, etc.
En un ejemplo, un usuario introduce una muestra en un aparato de secuenciación. Los datos se recopilan y/o analizan mediante el aparato de secuenciación que está conectado a un ordenador. El programa informático en el ordenador permite la recolección y/o análisis de datos. Los datos pueden almacenarse, mostrarse (a través de un monitor u otro dispositivo similar) y/o enviarse a otra ubicación. El ordenador puede estar conectado a Internet, que se utiliza para transmitir datos a un dispositivo portátil utilizado por un usuario remoto (por ejemplo, un médico, científico o analista). Se entiende que los datos pueden almacenarse y/o analizarse antes de la transmisión. En algunas realizaciones, los datos sin procesar se recopilan y se envían a un usuario o aparato remoto que analizará y/o almacenará los datos. La transmisión puede ocurrir vía Internet, pero también puede ocurrir vía satélite u otra conexión. Como alternativa, los datos se pueden almacenar en un medio legible por ordenador y el medio se puede enviar a un usuario final (por ejemplo, por correo). El usuario remoto puede estar en la misma ubicación geográfica o en una diferente, incluido, entre otros, un edificio, ciudad, estado, país o continente.
En algunas realizaciones, los métodos también incluyen recopilar datos con respecto a muchas secuencias de polinucleótidos (por ejemplo, lecturas, etiquetas y/o secuencia de cromosomas de referencia) y enviar los datos a un ordenador u otro sistema computacional. Por ejemplo, el ordenador puede estar conectado a un equipo de laboratorio, por ejemplo, un aparato de recogida de muestras, un aparato de amplificación de nucleótidos, un aparato de secuenciación de nucleótidos o un aparato de hibridación. El ordenador puede recopilar los datos aplicables reunidos por el dispositivo de laboratorio. Los datos se pueden almacenar en un ordenador en cualquier etapa, por ejemplo, mientras se recopilan en tiempo real, antes del envío, durante o junto con el envío, o después del envío. Los datos se pueden almacenar en un medio legible por ordenador que se puede extraer del ordenador. Los datos recopilados o almacenados se pueden transmitir desde el ordenador a una ubicación remota, por ejemplo, a través de una red local o una red de área amplia como Internet. En la ubicación remota se pueden realizar varias operaciones en los datos transmitidos, tal como se describe a continuación.
Entre los tipos de datos formateados electrónicamente que pueden almacenarse, transmitirse, analizarse y/o manipularse en sistemas, aparatos y métodos descritos en la presente memoria se encuentran los siguientes:
Lecturas obtenidas por secuenciación de ácidos nucleicos en una muestra problema
Etiquetas obtenidas al alinear las lecturas con un genoma de referencia u otra secuencia o secuencias de referencia
El genoma o secuencia de referencia
Umbrales para atribuir una muestra problema entre afectada, no afectada o sin asignación
Las atribuciones reales de afecciones médicas relacionadas con la secuencia de interés.
Diagnósticos (estado clínico asociado a las atribuciones)
Recomendaciones para pruebas adicionales derivadas de las atribuciones y/o diagnósticos
Planes de tratamiento y/o seguimiento derivados de las atribuciones y/o diagnósticos
Estos diversos tipos de datos pueden obtenerse, almacenarse, transmitirse, analizarse y/o manipularse en una o más ubicaciones mediante el uso de aparatos distintos. Las opciones de procesamiento abarcan un amplio espectro. En un extremo del espectro, toda o gran parte de esta información se almacena y utiliza en el lugar donde se procesa la muestra problema, por ejemplo, el consultorio de un médico u otro entorno clínico. En otro extremo, la muestra se obtiene en una ubicación, se procesa y, opcionalmente, se secuencia en una ubicación diferente, las lecturas se alinean y las asignaciones se realizan en una o más ubicaciones diferentes, y los diagnósticos, recomendaciones y/o planes se preparan en otra ubicación diferente (que puede ser una ubicación donde se obtuvo la muestra).
En diversas realizaciones, las lecturas se generan con el aparato de secuenciación y luego se transmiten a un sitio remoto donde se procesan para determinar una secuencia de interés. En esta ubicación remota, como ejemplo, las lecturas se alinean con una secuencia de referencia para producir el anclaje y las lecturas ancladas. Entre las operaciones de procesamiento que pueden emplearse en ubicaciones distintas se encuentran las siguientes:
Recogida de la muestra
Procesamiento de la muestra antes de la secuenciación
Secuenciación
Análisis de los datos de secuencia y derivación según las atribuciones médicas
Diagnóstico
Informar sobre un diagnóstico y/o una atribución al paciente o al personal sanitario
Desarrollo de un plan para otros tratamientos, pruebas y/o seguimiento
Ejecución del plan
Asesoramiento
Cualquiera o varias de estas operaciones pueden automatizarse como se describe en otra parte de la presente memoria. Típicamente, la secuenciación y el análisis de los datos de secuencia y la derivación según las atribuciones médicas se realizarán computacionalmente. Las otras operaciones se pueden realizar de forma manual o automática.
En la figura 6 se muestra una realización de un sistema disperso para producir una atribución o diagnóstico a partir de una muestra problema. La ubicación de recogida de muestras 01 se utiliza para obtener una muestra problema de un paciente. Luego, las muestras se introdujeron en una ubicación 03 de procesamiento y de secuenciación donde la muestra problema puede procesarse y secuenciarse como se describe anteriormente. La ubicación 03 incluye un aparato para procesar la muestra, así como un aparato para secuenciar la muestra procesada. El resultado de la secuenciación, como se describe en otra parte de la presente memoria, es una colección de lecturas que típicamente se proporcionan en formato electrónico y se proporcionan a una red como Internet, que se indica con el número de referencia 05 en la figura 6.
Los datos de las secuencias se proporcionan a una ubicación remota 07 donde se realizan análisis y se generan atribuciones. Esta ubicación puede incluir uno o más dispositivos computacionales potentes como ordenadores o procesadores. Después de que los recursos computacionales de la ubicación 07 hayan completado su análisis y generado una atribución a partir de la información de secuencia recibida, la atribución se retransmite a la red 05. En algunas realizaciones, no solo se genera una atribución en la ubicación 07, sino que también se genera un diagnóstico asociado. La atribución y/o diagnóstico se transmiten entonces a través de la red y de regreso a la ubicación 01 de recogida de muestras como se ilustra en la figura 6. Como se explicó, esta es simplemente una de las muchas variaciones sobre cómo se pueden dividir las diversas operaciones asociadas con la generación de una atribución o diagnóstico entre varias ubicaciones. Una variante común implica que la introducción de la colección de muestras, el procesamiento y la secuenciación se hacen en una sola ubicación. Otra variación implica que el procesamiento y la secuenciación se hacen en la misma ubicación que el análisis y la generación de atribuciones.
Experimental
Ejemplo 1
Supresión de errores con el uso de los UMI físicos aleatorios y los UMI virtuales
En la figura 7A y la figura 7B se muestran datos experimentales que demuestran la eficacia de la supresión de errores con el uso de los métodos descritos en la presente memoria. Los experimentadores utilizaron ADNg cizallado de NA12878. Utilizaron la preparación del banco de fragmentos con TrySeq y el enriquecimiento con un panel personalizado (~130 kb). La secuenciación se realizó a 2 x 150 pb con el modo rápido de HiSeq2500, y la cobertura deseada de promedio fue de ~10 000X. En la figura 7A se muestra el perfil de la tasa de errores (frecuencia alélica de la segunda base más alta) de bases de alta calidad (>Q30) con el uso del método estándar (la tasa de error promedio es del 0,04%). En la figura 7B se muestra el perfil de la tasa de error del colapso/encadenamiento de UMI (la tasa de error promedio es del 0,007%). Tenga en cuenta que estos resultados se basan en el código prototipo, y se puede lograr una mayor reducción de la tasa de error con métodos refinados.
Ejemplo 2
Supresión de errores con el uso de los UMI físicos no aleatorios y la posición
En la figura 8 se muestran datos que indican que el uso únicamente de la información de posición para colapsar las lecturas tiende a colapsar las lecturas que en realidad proceden de diferentes moléculas originales. Este fenómeno también se conoce como colisión de las lecturas. Como resultado, el método tiende a subestimar el número de fragmentos en una muestra. En el eje Y de la figura 8 se muestran los recuentos de fragmentos observados al colapsar las lecturas solo con el uso de la información de posición. Entonces, en el eje X de la figura 8 se muestra el recuento de los fragmentos estimados que factorizan en diferentes genotipos, como diferentes SNP y otras diferencias genotípicas. Como se muestra en la figura, los recuentos de fragmentos observados son menores que los recuentos de fragmentos ajustados por el genotipo, lo que indica una subestimación y una colisión de lecturas cuando solo se usa la información de posición para colapsar las lecturas e identificar los fragmentos.
En la figura 9 se representan gráficamente los datos empíricos que muestran que el uso de información de posición y de los UMI no aleatorios para colapsar las lecturas puede proporcionar estimaciones más precisas de los fragmentos que el uso únicamente de información de posición. El UMI no aleatorio es un UMI bicatenario de 6 pb ubicado en el extremo bicatenario del adaptador, y se selecciona el UMI no aleatorio de uno de los 96 UMI diferentes. En el eje Y se representa el recuento medio de los fragmentos colapsados, con el método de colapso basado en la posición a la izquierda de cada pareja de barras, y el método de colapso basado en los UMI y en la posición a la derecha de cada pareja de barras. Los tres pares de barras de la izquierda muestran datos para muestras de ADN sin células de tres entradas crecientes. Los tres pares de barras de la derecha muestran datos de tres muestras de ADN genómico cizallado. Las comparaciones por pares de los dos métodos de colapso muestran que el colapso basado en el UMI y en la posición proporciona una estimación más alta del número de fragmentos que únicamente el uso de la posición para el colapso. La comparación de los dos métodos de colapso muestra mayores diferencias para las muestras de ADN libres de células que las cuatro muestras de ADN genómico. Además, la diferencia para las muestras de ADN libres de células aumenta a medida que aumenta la entrada de muestras. Los datos sugieren que el colapso basado en la información de posición y los UMI no aleatorios puede corregir la colisión de lecturas y la subestimación de fragmentos, sobre todo para el ADN libre de células.
En la figura 10 se muestran los diferentes errores que se producen en tres muestras procesadas con UMI aleatorios en forma de tabla. Las primeras tres filas de datos indican los porcentajes de diferentes tipos de error en 43 muestras. La última fila muestra la tasa de error promedio de las muestras. Como se muestra en la tabla, el 97,58% de los UMI no contienen errores y el 1,07% de los UMI contiene un error recuperable. Más del 98,65% de los UMI son utilizables para indexar cada uno de los fragmentos de ADN. Gran parte del resto aún puede utilizarse cuando se combina con información contextual.
En la figura 11A se muestra la sensibilidad y la selectividad de asignar la mutación somática y la CNV en una muestra de ADNg con el uso de los dos métodos de colapso con dos herramientas diferentes: VarScan y Denovo. Aplicado con la herramienta VarScan, el colapso con la información de los UMI y la posición proporciona una sensibilidad ligeramente mayor y notablemente una mejor selectividad (tasa de falsos positivos más baja), como lo indica un desplazamiento de la curva ROC hacia la esquina superior izquierda cuando el UMI se utiliza con la posición. Aplicado con la herramienta Denovo, el colapso con la información del UMI y la posición proporciona una sensibilidad notablemente mayor.
En las figuras 11B-C se muestran la selectividad (es decir, tasa de falsos positivos) de asignar la mutación somática y la CNV en tres muestras de cfDNA que tienen entradas de muestra crecientes con el uso de los dos métodos de colapso con dos herramientas diferentes: VarScan y Denovo. Aplicado con la herramienta VarScan, el colapso con el UMI y la información de la posición proporciona una selectividad notablemente mejor (tasa de falsos positivos más baja) para las tres muestras. Aplicado con la herramienta Denovo, el colapso con el UMI y la información de posición proporciona una mejor selectividad (menor tasa de falsa alarma) solo en la muestra que tiene la entrada más grande.
La presente descripción puede realizarse de otras formas específicas sin apartarse de su espíritu o de sus características esenciales. Las realizaciones descritas deben considerarse en todos los aspectos solo como ilustrativas y no restrictivas. El alcance de la invención se indica mediante las reivindicaciones adjuntas más que por la descripción anterior.

Claims (13)

REIVINDICACIONES
1. Un método para secuenciar moléculas de ácido nucleico a partir de una muestra con el uso de índices moleculares únicos (UMI), en el que cada índice molecular único (UMI) es una secuencia oligonucleotídica que se puede usar para identificar una molécula individual de un fragmento de ADN bicatenario en la muestra, que comprende
(a) aplicar adaptadores a ambos extremos de los fragmentos de ADN bicatenario en la muestra para obtener productos de adaptador unido a ADN, en donde cada adaptador comprende una región hibridada bicatenaria, un brazo 5' monocatenario, un brazo 3' monocatenario, y un UMI físico en una hebra o en cada hebra del adaptador, en donde el UMI físico se selecciona de numerosos UMI físicos, en donde los numerosos UMI físicos comprenden UMI no aleatorios y cada UMI no aleatorio difiere de cualquier otro UMI no aleatorio de los adaptadores en al menos dos nucleótidos en las posiciones de secuencia correspondientes de los UMI no aleatorios, y en donde cada fragmento de ADN bicatenario en la muestra comprende un UMI virtual en cada cadena del fragmento de ADN bicatenario, en donde el UMI virtual es una única subsecuencia en un fragmento de ADN en la muestra; (b) amplificar ambas cadenas de los productos ADN-adaptador para obtener numerosos polinucleótidos amplificados; (c) secuenciar los muchos polinucleótidos amplificados, con lo que se obtienen así numerosas lecturas, cada una de las cuales comprende una secuencia de UMI físico correspondiente a un UMI físico en un adaptador y una secuencia de UMI virtual correspondiente a un UMI virtual en un fragmento de ADN bicatenario en la muestra; (d) identificar numerosas secuencias de UMI físicos para las muchas lecturas;
(e) identificar numerosas secuencias de UMI virtuales para las muchas lecturas; y
(f) determinar secuencias de los fragmentos de ADN bicatenarios en la muestra con el uso de las muchas lecturas obtenidas en (c), las muchas secuencias de UMI físicos identificadas en (d) y las muchas secuencias de UMI virtuales identificadas en (e), en donde (f) comprende:
(i) combinar, para cada fragmento de ADN bicatenario, una primera pluralidad de lecturas, cada una de las cuales comprende una primera secuencia de UMI físico de las muchas secuencias de UMI físicos y una primera secuencia de UMI virtual de las muchas secuencias de UMI para determinar una secuencia de nucleótidos de consenso; y
(ii) determinar una secuencia del fragmento de ADN bicatenario con el uso de la secuencia de nucleótidos de consenso.
2. El método de acuerdo con la reivindicación 1, en donde (f)(i) comprende:
combinar la primera pluralidad de lecturas y una segunda pluralidad de lecturas para determinar la secuencia de nucleótidos de consenso, en donde la segunda pluralidad de lecturas comprende, cada una, una segunda secuencia de UMI físico y la primera secuencia de UMI virtual.
3. El método de acuerdo con la reivindicación 1, en donde los numerosos UMI físicos incluyen no más de aproximadamente 10000 UMI no aleatorios únicos; preferiblemente, no más de aproximadamente 1000 UMI no aleatorios únicos; más preferiblemente, no más de aproximadamente 500 UMI no aleatorios únicos; más preferiblemente, no más de aproximadamente 100 UMI no aleatorios únicos; y lo más preferiblemente, aproximadamente 96 UMI no aleatorios únicos.
4. El método de acuerdo con la reivindicación 1, en donde los numerosos UMI físicos incluyen menos de 12 nucleótidos; preferiblemente no más de 6 nucleótidos; y más preferiblemente no más de 4 nucleótidos.
5. El método de acuerdo con la reivindicación 1, en el que los adaptadores comprenden cada uno un UMI físico en cada hebra de los adaptadores en la región hibridada bicatenaria; opcionalmente en donde el UMI físico está en, o cerca de, un extremo de la región hibridada bicatenaria, en donde dicho extremo de la región hibridada bicatenaria está en el extremo opuesto al brazo 3' o al brazo 5'; opcionalmente en donde el UMI físico está en dicho extremo de la región hibridada bicatenaria, o está a un nucleótido de dicho extremo de la región hibridada bicatenaria; opcionalmente en el que los adaptadores comprenden cada uno un trinucleótido 5'-TGG-3' o un trinucleótido 3'-ACC-5' en la región hibridada bicatenaria adyacente a un UMI físico; opcionalmente en el que los adaptadores comprenden cada uno una secuencia cebadora de lectura en cada cadena de la región hibridada bicatenaria.
6. El método de acuerdo con la reivindicación 1, en el que los adaptadores comprenden cada uno un UMI físico en una sola hebra de los adaptadores en el brazo 5' monocatenario o en el brazo 3' monocatenario.
7. El método de acuerdo con la reivindicación 6, en donde (f) comprende:
(i) colapsar las lecturas que tienen una misma primera secuencia de UMI físico en un primer grupo para obtener una primera secuencia de nucleótidos de consenso;
(ii) colapsar las lecturas que tienen una misma segunda secuencia de UMI físico en un segundo grupo para obtener una segunda secuencia de nucleótidos de consenso; y
(iii) determinar, con el uso de las primera y segunda secuencias de nucleótidos de consenso, una secuencia de uno de los fragmentos de ADN bicatenario en la muestra; opcionalmente en donde (iii) comprende: (1) obtener, con el uso de la información de localización e información de secuencia de la primera y segunda secuencias de nucleótidos de consenso, una tercera secuencia de nucleótidos de consenso, y (2) determinar, con el uso de la tercera secuencia de nucleótidos de consenso, la secuencia de uno de los fragmentos de ADN bicatenario.
8. El método de acuerdo con la reivindicación 7, en el que (e) comprende identificar las muchas secuencias de UMI virtuales, mientras que los adaptadores comprenden cada uno el UMI físico solo en el brazo 5' monocatenario o en el brazo 3' monocatenario; opcionalmente en donde (f) comprende:
(i) combinar las lecturas que tienen una primera secuencia de UMI físico y al menos una secuencia de UMI virtual en una dirección de lectura y las lecturas que tienen una segunda secuencia de UMI físico y la al menos una secuencia de UMI virtual en la dirección de lectura para determinar una secuencia de nucleótidos de consenso; y
(ii) determinar una secuencia de uno de los fragmentos de ADN bicatenario en la muestra con el uso de la secuencia de nucleótidos de consenso.
9. El método de acuerdo con la reivindicación 1, en donde los adaptadores comprenden cada uno un UMI físico en cada hebra de los adaptadores en una región bicatenaria de los adaptadores, en donde el UMI físico en una hebra es complementario al UMI físico en la otra hebra; opcionalmente en donde (f) comprende:
(i) combinar las lecturas que tienen una primera secuencia de UMI físico, al menos una secuencia de UMI virtual y una segunda secuencia de UMI físico en la dirección de 5' a 3', y las lecturas que tienen la segunda secuencia de UMI físico, la al menos una secuencia de UMI virtual, y el primer UMI físico en la dirección 5' a 3' para determinar una secuencia de nucleótidos de consenso; y
(ii) determinar una secuencia de uno de los fragmentos de ADN bicatenario en la muestra con el uso de la secuencia de nucleótidos de consenso.
10. El método de acuerdo con la reivindicación 1, en donde los adaptadores comprenden cada uno un primer UMI físico en un brazo 3' del adaptador y un segundo UMI físico en un brazo 5' del adaptador, en donde el primer UMI físico y el segundo UMI físico no son complementarios el uno al otro; opcionalmente en donde (f) comprende:
(i) combinar las lecturas que tienen una primera secuencia de UMI físico, al menos una secuencia de UMI virtual, y una segunda secuencia de UMI físico en la dirección de 5' a 3', y las lecturas que tienen una tercera secuencia de UMI físico, la al menos una secuencia de UMI virtual, y una cuarta secuencia de UMI físico en la dirección de 5' a 3' para determinar una secuencia de nucleótidos de consenso; y
(ii) determinar una secuencia de uno de los fragmentos de ADN bicatenario en la muestra con el uso de la secuencia de nucleótidos de consenso.
11. El método de acuerdo con la reivindicación 1, en el que al menos algunos de los UMI virtuales proceden de subsecuencias en, o cerca de, los extremos de los fragmentos de ADN bicatenario en la muestra; opcionalmente en el que uno o más UMI físicos y/o uno o más UMI virtuales están asociados de manera única con un fragmento de ADN bicatenario en la muestra; opcionalmente en el que los fragmentos de ADN bicatenario en la muestra comprenden más de aproximadamente 1000 fragmentos de ADN; opcionalmente en donde los numerosos UMI virtuales comprenden UMI de aproximadamente 6 pb a aproximadamente 24 pb, preferiblemente de aproximadamente 6 pb a aproximadamente 10 pb.
12. El método de acuerdo con la reivindicación 1, en donde obtener las muchas lecturas en la operación (c) comprende: obtener dos lecturas emparejadas de cada uno de los polinucleótidos amplificados, en donde las dos lecturas emparejadas comprenden una lectura larga y una lectura corta, en donde la lectura larga es más larga que la lectura corta; opcionalmente en donde (f) comprende:
combinar las parejas de lecturas que comprenden una primera secuencia de UMI físico en un primer grupo y combinar las parejas de lecturas que comprenden una segunda secuencia de UMI físico en un segundo grupo, en donde la primera y la segunda secuencia de UMI físicos están asociadas de manera única a un fragmento bicatenario en la muestra; y
determinar la secuencia del fragmento bicatenario en la muestra con el uso de la información de secuencia de las lecturas largas del primer grupo y la información de secuencia de las lecturas largas del segundo grupo; opcionalmente en donde la lectura larga tiene una longitud de lectura de aproximadamente 500 pb o más; opcionalmente en donde la lectura corta tiene una longitud de lectura de aproximadamente 50 pb o menos.
13. El método de acuerdo con la reivindicación 1, en donde los polinucleótidos amplificados incluyen un alelo que tiene una frecuencia alélica inferior a aproximadamente el 1%; opcionalmente en el que los polinucleótidos amplificados incluyen una molécula de ADN libre de células que se origina en un tumor, y el alelo es indicativo del tumor.
ES16720269T 2015-04-28 2016-04-20 Supresión de errores en fragmentos de ADN secuenciados mediante el uso de lecturas redundantes con índices moleculares únicos (UMI) Active ES2799074T5 (es)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201562153699P 2015-04-28 2015-04-28
US201562193469P 2015-07-16 2015-07-16
US201562269485P 2015-12-18 2015-12-18
PCT/US2016/028430 WO2016176091A1 (en) 2015-04-28 2016-04-20 Error suppression in sequenced dna fragments using redundant reads with unique molecular indices (umis)

Publications (2)

Publication Number Publication Date
ES2799074T3 ES2799074T3 (es) 2020-12-14
ES2799074T5 true ES2799074T5 (es) 2024-02-26

Family

ID=55910388

Family Applications (2)

Application Number Title Priority Date Filing Date
ES16720269T Active ES2799074T5 (es) 2015-04-28 2016-04-20 Supresión de errores en fragmentos de ADN secuenciados mediante el uso de lecturas redundantes con índices moleculares únicos (UMI)
ES20161152T Active ES2961338T3 (es) 2015-04-28 2016-04-20 Supresión de errores en fragmentos de ADN secuenciados utilizando lecturas redundantes con índices moleculares únicos (UMI)

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES20161152T Active ES2961338T3 (es) 2015-04-28 2016-04-20 Supresión de errores en fragmentos de ADN secuenciados utilizando lecturas redundantes con índices moleculares únicos (UMI)

Country Status (20)

Country Link
US (3) US10844428B2 (es)
EP (3) EP3736341B1 (es)
JP (1) JP6685324B2 (es)
KR (1) KR102091312B1 (es)
CN (2) CN108138227B (es)
AU (3) AU2016256351B2 (es)
BR (1) BR112017024118A2 (es)
CA (2) CA3109403A1 (es)
DK (2) DK3289097T4 (es)
ES (2) ES2799074T5 (es)
FI (2) FI3736341T3 (es)
HK (1) HK1244513A1 (es)
IL (3) IL294600B2 (es)
MX (3) MX2017013775A (es)
MY (1) MY181983A (es)
NZ (1) NZ736609A (es)
RU (1) RU2704286C2 (es)
SG (2) SG10202006185QA (es)
WO (1) WO2016176091A1 (es)
ZA (1) ZA201707231B (es)

Families Citing this family (124)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10081839B2 (en) 2005-07-29 2018-09-25 Natera, Inc System and method for cleaning noisy genetic data and determining chromosome copy number
US9424392B2 (en) 2005-11-26 2016-08-23 Natera, Inc. System and method for cleaning noisy genetic data from target individuals using genetic data from genetically related individuals
US11111544B2 (en) 2005-07-29 2021-09-07 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US11111543B2 (en) 2005-07-29 2021-09-07 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US10083273B2 (en) 2005-07-29 2018-09-25 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
ES2640776T3 (es) 2009-09-30 2017-11-06 Natera, Inc. Métodos para denominar de forma no invasiva ploidía prenatal
US8835358B2 (en) 2009-12-15 2014-09-16 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse labels
US9677118B2 (en) 2014-04-21 2017-06-13 Natera, Inc. Methods for simultaneous amplification of target loci
US11939634B2 (en) 2010-05-18 2024-03-26 Natera, Inc. Methods for simultaneous amplification of target loci
US11408031B2 (en) 2010-05-18 2022-08-09 Natera, Inc. Methods for non-invasive prenatal paternity testing
US20190010543A1 (en) 2010-05-18 2019-01-10 Natera, Inc. Methods for simultaneous amplification of target loci
US11332785B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US11322224B2 (en) 2010-05-18 2022-05-03 Natera, Inc. Methods for non-invasive prenatal ploidy calling
AU2011255641A1 (en) 2010-05-18 2012-12-06 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US11326208B2 (en) 2010-05-18 2022-05-10 Natera, Inc. Methods for nested PCR amplification of cell-free DNA
US10316362B2 (en) 2010-05-18 2019-06-11 Natera, Inc. Methods for simultaneous amplification of target loci
US11332793B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for simultaneous amplification of target loci
US11339429B2 (en) 2010-05-18 2022-05-24 Natera, Inc. Methods for non-invasive prenatal ploidy calling
EP2656263B1 (en) 2010-12-22 2019-11-06 Natera, Inc. Methods for non-invasive prenatal paternity testing
WO2012108920A1 (en) 2011-02-09 2012-08-16 Natera, Inc Methods for non-invasive prenatal ploidy calling
US9260753B2 (en) 2011-03-24 2016-02-16 President And Fellows Of Harvard College Single cell nucleic acid detection and analysis
WO2012142213A2 (en) 2011-04-15 2012-10-18 The Johns Hopkins University Safe sequencing system
US10011871B2 (en) 2012-02-17 2018-07-03 Fred Hutchinson Cancer Research Center Compositions and methods for accurately identifying mutations
DK2828218T3 (da) 2012-03-20 2020-11-02 Univ Washington Through Its Center For Commercialization Methods of lowering the error rate of massively parallel dna sequencing using duplex consensus sequencing
US20160040229A1 (en) 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
US11913065B2 (en) 2012-09-04 2024-02-27 Guardent Health, Inc. Systems and methods to detect rare mutations and copy number variation
US10876152B2 (en) 2012-09-04 2020-12-29 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
KR102393608B1 (ko) 2012-09-04 2022-05-03 가던트 헬쓰, 인크. 희귀 돌연변이 및 카피수 변이를 검출하기 위한 시스템 및 방법
CN109457030B (zh) 2012-10-29 2022-02-18 约翰·霍普金斯大学 卵巢和子宫内膜癌的帕帕尼科拉乌测试
US10262755B2 (en) 2014-04-21 2019-04-16 Natera, Inc. Detecting cancer mutations and aneuploidy in chromosomal segments
US10577655B2 (en) 2013-09-27 2020-03-03 Natera, Inc. Cell free DNA diagnostic testing standards
KR102640585B1 (ko) 2013-12-11 2024-02-23 아큐라젠 홀딩스 리미티드 희귀 서열 변이를 검출하기 위한 조성물 및 방법
US11859246B2 (en) 2013-12-11 2024-01-02 Accuragen Holdings Limited Methods and compositions for enrichment of amplification products
US11286519B2 (en) 2013-12-11 2022-03-29 Accuragen Holdings Limited Methods and compositions for enrichment of amplification products
ES2784450T3 (es) 2013-12-28 2020-09-25 Guardant Health Inc Métodos y sistemas para detectar variantes genéticas
AU2015249846B2 (en) 2014-04-21 2021-07-22 Natera, Inc. Detecting mutations and ploidy in chromosomal segments
US10844428B2 (en) 2015-04-28 2020-11-24 Illumina, Inc. Error suppression in sequenced DNA fragments using redundant reads with unique molecular indices (UMIS)
US11479812B2 (en) 2015-05-11 2022-10-25 Natera, Inc. Methods and compositions for determining ploidy
WO2017027653A1 (en) 2015-08-11 2017-02-16 The Johns Hopkins University Assaying ovarian cyst fluid
EP3359693A4 (en) 2015-10-09 2019-03-06 Accuragen Holdings Limited METHODS AND COMPOSITIONS FOR ENRICHMENT OF AMPLIFICATION PRODUCTS
CN109072294A (zh) 2015-12-08 2018-12-21 特温斯特兰德生物科学有限公司 用于双重测序的改良衔接子、方法和组合物
CA3008651A1 (en) 2015-12-17 2017-06-22 Guardant Health, Inc. Methods to determine tumor gene copy number by analysis of cell-free dna
EP3408406B1 (en) * 2016-01-29 2022-06-15 F. Hoffmann-La Roche AG A novel y-shaped adaptor for nucleic acid sequencing and method of use
US11514289B1 (en) * 2016-03-09 2022-11-29 Freenome Holdings, Inc. Generating machine learning models using genetic data
US11384382B2 (en) 2016-04-14 2022-07-12 Guardant Health, Inc. Methods of attaching adapters to sample nucleic acids
EP3443066A4 (en) 2016-04-14 2019-12-11 Guardant Health, Inc. EARLY DETECTION METHODS FOR CANCER
US11427866B2 (en) * 2016-05-16 2022-08-30 Accuragen Holdings Limited Method of improved sequencing by strand identification
US11708574B2 (en) 2016-06-10 2023-07-25 Myriad Women's Health, Inc. Nucleic acid sequencing adapters and uses thereof
EP3478856B1 (en) 2016-06-30 2021-01-27 Grail, Inc. Differential tagging of rna for preparation of a cell-free dna/rna sequencing library
WO2018035170A1 (en) 2016-08-15 2018-02-22 Accuragen Holdings Limited Compositions and methods for detecting rare sequence variants
WO2018067517A1 (en) 2016-10-04 2018-04-12 Natera, Inc. Methods for characterizing copy number variation using proximity-litigation sequencing
US10011870B2 (en) 2016-12-07 2018-07-03 Natera, Inc. Compositions and methods for identifying nucleic acid molecules
WO2018119399A1 (en) * 2016-12-23 2018-06-28 Grail, Inc. Methods for high efficiency library preparation using double-stranded adapters
CN117004721A (zh) * 2016-12-28 2023-11-07 奎斯特诊断投资有限责任公司 用于检测循环肿瘤dna的组合物和方法
RU2022101605A (ru) * 2017-01-18 2022-03-25 Иллюмина, Инк. Способы и системы для получения наборов уникальных молекулярных индексов с гетерогенной длиной молекул и коррекции в них ошибок
WO2018144216A1 (en) * 2017-01-31 2018-08-09 Counsyl, Inc. Methods and compositions for enrichment of target polynucleotides
WO2018144159A1 (en) * 2017-01-31 2018-08-09 Counsyl, Inc. Capture probes using positive and negative strands for duplex sequencing
WO2018144217A1 (en) 2017-01-31 2018-08-09 Counsyl, Inc. Methods and compositions for enrichment of target polynucleotides
WO2018148289A2 (en) * 2017-02-08 2018-08-16 Integrated Dna Technologies, Inc. Duplex adapters and duplex sequencing
CA3049139A1 (en) 2017-02-21 2018-08-30 Natera, Inc. Compositions, methods, and kits for isolating nucleic acids
WO2018183918A1 (en) * 2017-03-30 2018-10-04 Grail, Inc. Enhanced ligation in sequencing library preparation
US11584958B2 (en) * 2017-03-31 2023-02-21 Grail, Llc Library preparation and use thereof for sequencing based error correction and/or variant identification
US11118222B2 (en) 2017-03-31 2021-09-14 Grail, Inc. Higher target capture efficiency using probe extension
CA3220983A1 (en) 2017-05-01 2018-11-08 Illumina, Inc. Optimal index sequences for multiplex massively parallel sequencing
EP3622089A1 (en) 2017-05-08 2020-03-18 Illumina, Inc. Universal short adapters for indexing of polynucleotide samples
EP3635107A4 (en) * 2017-05-14 2021-01-13 Foresee Genomic Ltd CONSTRUCTION OF DNA FOR SEQUENCING AND ITS PREPARATION PROCESS
CN111032882A (zh) * 2017-06-20 2020-04-17 伊鲁米那股份有限公司 解决扩增反应中低效的方法和组合物
EP3642358A1 (en) * 2017-06-21 2020-04-29 Bluedot LLC Systems and methods for identification of nucleic acids in a sample
EP3545106B1 (en) * 2017-08-01 2022-01-19 Helitec Limited Methods of enriching and determining target nucleotide sequences
US11519024B2 (en) 2017-08-04 2022-12-06 Billiontoone, Inc. Homologous genomic regions for characterization associated with biological targets
CA3071855C (en) 2017-08-04 2021-09-14 Billiontoone, Inc. Target-associated molecules for characterization associated with biological targets
EP3662085B1 (en) 2017-08-04 2022-06-22 Billiontoone, Inc. Sequencing output determination and analysis with target-associated molecules in quantification associated with biological targets
BR112020002555A2 (pt) 2017-08-07 2020-08-11 The Johns Hopkins University métodos e materiais para avaliar e tratar câncer
US11447818B2 (en) 2017-09-15 2022-09-20 Illumina, Inc. Universal short adapters with variable length non-random unique molecular identifiers
EP3695008B1 (en) * 2017-10-09 2021-11-24 Psomagen, Inc. Single molecule sequencing and unique molecular identifiers to characterize nucleic acid sequences
CN107604046B (zh) * 2017-11-03 2021-08-24 上海交通大学 用于微量dna超低频突变检测的双分子自校验文库制备及杂交捕获的二代测序方法
KR102500210B1 (ko) 2017-11-06 2023-02-15 일루미나, 인코포레이티드 핵산 색인 기술
AU2018366213A1 (en) 2017-11-08 2020-05-14 Twinstrand Biosciences, Inc. Reagents and adapters for nucleic acid sequencing and methods for making such reagents and adapters
KR101967879B1 (ko) * 2017-11-30 2019-04-10 사회복지법인 삼성생명공익재단 핵산 서열분석에서 uid 핵산 서열의 순결도를 측정하는 방법
AU2018375785A1 (en) * 2017-11-30 2019-12-12 Illumina, Inc. Validation methods and systems for sequence variant calls
JP7164125B2 (ja) 2018-01-05 2022-11-01 ビリオントゥーワン,インコーポレイテッド シーケンシングベースのアッセイの妥当性を確保するための品質管理鋳型
US11203782B2 (en) 2018-03-29 2021-12-21 Accuragen Holdings Limited Compositions and methods comprising asymmetric barcoding
US20210155992A1 (en) * 2018-04-16 2021-05-27 Memorial Sloan Kettering Cancer Center SYSTEMS AND METHODS FOR DETECTING CANCER VIA cfDNA SCREENING
US11365409B2 (en) * 2018-05-03 2022-06-21 Becton, Dickinson And Company Molecular barcoding on opposite transcript ends
CN108486230B (zh) * 2018-05-18 2022-02-08 中国人民解放军陆军军医大学第一附属医院 用于无创检测mitf基因突变的试剂盒及其制备方法
CN108841946B (zh) * 2018-05-18 2022-03-22 中国人民解放军陆军军医大学第一附属医院 一种无创检测gjb2基因突变的方法,试剂盒及其制备方法
CN108642173B (zh) * 2018-05-18 2022-03-22 中国人民解放军陆军军医大学第一附属医院 一种无创检测slc26a4基因突变的方法和试剂盒
CN108949951B (zh) * 2018-05-18 2022-01-28 中国人民解放军陆军军医大学第一附属医院 一种同时无创检测gjb2和slc26a4基因突变的方法和试剂盒
CN108753934B (zh) * 2018-05-18 2022-01-28 中国人民解放军陆军军医大学第一附属医院 一种检测基因突变的方法、试剂盒及其制备方法
CN108531583B (zh) * 2018-05-18 2022-05-17 中国人民解放军陆军军医大学第一附属医院 用于无创检测mitf基因突变的引物组合及检测方法
CN108949941A (zh) * 2018-06-25 2018-12-07 北京莲和医学检验所有限公司 低频突变检测方法、试剂盒和装置
GB201810901D0 (en) * 2018-07-03 2018-08-15 Ucb Biopharma Sprl Method
CN110669823B (zh) * 2018-07-03 2022-05-24 中国医学科学院肿瘤医院 一种同时检测多种肝癌常见突变的ctDNA文库构建和测序数据分析方法
US11525159B2 (en) 2018-07-03 2022-12-13 Natera, Inc. Methods for detection of donor-derived cell-free DNA
AU2019300172A1 (en) 2018-07-12 2021-01-28 Twinstrand Biosciences, Inc. Methods and reagents for characterizing genomic editing, clonal expansion, and associated applications
US20210317517A1 (en) * 2018-08-28 2021-10-14 Sophia Genetics S.A. Methods for asymmetric dna library generation and optionally integrated duplex sequencing
WO2020069350A1 (en) 2018-09-27 2020-04-02 Grail, Inc. Methylation markers and targeted methylation probe panel
EP3670670A1 (en) 2018-12-18 2020-06-24 Ricoh Company, Ltd. Nucleic acid analysis method, nucleic acid analysis program, and device for library preparation
CN109706219A (zh) * 2018-12-20 2019-05-03 臻和(北京)科技有限公司 构建测序文库的方法、试剂盒、上机方法及测序数据的拆分方法
KR20210148122A (ko) * 2019-02-25 2021-12-07 트위스트 바이오사이언스 코포레이션 차세대 시퀀싱을 위한 조성물 및 방법
WO2020226528A1 (ru) * 2019-05-08 2020-11-12 Общество с ограниченной ответственностью "ГЕНОТЕК ИТ" Способ определения кариотипа плода беременной женщины
CN110409001B (zh) * 2019-07-25 2022-11-15 北京贝瑞和康生物技术有限公司 一种构建捕获文库的方法和试剂盒
EP3795685A1 (en) * 2019-09-20 2021-03-24 Sophia Genetics S.A. Methods for dna library generation to facilitate the detection and reporting of low frequency variants
US10927409B1 (en) * 2019-10-14 2021-02-23 Pioneer Hi-Bred International, Inc. Detection of sequences uniquely associated with a dna target region
CN111073961A (zh) * 2019-12-20 2020-04-28 苏州赛美科基因科技有限公司 一种基因稀有突变的高通量检测方法
US20230129075A1 (en) * 2020-01-13 2023-04-27 St. Jude Children's Research Hospital Error suppression in genetic sequencing
EP3859012A1 (en) 2020-02-03 2021-08-04 Albert-Ludwigs-Universität Freiburg Methods for amplification of genomic dna and preparation of sequencing libraries
CN111304288A (zh) * 2020-02-18 2020-06-19 江苏先声医学诊断有限公司 特异性分子标签umi组及其应用
US11211147B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing
US11475981B2 (en) 2020-02-18 2022-10-18 Tempus Labs, Inc. Methods and systems for dynamic variant thresholding in a liquid biopsy assay
US11211144B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Methods and systems for refining copy number variation in a liquid biopsy assay
EP3892737A1 (en) * 2020-04-09 2021-10-13 Takeda Vaccines, Inc. Qualitative and quantitative determination of single virus haplotypes in complex samples
US11932901B2 (en) 2020-07-13 2024-03-19 Becton, Dickinson And Company Target enrichment using nucleic acid probes for scRNAseq
CA3188197A1 (en) 2020-09-11 2022-03-17 Andrew Slatter Methods of enriching a target sequence from a sequencing library using hairpin adaptors
AU2021366658A1 (en) 2020-10-21 2023-06-22 Illumina Cambridge Limited Sequencing templates comprising multiple inserts and compositions and methods for improving sequencing throughput
WO2022109207A2 (en) 2020-11-19 2022-05-27 The United States Of America As Represented By The Secretary, Department Of Health And Human Services Massively paralleled multi-patient assay for pathogenic infection diagnosis and host physiology surveillance using nucleic acid sequencing
JPWO2022131285A1 (es) 2020-12-15 2022-06-23
CN112687339B (zh) * 2021-01-21 2021-12-14 深圳吉因加医学检验实验室 一种统计血浆dna片段测序数据中序列错误的方法和装置
KR20230163434A (ko) 2021-03-29 2023-11-30 일루미나, 인코포레이티드 라이브러리에서 dna 손상을 평가하고 앰플리콘 크기 바이어스를 정규화하기 위한 조성물 및 방법
AU2022246579A1 (en) 2021-03-30 2023-09-21 Illumina, Inc. Improved methods of isothermal complementary dna and library preparation
CA3211172A1 (en) 2021-03-31 2022-10-06 Illumina, Inc. Methods of preparing directional tagmentation sequencing libraries using transposon-based technology with unique molecular identifiers for error correction
CA3219179A1 (en) * 2021-05-19 2022-11-24 Chen Zhao Umi collapsing
WO2023201487A1 (zh) * 2022-04-18 2023-10-26 京东方科技集团股份有限公司 接头、接头连接试剂及试剂盒和文库构建方法
WO2024015962A1 (en) 2022-07-15 2024-01-18 Pacific Biosciences Of California, Inc. Blocked asymmetric hairpin adaptors

Family Cites Families (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
US4683195A (en) 1986-01-30 1987-07-28 Cetus Corporation Process for amplifying, detecting, and/or-cloning nucleic acid sequences
WO1991006678A1 (en) 1989-10-26 1991-05-16 Sri International Dna sequencing
US5677170A (en) 1994-03-02 1997-10-14 The Johns Hopkins University In vitro transposition of artificial transposons
ES2563643T3 (es) 1997-04-01 2016-03-15 Illumina Cambridge Limited Método de secuenciación de ácido nucleico
US6159736A (en) 1998-09-23 2000-12-12 Wisconsin Alumni Research Foundation Method for making insertional mutations using a Tn5 synaptic complex
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
ATE377093T1 (de) 2000-07-07 2007-11-15 Visigen Biotechnologies Inc Sequenzbestimmung in echtzeit
WO2002044425A2 (en) 2000-12-01 2002-06-06 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
US20040018520A1 (en) 2002-04-22 2004-01-29 James Thompson Trans-splicing enzymatic nucleic acid mediated biopharmaceutical and protein
ES2550513T3 (es) 2002-08-23 2015-11-10 Illumina Cambridge Limited Nucleótidos modificados para secuenciación de polinucleótidos
ES2949821T3 (es) 2004-01-07 2023-10-03 Illumina Cambridge Ltd Matrices moleculares
US7476503B2 (en) 2004-09-17 2009-01-13 Pacific Biosciences Of California, Inc. Apparatus and method for performing nucleic acid analysis
WO2006064199A1 (en) 2004-12-13 2006-06-22 Solexa Limited Improved method of nucleotide detection
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
WO2007123744A2 (en) 2006-03-31 2007-11-01 Solexa, Inc. Systems and devices for sequence by synthesis analysis
WO2008051530A2 (en) 2006-10-23 2008-05-02 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
WO2008093098A2 (en) 2007-02-02 2008-08-07 Illumina Cambridge Limited Methods for indexing samples and sequencing multiple nucleotide templates
CA2783548A1 (en) * 2009-12-17 2011-06-23 Keygene N.V. Restriction enzyme based whole genome sequencing
EP2848704B1 (en) * 2010-01-19 2018-08-29 Verinata Health, Inc Sequencing methods for prenatal diagnoses
US9260745B2 (en) 2010-01-19 2016-02-16 Verinata Health, Inc. Detecting and classifying copy number variation
WO2011139797A2 (en) 2010-04-27 2011-11-10 Spiral Genetics Inc. Method and system for analysis and error correction of biological sequences and inference of relationship for multiple samples
ES2690753T3 (es) 2010-09-21 2018-11-22 Agilent Technologies, Inc. Aumento de la confianza en las identificaciones de alelos con el recuento molecular
AU2011305445B2 (en) 2010-09-24 2017-03-16 The Board Of Trustees Of The Leland Stanford Junior University Direct capture, amplification and sequencing of target DNA using immobilized primers
WO2012142213A2 (en) 2011-04-15 2012-10-18 The Johns Hopkins University Safe sequencing system
CA2840929C (en) * 2011-07-08 2020-03-24 Keygene N.V. Sequence based genotyping based on oligonucleotide ligation assays
CA2840418C (en) * 2011-07-26 2019-10-29 Verinata Health, Inc. Method for determining the presence or absence of different aneuploidies in a sample
WO2013062856A1 (en) 2011-10-27 2013-05-02 Verinata Health, Inc. Set membership testers for aligning nucleic acid samples
US20130267428A1 (en) 2012-02-10 2013-10-10 Washington University In St. Louis High throughput digital karyotyping for biome characterization
EP2825675B1 (en) 2012-03-13 2017-12-27 Patel, Abhijit Ajit Measurement of nucleic acid variants using highly-multiplexed error-suppressed deep sequencing
DK2828218T3 (da) 2012-03-20 2020-11-02 Univ Washington Through Its Center For Commercialization Methods of lowering the error rate of massively parallel dna sequencing using duplex consensus sequencing
CA2873585C (en) 2012-05-14 2021-11-09 Cb Biotechnologies, Inc. Method for increasing accuracy in quantitative detection of polynucleotides
EP3937179A1 (en) 2012-05-21 2022-01-12 Distributed Bio Inc Epitope focusing by variable effective antigen surface concentration
EP2855707B1 (en) 2012-05-31 2017-07-12 Board Of Regents, The University Of Texas System Method for accurate sequencing of dna
US20140024541A1 (en) 2012-07-17 2014-01-23 Counsyl, Inc. Methods and compositions for high-throughput sequencing
DK3553175T3 (da) 2013-03-13 2021-08-23 Illumina Inc Fremgangsmåde til fremstilling af et nukleinsyresekvenseringsbibliotek
US9328382B2 (en) 2013-03-15 2016-05-03 Complete Genomics, Inc. Multiple tagging of individual long DNA fragments
ES2831148T3 (es) 2013-03-15 2021-06-07 Univ Leland Stanford Junior Identificación y uso de marcadores tumorales de ácido nucleico circulante
CN105593683B (zh) 2013-10-01 2018-11-30 考利达基因组股份有限公司 鉴定基因组中的变异的定相和连接方法
WO2015058052A1 (en) * 2013-10-18 2015-04-23 The Broad Institute Inc. Spatial and cellular mapping of biomolecules in situ by high-throughput sequencing
ES2784450T3 (es) 2013-12-28 2020-09-25 Guardant Health Inc Métodos y sistemas para detectar variantes genéticas
US9677132B2 (en) 2014-01-16 2017-06-13 Illumina, Inc. Polynucleotide modification on solid support
US20170233727A1 (en) 2014-05-23 2017-08-17 Centrillion Technology Holdings Corporation Methods for generating and decoding barcodes
US11085084B2 (en) 2014-09-12 2021-08-10 The Board Of Trustees Of The Leland Stanford Junior University Identification and use of circulating nucleic acids
WO2016168351A1 (en) 2015-04-15 2016-10-20 The Board Of Trustees Of The Leland Stanford Junior University Robust quantification of single molecules in next-generation sequencing using non-random combinatorial oligonucleotide barcodes
US10844428B2 (en) 2015-04-28 2020-11-24 Illumina, Inc. Error suppression in sequenced DNA fragments using redundant reads with unique molecular indices (UMIS)
CN109072294A (zh) 2015-12-08 2018-12-21 特温斯特兰德生物科学有限公司 用于双重测序的改良衔接子、方法和组合物
US11708574B2 (en) 2016-06-10 2023-07-25 Myriad Women's Health, Inc. Nucleic acid sequencing adapters and uses thereof
US10676736B2 (en) 2016-08-05 2020-06-09 Bio-Rad Laboratories, Inc. Second strand direct
RU2022101605A (ru) 2017-01-18 2022-03-25 Иллюмина, Инк. Способы и системы для получения наборов уникальных молекулярных индексов с гетерогенной длиной молекул и коррекции в них ошибок
WO2018148289A2 (en) 2017-02-08 2018-08-16 Integrated Dna Technologies, Inc. Duplex adapters and duplex sequencing
CN110520542B (zh) 2017-03-23 2024-06-14 华盛顿大学 用于靶向核酸序列富集的方法及在错误纠正的核酸测序中的应用
US11447818B2 (en) 2017-09-15 2022-09-20 Illumina, Inc. Universal short adapters with variable length non-random unique molecular identifiers
AU2018366213A1 (en) 2017-11-08 2020-05-14 Twinstrand Biosciences, Inc. Reagents and adapters for nucleic acid sequencing and methods for making such reagents and adapters
JP7420388B2 (ja) 2018-02-13 2024-01-23 ツインストランド・バイオサイエンシズ・インコーポレイテッド 遺伝毒性を検出し、評価するための方法および試薬
US20210010065A1 (en) 2018-03-15 2021-01-14 Twinstrand Biosciences, Inc. Methods and reagents for enrichment of nucleic acid material for sequencing applications and other nucleic acid material interrogations
CN112218956A (zh) 2018-05-16 2021-01-12 特温斯特兰德生物科学有限公司 用于解析核酸混合物和混合细胞群体的方法和试剂及相关应用
AU2019300172A1 (en) 2018-07-12 2021-01-28 Twinstrand Biosciences, Inc. Methods and reagents for characterizing genomic editing, clonal expansion, and associated applications
US20220119876A1 (en) 2018-10-16 2022-04-21 Twinstrand Biosciences, Inc. Methods and reagents for efficient genotyping of large numbers of samples via pooling
US20220220543A1 (en) 2019-08-01 2022-07-14 Twinstrand Biosciences, Inc. Methods and reagents for nucleic acid sequencing and associated applications

Also Published As

Publication number Publication date
US11866777B2 (en) 2024-01-09
IL285319B2 (en) 2023-02-01
AU2019250200A1 (en) 2019-11-07
EP3736341A1 (en) 2020-11-11
CA2983935A1 (en) 2016-11-03
US20210108262A1 (en) 2021-04-15
DK3289097T3 (da) 2020-06-02
CA3109403A1 (en) 2016-11-03
JP2018514207A (ja) 2018-06-07
MX2023004394A (es) 2023-05-04
IL294600A (en) 2022-09-01
EP3289097A1 (en) 2018-03-07
AU2019250200B2 (en) 2021-10-14
AU2016256351A1 (en) 2017-11-09
NZ736609A (en) 2020-06-26
KR102091312B1 (ko) 2020-03-19
EP3289097B2 (en) 2023-08-30
CN108138227B (zh) 2021-09-17
US20240084376A1 (en) 2024-03-14
EP4266314A2 (en) 2023-10-25
IL285319A (en) 2021-09-30
RU2017137401A3 (es) 2019-05-28
RU2704286C2 (ru) 2019-10-25
DK3736341T3 (da) 2023-09-18
ZA201707231B (en) 2021-02-24
IL285319B (en) 2022-10-01
MY181983A (en) 2021-01-18
SG11201708859XA (en) 2017-11-29
JP6685324B2 (ja) 2020-04-22
IL294600B2 (en) 2024-05-01
ES2961338T3 (es) 2024-03-11
WO2016176091A8 (en) 2017-12-21
SG10202006185QA (en) 2020-07-29
FI3289097T4 (fi) 2023-12-01
IL255187A0 (en) 2017-12-31
EP4266314A3 (en) 2024-01-24
FI3736341T3 (fi) 2023-09-21
US10844428B2 (en) 2020-11-24
DK3289097T4 (da) 2023-12-04
HK1244513A1 (zh) 2018-08-10
WO2016176091A1 (en) 2016-11-03
CN108138227A (zh) 2018-06-08
IL255187B (en) 2021-10-31
MX2017013775A (es) 2018-08-15
KR20180020137A (ko) 2018-02-27
MX2022008045A (es) 2022-07-27
CA2983935C (en) 2021-04-20
US20160319345A1 (en) 2016-11-03
AU2016256351B2 (en) 2019-07-18
CN113832139A (zh) 2021-12-24
EP3289097B1 (en) 2020-03-18
ES2799074T3 (es) 2020-12-14
AU2022200179A1 (en) 2022-02-10
BR112017024118A2 (pt) 2018-07-31
EP3736341B1 (en) 2023-08-23
IL294600B1 (en) 2024-01-01
RU2017137401A (ru) 2019-05-28

Similar Documents

Publication Publication Date Title
ES2799074T5 (es) Supresión de errores en fragmentos de ADN secuenciados mediante el uso de lecturas redundantes con índices moleculares únicos (UMI)
US11761035B2 (en) Methods and systems for generation and error-correction of unique molecular index sets with heterogeneous molecular lengths
US11898198B2 (en) Universal short adapters with variable length non-random unique molecular identifiers
ES2915399T3 (es) Detección de expansiones de repetición con datos de secuenciación de lectura corta
BR112021006402A2 (pt) Ferramenta baseada em sequência-gráfico para determinar a variação em regiões curtas de repetição em tandem
RU2799654C2 (ru) Инструмент на основе графов последовательностей для определения вариаций в областях коротких тандемных повторов
RU2766198C9 (ru) Способы и системы для получения наборов уникальных молекулярных индексов с гетерогенной длиной молекул и коррекции в них ошибок