ES2925014T3 - Identificación y uso de ácidos nucleicos circulantes - Google Patents

Identificación y uso de ácidos nucleicos circulantes Download PDF

Info

Publication number
ES2925014T3
ES2925014T3 ES15839768T ES15839768T ES2925014T3 ES 2925014 T3 ES2925014 T3 ES 2925014T3 ES 15839768 T ES15839768 T ES 15839768T ES 15839768 T ES15839768 T ES 15839768T ES 2925014 T3 ES2925014 T3 ES 2925014T3
Authority
ES
Spain
Prior art keywords
barcode
stranded
double
mutations
nucleic acids
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES15839768T
Other languages
English (en)
Inventor
Maximilian Diehn
Arash Ash Alizadeh
Aaron M Newman
Daniel M Klass
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leland Stanford Junior University
Original Assignee
Leland Stanford Junior University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Leland Stanford Junior University filed Critical Leland Stanford Junior University
Application granted granted Critical
Publication of ES2925014T3 publication Critical patent/ES2925014T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B40/00Libraries per se, e.g. arrays, mixtures
    • C40B40/04Libraries containing only organic compounds
    • C40B40/06Libraries containing nucleotides or polynucleotides, or derivatives thereof
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6853Nucleic acid amplification reactions using modified primers or templates
    • C12Q1/6855Ligating adaptors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B20/00Methods specially adapted for identifying library members
    • C40B20/04Identifying library members by means of a tag, label, or other readable or detectable entity associated with the library members, e.g. decoding processes

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Microbiology (AREA)
  • Biomedical Technology (AREA)
  • Immunology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Plant Pathology (AREA)
  • Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medicinal Chemistry (AREA)
  • General Chemical & Material Sciences (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

En el presente documento se describen adaptadores de polinucleótidos y métodos de uso de los mismos para identificar y analizar ácidos nucleicos, incluidos los ácidos nucleicos libres de células de una muestra de un paciente. También se describen en este documento métodos para usar los adaptadores para detectar, diagnosticar o determinar el pronóstico de cánceres. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Identificación y uso de ácidos nucleicos circulantes
Apoyo gubernamental
La presente invención se llevó a cabo con apoyo gubernamental, bajo el contrato n° W81XWH-12-10285, concedido por el Departamento de Defensa. El gobierno posee determinados derechos sobre la presente invención.
Referencias
Todas las publicaciones, patentes y solicitudes de patente en la presente memoria están referenciadas en la misma.
Antecedentes de la invención
Los tumores secretan ADN continuamente hacia la circulación, en donde está fácilmente disponible (Stroun et al. (1987) Eur. J. Cancer Clin. Oncol. 23:707-712). El análisis de dicho ADN libre de células (ADNlc) derivado de cáncer tiene el potencial de revolucionar la detección y seguimiento del cáncer. El acceso no invasivo a ADN derivado de un tumor resulta particularmente atractivo para los tumores sólidos. Sin embargo, el análisis de los ácidos nucleicos tumorales circulantes se ve dificultado por los bajos rendimientos de ácidos nucleicos y por artefactos de la técnica analítica. Por ejemplo, los errores de secuenciación limitan la sensibilidad analítica del perfilado de mutaciones del ADNlc.
De esta manera, existe una necesidad de métodos más sensibles y de alto rendimiento para detectar y realizar un seguimiento de los ácidos nucleicos derivados de tumor en los pacientes de cáncer. La presente invención se refiere a estas necesidades y a otras necesidades de la técnica.
Descripción resumida de la invención
En un aspecto, la invención se refiere a la utilización de una agrupación de adaptadores únicos para el análisis de ácidos nucleicos en una muestra, definidos mediante la reivindicación 1. En la agrupación de adaptadores la parte de doble cadena de los mismos puede comprender, además, uno o más pares de bases G/C entre el código de barras de doble cadena de por lo menos dos pares de bases y el extremo proximal del adaptador. La agrupación de adaptadores también puede incluir el número de pares de bases G/C que varía entre adaptadores en la agrupación. El código de barras de doble cadena puede comprender 2 a 20 pares de bases. El código de barras de cadena sencilla predefinido puede comprender 4 a 20 nucleótidos. El código de barras de cadena sencilla aleatorio puede comprender 4 a 20 nucleótidos.
En otra realización no cubierta por la invención reivindicada, se proporciona un método de análisis de ácidos nucleicos que comprende: unir una agrupación de adaptadores según las reivindicaciones 1 a 6 a ambos extremos de una pluralidad de ácidos nucleicos de doble cadena mediante los segmentos de doble cadena de los adaptadores; amplificar ambas cadenas de los ácidos nucleicos-adaptadores para producir primeros amplicones y segundos amplicones, en la que los primeros amplicones se derivan de una primera cadena de los ácidos nucleicos de doble cadena y que contienen una primera cadena de los códigos de barras de doble cadena, y los segundos amplicones se derivan de una segunda cadena de los ácidos nucleicos de doble cadena y que contienen una segunda cadena de los códigos de barras de doble cadena; determinar la secuencia de los primeros y segundos amplicones, y determinar si los primeros y los segundos amplicones se originan a partir de un único ácido nucleico de doble cadena de la pluralidad de ácidos nucleicos de doble cadena mediante la identificación del código de barras de doble cadena. La pluralidad de ácidos nucleicos de doble cadena puede comprender ADN libres de células. La amplificación puede comprender 12 a 14 ciclos de PCR.
En otra realización no cubierta por la invención reivindicada, se proporciona un método de análisis de una pluralidad de ácidos nucleicos de doble cadena, en el que el método comprende: unir una agrupación de adaptadores según las reivindicaciones 1 a 6 a ambos extremos de la pluralidad de ácidos nucleicos de doble cadena; amplificar ambas cadenas de los ácidos nucleicos-adaptadores para producir primeros amplicones y segundos amplicones, en el que los primeros amplicones se derivan de una primera cadena de los ácidos nucleicos de doble cadena y que contienen una primera cadena de los códigos de barras de doble cadena, y los segundos amplicones se derivan de una segunda cadena de los ácidos nucleicos de doble cadena y contienen una segunda cadena de los códigos de barras de doble cadena; determinar la secuencia de los primeros y segundos amplicones; e identificar mutaciones en el primer y segundo amplicón, en el que las mutaciones del primer y el segundo amplicón son mutaciones consistentes; o eliminar las mutaciones que ocurren en el primer amplicón pero no en el segundo amplicón; o eliminar las mutaciones G a T que ocurren en por lo menos aproximadamente 90 % de los primeros amplicones derivados de una primera cadena de un ácido nucleico de doble cadena, en el que las mutaciones G a T no ocurren en menos de aproximadamente 10 % de los segundos amplicones derivados de una segunda cadena del ácido nucleico de doble cadena; o eliminar las mutaciones que están separadas por menos de 100 pares de bases; o eliminar las mutaciones que ocurren en menos de aproximadamente 50 % de los amplicones que comprenden el mismo código de barras de cadena sencilla predefinido y código de barras de cadena sencilla aleatorio, o cualquier combinación de los mismos. En dicha realización, los primeros amplicones y los segundos amplicones de c) comprenden el mismo código de barras endógeno y el mismo código de barras de doble cadena, y en la que los primeros amplicones y los segundos amplicones de c) comprenden diferentes códigos de barras aleatorios derivados del código de barras de cadena sencilla aleatorio del adaptador. Además, en dicha realización, el método puede comprender la eliminación de mutaciones que están separadas por menos de 5 pares de bases. Adicionalmente en dicha realización, el método puede comprender la eliminación de mutaciones que ocurren en menos de aproximadamente 60 %, aproximadamente 70 %, aproximadamente 80 %, aproximadamente 90 %, aproximadamente 95 % o aproximadamente 100 % de los amplicones que comprenden el mismo código de barras de tallo de doble cadena y el mismo código de barras endógeno.
En otra realización no cubierta por la invención reivindicada, se proporciona un método de análisis de errores reducidos de ácidos nucleicos, que comprende: unir a cada extremo de los ácidos nucleicos un adaptador procedente de una agrupación de adaptadores únicos, en el que cada adaptador comprende un segmento de doble cadena en el extremo proximal y dos segmentos de cadena sencilla en el extremo distal, en el que el segmento de doble cadena comprende un código de barras de doble cadena de por lo menos dos pares de bases específico del adaptador, y en el que el segmento de cadena sencilla que contiene un nucleótido 5'-terminal comprende: i) un código de barras de cadena sencilla predefinido de por lo menos dos nucleótidos específico de la muestra, y ii) un código de barras de cadena sencilla aleatorio de por lo menos dos nucleótidos específico de una cadena del adaptador; secuenciación de los ácidos nucleicos con adaptadores unidos para determinar la secuencia y, en caso de estar presente, variaciones de la secuencia de los ácidos nucleicos; agrupación de las secuencias de ácidos nucleicos que comparten el mismo código de barras de cadena sencilla aleatorio específico de una cadena del adaptador, formando grupos de códigos de barras; eliminar las variaciones de secuencia que están presentes en menos de la totalidad de los miembros del grupo de códigos de barras; eliminar las variaciones de secuencia que están presentes a una frecuencia inferior a un umbral predeterminar entre los grupos de códigos de barras. El umbral predeterminado puede ser de 50 %. El umbral puede estar predeterminado según un método que comprende las etapas de: llevar a cabo la secuenciación de una sola molécula de múltiples muestras a fin de determinar la secuencia del ácido nucleico diana; para cada una de las posibles clases de sustituciones de nucleótidos, determinar el número total de sustituciones (y) en todas las posiciones, y el número de lecturas de soporte (t) para cada posición que presenta una sustitución; definir una función que relacione y con 't'; resolver la función para el valor deseado de 'y' mediante la determinación de 't', en la que 't' es el número umbral de lecturas, sobre el cual la sustitución puede denominarse variación de secuencia en la posición de la base en el ácido nucleico.
En otra realización no cubierta por la invención reivindicada, se proporciona un método de análisis de ácidos nucleicos en una muestra, que comprende: unir a cada extremo de los ácidos nucleicos un adaptador procedente de una agrupación de adaptadores únicos, en el que cada adaptador comprende un segmento de doble cadena en el extremo proximal y dos segmentos de cadena sencilla en el extremo distal, en el que el segmento de doble cadena comprende un código de barras de doble cadena de por lo menos dos pares de bases específico del adaptador, y en el que el segmento de cadena sencilla que contiene un nucleótido 5'-terminal comprende: i) un código de barras de cadena sencilla predefinido de por lo menos dos nucleótidos específico de la muestra, y ii) un código de barras de cadena sencilla aleatorio de por lo menos dos nucleótidos específico de una cadena del adaptador; secuenciación de los ácidos nucleicos con adaptadores unidos para determinar la secuencia y, en caso de estar presente, variaciones de la secuencia de los ácidos nucleicos; agrupación de las secuencias de ácidos nucleicos que comparten el mismo código de barras de cadena sencilla aleatorio específico de una cadena del adaptador, formando grupos de códigos de barras; eliminar las variaciones de secuencia que están presentes en menos de la totalidad de los miembros del grupo de códigos de barras; llevar a cabo las etapas anteriores en ácidos nucleicos procedentes de muestras de control a fin de identificar las variaciones de secuencia recurrentes; aplicar el análisis estadístico para determinar un intervalo de confianza para la frecuencia de cada variación de secuencia identificada en la etapa precedente; fijar un umbral para la frecuencia de variaciones de secuencia dentro del intervalo de confianza de la etapa precedente; eliminar las variaciones de secuencia cuya frecuencia sea inferior al umbral fijado en la etapa precedente.
En todavía otra realización no cubierta por la invención reivindicada, se proporciona un método de evaluación de un paciente mediante el análisis de los ácidos nucleicos libres de células mediante el método descrito en el párrafo precedente, que comprende, además, una etapa de evaluación de que el paciente presenta cáncer en el caso de que una o más de las variaciones de secuencia se encuentren presentes después de las etapas de eliminación.
En todavía otra realización no cubierta por la invención reivindicada, se proporciona un método de diseño de un selector que comprende una pluralidad de regiones genómicas diana que deben analizarse en una muestra de un paciente que presenta un tipo de tumor, en el que el método comprende: llevar a cabo la secuenciación de un genoma del tipo de tumor procedente de múltiples pacientes; identificar regiones del genoma que contienen una mutación; clasificar en un ranking las regiones identificadas en la etapa b) basándose en el número más alto de pacientes con una mutación por kilobase de secuencia obtenida en la primera etapa; clasificar en un ranking las regiones basándose en el número más alto de pacientes con una mutación por exón; incluir las regiones de ranking más alto de las etapas c) y d) en el selector. La secuenciación de genomas puede ser secuenciación de exones. Las regiones identificadas mediante el método pueden presentar una longitud mínima de 100 pares de bases. Las mutaciones pueden comprender variaciones de nucleótidos únicas, variaciones de número de copia, fusiones, regiones semilla y regiones de clasificación histológica. Las regiones de ranking más alto incluidas en el selector comprenden el 10 % superior de las regiones de ranking más alto. El método puede comprender, además, la eliminación de las regiones de selector que están comprendidas entre las regiones ricas en repeticiones del genoma.
En todavía otra realización no cubierta por la invención reivindicada, se proporciona un método de evaluación del cáncer en un paciente, que comprende: diseñar un selector tal como se ha indicado anteriormente; obtener una muestra de un paciente que comprende ácidos nucleicos libres de células; determinar la secuencia de las regiones genómicas del selector en los ácidos nucleicos del paciente; evaluar que el paciente es probable que presente cáncer o recurrencia de cáncer en el caso de que por lo menos una secuencia contenga una mutación. El método puede comprender, además, una confirmación de las mutaciones detectadas como somáticas en una biopsia de tumor correspondiente.
En todavía otra realización no cubierta por la invención reivindicada, se proporciona un método de fijación de un umbral para identificar una variante de secuencia en una posición de base en una secuencia de ácidos nucleicos diana que contiene sustituciones de nucleótidos, en el que el método comprende: llevar a cabo la secuenciación de una sola molécula de ácidos nucleicos de código de barras procedente de múltiples muestras a fin de determinar la secuencia del ácido nucleico diana; para cada una de las posibles clases de sustituciones de nucleótidos, determinar el número total de sustituciones (y) en todas las posiciones; el número de lecturas de soporte (t) para la posición que presenta una sustitución; definir una función que relacione y con t; resolver la función para el valor deseado de y mediante la determinación de 't', en la que t es el número umbral de lecturas sobre el cual la sustitución puede denominarse variante en la posición de la base en el ácido nucleico. El umbral 't' para una secuencia dada g de entre la pluralidad de secuencias diana puede ajustarse para la tasa global de errores mediante un método que comprende las etapas de: determinar la tasa de error e para la pluralidad de secuencias diana como igual al número de posiciones de base con sustituciones de nucleótido en una secuencia diana dividido por el número total de bases en la secuencia diana; determinar la profundidad de secuencia 'd' para la pluralidad de secuencias diana; en el caso de que 'e' para la secuencia 'g' se encuentre dentro del 25 % superior de '3' de la pluralidad de secuencias diana, se ajustará el umbral 't' para las secuencias 'g' a t ', según la fórmula: t ' ^ t * w, donde w = min{q2, 5} y q = e dividido por el percentil 75 de las tasas de error de las secuencias en el selector; en el caso de que 'd' para la secuencia 'g' sea inferior a la mediana de las profundidades de secuenciación de la pluralidad de secuencias diana (dmed), se ajustará el umbral para la secuencia 'g' a t ' según la fórmula: t ' ^ t/w*, donde w = ln( dmed/ d).
En todavía otra realización no cubierta por la invención reivindicada, se proporciona un método de evaluación de un paciente de cáncer de pulmón no microcítico (CPNM) mediante el análisis del ADNlc del paciente con el fin de detectar mutaciones con un selector y corregir los errores tal como se ha indicado anteriormente, y evaluar que el paciente presenta CPNM o que presenta una progresión de CPNM en el caso de que una o más de las variaciones de secuencia se encuentre presente después de la corrección de los errores. La mutación puede ser una mutación en el gen del receptor del factor de crecimiento epidérmico (EGFR, por sus siglas en inglés) localizado en el dominio de quinasa (exones 19, 20 y 21) del gen.
En todavía otra realización no cubierta por la invención reivindicada, se proporciona un método de emparejamiento de las lecturas de secuenciación de ácidos nucleicos a fin de obtener una secuencia de ácidos nucleicos de doble cadena, que comprende: determinar la secuencia de la pluralidad de ácidos nucleicos de cadena sencilla que comprende secuencias de inserto y secuencias de adaptador que contienen códigos de barras; determinar las coordenadas genómicas de las secuencias de inserto; emparejamiento de las secuencias en un ácido nucleico de doble cadena en el caso de que las secuencias presenten códigos de barras complementarios y las coordenadas genómicas del inserto se localizan en las cadenas contrarias. El método puede comprender, además, una etapa de eliminación de familias de códigos de barras de un solo miembro que contienen una variante de secuencia a menos que la variante esté soportada por como mínimo otra familia de códigos de barras con >2 miembros.
Cada adaptador puede comprender dos segmentos de cadena sencilla en el extremo distal; un segmento que comprende un extremo 5' y el otro segmento que comprende el extremo 3', en el que los segmentos de cadena sencilla son no hibridables entre sí. Los dos segmentos de cadena sencilla pueden unirse covalentemente entre sí en los extremos distales, p. ej., mediante un conector. El conector opcionalmente puede comprender un sitio de corte. En algunas realizaciones, está comprendida la utilización e una agrupación de adaptadores únicos que comprende una combinación de dos subagrupaciones de adaptadores: una primera subagrupación en la que cada adaptador comprende dos segmentos de cadena sencilla en el extremo distal: un segmento que comprende el extremo 5' y el otro segmento que comprende el extremo 3', en el que los segmentos de cadena sencilla son no hibridables entre sí; y una segunda subagrupación en la que cada adaptador comprende dos segmentos de cadena sencilla no hibridables que están unidos covalentemente entre sí en los extremos distales.
En otra realización no cubierta por la invención reivindicada, se proporciona un método de análisis de errores reducidos de ácidos nucleicos en una muestra de un sujeto, que comprende: llevar a cabo la secuenciación de moléculas individuales de ácidos nucleicos procedentes de múltiples muestras de control a fin de determinar la secuencia del ácido nucleico diana; determinar la frecuencia de cada una de las posibles clases de sustitución de nucleótido en cada posición en las muestras de control; ajustar un modelo estadístico a dichas frecuencias a fin de determinar las frecuencias de los errores de fondo; llevar a cabo la secuenciación de moléculas individuales de ácidos nucleicos procedentes de la muestra del sujeto; determinar la frecuencia de cada una de las posibles clases de sustitución de nucleótido en cada posición en la muestra del sujeto; determinar la profundidad de las lecturas de cada secuencia diana en la muestra del sujeto; aplicar el modelo estadístico a la secuencia del sujeto; eliminar las sustituciones de nucleótidos con frecuencias inferiores a las de los errores de fondo.
Breve descripción de los dibujos
FIG. 1: reducción del error de fondo con códigos de barras moleculares. (a) Reparación terminal y adición de A terminales en el ADNlc aislado. (b) Unión de adaptadores en forma de Y al ADNlc. (c) El adaptador en forma de Y comprende un código de barras aleatorio y un código de barras fijo en su parte no hibridable, y una secuencia de cebador en su parte hibridable. (d) Los ácidos nucleicos molde se amplificaron mediante PCR y la información de secuencia se obtuvo mediante secuenciación de próxima generación. * indica mutaciones biológicas reales. # indica los errores inducidos por la PCR, etc. (e) Se filtraron y eliminaron las mutaciones falsas mediante análisis bioinformático mediante la utilización de códigos de barras. (f), (g) Se incrementó la sensibilidad de la detección de mutaciones de 0,02 % a 0,001 %.
FIG. 2: eliminación de las mutaciones G a T con códigos de barras moleculares. (a) Reparación terminal y adición de A terminales en el ADNlc aislado. (b) Unión de adaptadores en forma de Y al ADNlc. (c) Cada adaptador en forma de Y comprende un código de barras de doble cadena único en la parte hibridable. La flecha indica los códigos de barras de tallo.
FIG. 3: los códigos de barras endógenos comprenden una o más secuencias en diferentes loci del ácido nucleico. FIG. 4: desarrollo del Perfilado personalizado de cáncer mediante secuenciación profunda (CAPP-Seq, por sus siglas en inglés). Esquema que ilustra el diseño de los selectores de CAPP-Seq y su aplicación en la evaluación del ADN tumoral circulante.
FIG. 5: detección no invasiva y ultrasensible de ADN circulante procedente de tumores sólidos. (a) Diseño y validación de selectores. (b) Modelización de la sensibilidad. (c) Diagrama de flujo de la optimización de costes. FIG. 6: estructura y rendimiento de los adaptadores de código de barras en tándem y adaptadores de código de barras decalados en tándem con y sin conectores (extremos en forma de Y y cerrados covalentemente).
FIG. 7: diseño y rendimiento de la Supresión de errores digitales integrada (iDES, por sus siglas en inglés). FIG. 8: aplicabilidad del selector a múltiples tipos de tumor.
FIG. 9: desarrollo de la supresión de errores digitales integrada. (a) Secuenciación en tándem de adaptadores para la supresión de errores y la recuperación en moléculas de ADN de cadena sencilla y de doble cadena; (b) mapa térmico de tasas de error en todo el selector específicas de posición; (c) efecto del desduplicación de códigos de barras y pulido de fondo en las métricas de error en todo el selector; (d) gráficos de densidad del LLOD en todo el selector para cada sustitución de base; (e) límites de detección en todo el selector para todas las posibles sustituciones de base; (f) comparación de la iDES frente a diferentes estrategias de desduplicación de códigos de barras.
FIG. 10: estereotipado de errores de sustitución de base.
FIG. 11: sesgo de selección de cadenas en errores estereotípicos de sustitución de base.
FIG. 12: genotipado de tumores sin biopsia y seguimiento ultrasensible de CPNM con iDES. (a) Comparación de tres métodos de postprocesamiento para el genotipado sin biopsia; (b) fracciones alélicas observadas y esperadas; (c) mapa térmico de variantes de un solo nucleótido (SNV, por sus siglas en inglés) detectadas; (d) variantes de lista blanca de pacientes con CPNM detectados con iDES; (e) análisis de característica operativa de receptor (ROC, por sus siglas en inglés) de variantes en 'd'; (f) tasas de recuperación de mutaciones de EGFR procesables procedentes de tumores de CPNM analizados con iDES; (g) comparación de métodos de postprocesamiento para la detección de ADNlc; (h) seguimiento de la carga tumoral en un paciente ; (i) evaluación del límite de detección de la secuenciación dúplex.
FIG. 13: validación del modelo analítico de sensibilidad.
FIG. 14: modelo de distribución de probabilidad para cada tipo de sustitución de base.
FIG. 15: marco estadístico de detección de ADNlc y diseño de selectores. (a) los límites de detección de ADNlc como función de los informadores tumorales disponibles; (b) límites de detección del ADNlc como función de los informadores tumorales disponibles y GE secuenciados para una probabilidad de detección >90 %; (c) distancias entre mutaciones somáticas contiguas (adenocarcinoma pulmonar primario (APP), The Cancer Genome Atlas (TCGA); (d) concordancia entre número observado y predicho de informadores tumorales distantes; (e) Análisis del número de SNV e indels por tumor cubierto por el selector de CPNM; (f) Reproducibilidad de cada selector. FIG. 16: modelización de la probabilidad de detección de ADN tumoral a diversas concentraciones.
FIG. 17: reducción de la tasa de fondo en todo un selector mediante diversos métodos.
FIG. 18: correlación de mutaciones en el ADNlc con tumores.
FIG. 19: análisis de límites de detección específicos de alelo tras iDES.
Descripción detallada de la invención
La descripción siguiente y los ejemplos ilustran realizaciones de la invención en detalle.
Definiciones
La expresión "de tratamiento" incluye conseguir un beneficio terapéutico y/o un beneficio profiláctico. El beneficio terapéutico puede ser la erradicación o mejora del trastorno subyacente bajo tratamiento. Además, puede conseguirse un beneficio terapéutico con la erradicación o mejora de uno o más de los síntomas fisiológicos asociados al trastorno subyacente, de manera que se observa una mejora en el paciente, con independencia de que el paciente todavía esté afectado por el trastorno subyacente. Para el beneficio profiláctico, las composiciones pueden administrarse en el paciente en riesgo de desarrollar una enfermedad particular, o en un paciente que informa de uno o más síntomas fisiológicos de una enfermedad, aunque puede no haberse llegado a un diagnóstico de dicha enfermedad.
El término "adaptador" se refiere a un polinucleótido de secuencia conocida o desconocida que puede unirse al extremo 3' o 5' de uno o más polinucleótidos. En algunos casos, el adaptador polinucleótido puede unirse a otro adaptador polinucleótido que es idéntico o diferente. El adaptador puede comprender secuencias conocidas, secuencias no conocidas, o ambas. Un adaptador polinucleótido puede ser de doble cadena o de cadena sencilla. Un adaptador de doble cadena puede comprender dos cadenas hibridables. Alternativamente, un adaptador puede comprender una parte hibridable y una parte no hibridable. La parte no hibridable comprende por lo menos una región de cadena sencilla, por ejemplo, dos regiones de cadena sencilla que no son hibridables entre sí. Dentro de la parte no hibridable, la cadena que contiene un extremo 5' no hibridado se denomina cadena 5' y la cadena que contiene un extremo 3' no hibridado se denomina cadena 3'. El adaptador puede presentar la parte hibridable en un extremo del adaptador y la parte no hibridable encontrarse en el extremo contrario del adaptador. La parte no hibridable puede ser abierta (adaptador en forma de Y) o covalentemente cerrada mediante un conector (adaptador BAL Seq).
La expresión "código de barras" se refiere a una secuencia de nucleótidos dentro de un polinucleótido que se utiliza para identificar una molécula de ácidos nucleicos. Por ejemplo, puede utilizarse un código de barras para identificar moléculas en el caso de que las moléculas de varios grupos se combinen para el procesamiento o secuenciación de un modo multiplexado. Además, un código de barras puede encontrarse en una posición determinada dentro de un polinucleótido (p. ej., en el extremo 3', en el extremo 5' o en la parte intermedia del polinucleótido) y puede comprender secuencias de cualquier longitud (p. ej., 1 a 100 o más nucleótidos). Además, un código de barras puede comprender una o más secuencias predefinidas. El término "predefinido" se refiere a que esa secuencia de un código de barras está predeterminada o es conocida antes de la identificación, o sin necesidad de identificación, de la secuencia del ácido nucleico que comprende el código de barras. En algunos casos, pueden unirse códigos de barras predefinidos a ácidos nucleicos para clasificar los ácidos nucleicos en grupos. Por ejemplo, puede unirse una secuencia AAAA para identificar los ácidos nucleicos aislados a partir del paciente A. En algunos otros casos, un código de barras puede comprender, además, una o más secuencias aleatorias. El término "aleatorio" significa que esa secuencia de un código de barras no está predeterminada o no es conocida antes de la identificación. La expresión "secuencia aleatoria" se utiliza intercambiablemente con la expresión "secuencia degenerada", es decir, la secuencia que no presenta una definición precisa. Por ejemplo, pueden unirse códigos de barras aleatorios a un ácido nucleico como identificador para el ácido nucleico. En algunos casos, un código de barras puede comprender secuencias artificiales, p. ej., secuencias diseñadas que no están contenidas en el genoma no alterado de un sujeto. En algunos otros casos, un código de barras puede comprender una secuencia endógena, p. ej., secuencias que están presentes en el genoma no alterado de un sujeto. En determinados casos, un código de barras puede ser un código de barras endógeno. Un código de barras endógeno puede ser una secuencia de un ácido nucleico genómico, en el que la secuencia se utiliza como código de barras o identificador del ácido nucleico genómico. Pueden utilizarse diferentes tipos de códigos de barras en combinación. Por ejemplo, puede unirse un fragmento de un ácido nucleico genómico a un código de barras aleatorio. Una o más secuencias del fragmento de ADN genómico pueden ser un código de barras endógeno. La combinación del código de barras aleatorio y el código de barras endógeno puede utilizarse como un identificador único del fragmento de ácido nucleico genómico.
La expresión "código de barras de cadena sencilla" se refiere a un código de barras que comprende una secuencia de cadena sencilla, p. ej., un polinucleótido que no está unido a otro polinucleótido mediante enlaces de hidrógeno de Watson-Crick. Un polinucleótido de doble cadena (p. ej., un polinucleótido que está unido a otro polinucleótido mediante enlaces de hidrógeno de Watson-Crick), por ejemplo, un adaptador de doble cadena, puede comprender un código de barras de cadena sencilla en una cadena, donde los nucleótidos del código de barras no presentan nucleótidos complementarios en la otra cadena del polinucleótido. La expresión "código de barras de doble cadena" se refiere a un código de barras que comprende una secuencia de doble cadena, p. ej., un polinucleótido de código de barras que está unido a otro polinucleótido mediante enlaces de hidrógeno de Watson-Crick. En algunos casos, el código de barras de doble cadena puede comprender un segmento de un polinucleótido. Un adaptador de doble cadena puede comprender uno o más códigos de barras de cadena sencilla y uno o más códigos de barra de doble cadena.
El término "hibridable" significa que dos cadenas polinucleótidas de un ácido nucleico son complementarias en una o más posiciones nucleótidas, p. ej., las bases nitrogenadas de las dos cadenas polinucleótidas pueden formar dos o más enlaces de hidrógeno de Watson-Crick. Por ejemplo, en el caso de que un polinucleótido comprenda 5' ATGC 3', es hibridable con la secuencia 5' GCAT 3'. Bajo algunas condiciones experimentales, en el caso de que un polinucleótido comprenda 5' GGGG 3', las secuencias 5' CCAC 3' y 5' CCCA 3', que no son perfectamente complementarias, también pueden ser hibridables.
La expresión "no hibridable" significa que dos cadenas polinucleótidas de un ácido nucleico son no complementarias, p. ej., bases nitrogenadas de las dos cadenas polinucleótidas separadas no forman dos o más enlaces de hidrógeno de Watson-Crick bajo condiciones estándares de hibridación. Por ejemplo, en el caso de que un polinucleótido comprenda 5' ATGC 3', la secuencia 5' ATGC 3' puede ser no hibridable.
El término "evaluar" se utiliza en la presente memoria en referencia al cáncer o estado de un paciente con cáncer y denota la inferencia de la presencia o la ausencia de tumores o células tumorales, así como con respecto al paciente, la recomendación o no de terapia o tratamientos, la evaluación o predicción de la eficacia de la terapia, el seguimiento del estado del paciente, o la evaluación del pronóstico de un cáncer en el paciente.
El término "diagnosticar" se refiere a someter a ensayo sujetos para determinar si estos presentan un rasgo particular para la utilización en una decisión clínica. El diagnóstico puede incluir someter a ensayo sujetos en riesgo de desarrollar una enfermedad particular que resulta de la infección por un organismo infeccioso, o una enfermedad no infecciosa, tal como cáncer o una enfermedad metabólica. El diagnóstico puede incluir, además, el ensayo de sujetos que han desarrollado síntomas particulares, con el fin de determinar la causa de los síntomas. El resultado del diagnóstico puede utilizarse para clasificar los pacientes en grupos para la realización de ensayos clínicos para la administración de determinadas terapias. Por ejemplo, en algunas realizaciones, el diagnóstico puede comprender el análisis de ADNlc recogidos de sujetos para detectar la presencia o ausencia de mutaciones relacionadas con el cáncer. En algunas otras realizaciones, el diagnóstico puede comprender el análisis de ADNlc recogidos de sujetos para el seguimiento de la progresión del cáncer o los estadios del cáncer. En determinados casos, el diagnóstico puede comprender, además, el análisis de ADNlc recogidos de sujetos que reciben tratamientos del cáncer con el fin de detectar los efectos de los tratamientos y realizar un seguimiento de la progresión del cáncer o de los estadios del cáncer durante o después del tratamiento.
La expresión "determinar el pronóstico" se refiere a someter a ensayo sujetos para determinar si estos presentan un rasgo particular para la utilización en una decisión clínica. Determinar el pronóstico puede incluir someter a ensayo a sujetos en riesgo de desarrollar una enfermedad particular que resulta de la infección por un organismo infeccioso, o una enfermedad no infecciosa, tal como cáncer o una enfermedad metabólica. Por ejemplo, en algunas realizaciones, determinar el pronóstico puede comprender el análisis de ADNlc recogidos de sujetos para detectar la presencia o ausencia de mutaciones relacionadas con el cáncer. En algunas otras realizaciones, determinar el pronóstico puede comprender el análisis de ADNlc recogidos de sujetos para el seguimiento de la progresión del cáncer o los estadios del cáncer. En determinados casos, determinar el pronóstico puede comprender, además, el análisis de ADNlc recogidos de sujetos que reciben tratamientos del cáncer con el fin de detectar el efecto de los tratamientos y realizar un seguimiento de la progresión del cáncer o de los estadios del cáncer durante o después del tratamiento.
El término "amplificación" se refiere a cualquier método para incrementar el número de copias de una secuencia de ácidos nucleicos. Por ejemplo, la amplificación puede llevarse a cabo con la utilización de una polimerasa, p. ej., en una o más reacciones en cadena de la polimerasa (PCR, por sus siglas en inglés) u otro método exponencial o lineal de amplificación.
El término "amplicones" se refiere a productos ácidos nucleicos de una reacción de amplificación. Por ejemplo, el término "amplicones" puede no incluir precursores de ácidos nucleicos que no han sido incorporados en un producto ácido nucleico deseado (p. ej., cebadores no incorporados, dNTP, etc.).
Los términos "cáncer", "neoplasma" y "tumor" pueden utilizarse intercambiablemente en la presente memoria y pueden referirse a células o tejidos que muestran un crecimiento no regulado autónomo, de manera que las células o tejidos muestran un crecimiento aberrante caracterizado por una proliferación celular incrementada, p. ej., una proliferación celular significativa. Entre las células de interés para la detección, análisis o tratamiento en la presente solicitud pueden incluirse, aunque sin limitación, células precancerosas (p. ej., benignas), malignas, premetastásicas, metastásicas y no metastásicas. Los cánceres de virtualmente todos los tejidos son conocidos por el experto en la materia, incluyendo tumores sólidos, tales como carcinomas, sarcomas, glioblastomas, melanomas, linfomas, mielomas, etc., y cánceres circulantes, tales como leucemias. Entre los ejemplos de cáncer se incluyen, aunque sin limitarse a ellos, cáncer ovárico, cáncer de mama, cáncer de colon, cáncer de pulmón, cáncer de próstata, cáncer hepatocelular, cáncer gástrico, cáncer pancreático, cáncer de cuello uterino, cáncer ovárico, cáncer de hígado, cáncer de vejiga, cáncer del tracto urinario, cáncer de tiroides, cáncer renal, carcinoma, melanoma, cáncer de cabeza y cuello, y cáncer cerebral.
La expresión "carga de cáncer" o "carga tumoral" se refiere a la cantidad de células de cáncer o volumen tumoral en un sujeto. La reducción de la carga de cáncer, por consiguiente, puede referirse a reducir el número de células de cáncer o el volumen tumoral en un sujeto.
La expresión "célula de cáncer" se refiere a cualquier célula que es una célula de un cáncer o que se deriva de una célula de cáncer, p. ej., un clon de una célula de cáncer. La expresión "célula de cáncer" puede referirse también a una célula que muestra propiedades de tipo canceroso, p. ej., reproducción no controlada, resistencia a señales anticrecimiento, capacidad de metastatizar y pérdida de la capacidad de experimentar la muerte celular programada (p. ej., apoptosis).
El término "desduplicación" se refiere a un método que comprende agrupar secuencias de ácidos nucleicos en grupos que comprenden la progenie de una única molécula presente originalmente en la muestra. La molécula original y su progenie se caracterizan por el mismo código de barras molecular único (UID). La desduplicación comprende, además, el análisis de las secuencias de las moléculas de progenie con el fin de determinar indirectamente la secuencia de la molécula original con una tasa de errores reducida.
El término "mutación" se refiere a una alteración genética en el genoma de un organismo o de una célula. Por ejemplo, las mutaciones de interés pueden ser cambios respecto a la línea germinal de un organismo, p. ej., cambios específicos de células de cáncer. Entre las mutaciones pueden incluirse variantes de nucleótidos únicos (SNV), variantes de número de copia (CNV, por sus siglas en inglés), polimorfismos de nucleótido único (SNP), inserciones, deleciones y reorganizaciones (p. ej., fusiones).
La expresión "mutaciones relacionadas con cáncer" se refiere a mutaciones que ocurren en un tumor. Por ejemplo, las mutaciones relacionadas con cáncer pueden ser la causa de cánceres. Las mutaciones relacionadas con cáncer pueden facilitar, además, el desarrollo del cáncer, aunque no ser la causa exclusiva del mismo. Las mutaciones relacionadas con cáncer pueden causar o facilitar, además, la metástasis del cáncer.
La expresión "ADN libre de células (ADNlc)" se refiere a ADN en un amuestra que, al recogerse, no estaba contenido dentro de una célula. Los ADNlc pueden comprender tanto ADN de células normales como derivado de células de cáncer. El ADNlc se obtiene habitualmente de sangre o plasma ("circulación"). Los ADNlc pueden liberarse a la circulación mediante secreción o procesos de muerte celular, p. ej., necrosis o apoptosis celular. Algunos ADNlc son ADN tumoral circulante (ADNtc) (ver posteriormente).
La expresión "ADN tumoral circulante (ADNtc)" o "ADN de cáncer circulante" se refiere a la fracción de ADN libre de células (ADNlc) que se origina en un tumor.
La expresión "equivalentes genómicos" se refiere a la cantidad de ADN necesaria para comprender un genoma completo.
El término "muestra" se refiere a cualquier muestra biológica que se aísla a partir de un sujeto. Por ejemplo, una muestra puede incluir, aunque sin limitación, una alícuota de líquido corporal, sangre completa, plaquetas, suero, plasma, heces, glóbulos rojos, glóbulos blancos o leucocitos, células endoteliales, biopsias de tejido, líquido sinovial, fluido linfático, líquido ascites y líquido intersticial o extracelular. El término "muestra" puede comprender, además, el líquido en los espacios entre las células, incluyendo el fluido crevicular gingival, la médula ósea, el líquido cefalorraquídeo (LCR), la saliva, el moco, el esputo, el semen, el sudor, la orina o cualesquiera otros líquidos corporales. La muestra también puede ser una muestra de tumor. Las muestras pueden obtenerse de un sujeto mediante, aunque sin limitación, venopunción, excreción, eyaculación, masaje, biopsia, aspirado con aguja, lavado, raspado, incisión quirúrgica o intervención, u otros medios conocidos de la técnica.
La expresión "muestra de sangre" se refiere a sangre completa o cualquier fracción de la misma, incluyendo células sanguíneas: glóbulos rojos, glóbulos blancos o leucocitos, o plaquetas, o suero y plasma.
La expresión "región genómica" puede referirse a un abanico de secuencias dentro de un genoma. Por ejemplo, una región genómica puede incluir una secuencia en un gen o fuera de un gen, p. ej., un intrón, un promotor, una región no codificante, etc.
El término "selector" se refiere a una pluralidad de oligonucleótidos o sondas que se hibridan con una o más regiones genómicas. En algunos casos, la región o regiones genómicas pueden estar asociadas a enfermedades, p. ej., cánceres.
El término "unir se refiere a conectar dos moléculas mediante enlaces químicos para generar una nueva molécula. Por ejemplo, unir un polinucleótido adaptador a otro polinucleótido puede referirse a formar enlaces químicos entre el adaptador y el polinucleótido (p. ej., utilizando una ligasa o cualquier otro método) para genera una única molécula nueva que comprende el adaptador y el polinucleótido.
El término "locus" se refiere a una posición en el genoma. En algunos casos, un locus puede ser uno o más nucleótidos o uno o más pares de bases.
El término "polinucleótido" se refiere a un biopolímero que comprende uno o más monómeros de nucleótido (naturales o no naturales) unidos covalentemente en una cadena. En algunos casos, un polinucleótido puede presentar una secuencia que comprende una secuencia de ácidos nucleicos genómica. En otros casos, un polinucleótido puede presentar una secuencia artificial (p. ej., una secuencia no observada en el ácido nucleico genómico). Un polinucleótido puede comprender tanto una secuencia de ácidos nucleicos genómica como una secuencia artificial. Una secuencia artificial puede contener nucleótidos no naturales.
Aunque los cambios genéticos específicos difieren de individuo a individuo y entre diferentes tipos de cáncer, existen regiones del genoma que pueden mostrar cambios recurrentes. En dichas regiones hay una probabilidad incrementada de que cualquier cáncer dado muestre variación genética. Los cambios genéticos en las células de cáncer pueden proporcionar un medio por el que las células de cáncer pueden distinguirse de las células normales (p. ej., células no de cáncer). Por ejemplo, el ADNlc puede analizarse para la presencia de variaciones genéticas distintivos de células tumorales. Sin embargo, los niveles absolutos de ADN tumoral libre de células en dichas muestras con frecuencia son bajos, y la variación genética puede representar solo una parte muy pequeña del genoma completo. Un método para resolver este problema incluye la detección precisa de mutaciones relacionadas con el cáncer en los ácidos nucleicos de las células de cáncer sobre el fondo de los ácidos nucleicos de las células normales. Aunque los métodos dados a conocer en la presente memoria pueden referirse específicamente a ADN o ARN, se encuentra expresamente contemplado que cualesquiera ácidos nucleicos puedan sustituirse por ADN o ARN, o puedan utilizarse en combinación con uno o más tipos de ácidos nucleicos (p. ej., híbridos de ARN/ADN).
Adaptadores en forma de Y que comprenden códigos de barras únicos
En la presente memoria se proporciona la utilización de una agrupación de adaptadores únicos tal como se define en la reivindicación 1.
En la presente memoria se proporcionan, además, composiciones que pueden incluir una agrupación de adaptadores en forma de Y, en las que cada adaptador en forma de Y comprende un segmento hibridable en un extremo del adaptador en forma de Y un segmento no hibridable en el extremo contrario del adaptador en forma de Y, en el que el segmento no hibridable comprende: i) un código de barras de cadena sencilla predefinido de por lo menos dos nucleótidos, y ii) un código de barras de cadena sencilla aleatorio de por lo menos dos nucleótidos en la misma cadena que el código de barras de cadena sencilla predefinido.
En la presente memoria se proporcionan adicionalmente, composiciones que pueden incluir una agrupación de adaptadores en forma de Y, en las que cada adaptador en forma de Y comprende un segmento hibridable en un extremo del adaptador en forma de Y y un segmento no hibridable en el extremo contrario del adaptador en forma de Y, en el que el segmento hibridable comprende un código de barras de tallo de doble cadena único de por lo menos dos nucleótidos, y en el que el segmento no hibridable comprende: i) un código de barras de cadena sencilla único de por lo menos dos nucleótidos, y en el que el segmento no hibridable comprende: i) un código de barras de cadena sencilla predefinido de por lo menos dos nucleótidos y ii) un código de barras de cadena sencilla aleatorio de por lo menos dos nucleótidos en la misma cadena que el código de barras de cadena sencilla predefinido.
Con el fin de ayudar a identificar los ácidos nucleicos únicos de cáncer, los adaptadores en algunas realizaciones pueden comprender un código de barras de cadena sencilla predefinido y un código de barras de cadena sencilla aleatorio en la cadena 5' de la parte no hibridable del adaptador. Por otra parte, en otras realizaciones, el código de barras de cadena sencilla predefinido y el código de barras de cadena sencilla aleatorio pueden encontrarse en la cadena 3' del segmento no hibridable del adaptador.
El código de barras de cadena sencilla predefinido puede ser contiguo al código de barras de cadena sencilla aleatorio. También se encuentra explícitamente contemplado que el código de barras de cadena sencilla predefinido pueda estar separado del código de barras de cadena sencilla aleatorio por uno o más nucleótidos.
El código de barras de cadena sencilla predefinido puede contener bases naturales (p. ej., adenosina (A), timidina (T), guanosina (G), citosina (C) y uracilo (U)) o bases no naturales, p. ej., aminoalil-uridina, isocitosinas, isoguanina y 2-aminopurina, y ser de entre 2 y aproximadamente 20 nucleótidos de longitud.
De manera similar al código de barras de cadena sencilla predefinido, la longitud del código de barras aleatorio puede ser de entre 2 y aproximadamente 20 nucleótidos y puede contener bases naturales (p. ej., adenosina (A), timidina (T), guanosina (G), citosina (C) y uracilo (U)) o bases no naturales, p. ej., aminoalil-uridina, isocitosinas e isoguanina.
Con respecto a la longitud del código de barras de tallo de doble cadena, también puede ser de entre 2 y aproximadamente 20 nucleótidos.
En algunos casos, el código de barras de tallo de doble cadena puede comprender secuencia predefinida. En otras realizaciones, el código de barras de tallo de doble cadena puede comprender una secuencia aleatoria o comprende tanto una secuencia predefinida como una secuencia aleatoria.
El código de barras de doble cadena puede comprender nucleótidos naturales y no naturales, p. ej., aminoalil-uridina, isocitosinas, isoguanina y 2-aminopurina. Lo anterior puede ayudar en la detección del código de barras de doble cadena.
En realizaciones adicionales, cada adaptador en forma de Y puede comprender, además, una secuencia de cebador. La secuencia de cebador puede ser una secuencia de cebador de PCR o una secuencia de cebador de secuenciación. En algunas realizaciones, la secuencia de cebador puede encontrarse en el segmento no hibridable del adaptador en forma de Y. En otras realizaciones, la secuencia de cebador puede encontrarse en el segmento hibridable del adaptador en forma de Y. En algunas realizaciones, la secuencia de cebador puede encontrarse en toda la agrupación de adaptadores en forma de Y. En algunas otras realizaciones, las secuencias de cebador en uno o más adaptadores en forma de Y pueden ser diferentes de las secuencias de cebador en otros adaptadores en forma de Y.
Métodos de análisis de ácidos nucleicos
En algunas realizaciones no cubiertas por la invención reivindicada, se proporciona un método de análisis de los ácidos nucleicos tumorales circulantes con el fin de detectar un perfil de mutaciones relacionado con cáncer con una sensibilidad elevada. El método puede aplicarse a ADN libre de células (ADNlc) que contiene ADN tumoral circulante (ADNtc). El análisis puede comprender la secuenciación de alto rendimiento de los ácidos nucleicos. En la presente memoria se da a conocer un nuevo marco analítico de modelización para la supresión de errores digitales integrada (iDES) que permite la secuenciación de los ácidos nucleicos con una tasa de error baja. Dicho método optimiza la detección y el análisis del ADNlc a partir de muestras de bajo contenido inicial. Mediante la combinación de la supresión de los errores de fondo estereotípicos con el uso eficiente de códigos de barras moleculares (iDES) proporciona límites de detección más bajos que los métodos anteriores en un amplio abanico de métodos de secuenciación, facilitando de esta manera la cuantificación sin biopsia de variantes a lo largo de cientos de kilobases. En algunas realizaciones, la sensibilidad del análisis de ADNtc puede ser de tan solo 1 a 3 moléculas mutantes por muestra típica. En algunas realizaciones, el método se aplica a cáncer de pulmón no microcítico (CPNM) avanzado y permite la detección sin biopsia de 95 % de las mutaciones activadores en el gen de EGFR sin falsos positivos. En algunas realizaciones, el método permite la recuperación de fracciones de ADNtc de tan solo 0,004 % en un contexto de monitorización. Además, aprovechando las secuencias dúplex reconstruidas, el método permite que el límite de detección sea de 2,5 moléculas en el fondo de 1.000.000 de moléculas
En la presente memoria se dan a conocer métodos de análisis de ácidos nucleicos, incluyendo los métodos para la detección ultrasensible de ácidos nucleicos, p. ej., ADN libre de células circulante, por ejemplo, ADN tumoral libre de células circulante en una muestra. El método cuantifica con precisión los ácidos nucleicos, p. ej., ADN tumoral libre de células, de tumores de estado temprano y de estadio avanzado. Debido a que los niveles de ADN derivados de tumor con frecuencia muestran un patrón paralelo al de las respuestas clínicas a diversas terapias, el método podría identificar mutaciones aprovechables. El método también puede utilizarse para detectar y monitorizar no invasivamente los tumores, facilitando de esta manera la terapia personalizada del cáncer.
Los adaptadores utilizados en el método se basan en la fig. 6. El método puede utilizar adaptadores en forma de Y o también pueden utilizarse adaptadores cerrados covalentemente. En adaptadores cerrados covalentemente, los segmentos de cadena sencilla pueden conectarse mediante un conector. El método también puede utilizar una combinación de adaptadores en forma de Y y cerrados covalentemente.
El método puede comprender: a) unir adaptadores de doble cadena a ambos extremos de una pluralidad de ácidos nucleicos de doble cadena para producir ácidos nucleicos ligados a adaptadores, en el que cada uno de los adaptadores de doble cadena comprende un código de barras de tallo de doble cadena; b) amplificar ambas cadenas de los ácidos nucleicos ligados con adaptador para producir primeros amplicones y segundos amplicones, en el que los primeros amplicones se derivan de una primera cadena de los ácidos nucleicos de doble cadena y una primera cadena de los códigos de barras de tallo de doble cadena, y los segundos amplicones se derivan de una segunda cadena de los ácidos nucleicos de doble cadena, y una segunda cadena de los códigos de barras de tallo de doble cadena; c) determinar la secuencia del primer y segundo amplicón, y d) analizar los ácidos nucleicos mediante la utilización del código de barras de tallo de doble cadena.
El análisis puede incluir la determinación de si el primer y segundo amplicón se originan en la misma cadena de un único ácido nucleico de doble cadena de la pluralidad de ácidos nucleicos de doble cadena mediante la identificación del código de barras de tallo de doble cadena.
En la presente memoria se dan a conocer, además, métodos que comprende: a) unir adaptadores mediante sus segmentos de doble cadena a ambos extremos de una pluralidad de ácidos nucleicos de doble cadena para producir ácidos nucleicos ligados con adaptador, en el que cada adaptador comprende un segmento hibridable en un extremo y un segmento no hibridable en el extremo contrario, y en el que el segmento hibridable de cada uno de los adaptadores de doble cadena comprende un código de barras de tallo de doble cadena; b) amplificar ambas cadenas de los ácidos nucleicos ligados con adaptador, para producir primeros amplicones y segundos amplicones, en el que los primeros amplicones se derivan de una primera cadena de los ácidos nucleicos de doble cadena y una primera cadena de los códigos de barras de tallo de doble cadena, y los segundos amplicones se derivan de una segunda cadena de los ácidos nucleicos de doble cadena y una segunda cadena de los códigos de barras de tallo de doble cadena; c) determinar las secuencias del primer y segundo amplicones, y d) utilizar el código de barras de tallo de doble cadena, determinar si el primer y segundo amplicones se originan en la misma cadena de un único ácido nucleico de doble cadena de la pluralidad de ácidos nucleicos de doble cadena.
En la presente memoria se dan a conocer, además, métodos que comprende: a) unir adaptadores mediante sus segmentos de doble cadena a ambos extremos de una pluralidad de ácidos nucleicos de doble cadena para producir ácidos nucleicos ligados con adaptador, en la que cada adaptador comprende un segmento hibridable en un extremo y un segmento no hibridable en el extremo contrario, en la que el segmento hibridable comprende un código de barras de tallo de doble cadena, y en la que el segmento no hibridable comprende una cadena 5' que comprende: i) un código de barras de cadena sencilla predefinido de por lo menos dos nucleótidos, y ii) un código de barras de cadena sencilla aleatorio de por lo menos dos nucleótidos en la misma cadena que el código de barras de cadena sencilla predefinido, en el que una o más secuencias de cada ácido nucleico de doble cadena proporciona un código de barras endógeno del ácido nucleico, y en el que la combinación del código de barras de cadena sencilla aleatorio y el código de barras endógeno proporciona un identificador único de cada ácido nucleico de doble cadena; b) amplificar ambas cadenas de los ácidos nucleicos aligados con adaptador, para producir primeros amplicones y segundos amplicones, en el que los primeros amplicones se derivan de una primera cadena de los ácidos nucleicos de doble cadena y una primera cadena de los códigos de barras de tallo de doble cadena, y los segundos amplicones se derivan de una segunda cadena de los ácidos nucleicos de doble cadena y una segunda cadena de los códigos de barras de tallo de doble cadena; c) determinar la secuencia de los primeros y segundos amplicones, y d) determinar si los primeros y segundos amplicones se originan en la misma cadena de un único ácido nucleico de doble cadena de la pluralidad de ácidos nucleicos de doble cadena mediante la identificación de la secuencia del código de barras de tallo de doble cadena.
En la presente memoria se dan a conocer métodos de análisis de ácidos nucleicos para detectar, diagnosticar o determinar el pronóstico del cáncer. Los métodos pueden comprender: a) unir adaptadores mediante sus segmentos de doble cadena a ambos extremos de una pluralidad de ácidos nucleicos de doble cadena para producir ácidos nucleicos ligados con adaptador, en el que cada adaptador comprende un segmento hibridable en un extremo y un segmento no hibridable en el extremo contrario, en el que el segmento hibridable comprende un código de barras de tallo de doble cadena identificable único de por lo menos dos nucleótidos, y en el que el segmento no hibridable comprende: i) un código de barras de cadena sencilla predefinido de por lo menos dos nucleótidos, y ii) un código de barras de cadena sencilla aleatorio de por lo menos dos nucleótidos en la misma cadena que el código de barras de cadena sencilla predefinido; b) amplificar los ácidos nucleicos molde para producir una pluralidad de amplicones; c) hibridar los amplicones con un selector que comprende un juego de oligonucleótidos que se hibridan selectivamente con regiones genómicas de la totalidad o un subgrupo de uno o más ácidos nucleicos de muestra, y d) obtener secuencias de los amplicones hibridados a fin de detectar la presencia o la ausencia de cáncer o mutaciones relacionadas con cáncer.
En la presente memoria se dan a conocer métodos de análisis de ácidos nucleicos para detectar, diagnosticar o determinar el pronóstico del cáncer. Los métodos pueden comprender: a) unir adaptadores mediante sus segmentos de doble cadena a ambos extremos de una pluralidad de ácidos nucleicos de doble cadena para producir ácidos nucleicos ligados con adaptador, en el que cada adaptador comprende un segmento hibridable en un extremo y un segmento no hibridable en el extremo contrario, en el que el segmento hibridable comprende un código de barras de tallo de doble cadena identificable único de por lo menos dos nucleótidos, y en el que el segmento no hibridable comprende: i) un código de barras de cadena sencilla predefinido de por lo menos dos nucleótidos, y ii) un código de barras de cadena sencilla aleatorio de por lo menos dos nucleótidos en la misma cadena que el código de barras de cadena sencilla predefinido; b) amplificar los ácidos nucleicos molde para producir una pluralidad de amplicones; c) hibridar los amplicones con un selector que comprende un juego de oligonucleótidos que se hibridan selectivamente con regiones genómicas de la totalidad o un subgrupo de uno o más ácidos nucleicos de muestra, y d) obtener secuencias de los amplicones hibridados a fin de detectar la presencia o la ausencia de cáncer o mutaciones relacionadas con cáncer.
Los métodos comprenden la etapa de unir una molécula a otra molécula, p. ej., un adaptador polinucleótido a un polinucleótido diferente. La unión puede comprender ligar adaptador en forma de Y a uno o más ácidos nucleicos. En algunos casos, el enzima utilizado en la ligación es una ADN ligasa, p. ej., una ADN ligasa de T4, ADN ligasa de E. coli, ligasa de mamífero o cualquier combinación de los mismos. La ligasa de mamífero puede ser la ADN ligasa I, la ADN ligasa III o la ADN ligasa IV. La ligasa también puede ser una ligasa termoestable.
Adaptadores utilizados en el método.
Los adaptadores dados a conocer en la presente memoria y sus realizaciones específicas pueden unirse a uno o más ácidos nucleicos mediante la parte hibridable (de doble cadena) de los adaptadores. Los adaptadores pueden presentar segmentos de cadena sencilla libres o enlazados. En algunas realizaciones, el método utiliza adaptadores con segmentos de cadena sencilla libres (adaptadores de forma Y) y segmentos de cadena sencilla unidos covalentemente (adaptadores BAL-Seq) o una combinación de dos tipos de adaptadores (fig. 6). En algunas realizaciones, los segmentos de cadena sencilla unidos covalentemente se unen mediante un conector. El conector puede contener opcionalmente un sitio de corte, p. ej., una secuencia de reconocimiento de enzima de restricción.
Los adaptadores de la presente invención pueden presentar códigos de barras localizados según varias realizaciones diferentes indicadas posteriormente. Tal como se muestra en la fig. 6, cada adaptador puede presentar varios códigos de barras (denominados como "ID" en la fig. 6). Los adaptadores pueden presentar uno o más códigos de barra en cada segmento de cadena sencilla y uno o más códigos de barras en el segmento de doble cadena. En referencia a la fig. 6, en algunas realizaciones, los segmentos de cadena sencilla presentan códigos de barras de ID moleculares y el segmento de doble cadena puede presentar códigos de barras de ID de muestra. Cada uno de los códigos de barras pueden localizarse (o colocalizarse) en (a) una región de cadena sencilla superior (que contiene el extremo 5'), (b) una región de cadena sencilla inferior (que contiene el extremo 3'), y (c) la región de doble cadena o tallo del adaptador en forma de Y tal como se muestra en la Tabla A y en la fig. 6.
Tabla A. Localización de códigos de barras y uso en la secuenciación.
Figure imgf000012_0001
M: ID de muestra multiplex (IDM); U: ID molecular única (IDU);
CS - cadena sencilla; DC - doble cadena
* Secuenciación de DC, es decir, el emparejamiento de dos cadenas utilizando códigos de barras solo es posible si los códigos de barras no son aleatorios, sino que presentan secuencias conocidas de manera que puedan hacerse corresponder.
En algunas realizaciones, los IDU están en ambas cadenas del adaptador: las cadenas superior e inferior, o en la región de doble cadena. Si las IDU pueden hacerse corresponder como originadas en el mismo adaptador, la secuenciación de doble cadena (es decir, emparejar cadenas sencillas) resulta posible. Las IDU localizadas en la región de doble cadena se hacen corresponder mediante emparejamiento de Watson-Crick. Las IDU de secuencia conocida (no aleatorias) presentes en los segmentos de cadena sencilla pueden cruzarse como pertenecientes a la misma molécula de adaptador.
En la presente invención, el código de barras de cadena sencilla aleatorio combinado con un código de barras endógeno puede proporcionar un identificador único para cada ácido nucleico de molde. El código de barras endógeno puede comprender una secuencia de cualquier longitud y puede comprender uno o más juegos de secuencias de nucleótidos en un ácido nucleico. Las secuencias podrían encontrarse en diferentes loci del ácido nucleico. En algunas realizaciones, el código de barras endógeno puede comprender una secuencia en un extremo del ácido nucleico (FIG.
3 (a)). En algunas realizaciones, el código de barras endógeno puede comprender una primera secuencia en un extremo del ácido nucleico y una segunda secuencia en el extremo contrario del ácido nucleico (FIG. 3 (b)). En otras realizaciones, el código de barras endógeno puede comprender una secuencia interna (FIG. 3 (c)). En determinadas realizaciones, el código de barras endógeno puede comprender una primera secuencia que es interna y una segunda secuencia que se encuentra en un extremo del ácido nucleico (FIG. 3 (d)). En todavía otras realizaciones, el código de barras endógeno puede comprender una primera y una segunda secuencia en el que ambas son internas (FIG. 3 (e)).
En el contexto de la invención, los amplicones derivados del mismo ácido nucleico de molde contienen el mismo identificador único (IDU). Dichos identificadores únicos distintos pueden utilizarse para identificar y contar los ácidos nucleicos de molde distintos en la muestra original. Por ejemplo, los IDU pueden utilizarse para contar los ácidos nucleicos de molde originales que contienen las mismas mutaciones. En otros casos, los IDU pueden utilizarse para identificar y agrupar los amplicones procedentes del mismo ácido nucleico molde original.
El código de barras de tallo puede encontrarse en cualquier parte del tallo del adaptador. Por ejemplo, el código de barras de tallo puede ser contiguo al par de bases al que se une el adaptador en el ácido nucleico o estar separado por uno o más pares de bases respecto del par de bases al que se une el adaptador en el ácido nucleico.
Los códigos de barras de tallo de doble cadena únicos también pueden identificar cadenas del ácido nucleico. Por ejemplo, después de unir un adaptador a un ácido nucleico, ambas cadenas del ácido nucleico resultante contienen el código de barras de tallo único, aunque cada cadena del ácido nucleico puede contener diferentes códigos de barras de cadena sencilla aleatorios o diferentes identificadores únicos. Tras la amplificación, los amplicones derivados de una cadena del ácido contienen el mismo código de barras de tallo y el mismo código de barras endógeno que los amplicones derivados de la otra cadena del mismo ácido nucleico. De esta manera, en algunas realizaciones, el código de barras de tallo puede utilizarse para identificar amplicones derivados de las dos cadenas del mismo ácido nucleico de molde. En determinadas realizaciones, los códigos de barras de tallo únicos pueden utilizarse para identificar mutaciones en una cadena, aunque no en la otra cadena del ácido nucleico. En algunas otras realizaciones, las mutaciones que ocurren en una cadena, aunque no en la otra cadena del ácido nucleico de molde pueden ser errores de amplificación y pueden descartarse como artefacto.
La invención comprende la utilización de una nueva molécula de adaptador. En la presente memoria se dan a conocer adaptadores de secuenciación "en tándem" que contiene dos códigos de barras fundamentalmente diferentes, que permiten rastrear moléculas de ADN individuales para distinguir mutaciones somáticas reales que surgen in vivo a partir de errores introducidos durante procedimientos ex vivo, incluyendo la secuenciación de alto rendimiento. Los adaptadores pueden comprender códigos de barras que incluyen una secuencia definida o una secuencia aleatoria, o una combinación de una secuencia aleatoria y una secuencia definida. Tal como se muestra en las figuras 1 y 6, el segmento de cadena sencilla del adaptador incluye un código de barras que consiste en un segmento de ID de muestra multiplex (IDM) compartido entre las moléculas de adaptador en una muestra y un código de barras único de cada molécula de adaptador (ID única, o IDU). En algunas realizaciones, el código de barras único es un código de barras aleatorio. Los adaptadores con dichos códigos de barras compuestos se denominan "adaptadores-índice". En algunas realizaciones, los adaptadores son "adaptadores en tándem". Los adaptadores en tándem comprenden adaptadoresíndice con nucleótidos añadidos. En algunas realizaciones, se añaden 2 o más bases a cada extremo de cada oligonucleótido adaptador para rendir un adaptador en tándem. En algunas realizaciones, los nucleótidos añadidos incluyen una T en el extremo 3' para permitir la ligación. En otras realizaciones, los adaptadores son "adaptadores en tándem decalados". Los adaptadores en tándem decalados comprenden adaptadores en tándem con nucleótidos añadidos. En algunas realizaciones, se añaden 2 o más bases distalmente al extremo interno del adaptador. (figura 6)
En algunas realizaciones del adaptador, se sustituye un código de barras de multiplexación (IDM) de muestra típico por un código de barras molecular degenerado como identificador único, o IDU. En otra realización, un IDU corto (2 o más nucleótidos) próximo al extremo ligante del adaptador crea un "inserto" o código de barras interno o IDU interno. (Fig. 6 (a)). Mediante el aprovechamiento de las diferentes coordenadas genómicas de cada molécula, las IDU internas de la presente invención permiten obtener códigos de barras más cortos, maximizando el rendimiento de la secuenciación. Dichos IDU internos permiten una recuperación eficiente de las moléculas dúplex, mejorando en ~2 veces los enfoques similares de la técnica anterior; ver (fig. 7(a)). Dicho método (es decir, iDES, códigos de barra o pulido únicamente, solo dúplex) resultaron ventajosos en la comparación con métodos de supresión de errores de la técnica anterior. (Fig. 7(a)) en referencia a Lou, D.I. et al. High-throughput DNA sequencing errors are reduced by orders of magnitude using circle sequencing. Proc. Natl. Acad. Sci. USA 110, 19872-19877 (2013), ("Lou"); Kennedy, S.R. et al. Detecting ultralow-frequency mutations by Duplex Sequencing. Nat. Protoc. 9, 2586-2606 (2014), ("Kennedy") y Schmitt, M.W., et al. Detection of ultra-rare mutations bynext-generation sequencing. Proc. Natl. Acad. Sci. USA 109, 14508-14513 (2012), ("Schmitt".)
Adaptadores en tándem y adaptadores en tándem decalados.
En algunas realizaciones no cubiertas por la invención reivindicada, se proporciona un método de creación de códigos de barras diseñado para maximizar la profundidad de secuenciación utilizable dentro de una lectura de secuenciación. En lugar de insertar un código de barras molecular único (IDU) en la lectura de la secuencia diana, el código de barras molecular se situó en proximidad al código de barras de la muestra (IDM) de manera que el código de barras molecular se leyese en una lectura "índice" separada. Lo anterior permitió utilizar por completo las lecturas de secuenciación de extremo emparejados para la lectura de las bases de ADN de los ácidos nucleicos diana, en contraste con otros métodos de códigos de barras moleculares que requieren sacrificar 15 o más de las bases secuenciadas de cada lectura para los códigos de barras (Kennedy, S.R. et al. Detecting ultralow-frequency mutations by Duplex Sequencing. Nat. Protoc. 9, 2586-2606 (2014)). Otra ventaja del método es que los adaptadores de secuenciación utilizados en la presente memoria no resultan modificados. Este diseño de los adaptadores de la presente invención permite una ligación eficiente durante la preparación de la biblioteca, en contraste con la menor eficiencia de la preparación de bibliotecas informada con otros métodos (Kennedy, supra). En algunas realizaciones, la longitud del código de barras aleatorio se diseña para permitir un número suficiente de códigos de barras diferentes, que son suficientemente diferentes entre sí para utilizarse simultáneamente. Por ejemplo, un 2-mero aleatorio permite 16 códigos de barras moleculares diferentes, mientras que un 4-mero aleatorio permite 256 códigos de barras moleculares diferentes. En algunas realizaciones, se combina un código de barras aleatorio con las coordenadas genómicas de los inicios y finales del fragmento para formar un código de barras endógeno o interno. Conjuntamente, el código de barras endógeno puede proporcionar una agrupación suficientemente compleja de códigos de barras moleculares únicos (IDU). En el contexto de la presente exposición, "complejidad suficiente" se refiere al número de códigos de barras suficiente para diferenciar el número esperado de moléculas de entrada idénticas. Por ejemplo, el experto en la materia puede determinar el número de moléculas de ácidos nucleicos únicas (o equivalentes genómicos humanos) basándose en el tamaño y contenido típicos de una muestra del paciente. En dicho contexto, el experto en la materia puede determinar el número esperado de moléculas de ácidos nucleicos obtenidas de un determinado volumen de muestras de plasma humano libre de células y determinar de esta manera el número requerido de códigos de barras únicos. En algunas realizaciones, el adaptador presenta, además, un código de barras de muestra múltiplex (IDM). En algunas realizaciones, el IDM presenta una longitud suficiente para diseñar el número de códigos de barras necesario para utilizar el número deseado de muestras. Por ejemplo, un código de barras de multiplexación de 4 bases de longitud permite el diseño de 24 códigos de barras de multiplexación con distancias de edición por pares de por lo menos 2.
En algunas realizaciones no cubiertas por la invención reivindicada, se proporciona un método de secuenciación de ácidos nucleicos con una tasa de error reducida utilizando códigos de barras índice. El método implica el emparejamiento correcto de lecturas de cadenas contrarias de la misma molécula dúplex. En la presente realización, se utilizan códigos de barras de cada cadena de la molécula de adaptador. En algunas realizaciones, dichos códigos de barra son de una o más bases, por ejemplo, de 2 bases de longitud. El código de barras aparece en cada extremo de las lecturas de extremo emparejado. Tal como se muestra en la fig. 6(a), hay marcas de puntuación de 2 bases que comprenden un par de bases en el adaptador (par G/C) y un par de bases en la molécula diana (par A/T) que resultan de la etapa de ligación indicada en la presente memoria. Los presentes inventores denominaron dichos adaptadores, adaptadores en tándem, para reflejar el hecho de que contienen tanto códigos de barras de muestra múltiplex (IDM) como códigos de barras moleculares únicos (IDU). En algunas realizaciones, los códigos de barras moleculares únicos son tan cortos como resulte posible. En algunas realizaciones, los códigos de barras moleculares únicos son de 1 o 2 bases de longitud. Por ejemplo, los códigos de barras de 2 bases maximizan el contenido de secuenciación informativo, manteniendo simultáneamente la diferenciación de las moléculas únicas. La presente invención da a conocer un método de análisis de la longitud maximizada de un ácido nucleico en una única lectura. En algunas realizaciones, los códigos de barras y la puntuación solo utilizaron 8 bases en un par de lecturas, en contraste con los métodos de la técnica anterior, que utilizan 30 o más bases en cada par de lecturas (Kennedy, supra).
Debido a que los adaptadores en tándem de la presente invención contienen códigos de barras de muestra múltiplex (IDM) y códigos de barras moleculares únicos (IDU), la invención comprende utilizar ambos para conseguir un resultado sinérgico. En algunas realizaciones no cubiertas por la invención reivindicada, el método comprende combinar las dos estrategias (desduplicación de IDU seguido de desduplicación de IDM) para conseguir la tasa de error mínima. (Fig. 6(b)).
En algunas realizaciones no cubiertas por la invención reivindicada, el método utiliza lecturas de cadena sencilla, mientras que, en otras realizaciones, el método utiliza lecturas de doble cadena, es decir, lecturas de moléculas par alas que las dos cadenas han sido secuenciadas y emparejadas. Tal como demuestran los Ejemplos, el método consiguió la tasa de error baja con lecturas de doble cadena. La tasa de error observada de 2*10'6 (ver el Ejemplo 18) es mejor que con prácticamente la totalidad de los mecanismos de supresión de errores observados anteriormente (Kukita Y. et al., High-fidelity target sequencing of individual molecules identified using barcode sequences: de novo detection and absolute quantitation of mutations in plasma cell-free DNA from cancer patients. DNA Research (2015); Kinde, I., et al. Detection and quantification of rare mutations with massively parallel sequencing. Proc. Natl. Acad. Sci. USA 108, 9530-9535 (2011); Lou, D.I., et al. High-throughput DNA sequencing errors are reduced by orders of magnitude using circle sequencing. Proc. Natl. Acad. Sci. USA 110, 19872-19877 (2013), y similar a las tasas de error observadas anteriormente utilizando la secuenciación de dúplex (Kennedy y Schmitt, supra).
Los resultados demuestran, además, que el método es superior al estado de la técnica en la recuperación de moléculas dúplex. Se recuperaron las moléculas dúplex a una tasa aproximadamente doble de la informada anteriormente con hasta 3,3 % moléculas dúplex de entre las lecturas totales secuenciadas.
En algunas realizaciones, la invención utiliza moléculas de cadena sencilla o moléculas sin soporte de doble cadena. Tal como se muestra en los Ejemplos, la secuenciación con iDES incrementó la recuperación de moléculas en un orden de magnitud, manteniendo simultáneamente una tasa de error de 1,5*10'5, que todavía es mejor que las técnicas de supresión de errores de códigos de barras moleculares no dúplex (fig. 7(a), Ejemplo 18).
En algunas realizaciones, se diseñaron los adaptadores para presentar una combinación de códigos de barras de 2 y 4 bases. Es conocido de la técnica que resulta beneficioso presentar una diversidad de secuencias sustancial dentro de la agrupación de ácidos nucleicos que deben secuenciarse. En donde no se dispone de dicha diversidad (debido, p. ej., a fragmentación no aleatoria de los ácidos nucleicos o a la utilización de códigos de barras cortos), debe añadirse una agrupación de ácidos nucleicos de alta diversidad a la muestra (p. ej., la biblioteca PhiX ofrecida por Illumina, San Diego, Cal.). En algunas realizaciones, la invención incluye la utilización de adaptadores en tándem decalados que presenta mayor diversidad que los adaptadores en tándem. La agrupación de adaptadores en tándem decalados comprende una combinación de adaptadores con códigos de barras de 2 bases y códigos de barras de 4 bases. Tal como se muestra en los Ejemplos, la tasa de error observada con adaptadores decalados eran como mínimo tan buena como la tasa de error con adaptadores en tándem y una adición de PhiX (fig. 6(c), Ejemplo 12).
Muestras
Los métodos dados a conocer en la presente memoria pueden comprender el análisis de una o más muestras. Una muestra puede ser cualquier muestra biológica aislada a partir de un sujeto, por ejemplo, una alícuota de líquido corporal, sangre completa, plaquetas, suero, plasma, heces, glóbulos rojos, glóbulos blancos o leucocitos, células endoteliales, biopsias de tejido, líquido sinovial, fluido linfático, líquido ascítico y líquido intersticial y/o extracelular. El término "muestra" puede comprender, además, el líquido en los espacios entre las células, incluyendo el fluido crevicular gingival, la médula ósea, el líquido cefalorraquídeo (LCR), la saliva, el moco, el esputo, el semen, el sudor, la orina o cualesquiera otros líquidos corporales. Una muestra de sangre puede ser sangre completa o cualquier fracción de la misma, incluyendo células sanguíneas (glóbulos rojos, glóbulos blancos o leucocitos y plaquetas), suero y plasma. Las muestras pueden obtenerse de seres humanos o animales no humanos.
La muestra también puede ser una muestra de tumor. Las muestras de tumor pueden obtenerse de un sujeto mediante, aunque sin limitación, venopunción, excreción, masaje, biopsia, aspirado con aguja, lavado, raspado, incisión quirúrgica o intervención, u otros medios conocidos de la técnica.
Entre otras fuentes de muestras pueden incluirse sudor, aire espirado, lágrimas y/o líquido amniótico. Por ejemplo, la muestra puede ser una muestra de líquido espinal cerebral. En algunos casos, la muestra no es una muestra de secreción cervical. En algunos casos, la muestra no es una muestra de líquido de quiste. En algunos casos, la muestra no es una muestra de líquido pancreático.
Pueden recogerse muestras de individuos repetidamente durante un periodo de tiempo (p. ej., una vez al día, una vez a la semana, una vez al mes, dos veces al año o anualmente). La obtención de numerosas muestras de un individuo durante un periodo de tiempo puede utilizarse para verificar resultados de detecciones anteriores o para identificar una alteración como consecuencia de, por ejemplo, el tratamiento farmacológico.
La muestra puede comprender ácidos nucleicos. Los ácidos nucleicos pueden ser ácidos nucleicos tumorales. Los ácidos nucleicos también pueden ser ácidos nucleicos circulantes, p. ej., ácidos nucleicos libres de células. Por ejemplo, los ácidos nucleicos circulantes pueden proceder de un tumor, p. ej., ADNtc. Los ácidos nucleicos pueden ser ácidos nucleicos genómicos.
Los ácidos nucleicos de muestra útiles para la invención pueden comprender ADNlc, p. ej., ADN en una muestra que no está contenida dentro de una célula. Dicho ADN puede estar fragmentado, p. ej., puede presentar de media una longitud de aproximadamente 170 nucleótidos, que puede coincidir con la longitud del ADN enrollado en torno a un único nucleosoma.
El ADNlc puede ser una mezcla heterogénea de ADN procedente de células normales y células tumorales, y una muestra inicial de ADNlc puede no estar enriquecida en ADN de células cancerosas y regiones recurrentemente mutadas de un genoma de célula cancerosa. Las expresiones ADN tumoral circulante (ADNtc) o ADN tumoral libre de células pueden utilizarse para referirse a la fracción de ADNlc en una muestra que se deriva de un tumor. El experto en la materia entenderá que podría no distinguirse entre una fuente tumoral y una fuente de células normales de las secuencias de línea germinal no mutadas, aunque las secuencias que contienen mutaciones somáticas tienen una probabilidad de haber derivado de ADN tumoral. En algunos casos, una muestra puede comprender ADN de línea germinal de control. Una muestra puede comprender, además, ADN tumorales conocidos. Además, una muestra puede comprender ADNlc obtenidos de un individuo que se sospecha que presenta ADNtc en la muestra. Además, una muestra puede comprender ADNlc obtenidos de un individuo que no se sospecha que presenta ADNtc en la muestra, por ejemplo, como parte de los ensayos rutinarios.
Los métodos dados a conocer en la presente memoria pueden comprender la obtención de una o más muestras, p. ej., muestras de ácidos nucleicos, procedentes de un sujeto. El ácido o ácidos nucleicos de la muestra pueden ser ácidos nucleicos tumorales. Por ejemplo, los ácidos nucleicos pueden extraerse de biopsias tumorales. Los ácidos nucleicos tumorales también pueden ser liberados al torrente sanguíneo desde células tumorales, p. ej., como consecuencia de las respuestas inmunitarias contra el tumor. El ácido nucleico tumoral que se libera a la sangre puede ser ADNlc.
El ácido o ácidos nucleicos de la muestra pueden ser ácidos nucleicos genómicos. Debe entenderse que la etapa de obtención de ácidos nucleicos tumorales y ácidos nucleicos genómicos de un sujeto con un cáncer específico pueden realizarse simultáneamente. Por ejemplo, la venopunción para recoger sangre, plasma o suero puede recoger simultáneamente ácidos nucleicos tanto genómicos como tumorales. La obtención de ácidos nucleicos tumorales y ácidos nucleicos genómicos a partir de un sujeto con un cáncer específico también puede realizarse en ocasiones separadas. Por ejemplo, podría resultar posible obtener una única muestra de tejido de un paciente, por ejemplo, una muestra de biopsia, que incluya tanto ácidos nucleicos tumorales como ácidos nucleicos genómicos. También resulta posible obtener los ácidos nucleicos tumorales y los ácidos nucleicos genómicos del sujeto en muestras separadas, en tejidos separados o en tiempos separados.
La obtención de ácidos nucleicos tumorales y ácidos nucleicos genómicos de un sujeto con un cáncer específico puede incluir, además, el procedimiento de extracción de una muestra de líquido biológico o tejido a partir del sujeto con el cáncer específico.
La obtención de los ácidos nucleicos puede incluir procedimientos para mejorar el rendimiento o recuperación de los ácidos nucleicos, tal como la separación de los ácidos nucleicos respecto de otros componentes celulares y contaminantes que pueden encontrarse presentes en la muestra de líquido biológico o tejido, p. ej., mediante extracción con fenol-cloroformo, la precipitación con solventes orgánicos o las columnas de centrifugación de unión a ADN. Tal como se ha indicado anteriormente, lo anterior puede mejorar el rendimiento y podría facilitar las reacciones de secuenciación.
La obtención de ácidos nucleicos tumorales y ácidos nucleicos genómicos a partir de un sujeto con un cáncer específico también puede ser realizada por un laboratorio comercial que podría no haber tenido contacto directo con el sujeto. Por ejemplo, el laboratorio comercial puede obtener las muestras de un hospital u otro centro clínico en el que se obtenga la muestra de un sujeto. De esta manera, el laboratorio comercial puede llevar a cabo todas las etapas de los métodos dados a conocer en la presente memoria a petición o bajo las instrucciones del centro en que el sujeto está siendo tratado o diagnosticado.
En ocasiones, los ácidos nucleicos son mixtos o impuros. Por lo tanto, en el caso de que se desee la identificación del origen de los ácidos nucleicos, puede utilizarse el código de barras de cadena sencilla predefinido para separar los ácidos nucleicos en diferentes grupos. Por ejemplo, el código de barras de cadena sencilla predefinido puede utilizarse para identificar una muestra a partir de la que se ha originado el ácido nucleico. En algunos casos, los ácidos nucleicos de una primera muestra pueden estar asociados a un primer código de barras de cadena sencilla predefinido, mientras que los ácidos nucleicos de una segunda muestra pueden estar asociados a un segundo código de barras de cadena sencilla predefinido. En otros casos, los códigos de barras de cadena sencilla predefinidos de dos o más muestras pueden ser diferentes. En algunos otros casos, las dos o más muestras pueden proceder del mismo sujeto. En determinadas realizaciones, las dos o más muestras pueden ser de diferentes tejidos de los mismos sujetos. Por ejemplo, una muestra puede ser de un tumor y la otra muestra puede ser de sangre del mismo sujeto, en el que el tumor puede ser un tumor sólido. Además, las dos o más muestras pueden proceder de dos o más sujetos. Las muestras pueden obtenerse simultáneamente o en dos o más momentos.
Amplificación
La amplificación de ácidos nucleicos puede resultar en la incorporación de nucleótidos en una molécula de ácidos nucleicos o cebador, formando de esta manera una nueva molécula de ácidos nucleicos complementaria a un ácido nucleico de molde. La molécula de ácidos nucleicos de nueva formación y su molde pueden utilizarse como moldes para sintetizar moléculas adicionales de ácidos nucleicos. Los ácidos nucleicos que se están amplificando pueden ser de ADN, incluyendo ADN genómicos, ADNc (ADN complementarios), ADN libres de células (ADNlc) y ADN tumorales circulantes (ADNtc). Los ácidos nucleicos que se están amplificando también pueden ser de ARN. Tal como se utiliza en la presente memoria, una reacción de amplificación puede consistir en muchas rondas de síntesis de ADN.
Los métodos dados a conocer en la presente memoria pueden comprender la amplificación de los ácidos nucleicos de molde que comprenden ácidos nucleicos de muestra unidos a adaptadores en forma de Y. Pueden utilizarse cualesquiera técnicas conocidas para la amplificación de los ácidos nucleicos (p. ej., ADN y ARN) con los ensayos descritos en la presente memoria. Algunas técnicas de amplificación son los métodos de reacción en cadena de la polimerasa (PCR, por sus siglas en inglés), que pueden incluir, aunque sin limitación, PCR en solución y PCR in situ. Alternativamente, la amplificación puede comprender la amplificación no exponencial, tal como la amplificación lineal.
La amplificación de los ácidos nucleicos de molde puede comprender la utilización de amplificación con perlas, seguido de la detección con fibra óptica, tal como se indica en las solicitudes publicadas de patente US n° 20020012930, n° 20030058629, n° 20030100102, n° 20030148344, n° 20040248161, n° 20050079510, n° 20050124022 y n° 20060078909.
La amplificación del ácido nucleico de molde puede comprender la utilización de una o más polimerasas. Por ejemplo, la polimerasa puede ser una ADN polimerasa o una ARN polimerasa. En algunos casos, la polimerasa puede ser una polimerasa de alta fidelidad, la a Dn polimerasa KAPA HiFi. La polimerasa también puede ser la a Dn polimerasa Phusion.
Diseño de selectores
Las mutaciones somáticas, que son mutaciones que ocurren en cualquiera de las células corporales excepto en las células de la línea germinal, pueden ser características de las células de cáncer. La mayoría de cánceres humanos es relativamente heterogénea para las mutaciones somáticas en genes individuales. Puede utilizarse un selector para enriquecer en moléculas de ácidos nucleicos derivados de tumores a partir de los ácidos nucleicos genómicos totales. El diseño del selector puede dictar qué mutaciones pueden detectarse con elevada probabilidad para un paciente con un cáncer dado. El tamaño del selector también puede impactar directamente en el coste y profundidad de la cobertura de la secuencia. Por ejemplo, el diseño y la utilización de selectores se describen en parte en la solicitud de patente PCT n° PCT/US14/25020 (US20140296081) y en Newman et al. (2014), Nat. Med. 20(5):548-54).
Los métodos dados a conocer en la presente memoria pueden comprender uno o más selectores o usos del selector o selectores. Un selector puede comprender una pluralidad de oligonucleótidos o sondas que se hibridan con una o más regiones genómicas. Las regiones genómicas pueden comprender una o más regiones mutadas. Las regiones genómicas pueden comprender una o más mutaciones asociadas a uno o más cánceres.
La pluralidad de regiones genómicas puede comprender diferentes regiones genómicas. En algunas realizaciones, la pluralidad de regiones genómicas puede comprender entre unas cuantas y hasta 5.000 regiones genómicas diferentes.
Una región genómica puede comprender una región codificante de proteína, o una parte de la misma. Una región codificante de proteína puede referirse a una región del genoma que codifica para una proteína, p. ej., un gen. Un gen puede comprender, además, secuencias no codificantes, tales como un intrón, o una región no traducida (UTR, por sus siglas en inglés), o segmentos de la misma. Una región genómica puede comprender dos o más genes, regiones codificantes de proteína, o segmentos de los mismos. En algunos casos, una región genómica no comprende un gen completo.
Una región genómica puede comprender una región no codificante de proteína. En algunos casos, una región no codificante de proteína puede transcribirse en un ARN no codificante (ARNnc). En algunos casos, el ARN no codificante puede poseer una función conocida. Por ejemplo, el ARN no codificante puede ser un ARN de transferencia (ARNt), ARN ribosómico (ARNr) o ARN regulador, ARN nuclear pequeño (ARNnp), A r N nucleolar pequeño (ARNnop), microARN, ARN interfiriente pequeño (ARNip), ARN de interacción con Piwi (ARNpi) y ARNnc largo (p. ej., Xist, HOTAIR). Una región genómica puede comprender un pseudogén, un transposón o un retrotransposón.
Una región genómica puede comprender una región mutada recurrentemente. Una "región mutada recurrentemente" puede referirse a una región del genoma, habitualmente el genoma humano, en la que hay una probabilidad incrementada de mutación genética en un cáncer de interés, respecto al genoma globalmente. Una región mutada recurrentemente puede referirse a una región del genoma que comprende una o más mutaciones que son recurrentes en la población. Una región mutada recurrentemente puede caracterizarse por un "índice de recurrencia" (IR). El IR de manera general se refiere al número de sujetos individuales (p. ej., pacientes de cáncer) con una mutación que ocurren dentro de una kilobase dada de secuencia genómica (p. ej., número de pacientes con mutaciones/longitud de la región genómica, en kb). Una región genómica también puede caracterizarse por el número de pacientes con una mutación por cada exón. Los umbrales para cada métrica (p. ej., IR y pacientes por exón o región genómica) pueden seleccionarse para enriquecer estadísticamente para controladores conocidos o sospechados del cáncer de interés, p. ej., CPNM. Los umbrales también pueden seleccionarse mediante la selección arbitraria del percentil superior para cada métrica.
El número de regiones genómicas en un selector puede variar dependiendo de la naturaleza del cáncer. La inclusión de números más altos de regiones genómicas puede incrementar generalmente la probabilidad de que se identifique una mutación somática única. Sin embargo, la inclusión de un exceso de regiones genómicas en la biblioteca no está exento de costes. Por ejemplo, el número de regiones genómicas puede relacionarse directamente con la longitud de ácidos nucleicos que puede secuenciarse en el análisis. En el extremo, el genoma entero de una muestra de tumor y una muestra genómica podría secuenciarse, y las secuencias resultantes podrían compararse para identificar cualesquiera diferencias con el tejido no tumoral.
Los selectores pueden resolver dicho problema mediante la identificación de las regiones genómicas que están mutadas recurrentemente en un cáncer particular, y después clasificar en un ranking aquellas regiones que maximizan la probabilidad de que la región incluya una mutación somática distintiva en un tumor particular. La biblioteca de regiones genómicas mutadas recurrentemente, o "selector", puede utilizarse en toda una población para un cáncer o clase de cánceres dado, y no necesita optimizarse para cada sujeto.
El método puede comprender, además, una reacción de hibridación, p. ej., la hibridación de los amplicones con un selector que comprende un juego de oligonucleótidos que se hibridan selectivamente con regiones genómicas de uno o más ácidos nucleicos en la muestra. En algunas realizaciones, la reacción de hibridación puede comprender hibridar la pluralidad de ácidos nucleicos con el soporte sólido, p. ej., una pluralidad de perlas.
El método puede comprender, además, llevar a cabo una reacción de hibridación después de una reacción enzimática. Por ejemplo, en algunos casos, la reacción enzimática puede comprender una o más de entre una reacción de ligación, una reacción de fragmentación, una reacción de reparación terminal, una reacción de adición de A terminales o una reacción de amplificación.
El selector puede comprender, además, un juego de oligonucleótidos. El juego de oligonucleótidos puede hibridarse con menos de 100 kb y hasta 1,5 megabases (Mb) del genoma.
El juego de oligonucleótidos puede ser capaz de hibridarse con 5 y hasta 500 o más regiones genómicas diferentes.
El selector puede hibridarse, además, con un abanico de diferentes regiones genómicas, p. ej., con aproximadamente 10 a aproximadamente 1000 regiones genómicas diferentes. El selector puede hibridarse, además, con una pluralidad de regiones genómicas, p. ej., entre 50 y como máximo 5000 regiones genómicas diferentes.
Un selector puede hibridarse con una región genómica que comprende una mutación que no es recurrente en la población. Por ejemplo, una región genómica puede comprender una o más mutaciones que están presentes en un sujeto dado. En algunos casos, una región genómica que comprende una o más mutaciones en un sujeto puede utilizarse para producir un selector personalizado para el sujeto.
El selector puede hibridarse con una pluralidad de regiones genómicas que comprenden una o más mutaciones seleccionadas de un grupo que consiste en SNV, CNV, inserciones, deleciones y reorganizaciones.
Un selector puede hibridarse con una mutación en una región genómica que es conocido que está asociada a un cáncer. La mutación en una región genómica que es conocido que está asociada a un cáncer puede denominarse "mutación somática conocida". Una mutación somática conocida puede ser una mutación localizada en uno o más genes que es conocido que están asociados a un cáncer. Una mutación somática conocida puede ser una mutación localizada en uno o más oncogenes. Por ejemplo, las mutaciones somáticas conocidas pueden incluir una o más mutaciones localizadas en p53, EGFR, KRAS o BRCA1.
Un selector puede hibridarse con una mutación en una región genómica que se ha predicho que está asociada a un cáncer. Además, un selector puede hibridarse con una mutación en una región genómica que no se ha informado que esté asociada a un cáncer.
Una región genómica puede comprender una secuencia del genoma humano de tamaño suficiente para capturar una o más mutaciones recurrentes. Puede afirmarse que una región genómica "identifica una mutación" en el Caso de que la mutación se encuentre dentro de la secuencia de esa región genómica. Los métodos pueden referirse a ADNlc, que presenta un tamaño generalmente inferior a aproximadamente 200 pb, y de esta manera, una región genómica puede presentar generalmente menos de aproximadamente 10 kb. Generalmente, la región genómica para un SNV puede ser bastante corta, de entre aproximadamente 45 pb y aproximadamente 500 pb de longitud, mientras que la región genómica para una fusión u otra reorganización genómica puede ser más larga, de entre aproximadamente 1 Kpb y aproximadamente 10 Kpb de longitud. Una región genómica en un selector puede ser de menos de 10 Kpb, por ejemplo, de entre 100 pb y 10 Kpb.
En algunas realizaciones, la secuencia total cubierta por el selector es de menos de aproximadamente 1,5 mega pares de bases (Mb), p. ej., entre 10 kb y 1,5 Mb.
En algunas realizaciones no cubiertas por la invención reivindicada, se proporciona un diseño mejorado de un selector que mejora la sensibilidad de detección de mutaciones (variantes) tumorales en la muestra de un paciente. El selector utilizado en el método comprende variantes obtenidas de la secuenciación de genoma completa de tumores. Opcionalmente, el selector puede excluir variantes localizadas en regiones que contienen repeticiones u otros obstáculos técnicos. Por ejemplo, la lista de variantes puede obtenerse de ácidos nucleicos de secuenciación de exomas procedentes de colecciones de muestras tumorales, tales como una colección de tumores de carcinoma de células escamosas (CCE) pulmonares o tumores de adenocarcinoma pulmonar o cualesquiera otras colecciones de uno o más tipos de tumores disponibles para el análisis de secuenciación. Las secuencias pueden filtrarse para eliminar las variantes localizadas en regiones genómicas ricas en repeticiones (tales como, por ejemplo, repeticiones simples, microsatélites, repeticiones interrumpidas y duplicaciones segmentarias). Las secuencias adicionalmente (o alternativamente) pueden filtrarse para eliminar variantes localizadas en intervalos con bajas tasas de mapeado o baja singularidad de k-mero.
Según el método no cubierto por la invención reivindicada, se diseñan los selectores utilizados en el método, para cubrir tanto pacientes y mutaciones por paciente como resulte posible con el mínimo de espacio genómico. En algunas realizaciones no cubiertas por la invención reivindicada, se proporciona un método de creación de un selector, es decir, la selección de regiones genómicas para el análisis en un paciente. Las regiones genómicas se incluyen basándose en las etapas experimentales descritas posteriormente. Los selectores se diseñan para priorizar la inclusión de regiones genómicas basándose en la métrica del "índice de recurrencia" (IR) definido en la presente memoria. En algunas realizaciones, las regiones genómicas que deben incluirse en el selector son exones o segmentos más pequeños de un exón que contienen lesiones conocidas. Una región genómica que debe incluirse comprende la lesión conocida y está flanqueada por uno o más pares de bases a un tamaño de tesela mínimo de 100 pb. Según el método no cubierto por la invención reivindicada, las regiones genómicas se clasifican en un ranking de IR decreciente, y aquellas en las posiciones más altas de tanto IR como número de pacientes por exón, son incluidas en el selector. En algunas realizaciones, la posición más alta en el ranking es superior o igual al 10 % más alto. En la presente realización, el selector ha maximizado la cobertura de pacientes adicionales con un espacio mínimo. En algunas realizaciones, el procedimiento de selección de regiones genómicas se repite bajo una restrictividad reducida, es decir, se selecciona el percentil inferior al de 10 % más alto, p. ej., el 33 % más alto. En la presente realización, el método resulta en la inclusión de regiones que incrementan al máximo la mediana de mutaciones por paciente. En algunas realizaciones, la inclusión de regiones genómicas adicionales en un selector se termina al alcanzar un tamaño predeterminado. En algunas realizaciones, el tamaño deseado predeterminado es de entre aproximadamente 100 y 200 kb (p. ej., 175 kb para el selector de ADNlc de CPNM). En otras realizaciones, la inclusión de regiones genómicas adicionales en un selector se termina una vez se han agotado todas las regiones genómicas que satisfacen los filtros indicados anteriormente.
En algunas realizaciones, el selecto que comprende regiones genómicas que contienen variaciones de nucleótidos únicos (SNV) tal como se ha indicado anteriormente comprenden, además, regiones clínicamente relevantes que contienen otros tipos de mutaciones, p. ej., fusiones, regiones semilla, variaciones de número de copia (CNV) y regiones de clasificación histológica.
Indicaciones clínicas
El método proporcionado en la presente memoria puede comprender, además, la obtención de información de secuencia de los amplicones hibridados para detectar la presencia o la ausencia de cáncer. Por ejemplo, la información e secuencia puede ser la secuencia de nucleótidos real o, en algunos casos, el número de copias de genes.
En algunos casos, el cáncer puede ser un tumor sólido. Por ejemplo, el tumor sólido puede ser cáncer de pulmón no microcítico (CPNM). El cáncer también puede ser un cáncer de mama. Por ejemplo, el cáncer de mama puede estar asociado a mutaciones en los genes de BRCA, p. ej., BRCA1.
El selector puede diseñarse para un cáncer específico, por ejemplo, carcinoma no microcítico, carcinoma uterino endometrial, etc. El selector también puede diseñarse para una clase genérica de cánceres, p. ej., cánceres epiteliales (carcinomas), sarcomas, linfomas, melanomas, gliomas, teratomas, etc. El selector también puede diseñarse para un subgénero de cánceres, p. ej., adenocarcinoma, carcinoma de células escamosas y similares.
El selector puede comprender, además, información referente a una pluralidad de regiones genómicas que comprenden una o más mutaciones presentes en por lo menos un sujeto que sufre de un cáncer. Por ejemplo, el selector puede comprender información referente a una pluralidad de regiones genómicas que comprenden hasta 20 mutaciones presentes en por lo menos un sujeto que sufre de un cáncer. En algunos casos, el selector puede comprender información referente a una pluralidad de regiones genómicas que comprenden hasta 200 o más mutaciones presentes en por lo menos un sujeto que sufre de un cáncer.
El selector puede comprender información referente a una pluralidad de regiones genómicas que comprenden una o más mutaciones presentes en por lo menos un sujeto que sufre de un cáncer. En algunos casos, la mutación o mutaciones dentro de la pluralidad de regiones genómicas pueden estar presentes en por lo menos 1 % y hasta 20 % o más (p. ej., hasta 95 % o más) de los sujetos de una población de sujetos que sufre de un cáncer.
Secuenciación
El genotipado, detección, identificación o cuantificación del ADNlc puede utilizar la secuenciación. La secuenciación puede llevarse a cabo utilizando sistemas de alto rendimiento. La secuenciación puede llevarse a cabo utilizando ácidos nucleicos indicados en la presente memoria, tales como ADN genómico, ADNc derivado de transcritos de ARN o ARN como molde. Por ejemplo, la información de secuencia de la muestra de ADN libre de células puede obtenerse mediante secuenciación masivamente en paralelo. En algunos casos, la secuenciación masivamente paralela puede llevarse a cabo en un subjuego de un genoma, p. ej., a partir de un subjuego de ADNlc de la muestra de ADNlc. La información de secuencia puede obtenerse mediante secuenciación paralela utilizando celdas de flujo. Por ejemplo, pueden unirse covalentemente cebadores de amplificación a portaobjetos en las celdas de flujo y después las celdas de flujo pueden exponerse a reactivos para la extensión y secuenciación de los ácidos nucleicos. La secuenciación de alto rendimiento puede implicar, además, la utilización de tecnología disponible de Helicos BioSciences Corp. (Cambridge, Mass.), tal como el método de secuenciación de moléculas individuales mediante síntesis (SMSS, por sus siglas en inglés). En algunas realizaciones, la secuenciación de alto rendimiento implica la utilización de secuencia disponible de 454 Life Sciences, Inc. (Branford, Conn.), tal como el dispositivo de placa de picotitulación, que incluye una placa de fibra óptica que transmite la señal quimioluminiscente generada por la reacción de secuenciación que será registrada por una cámara de CCD en el instrumento. Dicha utilización de fibra óptica permite la detección de un mínimo de 20 millones de pares de bases en 4,5 horas.
En algunos casos, la secuenciación de alto rendimiento puede ser la técnica de secuenciación de próxima generación, p. ej., utilizando los instrumentos HiSeq o MiSeq disponibles de Illumina (San Diego, Calif.). Dicho método de secuenciación se basa en la amplificación del ADN sobre una superficie sólida utilizando PCR de pliegue hacia atrás ("fold back") y cebadores anclados. La secuenciación puede implicar una etapa de preparación de biblioteca. El ADN genómico puede estar fragmentado y los extremos cortados pueden repararse y adenilarse. Pueden añadirse adaptadores a los extremos 5' y 3' de los fragmentos. Los fragmentos pueden seleccionarse según tamaño y purificarse. La secuenciación puede comprender una etapa de generación de agregados. Los fragmentos de ADN pueden unirse a la superficie de los canales de las celdas de flujo mediante hibridación con una capa de oligonucleótidos unida a la superficie del canal de la celda de flujo. Los fragmentos pueden extenderse y amplificarse clonalmente mediante amplificación de puente, generando agregados únicos. Los fragmentos se vuelven de doble cadena y las moléculas de doble cadena pueden desnaturalizarse. Múltiples ciclos de la amplificación en fase sólida seguido de desnaturalización pueden crear varios millones de agregados de aproximadamente 1.000 copias de moléculas de ADN de cadena sencilla del mismo molde en cada canal de la celda de flujo. Las cadenas inversas pueden escindirse y eliminarse por lavado. Pueden bloquearse los extremos y pueden hibridarse cebadores con los ADN de molde. Pueden secuenciarse simultáneamente cientos de millones de agregados. Los cebadores, la ADN polimerasa y cuatro nucleótidos terminadores reversibles marcados con fluoróforos pueden utilizarse para llevar a cabo una secuenciación terminal. La totalidad de las cuatro bases puede competir entre sí para el molde. Tras la incorporación de nucleótidos, puede utilizarse un láser para excitar los fluoróforos y capturarse una imagen y registrar la identidad de la primera base. Los terminadores 3' y los fluoróforos de cada base incorporada se eliminan y se repiten las etapas de incorporación, detección e identificación. Puede leerse una sola base en cada ciclo. En algunas realizaciones, se utiliza un sistema HiSeq (p. ej., HiSeq 2500, HiSeq 1500, HiSeq 2000 o HiSeq 1000) para la secuenciación.
La secuenciación de alto rendimiento del ARN o ADN también puede tener lugar utilizando chips AnyDot (Genovoxx, Alemania), que permiten el seguimiento de procesos biológicos (p. ej., la expresión de miARN o la variabilidad alélica (detección de SNP)). Por ejemplo, los chips AnyDot permiten potenciar 10X-50X la detección de la señal de fluorescencia de los nucleótidos. Entre otros sistemas de secuenciación de alto rendimiento se incluyen los dados a conocer en Venter, J. et al. Science, 16 de febrero de 2001; Adams, M. et al., Science, 24 de marzo de 2000, y M. J, Levene, et al. Science 299:682-686, enero de 2003, así como la solicitud publicada de patente US n° 2003/0044781 y n° 2006/0078937. El crecimiento de la cadena de ácidos nucleicos y la identificación del análogo de nucleótido añadido pueden repetirse de manera que la cadena de ácidos nucleicos se extiende adicionalmente y se determinar la secuencia del ácido nucleico diana.
Los métodos dados a conocer en la presente memoria pueden comprender llevar a cabo una reacción de secuenciación basada en una o más regiones genómicas a partir de un selector.
En algunos casos, la información de secuenciación puede obtenerse para un subjuego de regiones genómicas de un selector. Por ejemplo, puede obtenerse información de secuenciación para 10 a 500 o más regiones genómicas de un selector.
En algunos casos, la información de secuenciación puede obtenerse para menos de 5% o hasta 95 % de las regiones genómicas de un selector.
Reparación de extremos
Las realizaciones del método no cubiertas por la invención reivindicada pueden comprender la realización de una reacción de reparación de extremos en la pluralidad de ácidos nucleicos a fin de producir una pluralidad de ácidos nucleicos de extremos reparados. Por ejemplo, la reacción de reparación de extremos puede llevarse a cabo antes de unir los adaptadores a la pluralidad de ácidos nucleicos.
En algunos casos, la reacción de reparación de extremos puede llevarse a cabo antes de la amplificación de los ácidos nucleicos modificados con adaptador. En otros casos, la reacción de reparación de extremos puede llevarse a cabo después de la amplificación de los ácidos nucleicos modificados con adaptador.
En algunas realizaciones, la reacción de reparación de extremos puede llevarse a cabo antes de la fragmentación de la pluralidad de ácidos nucleicos. En otras realizaciones, la reacción de reparación de extremos puede llevarse a cabo después de la fragmentación de la pluralidad de ácidos nucleicos.
La reacción de reparación de extremos también puede llevarse a cabo mediante la utilización de uno o más enzimas de reparación terminal. En algunos casos, los enzimas para reparar el ADN pueden comprender polimerasa y exonucleasa. Por ejemplo, la polimerasa puede rellenar las bases faltantes de una cadena de ADN en la dirección 5' a 3'. El ADN de doble cadena resultante puede ser de la misma longitud que la cadena de ADN más larga original. La exonucleasa puede eliminar los extremos 3' protuberantes. El ADN de doble cadena resultante puede ser de la misma longitud que la cadena de ADN más corta original.
Adición de A terminales
Las realizaciones del método no cubiertas por la invención reivindicada pueden comprender la realización de una reacción de adición de A terminales en la pluralidad de ácidos nucleicos a fin de producir una pluralidad de ácidos nucleicos con adición de A terminales. Por ejemplo, la reacción de adición de A terminales puede llevarse a cabo antes de unir los adaptadores a la pluralidad de ácidos nucleicos.
Además, la reacción de adición de A terminales puede llevarse a cabo antes de la amplificación de los ácidos nucleicos modificados con adaptador. En otros casos, la reacción de adición de A terminales puede llevarse a cabo después de la amplificación de los ácidos nucleicos modificados con adaptador.
En algunas realizaciones, la reacción de adición de A terminales puede llevarse a cabo antes de la fragmentación de la pluralidad de ácidos nucleicos. En algunos casos, la reacción de adición de A terminales puede llevarse a cabo después de la fragmentación de la pluralidad de ácidos nucleicos.
En otros casos, la reacción de adición de A terminales puede llevarse a cabo antes de la reparación de extremos de la pluralidad de ácidos nucleicos. En algunas realizaciones, la reacción de adición de A terminales puede llevarse a cabo después de la reparación de extremos de la pluralidad de ácidos nucleicos.
También puede llevarse a cabo una reacción de adición de A terminales mediante la utilización de uno o más enzimas de adición de A terminales. Por ejemplo, puede añadirse un residuo A mediante la incubación de un fragmento de ADN con dATP y una ADN polimerasa sin corrección de errores, que añadirá un único residuo 3' A.
Reducción de los errores de fondo
El método proporcionado en la presente memoria y no cubierto por la invención reivindicada puede comprender, además, métodos de reducción de los errores de fondo. Los errores de fondo pueden comprender mutaciones que no ocurren in vivo, sino que son generadas artificialmente, p. ej., durante la amplificación o secuenciación. Las mutaciones de errores de fondo, por ejemplo, los cambios de nucleótidos individuales, p. ej., las mutaciones de guanina a timina (G a T), pueden estar causadas por errores de PCR o de secuenciación. Dichas mutaciones ocurren en una cadena de un ácido nucleico de doble cadena, pero no ocurren en la otra cadena. Dichas mutaciones artificiales de G a T pueden detectarse y descartarse.
En la presente memoria se dan a conocer, además, métodos no cubiertos por la invención reivindicada para reducir los errores de fondo en la secuencia de una pluralidad de amplicones derivados de una pluralidad de ácidos nucleicos, que comprende: a) identificar las mutaciones de por lo menos una primera lectura de secuencia y de por lo menos una segunda lectura de secuencia, donde las mutaciones de la primera lectura de secuencia y de la segunda lectura de secuencia son mutaciones consistentes; b) eliminar las mutaciones que ocurren en menos de 50 % de los amplicones derivadas de un único ácido nucleico; c) eliminar las mutaciones G a T que ocurren en los primeros amplicones derivados de una primera cadena de un ácido nucleico de doble cadena, donde las mutaciones G a T no ocurren en segundos amplicones derivados de una segunda cadena del ácido nucleico de doble cadena; d) eliminar mutaciones que se encuentran separadas por menos de 100 pares de bases; e) eliminar las mutaciones en amplicones en donde un primer subjuego de los amplicones comprende un primer código de barras de tallo de doble cadena y un segundo subjuego de los amplicones comprende un segundo código de barras de tallo de doble cadena, donde el primer código de barras de tallo de doble cadena es diferente del segundo código de barras de tallo de doble cadena, o f) cualquier combinación de los mismos. El término "eliminar" tal como se utiliza en la presente memoria puede referirse a descartar datos de mutaciones de la información de secuencia.
La reducción de los errores de fondo puede comprender la identificación de mutaciones de por lo menos una primera lectura de secuencia y por lo menos una segunda lectura de secuencia, en la que la mutación de la primera lectura de secuencia y la segunda lectura de secuencia son mutaciones consistentes. En este caso, la mutación puede ser una mutación real, p. ej., no errores de fondo.
En algunas realizaciones, una mutación de un nucleótido identificado de una primera lectura de secuencia de una cadena de un ácido nucleico de doble cadena es consistente con una mutación del nucleótido identificado a partir de una segunda lectura de secuencia de la misma cadena del ácido nucleico de doble cadena. Por ejemplo, en el caso de que las mutaciones sean reales, p. ej., no son errores de fondo, una mutación A (p. ej., un nucleótido mutado a A) identificado a partir de una lectura de secuencia de una cadena de un ácido nucleico de doble cadena debería ser consistente con una mutación A (p. ej., un nucleótido mutado a A) identificado a partir de una lectura de secuencia de la misma cadena del ácido nucleico de doble cadena.
En otras realizaciones, una mutación de un nucleótido identificado de una primera lectura de secuencia de una cadena de un ácido nucleico de doble cadena es consistente con una mutación de un nucleótido complementario identificado a partir de una segunda lectura de secuencia de la otra cadena del ácido nucleico de doble cadena. Por ejemplo, en el caso de que las mutaciones sean reales, p. ej., no son errores de fondo, una mutación A (p. ej., un nucleótido mutado a A) identificado a partir de una lectura de secuencia de una cadena de un ácido nucleico de doble cadena debería ser consistente con una mutación T (p. ej., un nucleótido mutado a T) identificado a partir de una lectura de secuencia de la otra cadena del ácido nucleico de doble cadena.
La reducción de los errores de fondo puede comprender la identificación de mutaciones consistentes de 2 o más, p. ej., de hasta 20 o más, lecturas de secuencia.
Las mutaciones que se consideran errores de fondo en la información de secuencia pueden ocurrir aleatoriamente en diversos loci y, de esta manera, pueden no estar presentes en todos los amplicones que contienen un locus de las mutaciones. Los amplicones que contienen el mismo locus de una mutación pueden identificarse mediante los códigos de barras de cadena sencilla predefinidos en los amplicones, los códigos de barras de cadena sencilla aleatorios en los amplicones, o cualquier combinación de los mismos. En algunas realizaciones, los amplicones que contienen el mismo locus de una mutación pueden ser amplicones que contienen el mismo identificador único. En otra realización, puede llevarse a cabo un análisis bioinformático para eliminar las mutaciones que no ocurren en todos los amplicones que contienen el mismo locus.
Los errores de fondo pueden comprender mutaciones que no ocurren en todos los amplicones derivados de un único ácido nucleico. Por ejemplo, reducir los errores de fondo puede comprender la eliminación de mutaciones que ocurren en menos de entre aproximadamente 50 % y menos de aproximadamente 75 % o menos de aproximadamente 100 % de los amplicones derivados de un único ácido nucleico o a menos de un nivel de corte determinado experimentalmente.
Proximidad espacial de las mutaciones
Algunas mutaciones que son errores de fondo pueden encontrarse próximas entre sí, p. ej., existir en una estrecha proximidad espacial. Por ejemplo, reducir el fondo puede comprender eliminar, p. ej., descartar, mutaciones que son contiguas entre sí. En otras realizaciones, reducir los errores de fondo puede comprender eliminar mutaciones que están separadas por una o menos pares de bases o que están separadas por hasta 100 pares de bases.
Los amplicones derivados de un único ácido nucleico pueden comprender uno o más códigos de barras, p. ej., uno o más códigos de barras que son iguales (el mismo código de barras de cadena sencilla aleatorio o el mismo código de barras de cadena sencilla predefinido, o el mismo código de barras endógeno) o una combinación de dos o más códigos de barras que son iguales.
Mutaciones G a T.
Ocasionalmente, los errores de fondo pueden comprender mutaciones artefacto de guanina (G) a timina (T). En algunas realizaciones, reducir el fondo puede comprender eliminar las mutaciones artefacto de G a T. Las mutaciones G a T que son artefactos pueden ocurrir en una de las dos cadenas de un ácido nucleico de doble cadena. Sin embargo, las mutaciones G a T que no son artefactos, p. ej., mutaciones reales, probablemente ocurrirán en ambas cadenas de una molécula de ácidos nucleicos de doble cadena. De esta manera, eliminar las mutaciones G a T debido a artefactos puede comprender la identificación de la cadena de ácidos nucleicos parental a partir de la que se derivan los amplicones. Pueden utilizarse códigos de barras para identificar la cadena parental a partir de la que se derivan amplicones. Puede unirse uno o más códigos de barras de tallo de doble cadena a un ácido nucleico de doble cadena. Pueden unirse diferentes códigos de barras de cadena sencilla a las dos cadenas del ácido nucleico de doble cadena. En algunos casos, los amplicones derivados de una cadena del ácido nucleico y los amplicones derivados de la otra cadena del ácido nucleico pueden comprender el mismo código de barras de tallo de doble cadena, y una o más secuencias en el ácido nucleico (p. ej., un código de barras endógeno). En algunos otros casos, los amplicones derivados de una cadena del ácido nucleico y los amplicones derivados de la otra cadena del ácido nucleico pueden comprender diferentes códigos de barra de cadena sencilla aleatorios. De esta manera, en algunas realizaciones, reducir el fondo puede comprender la eliminación de las mutaciones G a T que ocurren en los primeros amplicones derivados de una primera cadena de un ácido nucleico de doble cadena, en el que las mutaciones G a T no ocurren en segundos amplicones derivados de una segunda cadena del ácido nucleico de doble cadena. En determinadas realizaciones, los primeros amplicones y los segundos amplicones pueden comprender el mismo código de barras endógeno y el mismo código de barras de doble cadena, aunque diferentes códigos de barras aleatorios derivados de los códigos de barras de doble cadena aleatorios del ácido nucleico de doble cadena.
En algunas realizaciones, la reducción del fondo puede comprender la eliminación de las mutaciones G a T que ocurren en una fracción de los primeros amplicones derivados de una primera cadena de un ácido nucleico de doble cadena, pero que no ocurren en una fracción más grande de segundos amplicones derivados de una segunda cadena del ácido nucleico de doble cadena.
El número de los primeros amplicones y el número de los segundos amplicones derivados del ácido nucleico de doble cadena pueden determinarse utilizando códigos de barras. En algunas realizaciones, los primeros amplicones pueden comprender un primer código de barras derivado de un primer código de barras de cadena sencilla en una primera cadena del ácido nucleico de doble cadena parental. Los segundos amplicones pueden comprender un segundo código de barras derivado de un segundo código de barras de cadena sencilla en una segunda cadena del ácido nucleico de doble cadena parental. En algunas realizaciones, el primer código de barras y el segundo código de barras pueden comprender secuencias diferentes. en otras realizaciones, el primer código de barras y el segundo código de barras pueden comprender la misma secuencia. El número de primeros y segundos amplicones puede determinarse mediante el recuento del primer y segundo códigos de barras.
El método dado a conocer en la presente memoria y no cubierto por la invención reivindicada puede comprender, además, el recuento de los números de los amplicones. En algunas realizaciones, por ejemplo, el número de los primeros amplicones puede determinarse mediante el recuento de los amplicones que comprenden el mismo código de barras de tallo de doble cadena y el mismo código de barras endógeno que el ácido nucleico de doble cadena parental, y un primer código de barras aleatorio derivado del código de barras de cadena sencilla aleatorio en una primera cadena del ácido nucleico parental. De manera similar, el número de los segundos amplicones puede determinarse mediante el recuento de los amplicones que comprenden el mismo código de barras de tallo de doble cadena y el mismo código de barras endógeno que el ácido nucleico de doble cadena parental, y un segundo código de barras aleatorio derivado del código de barras de cadena sencilla aleatorio en una segunda cadena del ácido nucleico parental. De acuerdo con lo anterior, el número de los primeros amplicones portadores de una mutación G a T en un locus y el número de los segundos amplicones portadores de las mutaciones G a T en el mismo locus pueden determinarse mediante la utilización de los códigos de barras.
La reducción del fondo puede comprender, además, la eliminación de las mutaciones que no ocurren en ambas cadenas del ácido nucleico de doble cadena. En algunas realizaciones, la reducción de los errores de fondo puede comprender la eliminación de mutaciones que ocurren en menos de aproximadamente 50 % (o un umbral más alto) de amplicones que comprende el mismo código de barras de tallo de doble cadena y el mismo código de barras endógeno.
Estimación de límite mínimo de detección (LMD).
En algunas realizaciones no cubiertas por la invención reivindicada, está incluida una etapa de estimación de la sensibilidad de detección de ADNlc tal como se ilustra en la figura 7(b). En algunas realizaciones, la sensibilidad depende del número de informadores. La sensibilidad se estima de una manera independiente del ensayo mediante la utilización del conocimiento del número disponible de equivalentes genómicos tumorales e informadores específicos de tumor (es decir, variantes somáticas). El método utiliza una combinación de varios informadores específicos tumorales (tal como se indica en el documento n° PCT/US14/25020 (n° US2014/0296081) que permiten escalar los límites de detección en comparación con un único informador (p. ej., dPCR). Por ejemplo, la utilización de 8 informadores rinde una reducción de factor ocho en el límite mínimo de detección (LMD) en comparación con una detección con un único informador. En algunas realizaciones, los informadores se comportan independientemente. En algunas realizaciones, el LMD del método de detección es inferior al número de equivalentes genómicos tumorales disponibles.
La figura 15 ilustra un marco estadístico de detección del ADNlc y diseño de selectores. Fig. 15(a): dentro del rendimiento de ADNlc típico a partir de 10 ml de sangre (suponiendo una eficiencia de captura ~50 %), un modelo analítico simple permite la estimación de los límites de detección de ADNtc como función del informador tumoral disponible. En la fig. 15(b), el límite de detección de ADNtc mostrado como función de los informadores tumorales disponibles y GE secuenciados para una probabilidad de detección >90 %. En la fig. 15(c), las distancias entre mutaciones somáticas contiguas observadas en las regiones codificantes de tumores de adenocarcinoma pulmonar (ADP) perfiladas en The Cancer Genome Atlas (TCGA) (n=381). La línea discontinua vertical indica la mediana de longitud de las moléculas de ADNlc. La fig. 15(d) muestra la concordancia entre el número de informadores tumorales diferentes observados frente a los predichos mediante la modelización analítica utilizando plasma de CPNM pretratamiento y adiciones definidas en trabajos previos. Fig. 15(e). Análisis del número de SNV e indels por tumor cubierto por el selector de CPNM tanto en una cohorte de entrenamiento del TCGA (ACP) y una cohorte independiente de adenocarcinoma pulmonar. Fig. 15(f). Reproducibilidad de cada tesela de selector en la captura de pacientes con CPNM entre una base de datos de entrenamiento del TCGA y una cohorte de validación perfilada por CAPP-Seq. El índice de recurrencia es igual al porcentaje de pacientes únicos cubiertos por kilobase.
En algunas realizaciones no cubiertas por la invención reivindicada, se proporciona un método de genotipado de ácidos nucleicos tumorales circulantes (p. ej., ADNlc) con un nivel mínimo de detección (NMD) mejorado. En algunas realizaciones no cubiertas por la invención reivindicada, se proporciona un método de evaluación del cáncer en un paciente mediante el genotipado de ADNtc del paciente utilizando un diseño de selector con un objetivo de un LMD de 0,01 % o inferior, hasta 0,0001 % (es decir, un diseño de selector con un número suficiente de informadores para conseguir un LMD de 0,01 % o menos, hasta 0,0001 %). En algunas realizaciones no cubiertas por la invención reivindicada, se encuentra comprendido, además, el genotipado de una muestra tumoral correspondiente procedente del paciente obtenida mediante cualquier método conocido de la técnica, p. ej., muestras quirúrgicas o biopsias con aguja fina; muestras congeladas y muestras fijadas con formalina. En algunas realizaciones no cubiertas por la invención reivindicada, se encuentra comprendido, además, el genotipado de una muestra no tumoral procedente del paciente, p. ej., leucocitos de sangre periférica par aconfirmar la asociación tumoral de las variantes definidas clínicamente.
Los inventores han encontrado que varios cánceres están cubiertos por como mínimo una mutación común. En algunas realizaciones, se ha diseñado un selector mediante la utilización de un tipo de tumor según el método no cubierto por la invención reivindicada y utilizado en un tipo diferente tumor, tal como se ilustra en la figura 8.
Eliminación de duplicados "Desduplicación"
En algunas realizaciones no cubiertas por la invención reivindicada, se proporciona un método de secuenciación de ADNtc que comprende una etapa de reducción de los errores de fondo mediante agrupamiento de las moléculas que comparten el mismo ID molecular único (IDU) en familias. Esta etapa determinar el número de moléculas originales secuenciadas (como el número de familias que comparten un IDU) y eliminar los errores no compartidos por todos los miembros de la familia. Dichos errores pueden introducirse mediante daño oxidativo de nucleósidos, PCR y otras fuentes exógenas durante el copiado o procesamiento ex vivo de la molécula diana. El método de agrupamiento de las moléculas por IDU y la evaluación de errores se denomina en la presente memoria "desduplicación".
Supresión de errores mediante la utilización de diferentes códigos de barras.
En algunas realizaciones no cubiertas por la invención reivindicada, se proporciona un método de evaluación del cáncer mediante el análisis del ADNlc con supresión de errores mediante la utilización de códigos de barras moleculares. En variaciones de dicho método, se proporciona un método de supresión de errores en el genotipado del ADNtc de un paciente mediante la utilización de códigos de barras moleculares. En dicha realización, el ADNtc de un sujeto, p. ej., un paciente, se obtiene y se prepara para la secuenciación según métodos indicados en la presente memoria. Por ejemplo, pueden extraerse tan solo 30 ng de ADNlc de un sujeto y secuenciarse hasta una profundidad de entre 1000 y 10.000x, p. ej., 6.000x. A continuación, las secuencias pueden "desduplicarse" utilizando iDu tal como se indica en la presente memoria. Para fijar una referencia de supresión de errores de los códigos de barras moleculares, los inventores perfilaron muestras de ADNlc procedentes de 12 adultos sanos. Para cada sujeto, se secuenciaron entradas uniformes de ADN (mediana de 32 ng) hasta una mediana de profundidad de aproximadamente 6.000x (pre-eliminación de duplicados). Dados los rendimientos típicamente bajos de ADNlc en las muestras clínicas de plasma, las tasas de error y el rendimiento de los códigos de barras pueden evaluarse utilizando todas las moléculas recuperadas (es decir, con independencia de IDU, número de copia o carácter de doble cadena o cadena sencilla). En algunas realizaciones, basándose en la evaluación de los métodos de corrección de errores, el método incluye la comparación de datos no desduplicados para evaluar si los códigos de barras internos (insertos) o externos (adaptadores) reducen el fondo en todo el selector en una medida mayor. En algunas realizaciones, el método incluye la utilización de IDU internos (insertos) para la supresión de errores o la estrategia de códigos de barrasdesduplicación.
Errores estereotípicos.
En algunas realizaciones no cubiertas por la invención reivindicada, se proporciona un método de reducción del fondo en la secuenciación de ácidos nucleicos, incluyendo ADNlc, mediante la identificación como errores y la eliminación de cambios de nucleótidos en localizaciones del genoma que se ha determinado que son propensas a errores en un estudio de secuenciación anterior, tal como un estudio poblacional. En algunas realizaciones, la localización propensa a errores es una G (guanina) y el cambio de nucleótido eliminado es una T (timina). Los inventores han observado que, en donantes de sangre sanos, las posiciones propensas a errores eran inesperadamente estereotipadas en sus localizaciones genómicas y espectro de sustitución de bases (fig. 9(b) y fig. 10). incluso después de la supresión de errores mediante códigos de barras-desduplicación, la mayoría de los errores remanentes consistía en dichos alelos de baja frecuencia (<0,1 %) estereotípicos, con una mayoría debida a transversiones G>T y, en menor medida, transiciones C>T o G>A (fig. 9(b)). Sin restringirse a una teoría particular, los inventores han planteado la hipótesis de que puede estar produciéndose el daño oxidativo de los ácidos nucleicos durante la preparación de las bibliotecas, conduciendo a la formación de 8-oxoguanina y desaminación de la citosina. Los inventores han observado, además, que al localizarse en la cadena contraria (positiva) del genoma humano de referencia, los cambios G>T estaban altamente sesgados en comparación con los sucesos recíprocos, C>A (fig. 9(b)) y que este desequilibrio no era atribuible al sesgo de selección de cadenas en la secuenciación (fig. 11(b)). Por lo tanto, los inventores examinaron la etapa de enriquecimiento e identificaron un incremento escalonado de la proporción de errores G>T a errores C>A que se incrementaba reproduciblemente en 2,5 veces entre la duración de 0,1 días y la duración de 3 días de la captura dirigida de secuencias (fig. 11 (c)). Se observó una tendencia similar para errores observados exclusivamente en ambas cadenas de ADN (datos solo dúplex, fig. 11(d)). Los datos muestran que las transversiones G>T están controladas en gran medida por especies de oxígeno reactivo acopladas con un reactivo de captura con diana exclusivamente en la cadena positiva (fig. 11 (e)). En algunas realizaciones no cubiertas por la invención reivindicada, se incluye una etapa de reducción de los errores de fondo en la secuenciación de ácidos nucleicos mediante la eliminación de los ácidos nucleicos dañados respecto de los ácidos nucleicos en la muestra mediante la puesta en contacto de la misma con uno o más enzimas de reparación de ácidos nucleicos. Entre los ejemplos de dichos enzimas de reparación se incluyen: (i) uracil ADN-glucosilasa (UDG), que deja un sitio abásico en lugar de uracilo (un producto de oxidación de la citosina), evitando que la PCR continúe pasado el sitio de oxidación, eliminando errores C>T debidos a la oxidación de la citosina; (ii) 8-oxoguanina ADN glucosilato (FPG), que elimina las purinas dañadas y corta en el sitio de las bases dañadas, eliminando los errores G>T debidos a la oxidación de la guanina. La reducción de las tasas de error mediante aplicación de dichos enzimas se ilustra en la fig. 11(a).
Umbral para la identificación de variantes en la supresión de errores.
Las tasas de errores de secuenciación de moléculas individuales son heterogéneas: difieren en magnitud en diferentes intervalos genómicos diana y entre tipos de sustitución de bases. Además, las profundidades de secuenciación típicamente varían dentro de las muestras y entre muestras. En conjunto, dichos problemas complican la selección de umbrales robustos para la identificación de variantes, llevando a compromisos subóptimos entre sensibilidad y especificidad. Con el fin de mejorar la tasa de detección de los alelos de baja frecuencia, los presentes inventores desarrollaron un enfoque de genotipado general que considera adaptativamente la variación local y global de las tasas de errores de fondo, permitiendo la determinación automática de umbrales de identificación de variantes específicas de posición en cada muestra. El método comprende determinar el umbral 't' para el número mínimo de lecturas de secuenciación con una variante (SNV) a fin de identificar la variante como variante verdadera y no un artefacto.
En una realización no cubierta por la invención reivindicada, se proporciona una etapa de determinación de la tasa global de errores para cada clase de sustitución de base utilizando una muestra de control. En algunas realizaciones, la tasa global de errores se determinó para 24 posibles sustituciones de base. En algunas realizaciones, la etapa de fijación de umbral excluye las variantes de secuencia candidatas con >5 lecturas de soporte para minimizar la influencia de confusión de las variantes verdaderas. Dado que las clases de sustitución de base presentan distribuciones de fondo dispares (fig. 2b), los presentes inventores intentaron controlar la tasa de falsos positivos para cada clase por separado. Con este fin, los presentes inventores modelizaron la distribución acumulativa de errores de fondo para cada clase de sustitución de base. Los inventores han encontrado que la serie de potencias y las funciones exponenciales se ajustan bien a los datos observados (fig. 19(a), y para cada clase, los presentes inventores seleccionaron la función que mejor capturaba los datos mediante regresión lineal en espacio log-lineal. Para incrementar la sensibilidad, los presentes inventores modelizaron las variantes de secuencia candidata con y sin soporte de segunda cadena de ácidos nucleicos por separado, para un total de 24 modelos de sustitución de base por muestra (2 cadenas x 12 clases de sustitución). Dichos modelos ilustran fácilmente el impacto del pulido de fondo sobre las tasas de error específicas de sustitución (fig. 19(a)). El método comprende, además, una etapa de definición de una función que relaciona el número de errores con el número de lecturas de soporte observadas. En algunas realizaciones, el número de errores se ajusta para los parámetros experimentales, p. ej., por número de bases secuenciadas "errores acumulativos". El método comprende, además, una etapa de resolución de cada una de las 24 funciones con el fin de identificar el número mínimo de lecturas de soporte necesarias para producir 'y' errores acumulativos. En algunas realizaciones, y=0. (Fig. 19 (a)). En algunas realizaciones no cubiertas por la invención reivindicada, está comprendida además el ajuste del umbral 't' tal como se explica posteriormente.
En una realización no cubierta por la invención reivindicada, se proporciona una etapa de ajuste de la tasa global de errores basada en las tasas de error local y la profundidad de secuenciación. La etapa comprende determinar la tasa de error 'e' (definida como el número de posiciones que incluyen bases no de referencia dividido por el número de bases secuenciado) y determinar la profundidad de secuenciación 'd' para cada gen. (Fig. 19(b)). Si el gen g se encuentra dentro del 25 por ciento superior de las tasas de error a nivel génico en todo el selector, se ajusta el umbral 't' a t' de acuerdo con:
• t— t x w, donde w=min{q2, 5} y q=e dividido por el percentil 75 de las tasas de error de todos los genes evaluables
Si el gen g presenta una profundidad de secuenciación 'd' inferior a la mediana de profundidad de secuenciación en todo el selector, dmed, se ajusta el umbral a t' de acuerdo con:
t' ^ t / w*, donde w* = ln (dmed / d)
En algunas realizaciones no cubiertas por la invención reivindicada, se proporciona un método de secuenciación de ácidos nucleicos que incluye ADNlc con una tasa de errores reducida, que comprende identificar como variantes de secuencia SNV verdaderas, las variantes que exceden el umbral establecido experimentalmente (es decir, el número de lecturas en el que la variante excedía el umbral), en las que se determina el umbral tal como se ha indicado anteriormente.
Eliminación de alelos de baja frecuencia.
En algunas realizaciones no cubiertas por la invención reivindicada, se proporciona una etapa de aplicación de un filtro heurístico para detectar y eliminar los SNV con frecuencias alélicas más bajas. (Fig. 19b) La etapa comprende crear una lista de SNV candidatos, clasificando en un ranking los SNV según la frecuencia alélica y eliminando los SNV de frecuencia más baja. En algunas realizaciones, el método comprende el análisis estadístico para determinar el punto umbral para separar los errores de los SNV verdaderos. El método puede comprender la división de la lista en por lo menos dos secciones, evaluando estadísticamente la diferencia de varianza entre las dos secciones, lo que rinde un valor p y un mínimo para el valor p. Tras clasificar en un ranking L según frecuencia alélica (FA) creciente, se utilizó un iterador i para recorrer la lista. Para cada i, se dividió L en dos partes: SNV con un FA inferior a Li y SNV con un FA >Li. Se utilizó una prueba F de dos colas para evaluar estadísticamente la diferencia de varianza entre las dos listas, rindiendo un valor de p. Los SNV bajo el valor L mínimo de la lista seguidamente se recorrieron en orden de FA creciente con el fin de identificar el índice i del primer valor de p correspondiente a un mínimo local, en caso de existir uno. Dicho mínimo, en caso de detectarse, indica un punto de inflexión potencial entre ruido (cola inferior) y señal (FA más altas). En el caso de que el valor de p correspondiente a i fuese inferior a 0,05 y en el caso de que L fuese por lo menos 10 % superior a Li-1, los presentes inventores seguidamente evaluaron la diferencia entre Li y la distribución de sucesos de fondo potenciales, L1 a Li-1, mediante la utilización de una prueba z unilateral (justificada, dada la normalidad observada para la FA de los SNV). En el caso de que el valor de p correspondiente fuese <0,01, la lista de SNV candidata se dividió y se eliminó la cola inferior (L1 a Li-1). En los análisis empíricos, se encontró que dicho procedimiento mejoraba la especificidad (datos no mostrados), sugiriendo que puede detectar eficazmente las variantes de fondo residuales.
Supresión de errores digitales integrada (iDES).
En algunas realizaciones no cubiertas por la invención reivindicada, se proporciona un enfoque computacional para suprimir los errores de secuenciación específicos de posición. En la presente realización, el método comprende la obtención de una distribución basal de variaciones de secuencia para fijar un umbral determinado experimentalmente para variaciones de nucleótido individual (SNV), seguido del "pulido in silico" (eliminación de variantes con fracciones alélicas que caigan bajo el umbral) a partir de los datos de códigos de barras-desduplicados. En la presente realización no cubierta por la invención reivindicada, se proporciona un método de reducción de errores de secuenciación de ácidos nucleicos que incluye ADNtc que comprende el agrupamiento de las moléculas que comparten la misma ID molecular única (IDU) en familias y la eliminación como errores de los cambios de nucleótidos con una frecuencia inferior a un umbral predeterminado. Puede establecerse un umbral en un estudio de secuenciación, tal como un estudio poblacional. El método se ilustra en la figura 9. La fig. 9(a) es un esquema que ilustra los adaptadores de secuenciación en tándem ligados a una molécula hipotética de ADN de doble cadena (dúplex) que contiene una mutación biológica real en ambas cadenas, así como un cambio de base asimétrico no replicado en solo una cadena (parte superior). La aplicación de códigos de barras internos/insertados permite: (i) la supresión de errores, y (ii) la recuperación de moléculas de ADN de cadena sencilla (centro) y de doble cadena (parte inferior). Fig. 9(b) (parte superior) muestra un mapa térmico que ilustra las tasas de error en todo el selector específicas de posición agrupadas en todas las posibles sustituciones de base (filas) y organizada según fracciones alélicas medias decrecientes (para cada tipo de sustitución) en las 12 muestras de ADNlc procedentes de controles sanos (columnas). Se muestran los patrones de fondo para datos no desduplicados (izquierda), datos de códigos de barras-desduplicados (centro) y datos de códigos de barras-desduplicados después del pulido de fondo (derecha). Los errores de definen como alelos no de referencia, excluyendo los SNP de línea germinal. El sombreado indica sin fondo y en blanco se indica un techo de 0,03 % de abundancia de la fracción. Fig. 9 (b) Parte inferior: Métricas de error en todo el selector. La fig. 9(c) muestra el efecto de desduplicación de códigos de barras y pulido de fondo sobre las métricas de error en todo el selector. para 30 muestras de ADNlc de control normales, dividido en cohortes de entrenamiento (n=12) y de ensayo (n=18). Se muestras las medianas y los rangos intercuartil. (d) Gráficos de densidad del NMD en todo el sector para cada sustitución de base. Fig. 9(e) (parte superior). Muestra un histograma de los límites de detección en todo el selector para todas las posibles sustituciones de bases. Fig. 9(e) (parte inferior). Muestra la distribución de tipos de sustitución de base para cada grupo en el histograma, anteriormente. El diagrama de sectores muestra la distribución de cambios de bases individuales para el 1 % superior de variantes según frecuencia de la base de datos Catálogo de mutaciones somáticas en el cáncer (COSMIC, por sus siglas en inglés), intersecada con el selector de CPNM de los presentes inventores. La fig. 9(f) muestra la comparación entre iDES frente a diferentes estrategias de códigos de barrasdesduplicación para las 30 muestras de control de ADNlc. Todos los análisis en la fig. 9b-f se llevaron a cabo con el selector clínico del CPNM.
En la presente memoria está comprendida la evaluación del cáncer mediante genotipado del ADNlc con una tasa de error baja obtenida mediante supresión de errores que comprende "pulido in silico" de datos de códigos de barrasdesduplicados, eliminando las variantes con fracciones alélicas inferiores a los umbrales específicos de posición (fig.
9(b)). Los inventores denominaron a dicha aplicación combinada de pulido in silico y códigos de barras moleculares, "supresión de errores digitales integrada" (iDES) para reducir o eliminar el efecto de los errores estereotípicos y estocásticos, respectivamente. En algunas realizaciones, las tasas de error en todo el selector cayeron a 1,5*10'5, y las posiciones libres de error se incrementaron a ~98 %. En variaciones de dicha realización, el método comprende únicamente el pulido del fondo de muestras de ADNlc desduplicado o no desduplicado (es decir, pulido con o sin utilización de códigos de barras), o solo desduplicado con códigos de barras sin pulido. Sin embargo, se señala que, al realizarlos juntos, los dos enfoques tienen efectos sinérgicos. (Fig. 10).
En algunas realizaciones no cubiertas por la invención reivindicada, se proporciona un análisis de los perfiles de error para caracterizar los límites de detección específicos de alelo en grandes regiones del genoma humano que mutan recurrentemente en los genomas de cáncer. Está comprendido el análisis de las 12 posibles clases de sustitución de nucleótido, con el fin de determinar su tasa de error, fondo y NMD. Está comprendida, además, la determinación de si la clase particular de sustitución está representada en el Catálogo de mutaciones somáticas en el cáncer (COSMIC) (fig. 9(d)). Tal como se indica en la presente memoria, prácticamente el 80 % de todos los posibles SNV se detectó que estaban libres de errores (fig. 9(e)). Entre los errores residuales, la detección de G>T fue la más notable, aunque mantuvo una mediana de NMD razonablemente baja, de ~0,3 % en todo el selector (fig. 9(d)). Además, los cambios G>T, que comprenden la mayoría de alelos con límites de detección >0, comprendían solo 5 % de puntos calientes mutacionales anotados mediante solapamiento de COSMIC con el selector de CPNM de los presentes inventores, sugiriendo un impacto mínimo sobre el rendimiento del genotipado (fig. 9(e)).
En algunas realizaciones no cubiertas por la invención reivindicada, se proporciona un método de evaluación de la condición de un paciente mediante secuenciación del ADNlc del paciente con una tasa de error reducida y sensibilidad maximizada, en el que el método comprende las etapas de utilizar moléculas dúplex en caso de estar disponibles, aunque utilizando en caso contrario moléculas de cadena sencilla para obtener datos de secuenciación de fondo pulido.
En algunas realizaciones no cubiertas por la invención reivindicada, se proporciona un método de evaluación del estado de un paciente mediante genotipado sin biopsia de un tumor, mediante la utilización de la supresión de errores digitales integrada (iDES). El método puede comprender una etapa de evaluar en primer lugar el rendimiento de iDES sobre las alteraciones somáticas (SNV e indels) que son altamente recurrentes y clínicamente relevantes en el cáncer. La evaluación puede llevarse a cabo mediante la aplicación del genotipado a ADNlc procedente de sujetos sanos. Las llamadas con soporte de dúplex sugieren alelos variantes auténticos que surgen in vivo, mientras que los datos de códigos de barras y no desduplicados indican llamadas falsas positivas. Se encuentra comprendida, además, una evaluación de referencia del ADNlc simulado que utiliza cantidades iniciales definidas de un ADN mutante de adición al ADNlc de control. En el caso de que las mutaciones en el ADN añadido sean conocidas, la invención puede comprender evaluar la sensibilidad, especificidad, valor predictivo positivo y valor predictivo negativo, y puede estar comprendida la tasa de falsos positivos para la detección de variantes raras.
En algunas realizaciones no cubiertas por la invención reivindicada, se proporciona un método de supresión de errores digitales integrada (iDES) para el genotipado sin biopsia de pacientes a partir de plasma sanguíneo. El método puede comprender una confirmación de las mutaciones detectadas como somáticas en una biopsia de tumor correspondiente. Por ejemplo, se da a conocer un método de evaluación del cáncer en, p. ej., pacientes con CPNM, p. ej., estadio (IB-IV) que incluye una evaluación no invasiva del genotipo tumoral con una baja tasa de error. En algunas realizaciones, el genotipado incluye la detección de mutaciones de EGFR, incluyendo mutaciones en el dominio de quinasa (exones 19, 20 y 21) que incluye mutaciones activadoras y de resistencia.
En algunas realizaciones no cubiertas por la invención reivindicada, se proporciona un método de supresión de errores (iDES) para el genotipado sin biopsia de pacientes con CPNM a partir de muestras de plasma sanguíneo del paciente en el que el genotipo del tumor del paciente es conocido. En algunas realizaciones, está comprendida la investigación de la dinámica clonal dentro del tumor del paciente mediante genotipado del ADNlc. En otra realización no cubierta por la invención reivindicada, se proporciona un método de genotipado sin biopsia para detectar la probabilidad de respuesta o la resistencia al erlotinib o de un mecanismo de resistencia al erlotinib. En otra realización no cubierta por la invención reivindicada, se proporciona un método de pronóstico o detección de la progresión de la enfermedad en un paciente afectado por cáncer mediante genotipado del ADNlc a partir de una muestra de plasma según los métodos de bajo error descritos en la presente memoria. En algunas realizaciones no cubiertas por la invención reivindicada, está comprendido un mecanismo de detección de la resistencia a la terapia (tal como el erlotinib) mediante análisis del ADNlc en la muestra de plasma del paciente según los errores de bajo error descritos en la presente memoria.
Secuenciación de dobles cadenas.
En algunas realizaciones no cubiertas por la invención reivindicada, se proporciona un método de análisis de ácidos nucleicos que comprende una etapa de emparejamiento de lecturas de secuenciación con el fin de obtener una secuencia de doble cadena (dúplex). La primera etapa en dicha realización es la lectura de la secuencia de ácidos nucleicos para determinar el código de barras. En algunas realizaciones, los códigos de barras en las dos cadenas son complementarios entre sí (p. ej., si los IDU están localizados en la región de tallo del adaptador). En otras realizaciones, los códigos de barras no aleatorios en las dos cadenas se cruzan como localizados en cadenas sencillas de la misma molécula de adaptador. En todavía otra realización, el código de barras es una combinación de los códigos de barras externo e interno. La primera etapa de emparejamiento de dichas secuencias es la lectura y correspondencia del código de barras externo corto (2 o más pares de bases). A continuación, un segmento del inserto también se secuencia para determinar las coordenadas genómicas de la secuencia del inserto. En el caso de que los códigos de barras cortos sean complementarios entre sí y las coordenadas genómicas del inserto se localicen en cadenas contrarias, las lecturas representarán cadenas recíprocas de una molécula dúplex.
En algunas realizaciones no cubiertas por la invención reivindicada, se proporciona un método de análisis de ácidos nucleicos que comprende una etapa de supresión de errores que utiliza códigos de barras. El método comprende una etapa de localizar la secuencia en el genoma de referencia y la identificación de todas las variantes de nucleótidos individuales (SNV) (es decir, bases diferentes respecto a la secuencia de referencia). El método comprende, además, una etapa de someter los SNV a filtrado de calidad. En algunas realizaciones, el filtrado de calidad es filtrado de calidad Phred que utiliza un umbral Q de 30, que elimina 99,9 % de los errores que surgen de artefactos de secuenciación. El método comprende, además, una etapa de reducción de los errores mediante el recuento del número de SNV para cada posición genómica (que se ha sometido y ha pasado el filtrado de calidad en la etapa precedente) y la selección de la variante más abundante. El método comprende, además, una etapa de restar las secuencias con SNV que no han pasado el filtrado de calidad del grupo de secuencias definido como una familia de códigos de barras que comparten el mismo IDU. El método comprende, además, una etapa de consolidación de todos los miembros de la familia de códigos de barras en una única secuencia, solo manteniendo las variantes que han pasado la etapa 3 con >2 miembros.
Como etapa final de supresión de errores, todas las variantes no de referencia en familias de códigos de barras de un miembro (es decir, familias con una sola secuencia) fueron eliminadas, a menos que presentasen pruebas de la presencia de por lo menos otra molécula de ADN con >2 miembros de la familia que soportasen esa variante. Los presentes inventores denominaron a esta estrategia de desduplicación "2X familias de uno" (fig. 9(f)).
Estimación de la carga tumoral.
En algunas realizaciones no cubiertas por la invención reivindicada, se proporciona un método de determinación de la carga tumoral en un paciente mediante secuenciación de moléculas dúplex en el ADNlc del paciente. Dada la tasa de error más alta de la secuenciación de dúplex, los presentes inventores intentaron determinar su NMD para la cuantificación de la carga tumoral circulante. El método comprende una etapa de diseño de un selector que cubre un número adecuado (p. ej., >1.500) variaciones de secuencia, tal como mutaciones no sinónimas. El selector puede diseñarse mediante cualquier método de estudio, p. ej., la secuenciación de exomas de los tumores. En algunas realizaciones, puede diseñarse un selector personalizado mediante secuenciación de exomas del tumor del paciente. El método comprende, además, una etapa de secuenciación de dúplex del ADNlc del paciente. En algunas realizaciones, en esta etapa podrían ser recuperables tan solo 1.000 equivalentes genómicos.
Tal como demuestran los Ejemplos, el método puede detectar con precisión secuencias diana de 0,025 % a 0,00025 % con elevada linealidad (fig. 12(i)), validando adicionalmente el modelo analítico de los presentes inventores (fig. 13) y demostrando un límite de detección de 2,5 moléculas en un fondo de 1.000.000 moléculas, prácticamente 100x por debajo del NMD de la dPCR de alelos individuales. Lo anterior sugiere que los selectores personalizados son un enfoque prometedor para la vigilancia profunda de la enfermedad residual microscópica, particularmente para tumores con elevadas cargas mutacionales.
En conjunto, los métodos dados a conocer en la presente memoria proporcionan un marco robusto y flexible para el perfilado de ADNlc ultrasensible, que se consigue utilizando modelos analíticos precisos de límites de detección, la supresión de errores digitales integrada y el genotipado de ADNlc adaptativo. Mediante la combinación de implementaciones prácticas de códigos de barras moleculares para la reducción de errores y la recuperación eficiente de cadenas dúplex con un enfoque generalmente aplicable para eliminar los errores de fondo residuales, iDES reduce las tasas de error 10 a 100 veces sin sacrificar los rendimientos genómicos recuperados (fig. 7(a)). Estas cualidades mejoran los límites de detección de los métodos anteriores para muestras con contenido limitado de ADN, tales como los volúmenes de recolección de sangre clínicamente prácticos (fig. 7(b)). Además, aprovechando la recuperación de las cadenas dúplex, el enfoque de los presentes inventores puede ajustarse para proporcionar una sensibilidad excepcional en el caso de que se encuentren disponibles suficientes informadores tumorales y GE. Dadas sus ventajas para el perfilado de ADNtc, los presentes inventores prevén que iDES presentará una amplia utilidad para una diversidad de aplicaciones de secuenciación profunda que requieran una cuantificación digital precisa de alelos de baja frecuencia.
Maximización de la sensibilidad con minimización simultánea del coste de la secuenciación.
El ADN circulante tiene el potencial de revolucionar la identificación y seguimiento de enfermedades, p. ej., del cáncer, aunque su detección en la sangre, suero y/o plasma de la mayoría de pacientes sigue siendo costosa y complicada.
En la presente memoria se da a conocer un nuevo método económico que puede combinar la secuenciación ultraprofunda y nuevos métodos bioinformáticos para conseguir una evaluación no invasiva altamente sensible y específica del ADN circulante en la amplia mayoría de pacientes. En algunas realizaciones, el método puede aplicarse a cualquier tipo de cáncer. El cáncer puede ser un tumor sólido, p. ej., cáncer de pulmón no microcítico (CPNM).
El método puede comprender, además, el diseño y validación de selectores (~200 kb) para cada una de dichas neoplasias malignas, mediante combinación de análisis bioinformático de datos de mutaciones somáticas disponibles públicamente, con conocimiento previo de regiones genómicas clínicamente relevantes y zonas calientes de puntos de ruptura.
En la presente memoria se dan a conocer, además, métodos para el diseño racional de selectores para conseguir un límite de detección deseado de ADNlc, y la validación de la modelización mediante experimentos de adición empíricos. Por ejemplo, en algunas realizaciones, el método dado a conocer en la presente memoria puede conseguir un límite de detección de ADNtc de por lo menos 1 en 50.000 moléculas para todos los cánceres, p. ej., CPNM, el carcinoma esofágico (ACE)/carcinoma de células escamosas esofágico (CCEE) y el adenocarcinoma pancreático (ACP) dada una cantidad inicial de 30 ng de ADNlc a una eficiencia de captura de 50 % (~3 ml de plasma). En realizaciones, el método comprende concebir un algoritmo de maximización de la sensibilidad con minimización simultánea del coste de la secuenciación, basado en: (i) el número de informadores identificados en cada tumor, (ii) la masa de ADN en el plasma inicial, (iii) la tasa estimada de duplicación del ADN y la eficiencia de captura, y una relación derivada empíricamente entre los niveles de ADNtc y el volumen tumoral (solo CPNM). En algunos casos, el método puede comprender la validación de los selectores mediante análisis de muestras longitudinales de plasma con biopsias tumorales emparejadas recogidas de una diversidad de pacientes de CPNM, ADE/CCEE y ACP que comprendía diversos estadios, volúmenes tumorales y terapias.
En la presente memoria se dan a conocer, además, métodos de determinación de la cantidad de los ácidos nucleicos de doble cadena y del número de celdas de flujo necesario. El método puede comprender: a) determinar los parámetros seleccionados de un grupo que consiste en: i) los tamaños de los oligonucleótidos en un selector; ii) el número de informadores de cáncer; iii) los equivalentes genómicos totales, y iv) cualquier combinación de los mismos; b) aplicar un algoritmo a los parámetros en a) para determinar la cantidad de ácidos nucleicos de doble cadena y el número de celdas de flujo necesario, y c) ajustar la cantidad de ácidos nucleicos de doble cadena y el número de celdas de flujo para optimizar los costes.
En algunas realizaciones, el informador de cáncer puede comprender mutaciones de cáncer. Por ejemplo, los informadores de cáncer pueden ser cambios respecto a la secuencia de línea germinal, p. ej., cambios específicos de célula de cáncer. En otras realizaciones, los informadores de cáncer pueden incluir variantes de nucleótido único (SNV), variantes de número de copia (CNV), inserciones, deleciones y reorganizaciones (p. ej., fusiones).
Ejemplos
Ejemplo 1: reducción de errores de fondo con códigos de barras moleculares.
Se utilizaron códigos de barras para eliminar mutaciones debidas a errores de fondo, tales como errores causados por la PCR y la secuenciación.
Se aisló ADN libre de células a partir de muestras de sangre de pacientes. Los ADNIc se sometieron a reparación de los extremos y adición de A terminales (Fig. 1 (a)). Se formó un código de barras endógeno único para cada molécula de ADNlc a partir de las secuencias en las coordenadas inicial y final del ADNlc.
A continuación, se ligaron adaptadores en forma de Y, que comprenden un segmento hibridable y un segmento no hibridable, a ambos extremos de cada molécula de ADNlc con la ADN ligasa de T4 (Fig. 1(b)). El segmento no hibridable del adaptador en forma de Y comprendía un código de barras aleatorio de cuatro bases y un código de barras fijo de cuatro bases, en los que los dos códigos de barras eran contiguos entre sí (Fig. 1(c)). El adaptador en forma de Y comprendía, además, una secuencia universal que puede unirse a un cebador de secuenciación (Fig. 1(c)). La combinación del código de barras aleatorio y el código de barras endógeno se utilizó como identificador único para cada uno de los ácidos nucleicos de molde resultantes. El código de barras fijo se predefinió para identificar la fuente de los ADNlc, p. ej., el paciente o el tejido a partir del que se aislaron los ADNlc.
Los ácidos nucleicos de molde resultante se amplificaron en 12~14 ciclos de PCR. La información de secuencia de los amplicones seguidamente se obtuvo mediante secuenciación de próxima generación, p. ej., utilizando HiSeq 2000 de Illumina. La información de secuencia comprendía mutaciones relacionadas con cáncer que ocurren in vivo, p. ej., variantes biológicas reales. Sin embargo, la información de secuencia comprendía, además, mutaciones debidas a errores introducidos por la PCR, la secuenciación u otros artefactos (fig. 1(d)).
En el presente ejemplo, debido a que cada molécula de ácidos nucleicos de molde se identificaba mediante un identificador único, los amplicones derivados del mismo ácido nucleico de molde comprendía el mismo identificador único y se clasificaron correspondientemente. Las mutaciones que eran variantes biológicas reales ocurrían en el mismo locus, mientras que las mutaciones falsas debido a errores de fondo ocurrían aleatoriamente en diferentes loci. Además, las mutaciones debidas a errores de fondo ocurrían en un subgrupo de los amplicones derivados del mismo ácido nucleico de molde. Los amplicones derivados del mismo ácido nucleico de molde fueron alineados basándose en el identificador único y se llevó a cabo un análisis bioinformático para eliminar mediante filtrado las mutaciones debidas a errores de fondo, p. ej., falsas mutaciones, que ocurren aleatoriamente en diferentes loci, o que ocurren en un subgrupo de los amplicones derivados del mismo ácido nucleico de molde. Después de la eliminación mediante filtrado de las falsas mutaciones, se incrementó la sensibilidad de la detección de mutaciones en la información de secuencia de 0,02 % a 0,001 % (fig.1(e-g)), p. ej., 1 célula tumoral equivalente en un fondo de 99.999 células normales equivalentes.
Ejemplo 2 (profético): eliminación de las mutaciones G a T con códigos de barras moleculares.
Se aisló ADN libre de células a partir de muestras de sangre de pacientes. Los ADNlc se sometieron a reparación de los extremos y adición de A terminales (Fig. 2 (a)). Se formó un código de barras endógeno único para cada molécula de ADNlc a partir de las secuencias en las coordenadas inicial y final del ADNlc.
A continuación, se ligaron adaptadores en forma de Y, que comprendían un segmento hibridable y un segmento no hibridable, en ambos extremos de cada molécula de ADNlc con la ADN ligasa de T4, produciendo una pluralidad de ácidos nucleicos de molde (Fig. 2 (b)). El segmento no hibridable del adaptador en forma de Y comprendía un código de barras aleatorio de cuatro bases y un código de barras fijo de cuatro bases, en los que los dos códigos de barras eran contiguos entre sí (Fig. 2 (c)). La combinación del código de barras aleatorio y el código de barras endógeno se utilizó como identificador único para cada ácido nucleico de molde. El código de barras fijo se predefinió para identificar la fuente de los ADNlc, p. ej., el paciente o el tejido a partir del que se aislaron los ADNlc. Además, los adaptadores en forma de Y comprenden, además, un código de barras de tallo único de 2 pares de bases (Fig. 2 (c)). Después de la ligación, los códigos de barras de tallo se encontraban a 2 pares de bases del sitio de ligación.
Los ácidos nucleicos de molde resultantes se amplificaron en 12~14 ciclos de PCR. La información de secuencia de los amplicones seguidamente se obtuvo mediante secuenciación de próxima generación mediante la utilización de HiSeq 2000 de Illumina. La información de secuencia comprendía mutaciones relacionadas con cáncer que ocurren in vivo, p. ej., variantes biológicas reales. Sin embargo, la información de secuencia comprendía, además, mutaciones debidas a errores introducidos por la PCR, la secuenciación u otros artefactos, p. ej., mutaciones de G a T.
Las mutaciones de G a T debidas a errores de fondo ocurren en una cadena, pero no en la otra cadena, de un ácido nucleico de molde. Por lo tanto, para reducir el fondo, se descartan las mutaciones G a T que ocurren en una cadena, aunque no en la otra, de un ácido nucleico de molde.
Los códigos de barras de tallo de doble cadena se utilizan para identificar la cadena a partir de la que se derivan los amplicones. Los amplicones derivados de un ácido nucleico de molde comprenden el mismo código de barras de tallo y el mismo código de barras endógeno. Además, los amplicones derivados de diferentes cadenas del ácido nucleico de molde comprenden diferentes códigos de barras aleatorios (fig. 2 (c)). Los amplicones derivados del mismo ácido nucleico de molde se alinean basándose en los códigos de barras de tallo, los códigos de barras endógenos y los códigos de barras aleatorios. Los amplicones alineados comprenden un primer grupo de amplicones que presentan el código de barras de tallo, el código de barras endógeno y un código de barras aleatorio, y un segundo grupo de amplicones que presenta el mismo código de barras de tallo y el mismo código de barras endógeno, aunque un código de barras aleatorio diferente. A continuación, se descartan las mutaciones G a T si ocurren en 99,9 % del primer grupo de amplicones, aunque en menos de 1 % del segundo grupo de amplicones.
Ejemplo 3 (profético): reducción de errores de fondo mediante la utilización de códigos de barras de tallo de doble cadena y códigos de barras endógenos.
Se aislaron ADNlc a partir de una muestra de sangre del paciente y posteriormente se repararon los extremos y se sometieron a adición de A terminales. Se formó un código de barras endógeno único para cada molécula de ADNlc a partir de las secuencias en las coordenadas inicial y final de un ADNlc.
A continuación, se ligaron adaptadores en forma de Y que comprendían un segmento hibridable y un segmento no hibridable a ambos extremos de cada molécula de ADNlc con la ADN ligasa de T4. Cada adaptador en forma de Y comprendía una secuencia universal que podía unirse a un cebador de secuenciación. La secuencia del código de barras fijo se predefinió para identificar la fuente de los ADNlc, p. ej., el paciente o el tejido a partir del que se aislaron los ADNlc. El segmento hibridable de cada adaptador en forma de Y comprendía un código de barras de tallo de doble cadena separado por 2 pares de bases respecto del sitio de ligación.
Los ácidos nucleicos de molde ligados resultantes se amplificaron en 12~14 ciclos de PCR. A continuación, se secuenciaron los amplicones mediante secuenciación de próxima generación mediante la utilización de un HiSeq 2000 de Illumina. La información de secuencia comprendía mutaciones relacionadas con cáncer que ocurren in vivo, p. ej., variantes biológicas reales. Sin embargo, la información de secuencia comprendía, además, mutaciones debidas a errores de fondo, p. ej., falsas mutaciones, introducidas por la PCR, la secuenciación u otros artefactos.
Tras la ligación, se unió cada fragmento de ADNlc de doble cadena a un código de barras de tallo de doble cadena. Los amplicones derivados de una cadena y los amplicones derivados de la otra cadena del ADNlc de doble cadena comprendían los mismos códigos de barras de tallo de doble cadena y los mismos códigos de barras endógenos. Las mutaciones biológicas reales ocurren en el mismo locus en todos los amplicones que contienen el locus. Las falsas mutaciones comprenden mutaciones que ocurren en amplicones derivados de únicamente una de las dos cadenas de los ADNlc de doble cadena. Por lo tanto, las falsas mutaciones pueden ocurrir en aproximadamente 50 % de los amplicones con el mismo código de barras de tallo y el mismo código de barras endógeno.
En el presente ejemplo, se alinearon los amplicones basándose en los códigos de barras de tallo y en los códigos de barras endógenos. Las falsas mutaciones que sólo ocurren en aproximadamente 50 % de los amplicones se eliminaron mediante filtrado. La sensibilidad de detección de mutaciones en la información de secuencia se potencia mediante eliminación por filtrado de las falsas mutaciones.
Ejemplo 4: detección no invasiva y ultrasensible de ADN circulante procedente de tumores sólidos.
Los presentes inventores han desarrollado un nuevo método económico que combina la secuenciación ultraprofunda y nuevos métodos bioinformáticos para conseguir una evaluación no invasiva altamente sensible y específica del ADNtc en la amplia mayoría de pacientes. Los presentes inventores aplicaron el método denominado CAPP-Seq (Fig. 4) a tres tipos de cáncer sólido principales: el cáncer de pulmón no microcítico (CPNM), el adenocarcinoma esofágico (ACE)/carcinoma de células escamosas esofágico (CCEE) y el adenocarcinoma pancreático (ACP). Mediante la combinación del análisis bioinformático de datos de mutaciones somáticas disponibles públicamente (Tabla 1) con conocimiento previo de regiones genómicas clínicamente relevantes y zonas calientes de puntos de ruptura, los presentes inventores diseñaron y validaron selectores CAPP-Seq (~200 kb) para cada una de dichas neoplasias malignas (fig. 5 (a)). Los presentes inventores han desarrollado modelos analíticos para diseñar racionalmente selectores para conseguir un límite de detección deseado de los ADNtc y han validado la modelización de los presentes inventores mediante experimentos de adición empíricos (fig. 5 (b)). Sobre esta base los presentes inventores esperaban alcanzar un límite de detección de ADNtc de por lo menos 1 de cada 50.000 moléculas para la totalidad de los tres cánceres, dada una cantidad inicial de ~30 ng de ADNlc a una eficiencia de captura de 50 % (~3 ml de plasma). Basándose en: (i) el número de informadores identificados en cada tumor, (ii) la masa de ADN en plasma inicial, (iii) la tasa estimada de duplicación del ADN y la eficiencia de captura, y una relación derivada empíricamente entre los niveles de ADNtc y el volumen tumoral (solo CPNM), los presentes inventores concibieron un algoritmo ("Lane Balancing Algorithm", algoritmo de equilibrado de carriles) que maximizaba la sensibilidad, minimizando simultáneamente el coste de la secuenciación (fig. 5(c)). Los selectores CAPP-Seq se validaron mediante análisis de muestras longitudinales de plasma con biopsias tumorales emparejadas recogidas de una diversidad de pacientes de CPNM, ADE/CCEE y ACP que comprendía diversos estadios, volúmenes tumorales y terapias (Tabla 2).
Tabla 1. Datos de origen de mutaciones somáticas
Figure imgf000030_0001
Tabla 1 (continuación)
Figure imgf000031_0001
Figure imgf000032_0001
Figure imgf000033_0001
Figure imgf000034_0001
Figure imgf000034_0002
Mediante la integración de conocimientos previos de genes de control, mutaciones de resistencia y zonas calientes de puntos de ruptura con selección bioinformática (p. ej., mediante el cálculo del índice de recurrencia) de regiones (no) codificantes mutadas recurrentemente, se diseñaron tres selectores de tumor sólido CAPP-Seq: i) selector de CPNM (203 kb), que cubre prácticamente el 100 % de los tumores de CPNM con una mediana de 8 mutaciones por paciente; ii) selector de ADE/CCEE (180 kb) que cubre prácticamente el 100 % de los tumores de ADE/CCEE con una mediana de 7-8 mutaciones por paciente; iii) selector de ACP (185 kb) que cubre ~85 % de los tumores de adenocarcinoma pancreático con una mediana de 8-11 mutaciones por paciente. Se concibió un modelo analítico y se validó para predecir el límite de detección del ADNtc en plasma dado el número de informadores tumorales y equivalentes genómicos secuenciados. Mediante la utilización de la carga optimizada de carriles puede minimizarse la sobresecuenciación (es decir, el coste), mientras que el límite de detección de ADNtc en plasma para un conjunto clínicamente diverso de pacientes de CPNM, ADE/CCEE y ACP puede maximizarse.
Ejemplo 5. Pacientes y muestras.
Selección de pacientes. Todas las muestras procedentes de pacientes en el presente estudio se recogieron con consentimiento informado para el uso en investigación y fueron aprobados con el Comité de revisión institucional de Stanford de acuerdo con la Declaración de Helsinki.
Recolección y procesamiento de sangre. Se extrajo sangre en tubos BD Vacutainer de tapón violeta de 10 ml con K2EDTA (Becton Dickinson, Franklin Lakes, NJ n° de catálogo 366643). Los tubos se centrifugaron a 1800xg durante 10 min; después, se extrajo plasma en alícuotas de 1-2 ml en tubos de 1,5 o 2 ml; después, se congelaron a -80°C hasta el aislamiento del ADNlc. Se mezcló una pequeña cantidad de plasma con el pellet de leucocitos y glóbulos rojos; después, se transfiró a tubos de 1,5 ml, que se congelaron a -80°C hasta el aislamiento del ADN de la línea germinal.
Aislamiento del ADN. El ADNlc se aisló a partir de muestras de plasma utilizando el kit de ácidos nucleicos circulantes QiaAmp (Qiagen, Valencia, Cal.) siguiendo las instrucciones del fabricante. Se aisló el ADN de la línea germinal a partir de la fracción celular de la sangre utilizando el microkit de ADN QiaAmp (Qiagen) siguiendo las instrucciones del fabricante. Para el aislamiento del ADN a partir de muestras tumorales FFPE, se recogieron en primer lugar 4 secciones de 10 pm (muestras quirúrgicas) o de 20 pm (aspirados con aguja fina) utilizando un micrótomo giratorio Leica RM 2155 con cuchillas desechables de perfil bajo Leica. Después, se utilizó el kit de FFPE de ADN/ARN AllPrep de Qiagen para aislar el ADN de secciones siguiendo las instrucciones del fabricante. T ras el aislamiento, se cuantificó el ADN utilizando el kit de alta sensibilidad de ADNdc Qubit (Life Technologies, Gran Island, NY) siguiendo las instrucciones del fabricante.
Fragmentación del ADN genómico. El ADN de línea germinal y el ADN de FFPE se fragmentó antes de la preparación de bibliotecas, a fin de conseguir una mediana de tamaño de ~170-250 pares de bases. En caso posible, se utilizaron 100 a 2000 ng de ADN como cantidad a introducir para la fragmentación, aunque se ha llevado a cabo con éxito el CAPP-Seq en cantidades más pequeñas de ADN. El ADN inicial se diluyó a 120 pl con agua o tampón Tris-EDTA, pH 8,0. La fragmentación se llevó a cabo con el sonicador Covaris S2 y microtubos Covaris (Covaris, Woburn, Mass, n° de catálogo 520045) bajo las condiciones siguientes: ciclo de servicio de 10 %, nivel de intensidad de 5, 200 ciclos por estallido, duración: 120 segundos. Tras la fragmentación, se purificó el ADN utilizando un kit de purificación de PCR QiaQuick (Qiagen) y se eluyó en 50 pl de tampón EB. Después de la sonicación, se cuantificó el ADN utilizando el kit de alta sensibilidad de ADNdc Qubit y se validó la distribución de tamaños de algunas muestras utilizando el kit de ADN de alta sensibilidad Agilent Bioanalyzer (Agilent, Santa Clara, Cal., n° de catálogo 5067-4626).
Preparación de bibliotecas de secuenciación precaptura. La cantidad de ADN utilizada como entrada para las bibliotecas de secuenciación varía según el tipo de a Dn introducido (ADNlc, línea germinal o ADN tumoral FFPE), el número de muestras que se multiplexan en cada carril de secuenciación y la cantidad de ADN aislada. Típicamente, se introdujo un máximo de 32 ng de ADNlc para una muestra de ADNlc que se 12-plexó en un carril de alta producción HiSeq 2000 de Illumina, mientras que se utilizaron 100 ng de ADN de línea germinal o ADN tumoral como cantidad inicial para un carril de producción elevada 24-plexado HiSeq 2000 de Illumina. La preparación de la biblioteca de secuenciación se llevó a cabo utilizando el kit de preparación de bibliotecas KAPA LTP (Kapa BioSciences, Wilmington, Mass.), con alguna modificación respecto al protocolo del fabricante. Se diluyó el ADN a 50 pl de agua o Eb; después, se repararon los extremos y se llevó a cabo el primer lavado con perlas Agencourt Ampure XP (Beckman Coulter, Pasadena, Cal.) siguiendo las instrucciones del fabricante. Se llevó a cabo la adición de A terminales y el segundo lavado con perlas Ampure, mayoritariamente según las instrucciones del fabricante, aunque se añadió una incubación de 5 minutos a 70°C después de la incubación a 30°C, a fin de inactivar el enzima de adición de A terminales. La ligación se llevó a cabo utilizando un exceso molar de 100 veces de adaptadores respecto a las muestras de ADN introducidas, con una incubación a 16°C durante la noche. Tras la ligación, se aisló el ADN con un lavado con perlas Ampure restrictivo y se eluyó en 24 pl de agua o EB. Se llevó a cabo la PCR con KAPA HiFi y cebadores universales de Illumina (concentración final de cada cebador de 2 pM) con una etapa de hibridación de 30 segundos a 60°C y una etapa de extensión de 30 segundos a 72°C. Se optimizó el número de ciclos de PCR para realizar el número mínimo de ciclos que se esperaba que proporcionase 3000 ng de ADN para un carril completo (por lo tanto, en el caso de que se utilizase una muestra para 1/12 de un carril, se llevó a cabo el número esperado mínimo de ciclos de PCR para obtener 250 ng). Se purificaron las PCR mediante una o dos rondas de purificación con perlas Ampure y después se eluyeron en 60 pl de agua. Las bibliotecas se cuantificaron mediante Qubit y se determinó la distribución de tamaños de las bibliotecas utilizando el kit de ADN de alta sensibilidad Agilent Bioanalyzer. En el caso de presencia de dímeros adaptadores en una proporción molar superior a 5 %, se llevó a cabo otro lavado Ampure restrictivo para eliminarlos. En caso de presencia de una cantidad de ADN inferior a la necesaria, se llevaron a cabo más ciclos de PCR, seguido de uno o dos lavados Ampure restrictivos.
Enriquecimiento basado en hibridación de secuencias específicas procedentes de las bibliotecas de secuenciación.
Para el enriquecimiento basado en hibridación de secuencias específicas, se utilizó una agrupación diseñada al efecto de oligos de ADN biotinilados. La agrupación fue suministrada por NimbleGen como reactivo personalizado SeqCap; después, se diluyó 10 veces en agua y se dividió en alícuotas de 4,6 jl, que se almacenaron a -20°C hasta la utilización. Se agruparon las bibliotecas de secuenciación en una masa total de 1500 ng; después, se separaron 500 ng para la utilización posterior en el control de calidad. A los 1000 restantes, se añadieron 5 j l de ADN Cotí humano 1 mg/ml (Invitrogen, San Diego, Cal.) y 1 j l de cada uno de los oligos de bloqueo universales xGen-TS-p5 1 mM y oligos de bloqueo universales xGen-TS-p7(8 nt) (IDT). Para cada muestra de 1000 ng, se descongeló una alícuota de selector de 4,6 j l y se precalentó a 47°C. Se llevó a cabo la hibridación y el lavado utilizando un kit de hibridación y lavado Nimblegen SeqCap EZ (NimbleGen, Madison, Wisc.), siguiendo las instrucciones del fabricante. Después de los lavados, las perlas se suspendieron en 96 j l de agua y se dividieron en 4 reacciones de PCR de 50 j l utilizando la polimerasa KAPA HiFi y cebadores universales de Illumina (concentración final: 2 jM ). Se llevaron a cabo 15 ciclos de PCR; se agruparon las 4 reacciones y se aisló el ADN utilizando un kit de purificación de PCR Qiaquick.
Evaluación de la calidad de las bibliotecas y enriquecimiento tras la hibridación. Las bibliotecas de secuenciación se cuantificaron utilizando el kit de alta sensibilidad de ADNdc Qubit. A continuación, se determinó la distribución de tamaños y la molaridad de las bibliotecas utilizando el kit de ADN de alta sensibilidad Agilent Bioanalyzer. Para evaluar el enriquecimiento, se llevó a cabo una qPCR por triplicado en una dilución 20x de la muestra final y una dilución 20x de las bibliotecas agrupadas precaptura utilizando 7 amplicones: las secuencias de control interno Nimblegen NSC1-4, ALK1 intrón 19, KRAs exón 2, control negativo EIF2C1. Con el fin de evaluar el enriquecimiento de cada pareja de cebadores, se calculó delta CT=(Ct precaptura) - (Ct postcaptura); después, se utilizaron los valores de eficiencia siguientes para calcular el factor de enriquecimiento no ajustado: NSC1, 1.84; NSC2, 1.8; NSC3, 1.78; NSC4, 1.93; ALK, 1.7; KRAS, 1.7. Las lecturas de Qubit de antes y después de la captura se utilizaron para ajustar los valores de enriquecimiento para considerar la masa de ADN utilizada en la qPCR. Generalmente, los valores de enriquecimiento para NSC1-4 eran superiores a 70 y los valores de enriquecimiento para KRAS y ALK eran superiores a 800. En el caso de que se observase un enriquecimiento reducido (inferior a ~50 para NSC1-4), se capturó la muestra precaptura y se llevó a cabo nuevamente la PCR.
Ejemplo 6. Preparación de adaptadores.
Para preparar los adaptadores-índice, se utilizaron adaptadores estándares de códigos de barras de 8 bases de Illumina, sustituyendo los índices de 8 bases por 4 bases aleatorias seguidas de un código de barras de multiplexación de 4 bases. Se diseñaron 24 secuencias de adaptador diferentes, de manera que todas las parejas de códigos de barras de multiplexación presentaban distancias de edición de por lo menos 2.
Se diseñaron adaptadores en tándem con adaptadores índice como punto de partida. Se utilizaron 12 adaptadores índice con distancias de edición por pares de por lo menos 3. A cada adaptador se añadieron 2 bases al extremo interno de cada oligonucleótido adaptador, seguido de una GT en el extremo 3' de un oligonucleótido y una C en el extremo 5' de la otra. Para la GT, se requería la T para la ligación y se seleccionó la G para permitir un par de bases de pinza GC consistente en el extremo del adaptador. Para cada uno de los 12 códigos de barras de multiplexación, se adquirieron 16 pares de oligonucleótidos: uno para cada dinucleótido. Antes de utilizar los adaptadores, se hibridaron tal como se indica posteriormente.
Se diseñaron adaptadores en tándem decalados con adaptadores en tándem como un punto de partida-6 de los adaptadores en tándem presentaba 2 bases añadidas inmediatamente distales a GT en el extremo interno del adaptador. La secuencia de dichas 2 bases estaba determinada por las otras bases de código de barras interno, manteniendo solo 16 posibles códigos de barras de 4 bases. Para 8 de dichos códigos de barras, el GT en el extremo del adaptador se sustituyó por un CT.
Para hibridar los adaptadores, se agruparon 20 j l de cada uno de 2 oligos adaptadores 100 jM en un volumen de reacción de 50 j l con una concentración final de Tris 10 mM/NaCl 10 mM, pH 7. Los adaptadores se hibridaron utilizando un termociclador Eppendorf VapoProtect (Eppendorf, Hamburg, Alemania) siguiendo las instrucciones del fabricante. Tras la hibridación, los adaptadores se diluyeron a 15 jM utilizando Tris 10 mM/NaCl 10 mM, pH 7,5. Para los adaptadores índice, se ligó el oligo adaptador universal de Illumina con cada uno de 24 oligos adaptadores índice. Para cada uno de los 12 adaptadores en tándem, se llevaron a cabo 16 reacciones de hibridación: una para cada código de barras dinucleótido en el extremo del adaptador. Dichas 16 reacciones de hibridación se combinaron a concentraciones iguales después de la hibridación, antes de diluirlas a 15 jM .
Ejemplo 7. Procesamiento de códigos de barras moleculares.
Las secuencias de lectura se procesaron para extraer secuencias de código de barras índice y/o insertadas de 4 pb. Estas últimas se dividieron originalmente en cada extremo de una pareja de lecturas dada (fig. 6(a)) y se concatenaron antes del análisis. Para recuperar las secuencias dúplex con códigos de barras insertados, los presentes inventores utilizaron los criterios siguientes, ilustrados a título de ejemplo: suponiendo la observación de códigos de barras insertados AT y CG en las lecturas 1 y 2, respectivamente, y su fragmento de ADN correspondiente F1 se alinea con la cadena positiva del genoma de referencia. Si los códigos de barras AT y CG se observan entonces, en las lecturas 2 y 1, respectivamente, de otro fragmento F2 alineado con la cadena negativa, y si los dos fragmentos comparten coordenadas genómicas, entonces Fi y F2 probablemente representarán cadenas recíprocas de una molécula dúplex. De acuerdo con lo anterior, se analizaron todos los códigos de barras insertados. En caso contrario, ambos tipos de códigos de barras se trataron de una manera idéntica. Antes de la desduplicación de códigos de barras, todas las lecturas se localizaron en el genoma de referencia y todas las variantes de una sola base (es decir, bases diferentes respecto a la referencia) se sometieron a filtrado de calidad Phred utilizando un umbral de Q de 30, que elimina 99,9 % de los errores surgidos de artefactos de secuenciación. Tras el filtrado de calidad de las bases, cada familia de códigos de barras con >2 miembros se analizó por separado para identificar y eliminar errores adicionales de la manera siguiente:
1) para cada posición genómica i en una familia dada de códigos de barras, se realiza el recuento del número de variantes no de referencia distintas v, considerando solo las variantes que pasan el filtrado de calidad de las bases. En el caso de que haya >1 variante no de referencia distinta con Q>30 en una posición dada i, fijar Vi como la variante de alta calidad más abundante, o en el caso de un empate, seleccionar arbitrariamente una de las variantes.
2) Para cada posición que incluya una variante candidata de la etapa 1 (es decir, Vi >0), ajustar el número de miembros de la familia de códigos de barras ni mediante la resta del número de variantes no de referencia qi que no pasan el filtro de calidad Phred. Por lo tanto, nr = ni- q.
3) Eliminar todas las variantes no de referencia de la etapa 2, en la que v < (f* nn), donde f =1 por defecto. 4) Consolidar todos los miembros de la familia de códigos de barras en una única secuencia, solo manteniendo las variantes que han pasado la etapa 3 con >2 miembros.
Como etapa final de supresión de errores, todas las variantes no de referencia en familias de códigos de barras de un miembro (es decir, familias con una sola secuencia) fueron eliminadas, a menos que presentasen pruebas de la presencia de por lo menos otra molécula de ADN con >2 miembros de la familia que soportasen esa variante. Los presentes inventores denominaron a esta estrategia de desduplicación "2X familias de uno" (fig. 9(f)).
Ejemplo 8. Análisis estadístico.
Los presentes inventores modelizaron la probabilidad de detectar ADNlc de la manera siguiente: Sea n=número de equivalentes genómicos secuenciados, d=límite de detección (fracción de moléculas de ADNlc) y k=número de informadores tumorales. La probabilidad de observar un único informador tumoral en el ADNlc es Poisson con media A = n * d, donde A denota el número esperado de copias de alelos mutantes. Por lo tanto, dado 1 informador, la probabilidad x de detectar >1 molécula de ADNlc es igual a 1 - Poisson(A), que se simplifica como: (1) x= 1 - e-nd
La generalización a k informadores tumorales independientes (fig. 16), la función de distribución acumulativa de una distribución geométrica puede utilizarse para modelizar la probabilidad de observar un éxito (es decir, la detección de >1 molécula de ADNlc). De esta manera, la probabilidad p de detectar >1 molécula de ADNtc dados k informadores es 1 -(1 - x)k. Enchufando en: 12
(1) para x proporciona
(2)
p - 1 - e -ndk
Esta ecuación puede utilizarse para resolver para cualquier parámetro si los otros tres han sido especificados. Por ejemplo, dado 1 informador (k), 2,000 GEs (n) y confianza al 90 % (p), el límite de detección d es igual 0,12 % (es decir, d = ln(1 - p)/(-nk)). Finalmente, el número de informadores tumorales necesario para observar un informador en ADNlc es igual a 1/x (media de una distribución geométrica) y el número de informadores esperados en el plasma es igual a k * x.
Ejemplo 9. Pulido de fondo.
Con el fin de modelizar explícitamente las distribuciones de fondo específicas de posición en ADNlc, los presentes inventores utilizaron un nuevo enfoque en que utilizaban alternativamente dos modelos estadísticos según el contenido de información disponible. En primer lugar, los presentes inventores compilaron una cohorte de entrenamiento de 12 muestras de ADNlc de control normales con un fondo elevado (fig. 9(c)). A continuación, iteramos todos los posibles SNV en el selector clínico de CPNM (~1,2 M, excluyendo los SNP de la línea germinal), y para cada uno, los presentes inventores llenaron un vector unidimensional v específico de posición y de sustitución de base con todas las fracciones alélicas (FA) observadas en el juego de 12 controles de ADNlc normales. Con el fin de mitigar el impacto de los valores fuera de distribución, los presentes inventores eliminaron la FA máxima de v, dejando 11 elementos remanentes. En el caso de que el número total de FA no nulas fuese inferior a 4, los presentes inventores utilizando una distribución de Gauss para modelizar el vector entero, y calcularon la media p y la desviación estándar a utilizando la totalidad de las 11 FA. Por el contrario, los presentes inventores ajustaron una distribución de Weibull al juego de FA no nulas en v utilizando fitdist del paquete fitdistrplus en R, y la forma y parámetros de escala resultantes se guardaron en el disco. Debido a que v con frecuencia está inflado en ceros, los presentes inventores también guardaron la fracción de FA no nulas en v con el fin de incorporar la frecuencia de observaciones de valor cero en el modelo final. Los presentes inventores seleccionaron la distribución de Weibull debido a su superior rendimiento observado en el ajuste de los errores de fondo no nulos específicos de posición en comparación con otras distribuciones de probabilidad (fig.
14). Con el fin de determinar si aprender los patrones de fondo en datos no desduplicados o desduplicados con códigos de barras, los presentes inventores compararon las tasas de recurrencia para los errores específicos de posición. Los presentes inventores observaron una elevada concordancia entre ellos, sugiriendo que el fondo estereotípico no resulta suprimido fiablemente por la desduplicación con código de barras (p. ej., 2X familias de uno en la fig. 9(f)). Por lo tanto, los presentes inventores utilizaron datos no desduplicados para modelizar las distribuciones basales, rindiendo una O de base de datos de fondo.
Con el fin de eliminar (es decir, "pulir") los errores estereotípicos en una muestra de ADNlc independiente s, los presentes inventores evaluaron la abundancia fraccionaria f de cada SNV candidato en s mediante la utilización de su modelo de fondo correspondiente en O. En el caso de que el modelo fuese gaussiano, los presentes inventores evaluaron l con una prueba z unilateral, rindiendo un valor de p. En otro caso, se utilizaron los parámetros de forma y escala de la distribución de Weibull para calcular la probabilidad acumulativa p de que una FA dada generada por el modelo fuese inferior a f (utilizando la función pweibull en R). Para considerar los datos de entrenamiento inflados con ceros, los presentes inventores a continuación ajustaron p utilizando la fracción 5 de las FA no nulas del grupo de entrenamiento. Específicamente, los presentes inventores utilizaron la fórmula siguiente: valor de p = 1 - ((1 - 5) (5 x p*)), que es análoga en estructura al modelo de Poisson inflado de ceros de componentes. Los valores de p de los SNV candidatos, calculados mediante la prueba z o la distribución de Weibull inflada de ceros, seguidamente se ajustaron para el ensayo de múltiples hipótesis utilizando la corrección de Bonferroni restrictiva (donde n=todas las sustituciones de bases en la base de datos de fondo). Entre los SNV candidatos que ocurrían en por lo menos 2 controles normales y en por lo menos 20 % de los controles normales en la cohorte de entrenamiento, los presentes inventores eliminaron un candidato dado si y solo si (i) era estadísticamente indistinguible del fondo (P ajustado > 0,05), (ii) no se encontraba presente con soporte dúplex y (iii) f era inferior a 5 % o el número de moléculas de soporte era <10.
Ejemplo 10. Estimación del límite mínimo de detección (LMD) con un diseño de selector mejorado.
En el presente ejemplo, se estimó un límite mínimo de detección (LMD) del método de la invención. En primer lugar, se diseñó un selector mejorado. Los presentes inventores obtuvieron archivos de formato de anotación de mutación (FAM) de estudios de secuenciación de exomas del TCGA de 178 tumores de carcinoma de células escamosas (CCE) pulmonar (v2.3) y 606 tumores de adenocarcinoma pulmonar (ADP) (v2.4). Los archivos de FAM se prefiltraron utilizando rastros característicos con el buscador genómico UCSC Genome Browser para eliminar variantes en: (i) regiones genómicas ricas en repeticiones y (ii) intervalos con bajas tasas de detección. Para priorizar la inclusión de regiones genómicas, los presentes inventores utilizaron un enfoque heurístico que utiliza un "índice de recurrencia" (IR) tal como se define en la presente memoria. Se ha utilizado anteriormente una estrategia similar, con exones como la unidad genómica primaria y sin considerar los indels. Debido a que solo un subgrupo de un exón puede contener mutaciones somáticas conocidas, los presentes inventores restringieron las regiones diana a las subsecuencias que contenían lesiones conocidas flanqueadas por una secuencia tampón definida por el usuario (por defecto, 1 pb), con un tamaño de tesela mínimo de 100 pb. A continuación, las regiones se clasificaron en un ranking según IR decreciente, y aquellas en el 10 por ciento superior tanto de IR como de número de pacientes por exón, fueron incluidos, maximizando la cobertura adicional de los pacientes con un espacio mínimo. A continuación, se repitió dicho procedimiento, aunque se relajaron los filtros de percentil (p. ej., para permitir las regiones 1/3 superiores) y se añadieron las regiones que incrementaban al máximo la mediana de mutaciones por paciente. El crecimiento del selector se terminó al alcanzar el tamaño deseado (p. ej., 175 kb para el selector de ADNlc del CPNM) o en el caso de que se agotasen todas las regiones genómicas que satisficiesen los filtros. También se incluyeron en el selector de ADNlc las fusiones y regiones semilla. Los presente inventores diseñaron, además, un selector clínico de mayor tamaño que contenía todo el selector de ADNlc con la adición de variaciones de número de copia y regiones de clasificación histológica. Se seleccionaron automáticamente sondas para ambas bibliotecas en el portal NimbleDesign (Roche NimbleGen, Madison, Wisc.) utilizando la versión del genoma hg19 NCBI Build 37.1/GRCh37 y fijando las correspondencias estrechas preferentes en 1 y las correspondencias estrechas máximas en 2.
Un modelo robusto para predecir los umbrales de detección de ADNlc fijaría las expectativas de rendimiento en ensayos clínicos y facilitaría dianas de diseño mejorado. Por lo tanto, los presentes inventores desarrollaron un modelo independiente del ensayo para estimar la sensibilidad de ADNlc dado el conocimiento de los equivalentes de genoma (EG) tumoral disponibles y de los informadores específicos de tumor (es decir, las variantes somáticas). Los presentes inventores encontraron que los límites de detección de ADNlc se incrementan linealmente con ambas cantidades, de manera que pasar de 1 informador (p. ej., dPCR) a 8 informadores (p. ej., CAPP-Seq) rinde una reducción de factor ocho en el NMD con una cantidad inicial fija de ADN (fig. 15(b)). Dicho resultado se mantiene si los informadores se comportan independientemente, lo que generalmente es cierto para el CPNM (fig. 15(c)) y otros cánceres, y permite que el NMD caiga hasta valores inferiores a los EG tumorales disponibles (fig. 15(b)). Mediante el análisis de muestras del estudio anterior de los presentes inventores, estos encontraron una excelente concordancia entre el número observado y el número predicho de informadores derivados de tumor distintos en plasma (R2=0,98; fig. 15 (d); fig.
16), validando de esta manera el modelo de los presentes inventores. Además, el rendimiento predictivo no resultó significativamente alterado por la heterogeneidad fraccional entre variantes tumorales, consistente con informes de que las mutaciones recurrentes tienden a aparecer pronto en la tumorogénesis del CPNM.
Ejemplo 11. Genotipado de ADNIc procedente de múltiples tipos tumorales con un LMD más bajo.
Mediante la utilización del método descrito en el Ejemplo 1, los presentes inventores evaluaron el rendimiento de genotipado utilizando un diseño de selector con el objetivo de una mejora de dos veces en el NMD y que consideraba mejor pacientes que nunca habían sido fumadores (fig. 15(e)). En el perfilado de 95 tumores procedentes de 87 pacientes de CPNM, incluyendo biopsias con aguja fina y muestras fijadas en formalina, con leucocitos de sangre periférica correspondientes, los presentes inventores confirmaron todas las variantes definidas clínicamente y observaron una fuerte concordancia entre regiones mutadas recurrentemente en la cohorte de los presentes inventores y los datos de entrenamiento (fig. 15(f)), incluyendo la mediana de mutaciones por paciente (fig. 15e). A continuación, se aplicó el método del Ejemplo 1 muestras de otros carcinomas, demostrando un único selector para diversas neoplasias malignas humanas (p. ej., fig. 8b-e).
Ejemplo 12. Comparación de la supresión de errores mediante la utilización de adaptadores con IDU internos y externos.
Para fijar una referencia de supresión de errores de los códigos de barras moleculares, los inventores perfilaron muestras de ADNlc procedentes de 12 adultos sanos. Para cada sujeto, los presentes inventores utilizaron cantidades iniciales uniformes de ADN (mediana de 32 ng) hasta una mediana de profundidad de aproximadamente 6.000x (previamente a la eliminación de duplicados). Dados los rendimientos típicamente bajos de ADNlc en las muestras clínicas de plasma, los presentes inventores evaluaron el rendimiento de los códigos de barras utilizando todas las moléculas recuperadas (es decir, con independencia de IDU, número de copia o carácter de doble cadena o cadena sencilla). En comparación con los datos "no desduplicados", los códigos de barras moleculares internos/insertados redujeron el fondo en todo el selector en 60 % (de ~0,025 % a ~0,01 %) y mejoraron la fracción de posiciones genómicas libres de errores en 50 % (de ~60 % a ~90 %; fig. 9(b); figs. 6(b), fig. 17). Debido a que este enfoque generalmente presentó un rendimiento mejor que los IDU índice externos, los presentes inventores utilizaron IDU de insertos como estrategia principal de supresión de errores de ADNlc o de desduplicación con códigos de barras (fig.
6(b, c)).
Los datos en el presente ejemplo demuestran que, en donantes de sangre sanos, las posiciones propensas a errores eran inesperadamente estereotípicas en sus localizaciones genómicas y espectro de sustitución de bases (fig. 9(b) y fig. 10). incluso después de la supresión de errores mediante códigos de barras-desduplicación, la mayoría de los errores remanentes consistía en dichos alelos de baja frecuencia (<0,1 %) estereotípicos, con una mayoría debida a transversiones G>T y, en menor medida, transiciones C>T o G>A (fig. 9(b)). Sin restringirse a una teoría particular, los inventores han planteado la hipótesis de que puede estar produciéndose daño oxidativo de los ácidos nucleicos durante la preparación de las bibliotecas, conduciendo a la formación de 8-oxoguanina y desaminación de las citosinas. Curiosamente, en el caso de que se localizasen en la cadena contraria (positiva) del genoma humano de referencia, los cambios G>T estaban altamente sesgados en comparación con los sucesos recíprocos, C>A (fig. 9(b)) y este desequilibrio no era atribuible al sesgo de selección de cadenas en la secuenciación (fig. 11(b)). Por lo tanto, los inventores examinaron la etapa de enriquecimiento e identificaron un incremento escalonado de la proporción de errores G>T a errores C>A que se incrementaba reproduciblemente en 2,5 veces entre la duración de 0,1 días y la duración de 3 días de la captura dirigida de secuencias (fig. 11(c)). Se observó una tendencia similar para errores observados exclusivamente en ambas cadenas de ADN (datos solo dúplex, fig. 11(d)). Por lo tanto, los presentes inventores sospechan que la sobrerrepresentación de transversiones G>T está controlada en gran medida por especies de oxígeno reactivo acopladas con un reactivo de captura con diana exclusivamente en la cadena positiva (fig. 1 1 (e)).
La eliminación enzimática de las bases de ADN dañadas también se sometió a ensayo utilizando los productos siguientes: (i) uracil ADN-glucosilasa (UDG; número del catálogo NEB M0372S), que deja un sitio abásico en lugar del uracilo (un producto de oxidación de la citosina), evitando que continúe la p Cr más allá del sitio de oxidación, eliminando los errores C>T debidos a la oxidación de la citosina; (ii) 8-oxoguanina ADN glucosilato (FPG; número de catálogo NEB M0240S), que elimina las purinas dañas y corta en el sitio de las bases dañadas, eliminado los errores G>T debidos a la oxidación de la guanina, y (iii) mezcla de reparación preCR (número de catálogo NEB M0309S), que está diseñada para eliminar una diversidad de bases dañadas, incluyendo las guaninas y citosinas oxidadas. Antes de la preparación de las bibliotecas, las muestras de ADNlc procedentes de controles sanos se trataron con UDG (1 unidad), FPG (8 unidades), UDG y FPG juntos, mezcla de reparación PreCR (1 pl) o la mezcla de reparación PreCR complementado con BSA 1 mg/ml. Las muestras se trataron durante 30 minutos a 37°C; después UDG y FPG fueron inactivados mediante calentamiento a 60°C durante 10 minutos. Las muestras se limpiaron utilizando perlas Ampure y se eluyeron en 50 pl de agua para la preparación de bibliotecas. (Fig. 11 (a)).
Ejemplo 13. Supresión de errores de secuenciación específicos de posición (iDES).
Los presentes inventores llevaron a cabo la aplicación en serie de códigos de barras moleculares y el pulido in silico, "supresión de errores digitales integrada" (iDES). Utilizando un grupo de muestras de ADNlc de donante sano para aprender las distribuciones basales (fig. 9c), los presentes inventores llevaron a cabo el "pulido in silico" de datos desduplicados con códigos de barras, eliminando variantes con fracciones alélicas bajo umbrales específicos de posición (fig. 9b) tal como se indica en el Ejemplo. En consecuencia, las tasas de error en todo el selector cayeron a 1,5*10'5, y las posiciones libres de error se incrementaron a ~98 %. Inesperadamente, los inventores observaron que la aplicación de pulido de fondo a muestras de ADNlc no desduplicadas proporcionó tasas de error similares a la desduplicación con códigos de barra por sí sola (fig. 9c). Además, los dos enfoques tuvieron efectos sinérgicos al combinarlos (fig. 9c).
El presente ejemplo investiga adicionalmente el paisaje de errores de fondo estereotípicos y compara el rendimiento de las técnicas de supresión de errores. La fig. 10 (parte superior) muestra un mapa térmico que ilustra los patrones de errores de fondo en todo un selector en 173 muestras de ADNlc, incluyendo 30 controles normales, 12 de los cuales se utilizaron como cohorte de entrenamiento para conocer los errores de fondo estereotípicos, y se recogieron 143 muestras de ADNl de pacientes de CPNM. Se muestra el impacto de los códigos de barras, el pulido y la combinación de los mismos. La fig. 10 (parte inferior) muestra las distribuciones de sustitución de bases y las tasas de error en todo un selector, correspondientes a muestras en el mapa térmico, anteriormente.
Mediante la utilización de iDES, los presentes inventores caracterizaron los límites de detección específicos de alelo a lo largo de grandes regiones del genoma humano que están mutadas recurrentemente en genomas de cáncer. De las 12 clases de sustitución de nucleótidos, la mayoría no resultó afectada en gran medida por el fondo (fig. 9d) y prácticamente 80 % de todos los SNV posibles estaban libres de errores (fig. 9e). Entre los errores residuales, la detección de G>T fue la más notable, aunque mantuvo una mediana de NMD razonablemente baja, de ~0,3 % en todo el selector (fig. 9(d)). Además, los cambios G>T, que comprenden la mayoría de alelos con límites de detección >0, comprendían solo 5 % de puntos calientes mutacionales anotados mediante solapamiento del Catálogo de mutaciones somáticas en el cáncer (COSMIC) con el selector de CPNM de los presentes inventores, sugiriendo un impacto mínimo sobre el rendimiento del genotipado (fig. 9(e)).
Ejemplo 14. Comparación de iDES con estrategias de códigos de barras de supresión de errores de la técnica anterior.
A continuación, los presentes inventores compararon iDES con varias estrategias de códigos de barras de supresión de errores. Ver la fig. 9f y la fig. 10. Al contrario que iDES, que maximiza los equivalentes genómicos (EG) utilizables y equilibra la distribución de las sustituciones de bases, la desduplicación con códigos de barras por sí sola requirió >5 miembros de familia por cada IDU para conseguir un perfil de errores comparable. Lo anterior resultó en una pérdida sustancial de EG, incluso a las profundidades de secuenciación relativamente elevadas de los presentes inventores, y rindió solo una mejora modesta en la sobrerrepresentación de G>T. Las moléculas dúplex, por el contrario, alcanzaron una tasa de errores excepcionalmente baja, de 2*10'6, en ADNlc de control sano. Las tasas de error (eje x) y las tasas de recuperación de moléculas (eje y; número de lecturas de consenso por cada lectura de secuenciación) para los métodos informados en la presente memoria (es decir, iDES, códigos de barras o pulido únicamente, solo dúplex) eran comparables con las de los métodos de supresión de errores de varios otros estudios (Lou, D.I. et al. High-throughput DNA sequencing errors are reduced by orders of magnitude using circle sequencing. Proc. Natl. Acad. Sci. USA 110, 19872-19877 (2013), ("Lou"); Kennedy, S.R. et al. Detecting ultralow-frequency mutations by Duplex Sequencing. Nat. Protoc. 9, 2586-2606 (2014), ("Kennedy") y Schmitt, M.W., et al. Detection of ultra-rare mutations by next-generation sequencing. Proc. Natl. Acad. Sci. USA 109, 14508-14513 (2012), ("Schmitt".) Cabe señalar que la tasa de error teórico de la secuenciación de dúplex es aproximadamente equivalente a la tasa de error de la secuenciación con código de barras de cadenas sencillas multiplicada por sí misma y dividida por 3 (para considerar todas las posibles sustituciones de bases). Sin embargo, la pérdida correspondiente de moléculas de cadena sencilla probablemente perjudicaría la sensibilidad de detección de variantes raras de cantidades iniciales limitadas de ácidos nucleicos (fig. 7). Por lo tanto, los presentes inventores concibieron métodos de genotipado que aprovechaban las moléculas dúplex en caso de estar disponibles, pero que alternativamente se basaban en moléculas de cadena sencilla de fondo pulido para incrementar el número de equivalentes genómicos utilizable y maximizar la sensibilidad.
Ejemplo 15. Evaluación del genotipado con iDES en sujetos sanos.
Con el fin de evaluar el genotipado libre de biopsia con iDES, los presentes inventores en primer lugar evaluaron su rendimiento en ~300 alteraciones somáticas (SNV e indels) que son altamente recurrentes y clínicamente relevantes en el cáncer dentro de una "lista blanca" predefinida. (ver el Ejemplo 20).
La figura 12 ilustra el genotipado de tumores sin biopsia y el seguimiento ultrasensible de CPNM con iDES. Se interrogaron cuatro réplicas de 5 % HD500 para la presencia de 29 variantes HD500 conocidas junto con prácticamente 300 mutaciones adicionales de punto caliente y/o clínicamente relevantes con el fin de evaluar la especificidad. La fig.
12(a) (izquierda) muestra el impacto diferencial de código de barras, pulido e iDES sobre los resultados de genotipado para una única réplica representativa. Solo se muestran variantes identificadas con por lo menos 2 lecturas de soporte. La fig. 12(a) (centro) muestra las métricas de rendimiento para la totalidad de cuatro réplicas. La fig. 12(a) (derecha) muestra una comparación de los métodos de supresión de errores para el número medio de variantes detectadas por cada muestra en 30 ADNlc de control normal y 25 muestras de ADNlc de CPNM pretratamiento. Todas las variantes analizadas en el panel de la izquierda se evaluaron excluyendo aquellas específicas de HD500. Se llevaron a cabo comparaciones entre grupos utilizando una prueba de suma de rangos de Wilcoxon de dos colas. (NS - no significativo) Los datos se expresan como medias con intervalos de confianza al 95 %. La fig. 12(b) muestra fracciones alélicas (FA) de HD500 para 13 variantes en cuatro réplicas en una comparación entre CAPP-Seq (observado) y fracciones validadas (esperadas), según calibración mediante PCR digital de gotas (ddPCR, por sus siglas en inglés). Los datos se expresan como medias ± error estándar de la media (e.e.m.) La fig. 12(c) muestra que se detectaron SNV en una muestra de 5 % HD500 utilizando el genotipado en todo un selector y se siguieron en las réplicas y una adición de H500 diez veces más baja. Los resultados se muestran como un mapa térmico, en donde las fracciones alélicas correspondientes se muestran en la parte inferior. Las líneas horizontales denotan las fracciones alélicas medias (FAM). La fig. 12(d) muestra las variantes de lista blanca identificadas en muestras de ADNlc en serie procedentes de pacientes de CPNM de estadio I-IV utilizando el genotipado sin biopsia con iDES. Las muestras se clasificaron en un rango de izquierda a derecha según FAM decreciente, y únicamente se muestran aquellas con >1 identificación de variante y con una biopsia tumoral emparejada. Las barras de error denotan el rango. La fig. 12(e) muestra el análisis de característica operativa del receptor (COR) de variantes en d, junto con identificaciones de EGFR adicionales con estado clínico conocido. AUC, área bajo la curva. La fig. 12(f) muestra las tasas de recuperación de mutaciones de EGFR utilizables del plasma pretratamiento de tumores de CPNM avanzado utilizando el genotipado tumoral sin biopsia con iDES. La fig. l2(g) muestra la comparación de los métodos de postprocesamiento para la detección de ADNtc en plasma pretratamiento procedente de 33 pacientes de CPNM. Se evaluaron informadores tumorales derivados de pacientes (columnas; n=33 juegos) en cada muestra de plasma (filas; n=63), incluyendo 30 controles normales, con el fin de evaluar la especificidad. Se analizaron las mismas muestras para cada método postprocesamiento (p. ej., iDES) y se han ordenado de manera idéntica en el mapa térmico. Cuadrados rojos, positivos verdaderos; cuadrados azules, falsos positivos; cuadrados blancos, no detectados. Fig. 12. (h) muestra la monitorización de la carga tumoral en un paciente con CPNM de estadio IIa que se sometió a terapia con diana en EGFR. Pre, pretratamiento; Carbo, carboplatino; Pem, pemetrexed; Cetux, cetuximab; DOD, muerto de enfermedad. "Monitorización" denota la utilización de todos los informadores tumorales para calcular un índice de detección de ADNlc. El asterisco, "*", denota un punto temporal en el que EGFR T790M y del19 eran indetectables. Sin embargo, el ADNlc era significativamente detectable utilizando un marco de monitorización. La fig. 12(i) muestra el análisis exploratorio de adiciones para evaluar el límite de detección de la secuenciación de dúplex. FAM, fracción de alelos mutantes. Sn, sensibilidad; Sp, especificidad; VPP, valor predictivo positivo; VPN, valor predictivo negativo. Las marcas de verificación en los ejes x de 'a' y 'd' denotan muestras de ADNlc individuales.
Al aplicar el selector al ADNlc de 30 sujetos sanos, iDES rindió únicamente 8 identificaciones, 5 de las cuales presentaban soporte de dúplex, lo que sugiere que surgen in vivo alelos variante auténticos. En contraste, los datos de códigos de barra y no desduplicados rindieron 10 y 50 veces más identificaciones en los mismos sujetos sanos, respectivamente, lo que indica elevadas tasas de falsos positivos (fig. 12a, izquierda). Para fijar una referencia del rendimiento, los presentes inventores simularon el ADNlc utilizando cantidades iniciales definidas de un ADN mutante estándar de referencia comercial (HD500 Horizon Discovery, Cambridge, Reino Unido) añadido a ADNlc de control. Todas las variantes de HD500 validadas fueron evaluadas además de la lista blanca de los presentes inventores. En comparación con la desduplicación con códigos de barras por sí sola, iDES mostró una sensibilidad comparable (96 %), aunque alcanzó una especificidad más alta (99,9 %), un valor predictivo positivo (VPP=99,1 %) y un valor predictivo negativo (VPN=99,5 %) en la detección de variantes bajando hasta 1-3 moléculas mutantes (en este caso, el NMD para una variante única era ~0,04 % dados los EG secuenciados; fig. 12a, derecha). Además, la abundancia fraccional de alelos de HD500 era consistente en las réplicas y concordaba con las concentraciones iniciales añadidas (fig.
12b). Estos datos sugieren que iDES es un marco robusto para el genotipado sin biopsia del ADNlc. Al contrario que la dPCR, iDES puede interrogar numerosas variantes simultáneamente sin pérdida de sensibilidad.
Para expandir el alcance de la detección de variantes más allá de una lista blanca predefinida, los presentes inventores sometieron a ensayo el rendimiento del genotipado completo en todo el selector utilizando iDES. Mediante la utilización de un nuevo método de detección de SNV, los presentes inventores identificaron 324 SNV en una muestra de ADNlc que contenía 5 % de ADN mutante de HD500, recuperando 21 (de 27) alelos verificados. A partir del análisis de los presentes inventores, se calculó una tasa de falsos positivos de 0,6 % (fig. 12), que indica la utilidad para las aplicaciones de monitorización sin biopsia.
Ejemplo 16. Genotipado de tumores con iDES en pacientes con CPNM.
A continuación, los presentes inventores examinaron el potencial clínico de iDES para el genotipado sin biopsia de los pacientes de CPNM a partir de plasma sanguíneo. Se encontró que prácticamente el 72 % de las 71 muestras de plasma en serie alojaban variantes de la lista blanca (fig. 12d), incluyendo 50 % de las muestras de estadio temprano y 92 % de las muestras pretratamiento de estadio avanzado. Prácticamente dos tercios de las variantes detectadas se confirmó que eran somáticas en la biopsia tumoral correspondiente. La mayoría de las variantes restantes eran consistentes con mutaciones asociadas a tumor que eran subclonales, ya que se encontraron independientemente dos tercios en puntos temporales en serie o presentaban soporte de dúplex. En efecto, dichas variantes eran más prevalentes en pacientes con un estadio más avanzado del CPNM, y eran significativamente más prevalentes en pacientes de CPNM que nunca habían fumado, que en adultos sanos (fig. 18).
Ejemplo 17. Detección de mutaciones de EGFR en plasma de pacientes con CPNM mediante la utilización de iDES.
A continuación, los presentes inventores se centraron en mutaciones de EGFR, dada su importancia para las terapias dirigidas actuales y emergentes. En el perfilado de los pacientes de CPNM con tumores de estadio IB-IV, los presentes inventores confirmaron el 100 % de las 145 variantes detectadas en muestras de plasma (fig. 12e). En ADNlc pretratamiento procedente de pacientes de estadio avanzado, las tasas de detección para variantes de EGFR utilizables eran altas, con una media de especificidad de 100 % y una sensibilidad de 95 % para las mutaciones activadoras, y una sensibilidad de 83 % para mutaciones de resistencia T790M subclonales (fig. 12f). Debido a que iDES presentó un mejor rendimiento que otros métodos, estos datos son prometedores, ya que muestran que podría identificar mutaciones clínicamente relevantes en el ADNlc sin conocimiento previo de los genotipos tumorales.
Ejemplo 18. Detección de genotipos tumorales conocidos en plasma de pacientes con CPNM mediante la utilización de iDES.
A continuación, los presentes inventores se preguntaron si iDES podría proporcionar mejoras similares en la monitorización del ADNtc sin conocimiento previo de los genotipos tumorales. Mediante el ajuste empírico del rendimiento de un índice de detección de ADNtc anteriormente indicado, eran detectables 94 % de los casos en muestras de plasma pretratamiento, incluyendo el 100 % de los tumores de estadio IB, proporcionando una especificidad de 100 % al considerar los controles adultos sanos (fig. 12g). En comparación con iDES, la secuenciación de dúplex por sí sola proporcionó una especificidad comparable, aunque adoleció de una sensibilidad inferior y una recuperación significativamente inferior de variantes individuales. A la inversa, otros enfoques consiguieron una sensibilidad comparable, aunque una especificidad menor (fig. 12(g)). Se observó un rendimiento similar para las muestras postratamiento.
Separadamente, en un paciente con CPNM de estadio IIA que se había sometido a terapia dirigida a EGFR inicialmente para del19 y posteriormente para T790M (fig. 12h), el genotipado directo del plasma reveló una dinámica subclonal consistente con el mecanismo de resistencia dominante tras la administración de erlotinib. Tras la respuesta clínica a la quimioterapia, ninguna mutación era detectable individualmente. Sin embargo, mediante la integración de múltiples informadores en un contexto de monitorización, iDES, pero no la secuenciación de dúplex, detectó la enfermedad residual molecular emergente en este punto temporal, anunciando la progresión clínica en este paciente, que finalmente sucumbió al CPNM (fig. 12h). En otro paciente con CPNM de estadio IIIB, iDES detectó 0,004 % de ADNlc precediendo a la progresión clínica, una mejora de cinco veces en el NMD observado de la implementación anterior de los presentes inventores. Estos datos subrayan la potencial utilidad de iDES para identificar moléculas de ADNlc raras, con aplicaciones para la monitorización de enfermedad residual mínima y la detección no invasiva de mutaciones de resistencia.
Ejemplo 19. Detección de la carga de mutaciones tumorales en plasma mediante la utilización de la secuenciación de dúplex.
Dada la tasa de error más alta de la secuenciación de dúplex, los presentes inventores intentaron determinar su NMD para la cuantificación de la carga tumoral circulante. Para superar la pérdida de moléculas de cadena sencilla, (fig. 9f), los presentes inventores diseñaron un selector "personalizado" para cubrir >1.500 mutaciones no sinónimas identificadas mediante secuenciación del exoma de un glioblastoma humano recurrente. A continuación, los presentes inventores realizaron adiciones en cantidades definidas de ADN genómico tumoral a ADNlc de control basándose en las consideraciones de número de informadores y masa añadida. Obtuvieron un patrón de referencia de ADN que contenía variantes de frecuencias conocidas (HD500, Horizon Discovery) y lo añadieron a ADNlc de donantes sanos a concentraciones de 5 % y 0,5 %. Se prepararon y secuenciaron cuatro bibliotecas CAPP-Seq a cada concentración de adición. Se analizaron mediante ddPCR las variantes codificantes de EGFR L858R, KRAS G13D y BRAF V600E para calibrar las concentraciones de adición esperadas. Para la figura 12(a), los presentes inventores interrogaron todas las variantes de HD500 que (i) tenían como diana el selector clínico de CPNM de los presentes inventores, y (ii) estaban presentes en la lista de mutaciones verificadas proporcionada por Horizon Diagnostics (es decir, la "lista de mutaciones completa multiplex"). Para la figura 12(b), los presentes inventores analizaron el subgrupo de variantes de HD500 que tanto habían sido validadas internamente por Horizon Diagnostics como habían sido diana del selector clínico de CPNM de los presentes inventores. A pesar de recuperar <1.000 EG con soporte de dúplex, el método detectó con precisión cantidades añadidas definidas de 0,025 % a 0,00025 % con elevada linealidad (fig. 12i), validando adicionalmente el modelo analítico de los presentes inventores y demostrando un límite de detección de 2,5 moléculas en un fondo de 1.000.000 moléculas, prácticamente 100x inferior al NMD de la dPCR de alelos individuales.
Ejemplo 20. Genotipado de "lista blanca".
En el presente ejemplo, la secuencia de comandos realiza recuperación de mutaciones (SNV e indels) del ADNlc y muestras tumorales sin necesidad de muestras de línea germinal emparejadas mediante la utilización de una "lista blanca" de variantes definidas por el usuario para reducir el espacio hipotético e incrementar la sensibilidad. Una "lista blanca" es evidencia de apoyo que utiliza el orden de precedencia siguiente: soporte de dúplex (1X) >> soporte de cadena (2X) >> sin soporte de cadena (3X). La FA mínima f requerida para identificar SNV se fijó utilizando la fórmula siguiente:
f = ln(1-p)/-n, donde p = probabilidad de detección (por defecto es 0,95) y n = los EG totales en una posición genómica dada.
Ejemplo 21. Rendimiento del método a diversas concentraciones de ADNlc.
Para los análisis en la presente memoria, los presentes inventores requirieron una profundidad específica de posición mínima de 20 EG para tumores y de 1.000 EG para ADNlc. Con el fin de incorporar muestras de línea germinal emparejadas, los presentes inventores eliminaron las variantes candidatas identificadas en caso de estar presentes en la línea germinal emparejada con FA >1 %, >4 lecturas de soporte y en una posición con >10 EG en total.
A continuación, se evaluó el rendimiento técnico del enfoque de los presentes inventores. En primer lugar, se creó una serie de dilución in silico en la que una muestra de ADNlc de control con una mediana de profundidad de 3.861 EG se manipuló para introducir 100 SNV homocigóticos distribuidos uniformemente. A continuación, se añadió cada numerador sintético a la muestra de ADNlc original en proporciones de 5 % y 0,5 %. Para emular la mediana de longitud del ADNlc, manteniendo de esta manera su distribución en los datos de secuenciación, se añadieron aleatoriamente regiones genómicas en segmentos contiguos de 170 pb. Se observó un rendimiento robusto (fig.
9(c)). Separadamente, en comparación con el enfoque utilizado anteriormente por los presentes inventores para el genotipado tumoral, se encontró que el método adaptativo mostraba una sensibilidad y especificidad más elevadas en el genotipado somático de tumores, cuyas variantes identificadas fueron evaluadas dentro de un marco de monitorización del ADNlc (mismo análisis que en la fig. 9(g)).
Aunque la invención se ha descrito en detalle haciendo referencia a ejemplos específicos, resultará evidente para el experto en la materia que pueden llevarse a cabo diversas modificaciones dentro del alcance de la presente invención. De esta manera, el alcance de la invención no debería considerarse limitado a los ejemplos indicados en la presente memoria, sino a las reivindicaciones proporcionadas posteriormente.

Claims (1)

  1. REIVINDICACIONES
    Utilización de una agrupación de adaptadores únicos para el análisis de ácidos nucleicos en una muestra, en la que cada adaptador comprende:
    un segmento de doble cadena en el extremo proximal y dos segmentos de cadena sencilla en el extremo distal, en el que el segmento de doble cadena comprende un código de barras de doble cadena de por lo menos dos pares de bases específico del adaptador, y en el que el segmento de cadena sencilla comprende:
    i) un código de barras de cadena sencilla predefinido de por lo menos dos nucleótidos específicos de la muestra, y
    ii) un código de barras de cadena sencilla aleatorio de por lo menos dos nucleótidos específicos del adaptador en la misma cadena, en el que:
    I) el código de barras de doble cadena comprende 2 a 20 pares de bases,
    II) el código de barras de cadena sencilla predefinido comprende 4 a 20 nucleótidos, o
    III) el código de barras de cadena sencilla aleatorio comprende 4 a 20 nucleótidos, y
    en el que la combinación del código de barras de cadena sencilla aleatorio y el código de barras endógeno proporciona un identificador único para cada ácido nucleico de molde, en el que el código de barras endógeno es una o más secuencias de un fragmento de ADN genómico.
ES15839768T 2014-09-12 2015-09-11 Identificación y uso de ácidos nucleicos circulantes Active ES2925014T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201462049959P 2014-09-12 2014-09-12
PCT/US2015/049838 WO2016040901A1 (en) 2014-09-12 2015-09-11 Identification and use of circulating nucleic acids

Publications (1)

Publication Number Publication Date
ES2925014T3 true ES2925014T3 (es) 2022-10-13

Family

ID=55459644

Family Applications (1)

Application Number Title Priority Date Filing Date
ES15839768T Active ES2925014T3 (es) 2014-09-12 2015-09-11 Identificación y uso de ácidos nucleicos circulantes

Country Status (5)

Country Link
US (2) US11085084B2 (es)
EP (1) EP3191628B1 (es)
CN (1) CN107075730A (es)
ES (1) ES2925014T3 (es)
WO (1) WO2016040901A1 (es)

Families Citing this family (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012129363A2 (en) 2011-03-24 2012-09-27 President And Fellows Of Harvard College Single cell nucleic acid detection and analysis
US9892230B2 (en) 2012-03-08 2018-02-13 The Chinese University Of Hong Kong Size-based analysis of fetal or tumor DNA fraction in plasma
HUE051845T2 (hu) 2012-03-20 2021-03-29 Univ Washington Through Its Center For Commercialization Módszerek a tömegesen párhuzamos DNS-szekvenálás hibaarányának csökkentésére duplex konszenzus szekvenálással
US11913065B2 (en) 2012-09-04 2024-02-27 Guardent Health, Inc. Systems and methods to detect rare mutations and copy number variation
US10876152B2 (en) 2012-09-04 2020-12-29 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
WO2014039556A1 (en) 2012-09-04 2014-03-13 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
US20160040229A1 (en) 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
WO2014093330A1 (en) 2012-12-10 2014-06-19 Clearfork Bioscience, Inc. Methods for targeted genomic analysis
EP3087204B1 (en) 2013-12-28 2018-02-14 Guardant Health, Inc. Methods and systems for detecting genetic variants
EP3805404A1 (en) 2014-05-13 2021-04-14 Board of Regents, The University of Texas System Gene mutations and copy number alterations of egfr, kras and met
US10364467B2 (en) 2015-01-13 2019-07-30 The Chinese University Of Hong Kong Using size and number aberrations in plasma DNA for detecting cancer
US10844428B2 (en) * 2015-04-28 2020-11-24 Illumina, Inc. Error suppression in sequenced DNA fragments using redundant reads with unique molecular indices (UMIS)
US11302416B2 (en) 2015-09-02 2022-04-12 Guardant Health Machine learning for somatic single nucleotide variant detection in cell-free tumor nucleic acid sequencing applications
JP6991134B2 (ja) 2015-10-09 2022-01-12 ガーダント ヘルス, インコーポレイテッド 無細胞dnaを使用する集団ベースの処置レコメンダ
MX2018005858A (es) 2015-11-11 2019-02-20 Resolution Bioscience Inc Construccion de alta eficacia de bibliotecas de adn.
EP3387152B1 (en) 2015-12-08 2022-01-26 Twinstrand Biosciences, Inc. Improved adapters, methods, and compositions for duplex sequencing
EP3390668A4 (en) 2015-12-17 2020-04-01 Guardant Health, Inc. METHODS OF DETERMINING THE NUMBER OF TUMOR GENE COPIES BY ACELLULAR DNA ANALYSIS
ES2924487T3 (es) * 2016-01-29 2022-10-07 Hoffmann La Roche Un adaptador de conformación en Y novedoso para secuenciación de ácidos nucleicos y procedimiento de uso
CN109072309B (zh) 2016-02-02 2023-05-16 夸登特健康公司 癌症进化检测和诊断
US11514289B1 (en) * 2016-03-09 2022-11-29 Freenome Holdings, Inc. Generating machine learning models using genetic data
EP3433373B1 (en) 2016-03-22 2022-01-12 Myriad Women's Health, Inc. Combinatorial dna screening
EP3443066B1 (en) 2016-04-14 2024-10-02 Guardant Health, Inc. Methods for early detection of cancer
US11384382B2 (en) 2016-04-14 2022-07-12 Guardant Health, Inc. Methods of attaching adapters to sample nucleic acids
US20170321270A1 (en) * 2016-05-06 2017-11-09 Counsyl, Inc. Noninvasive prenatal diagnostic methods
CN105950739A (zh) * 2016-05-30 2016-09-21 哈尔滨医科大学 用于人乳腺癌循环肿瘤dna检测的探针及其用途
EP3485033B1 (en) 2016-07-12 2022-09-28 Qiagen Sciences, LLC Single end duplex dna sequencing
US10626443B2 (en) * 2016-08-10 2020-04-21 Grail, Inc. Methods of analyzing nucleic acid fragments
WO2018039463A1 (en) 2016-08-25 2018-03-01 Resolution Bioscience, Inc. Methods for the detection of genomic copy changes in dna samples
AU2017336153B2 (en) 2016-09-30 2023-07-13 Guardant Health, Inc. Methods for multi-resolution analysis of cell-free nucleic acids
DK3541934T5 (en) * 2016-11-17 2024-10-07 Lgc Clinical Diagnostics Inc Methods for preparing dna reference material and controls
KR20190095410A (ko) 2016-12-22 2019-08-14 가던트 헬쓰, 인크. 핵산 분자를 분석하기 위한 방법 및 시스템
WO2018132459A1 (en) 2017-01-10 2018-07-19 Paragon Genomics, Inc. Methods and compositions for reducing redundant molecular barcodes created in primer extension reactions
CN106701956A (zh) * 2017-01-11 2017-05-24 上海思路迪生物医学科技有限公司 ctDNA的数字化深度测序技术
EP3889962A1 (en) 2017-01-18 2021-10-06 Illumina, Inc. Methods and systems for generation and error-correction of unique molecular index sets with heterogeneous molecular lengths
US10752946B2 (en) * 2017-01-31 2020-08-25 Myriad Women's Health, Inc. Methods and compositions for enrichment of target polynucleotides
CN106834275A (zh) * 2017-02-22 2017-06-13 天津诺禾医学检验所有限公司 ctDNA超低频突变检测文库的构建方法、试剂盒及文库检测数据的分析方法
JP2020518648A (ja) 2017-05-08 2020-06-25 グリットストーン オンコロジー インコーポレイテッド アルファウイルス新生抗原ベクター
KR102035615B1 (ko) * 2017-08-07 2019-10-23 연세대학교 산학협력단 유전자 패널에 기초한 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스
CN107475403A (zh) * 2017-09-14 2017-12-15 深圳因合生物科技有限公司 从外周血游离dna中检测循环肿瘤dna的方法、试剂盒及其测序结果的分析方法
US11447818B2 (en) 2017-09-15 2022-09-20 Illumina, Inc. Universal short adapters with variable length non-random unique molecular identifiers
CN108330171A (zh) * 2017-09-27 2018-07-27 天津诺禾医学检验所有限公司 检测egfr基因第19号外显子缺失突变的试剂盒、方法及其应用
CA3079252A1 (en) 2017-11-03 2019-05-09 Guardant Health, Inc. Correcting for deamination-induced sequence errors
JP7098096B2 (ja) * 2017-11-07 2022-07-11 株式会社リコー 検出精度特定方法、検出精度特定装置、及び検出精度特定プログラム
AU2018366213A1 (en) 2017-11-08 2020-05-14 Twinstrand Biosciences, Inc. Reagents and adapters for nucleic acid sequencing and methods for making such reagents and adapters
IL271235B1 (en) * 2017-11-30 2024-08-01 Illumina Inc Validation methods and systems for detecting sequence variants
US11597967B2 (en) * 2017-12-01 2023-03-07 Personal Genome Diagnostics Inc. Process for microsatellite instability detection
US20190237161A1 (en) * 2017-12-22 2019-08-01 Grail, Inc. Error removal using improved library preparation methods
JP7096893B2 (ja) * 2018-02-05 2022-07-06 エフ.ホフマン-ラ ロシュ アーゲー 単一分子のための一本鎖環状dna鋳型の作製
WO2019155050A1 (en) * 2018-02-12 2019-08-15 F. Hoffmann-La Roche Ag Method of predicting response to therapy by assessing tumor genetic heterogeneity
EP3752642A1 (en) * 2018-02-13 2020-12-23 F. Hoffmann-La Roche AG Method of predicting response to therapy by assessing tumor genetic heterogeneity
WO2019170773A1 (en) * 2018-03-06 2019-09-12 Cancer Research Technology Limited Improvements in variant detection
CN110491445B (zh) * 2018-05-11 2023-05-30 广州华大基因医学检验所有限公司 Uid测序、uid序列设计、uid去重质量值校正的方法及应用
CN110669823B (zh) * 2018-07-03 2022-05-24 中国医学科学院肿瘤医院 一种同时检测多种肝癌常见突变的ctDNA文库构建和测序数据分析方法
KR20210059694A (ko) 2018-07-12 2021-05-25 트윈스트랜드 바이오사이언시스, 인코포레이티드 게놈 편집, 클론 팽창 및 연관된 분야를 규명하기 위한 방법 및 시약
CA3107983A1 (en) * 2018-07-23 2020-01-30 Guardant Health, Inc. Methods and systems for adjusting tumor mutational burden by tumor fraction and coverage
CN108913775A (zh) * 2018-08-08 2018-11-30 南京求臻基因科技有限公司 检测L858R和Del19突变的引物组合物、试剂和试剂盒及其应用和检测方法
US20200105375A1 (en) * 2018-09-28 2020-04-02 Grail, Inc. Models for targeted sequencing of rna
US11926821B2 (en) * 2018-10-22 2024-03-12 The Chinese University Of Hong Kong Cell-free DNA quality
CN113661249A (zh) 2019-01-31 2021-11-16 夸登特健康公司 用于分离无细胞dna的组合物和方法
US11261479B2 (en) 2019-04-23 2022-03-01 Chapter Diagnostics, Inc. Methods and compositions for enrichment of target nucleic acids
EP3976822A1 (en) 2019-05-31 2022-04-06 Guardant Health, Inc. Methods and systems for improving patient monitoring after surgery
US20220349013A1 (en) * 2019-06-25 2022-11-03 The Translational Genomics Research Institute Detection and treatment of residual disease using circulating tumor dna analysis
WO2021067484A1 (en) 2019-09-30 2021-04-08 Guardant Health, Inc. Compositions and methods for analyzing cell-free dna in methylation partitioning assays
CN112176419B (zh) * 2019-10-16 2022-03-22 中国医学科学院肿瘤医院 一种检测ctDNA中肿瘤特异基因的变异和甲基化的方法
GB2627085A (en) 2019-11-06 2024-08-14 Univ Leland Stanford Junior Methods and systems for analysing nucleic acid molecules
EP4087940A4 (en) * 2020-01-10 2024-04-10 Gritstone bio, Inc. CELLULAR DNA MONITORING
US11475981B2 (en) 2020-02-18 2022-10-18 Tempus Labs, Inc. Methods and systems for dynamic variant thresholding in a liquid biopsy assay
US11211147B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing
US11211144B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Methods and systems for refining copy number variation in a liquid biopsy assay
KR20220157976A (ko) * 2020-02-24 2022-11-29 더 보드 어브 트러스티스 어브 더 리랜드 스탠포드 주니어 유니버시티 무세포 핵산의 분석 방법 및 이의 적용
US10941453B1 (en) 2020-05-20 2021-03-09 Paragon Genomics, Inc. High throughput detection of pathogen RNA in clinical specimens
KR20220122095A (ko) * 2021-02-26 2022-09-02 지니너스 주식회사 분자 바코딩 효율을 향상시키기 위한 조성물 및 이의 용도
WO2022204321A1 (en) 2021-03-24 2022-09-29 Ambry Genetics Corporation Conservative concurrent evaluation of dna modifications
US11783912B2 (en) 2021-05-05 2023-10-10 The Board Of Trustees Of The Leland Stanford Junior University Methods and systems for analyzing nucleic acid molecules
FR3127504A1 (fr) 2021-09-30 2023-03-31 Floating Genes Sas Méthode de détection de mutations rares sur biopsie liquide
CN114292912A (zh) * 2021-12-24 2022-04-08 广州燃石医学检验所有限公司 一种变体核酸的检测方法
CN114333989B (zh) * 2021-12-31 2023-06-13 天津诺禾致源生物信息科技有限公司 性状定位的方法及装置
US12091715B2 (en) 2022-04-21 2024-09-17 Paragon Genomics, Inc. Methods and compositions for reducing base errors of massive parallel sequencing using triseq sequencing
US11680293B1 (en) 2022-04-21 2023-06-20 Paragon Genomics, Inc. Methods and compositions for amplifying DNA and generating DNA sequencing results from target-enriched DNA molecules
CN118412041B (zh) * 2024-07-03 2024-09-13 齐鲁工业大学(山东省科学院) 一种dna测序数据匹配增强方法及系统

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5830655A (en) 1995-05-22 1998-11-03 Sri International Oligonucleotide sizing using cleavable primers
US20030211504A1 (en) 2001-10-09 2003-11-13 Kim Fechtel Methods for identifying nucleic acid polymorphisms
WO2006047787A2 (en) 2004-10-27 2006-05-04 Exact Sciences Corporation Method for monitoring disease progression or recurrence
EP2245198A1 (en) 2008-02-04 2010-11-03 Massachusetts Institute of Technology Selection of nucleic acids by solution hybridization to oligonucleotide baits
US20100041048A1 (en) 2008-07-31 2010-02-18 The Johns Hopkins University Circulating Mutant DNA to Assess Tumor Dynamics
CA2821906C (en) 2010-12-22 2020-08-25 Natera, Inc. Methods for non-invasive prenatal paternity testing
CN102586420B (zh) 2011-12-27 2014-10-22 盛司潼 一种检测乳腺癌易感基因的方法及试剂盒
EP4372084A3 (en) 2012-01-26 2024-08-14 Tecan Genomics, Inc. Compositions and methods for targeted nucleic acid sequence enrichment and high efficiency library generation
HUE051845T2 (hu) * 2012-03-20 2021-03-29 Univ Washington Through Its Center For Commercialization Módszerek a tömegesen párhuzamos DNS-szekvenálás hibaarányának csökkentésére duplex konszenzus szekvenálással
CA2872141C (en) * 2012-05-31 2016-01-19 Board Of Regents, The University Of Texas System Method for accurate sequencing of dna
US11261494B2 (en) 2012-06-21 2022-03-01 The Chinese University Of Hong Kong Method of measuring a fractional concentration of tumor DNA
US20140066317A1 (en) 2012-09-04 2014-03-06 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
CN108753766A (zh) * 2013-02-08 2018-11-06 10X基因组学有限公司 多核苷酸条形码生成
CN113337604A (zh) * 2013-03-15 2021-09-03 莱兰斯坦福初级大学评议会 循环核酸肿瘤标志物的鉴别和用途
EP3087204B1 (en) * 2013-12-28 2018-02-14 Guardant Health, Inc. Methods and systems for detecting genetic variants

Also Published As

Publication number Publication date
EP3191628A4 (en) 2018-05-02
WO2016040901A1 (en) 2016-03-17
EP3191628B1 (en) 2022-05-25
US11085084B2 (en) 2021-08-10
US20210363597A1 (en) 2021-11-25
US20180251848A1 (en) 2018-09-06
EP3191628A1 (en) 2017-07-19
CN107075730A (zh) 2017-08-18

Similar Documents

Publication Publication Date Title
ES2925014T3 (es) Identificación y uso de ácidos nucleicos circulantes
ES2831148T3 (es) Identificación y uso de marcadores tumorales de ácido nucleico circulante
Newman et al. Integrated digital error suppression for improved detection of circulating tumor DNA
KR102210852B1 (ko) 희귀 돌연변이 및 카피수 변이를 검출하기 위한 시스템 및 방법
US10329605B2 (en) Method to increase sensitivity of detection of low-occurrence mutations
ES2877088T3 (es) Procedimiento para detectar cáncer
ES2822125T3 (es) Métodos y sistemas para detectar variantes genéticas
ES2868074T3 (es) Métodos para unir adaptadores a ácidos nucleicos de muestra
TW202012638A (zh) 用於癌症及贅瘤之評估的組合物及方法
US20230061928A1 (en) Compositions and methods for detecting circulating tumor dna
WO2017075784A1 (zh) 肺腺癌生物标记物及其应用
JP2023526252A (ja) 相同組換え修復欠損の検出
US20240026440A1 (en) Methods of labelling nucleic acids
Puls et al. Molecular pathology of bone tumours: diagnostic implications
ES2864101T3 (es) Método y sistema para la secuenciación de ácidos nucleicos
US20220356467A1 (en) Methods for duplex sequencing of cell-free dna and applications thereof
WO2023023402A2 (en) Methods for simultaneous molecular and sample barcoding
BR112015004847B1 (pt) Método para detectar e quantificar polinucleotídeos