ES2946689T3 - Identificación y uso de marcadores tumorales de ácido nucleico circulante - Google Patents

Identificación y uso de marcadores tumorales de ácido nucleico circulante Download PDF

Info

Publication number
ES2946689T3
ES2946689T3 ES20191562T ES20191562T ES2946689T3 ES 2946689 T3 ES2946689 T3 ES 2946689T3 ES 20191562 T ES20191562 T ES 20191562T ES 20191562 T ES20191562 T ES 20191562T ES 2946689 T3 ES2946689 T3 ES 2946689T3
Authority
ES
Spain
Prior art keywords
regions
genomic
genomic regions
identified
selector set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES20191562T
Other languages
English (en)
Inventor
Maximilian Diehn
Arash Ash Alizadeh
Aaron M Newman
Scott V Bratman
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leland Stanford Junior University
Original Assignee
Leland Stanford Junior University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=51580891&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2946689(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Leland Stanford Junior University filed Critical Leland Stanford Junior University
Application granted granted Critical
Publication of ES2946689T3 publication Critical patent/ES2946689T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6853Nucleic acid amplification reactions using modified primers or templates
    • C12Q1/6855Ligating adaptors
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Abstract

Se proporcionan métodos para crear un selector de regiones genómicas mutadas y para usar el conjunto de selectores para analizar alteraciones genéticas en una muestra de ácido nucleico libre de células. Los métodos se pueden usar para medir los ácidos nucleicos derivados de tumores en una muestra de sangre de un sujeto y, por lo tanto, para controlar la progresión de la enfermedad en el sujeto. Los métodos también se pueden usar para la detección del cáncer, el diagnóstico del cáncer, el pronóstico del cáncer y la designación de la terapia del cáncer.

Description

DESCRIPCIÓN
Identificación y uso de marcadores tumorales de ácido nucleico circulante
La presente invención se realizó con el apoyo del gobierno en virtud de la subvención número W81XWH-12-1-0285 otorgada por el Departamento de Defensa. El gobierno posee ciertos derechos sobre la invención.
Antecedentes de la invención
Los tumores liberan ADN continuamente a la circulación, donde es fácilmente accesible (Stroun et al. (1987) Eur J Cancer Clin Oncol 23:707-712). El análisis de dicho ADN libre de células (cfDNA) derivado de cáncer tiene el potencial de revolucionar la detección y la supervisión del cáncer. El acceso no invasivo al ADN maligno es particularmente atractivo para los tumores sólidos, que no se pueden muestrear repetidamente sin procedimientos invasivos. En el cáncer de pulmón no microcítico (NSCLC, por sus siglas en inglés), previamente se han usado ensayos basados en PCR para detectar mutaciones puntuales recurrentes en genes tales como KRAS o EGFR en el ADN plasmático (Taniguchi et al. (2011) Clin. Cancer Res. 17:7808-7815; Gautschi et al. (2007) Cancer Lett. 254:265-273; Kuang et al. (2009) Clin. Cancer Res. 15:2630-2636; Resell et al. (2009) N. Engl. J. Med. 361:958-967), pero la mayoría de los pacientes carecen de mutaciones en estos genes.
Otros estudios han propuesto identificar reordenamientos cromosómicos específicos de paciente en tumores mediante la secuenciación del genoma completo (WGS), seguida de qPCR de punto de ruptura de cfDNA (Leary et al. (2010) Sci. Transl. Med. 2:20ra14; McBride et al. (2010) Genes Chrom. Cancer 49:1062-1069). Aunque son sensibles, tales métodos requieren la optimización de ensayos moleculares para cada paciente, lo que limita su amplia aplicación clínica. Más recientemente, varios grupos han presentado métodos de secuenciación profunda basados en amplicones para detectar mutaciones de cfDNA en hasta 6 genes mutados de forma recurrente (Forshew et al. (2012) Sci. Transl. Med. 4:136ra168; Narayan et al. (2012) Cancer Res. 72:3492-3498; Kinde et al. (2011) Proc. Natl Acad. Sci. USA 108:9530-9535). Aunque son potentes, estos enfoques están limitados por el número de mutaciones que se pueden interrogar (Rachlin et al. (2005) BMC Genomics 6:102) y por la incapacidad para detectar fusiones genómicas.
La publicación de patente internacional PCT n.° 2011/103236 describe métodos para identificar marcadores tumorales personalizados en un paciente con cáncer usando bibliotecas "pareadas" (mate-paired). Sin embargo, los métodos se limitan a supervisar reordenamientos cromosómicos somáticos y deben personalizarse para cada paciente, lo que limita su aplicabilidad y aumenta su coste.
La Publicación de Solicitud de Patente de Estados Unidos n.° 2010/0041048 A1 describe la cuantificación de ADN libre de células específico de tumor en pacientes con cáncer colorrectal usando la técnica "BEAMing" (Beads, Emulsion, Amplification, and Magnetics) (microesferas, emulsión, amplificación y magnetismo). Aunque esta técnica proporciona una alta sensibilidad y especificidad, este método es para mutaciones individuales y, por lo tanto, cualquier ensayo únicamente se puede aplicar a un subconjunto de pacientes y/o requiere una optimización específica de paciente. La publicación de solicitud de patente de Estados Unidos n.° 2012/0183967 A1 describe métodos adicionales para identificar y cuantificar variaciones genéticas, entre los que se incluyen el análisis de variantes menores en una población de a Dn , utilizando la técnica "BEAMing".
La publicación de solicitud de patente de Estados Unidos n.° 2012/0214678 A1 describe métodos y composiciones para detectar ácidos nucleicos fetales y determinar la fracción de ácido nucleico fetal libre de células que circula en una muestra materna. Aunque son sensibles, estos métodos analizan los polimorfismos que existen entre los ácidos nucleicos maternos y fetales en lugar de los polimorfismos que se producen como resultado de mutaciones somáticas en las células tumorales. Además, los métodos que detectan ácidos nucleicos fetales en la circulación materna requieren mucha menos sensibilidad que los métodos que detectan ácidos nucleicos tumorales en la circulación de pacientes con cáncer, porque los ácidos nucleicos fetales son mucho más abundantes que los ácidos nucleicos tumorales.
Las publicaciones de solicitud de patente de Estados Unidos n.° 2012/0237928 A1 y 2013/0034546 describen métodos para determinar variaciones en el número de copias de una secuencia de interés en una muestra de ensayo que comprende una mezcla de ácidos nucleicos. Aunque son potencialmente aplicables al análisis del cáncer, estos métodos están dirigidos a medir cambios estructurales importantes en ácidos nucleicos, tales como translocaciones, deleciones y amplificaciones, en lugar de variaciones de un solo nucleótido.
La publicación de solicitud de patente de Estados Unidos n.° 2012/0264121 A1 describe métodos para estimar una fracción genómica, por ejemplo, una fracción fetal, a partir de polimorfismos tales como pequeñas variaciones de bases o inserciones-deleciones. Sin embargo, estos métodos no hacen uso de bibliotecas optimizadas de polimorfismos, tales como, por ejemplo, bibliotecas que contienen regiones genómicas mutadas de forma recurrente.
La publicación de solicitud de patente de Estados Unidos n.° 2013/0024127 A1 describe métodos implementados en ordenador para calcular una contribución porcentual de ácidos nucleicos libres de células a partir de una fuente principal y una fuente secundaria en una muestra mixta. Sin embargo, los métodos no proporcionan ventajas en la identificación o el uso de bibliotecas optimizadas de polimorfismos en el análisis.
La publicación internacional PCT n.° WO 2010/141955 A2 describe métodos para detectar cáncer mediante el análisis de paneles de genes de una muestra obtenida por un paciente y la determinación del estado mutacional de los genes en el panel. Sin embargo, los métodos se basan en un número relativamente pequeño de genes cancerosos conocidos y no proporcionan ninguna clasificación de los genes según la eficacia en la detección de mutaciones relevantes. Además, los métodos no pudieron detectar la presencia de mutaciones en la mayoría de las muestras de suero procedentes de pacientes con cáncer reales.
Por lo tanto, existe la necesidad de métodos nuevos y mejorados para detectar y supervisar ácidos nucleicos relacionados con tumores en pacientes con cáncer.
Frank Diehl et al., (2008, Nature Medicine, Vol. 14, n.° 9, páginas 958-990, XP002666722, ISSN: 1078-8956, DOI: 10.1038/NM.1789) describen la evaluación de la dinamicidad tumoral por el ADN mutante circulante.
Eric J. Duncavage et al., (2012, Nature Medicine, Vol. 25, n.° 6, páginas 795-804, XP055235397, ISSN: 0893-3952, DOI: 10.1038/modpathol.2012.29) desvelan la secuenciación de nueva generación específica de mutaciones génicas y translocaciones clínicamente significativas en la leucemia.
J. K. Teer et al., (2010, Genome Research, Vol. 20, n.° 10, páginas 1420-1431, XP055074121, ISSN: 1088-9051, DOI: 10.1101/gr.106716.110 investigan una comparación sistemática de tres métodos de enriquecimiento genómico de secuenciación paralela y masiva de ADN.
Sumario de la invención
La presente invención se refiere a un método para el diagnóstico y supervisión del cáncer en un tumor individual de un paciente, comprendiendo el método:
utilizar una muestra de ácido nucleico libre de células obtenida del paciente;
utilizar un conjunto selector para enriquecer ADN libre de células que corresponde a las regiones del genoma que es más probable que contengan mutaciones somáticas específicas de tumor; en donde el enriquecimiento es por hibridación de los ácidos nucleicos con una pluralidad de oligonucleótidos que hibridan selectivamente con dichas regiones del genoma;
amplificar y secuenciar el ADN libre de células seleccionado para determinar cuáles de las regiones genómicas seleccionadas están mutadas en el tumor;
comparar opcionalmente la secuencia del ADN libre de células seleccionado con la secuencia de ADN de la línea germinal del individuo para distinguir mutaciones somáticas presentes en el tumor; y
detectar la mutación específica de tumor en la muestra de ácido nucleico libre de células, en donde el conjunto selector comprende regiones genómicas que comprenden una o más mutaciones presentes en uno o más sujetos de una población de sujetos con cáncer.
La presente invención se define adicionalmente por el método anterior, que además comprende notificar al paciente los resultados de la detección de la presencia de un tumor.
La presente invención se define adicionalmente por el método anterior, en donde las regiones genómicas comprenden dos o más regiones exónicas, regiones intrónicas y regiones no traducidas.
La presente invención se define adicionalmente por el método anterior, en donde la secuenciación utiliza adaptadores que comprenden códigos de barras moleculares.
La presente invención se define adicionalmente por el método anterior, que además comprende seleccionar una terapia para un cáncer en el sujeto basándose en la detección de la mutación específica del tumor en cfDNA.
La presente invención se define adicionalmente por el método anterior, en donde la pluralidad de oligonucleótidos se diseña utilizando un conjunto selector.
La presente invención se define adicionalmente por el método anterior, en donde la pluralidad de oligonucleótidos está presente en una matriz.
La presente invención se define adicionalmente por el método anterior, en donde la pluralidad de oligonucleótidos diseñada utilizando un conjunto selector se utiliza para la amplificación de cfDNA correspondiente a una región genómica
La presente invención se define adicionalmente por el método anterior, en donde el conjunto selector comprende una pluralidad de regiones genómicas que comprenden una o más mutaciones presentes en una población de sujetos que padecen un cáncer.
La presente invención se define adicionalmente por el método anterior, en donde el conjunto selector se define por el método que comprende:
(a) identificar regiones de ADN genómico mutadas de forma recurrente del cáncer seleccionado; y
(b) priorizar regiones utilizando uno o más de los siguientes criterios (i) un índice de recurrencia (IR) para la región o regiones genómicas, en donde el IR es el número de pacientes o tumores únicos con mutaciones somáticas por longitud de una región genómica; y (ii) un número mínimo de pacientes o tumores únicos con mutaciones en una longitud de región genómica.
La presente invención se define adicionalmente por el método anterior, en donde el conjunto selector se define por el método que comprende:
(a) obtener datos pertenecientes a una o más regiones genómicas;
(b) aplicar un algoritmo a los datos para determinar en una región genómica: (i) la presencia de una o más mutaciones en la región genómica; (ii) un número de sujetos con mutaciones en esa región genómica; y (iii) un índice de recurrencia (IR), en donde el IR se determina dividiendo el número de sujetos con mutaciones en la región genómica por el tamaño de la región genómica; y
(c) producir un conjunto selector que comprende una o más regiones genómicas basándose en el índice de recurrencia de una o más regiones genómicas.
La presente invención se define adicionalmente por el método anterior, en donde el conjunto selector se define por el método que comprende:
(a) obtener información de secuenciación de una muestra de tumor de un sujeto que padece un cáncer;
(b) comparar la información de secuenciación de la muestra de tumor con la información de secuenciación de una muestra no tumoral del sujeto para identificar una o más mutaciones específicas de la información de secuenciación de la muestra de tumor; y
(c) producir un conjunto selector que comprende una o más regiones genómicas que comprenden dichas una o más mutaciones específicas de la información de secuenciación de la muestra de tumor.
La presente invención se define adicionalmente por el método anterior, en donde el conjunto selector selecciona un promedio de al menos cuatro variantes de un solo nucleótido específicas de tumor por paciente.
Se proporcionan composiciones y métodos, entre los que se incluyen métodos de análisis bioinformático, para el análisis altamente sensible del ADN tumoral circulante (ctDNA), por ejemplo, secuencias de ADN presentes en la sangre de un individuo que proceden de células tumorales. Puede hacerse referencia a los métodos de la invención como perfilado personalizado de cáncer mediante secuenciación profunda (CAPP-Seq). Son tumores de especial interés tumores sólidos, entre los que se incluyen, entre otros, carcinomas, sarcomas, gliomas, linfomas, melanomas, etc., aunque no se excluyen cánceres hematológicos, tales como leucemias.
Los métodos de la invención combinan métodos de preparación de bibliotecas optimizados con un enfoque bioinformático multifase para diseñar una población "selectora" de oligonucleótidos de ADN, que corresponden a regiones mutadas de forma recurrente en el cáncer de interés. La población selectora de oligonucleótidos de ADN, que puede denominarse conjunto selector, comprende sondas para una pluralidad de regiones genómicas y está diseñada de manera que al menos una mutación dentro de la pluralidad de regiones genómicas está presente en la mayoría de los sujetos con el cáncer específico; y, referentemente, están presentes múltiples mutaciones en la mayoría de los sujetos con el cáncer específico.
En un aspecto de la invención, se proporcionan métodos para la identificación de un conjunto selector apropiado para un tipo de tumor específico. También se proporcionan composiciones de oligonucleótidos de conjuntos selectores, que se pueden proporcionar adheridas a un sustrato sólido, etiquetado para selección de afinidad, etc.; y kits que contienen tales conjuntos selectores. Se incluye, sin limitación, un conjunto selector adecuado para el análisis del carcinoma de pulmón no microcítico (NSCLC). Dichos kits pueden incluir instrucciones ejecutables para el análisis bioinformático de los datos de CAPP-Seq.
En un aspecto, se proporcionan métodos para el uso de un conjunto selector en el diagnóstico y supervisión del cáncer en un paciente individual. En algunas realizaciones, el conjunto selector se utiliza para enriquecer, por ejemplo, por selección de híbridos, en el ctDNA que corresponde a las regiones del genoma que tienen más probabilidades de contener mutaciones somáticas específicas del tumor. A continuación, el ctDNA "seleccionado" se amplifica y secuencia para determinar cuáles de las regiones genómicas seleccionadas están mutadas en el tumor individual. Opcionalmente se realiza una comparación inicial con la secuencia de ADN de la línea germinal del individuo y/o una muestra de biopsia de tumor del individuo. Estas mutaciones somáticas proporcionan un medio para distinguir el ctDNA del DNA de la línea germinal y, por lo tanto, proporcionan información útil sobre la presencia y cantidad de células tumorales en el individuo.
En algunas realizaciones, el contenido de ctDNA en una muestra de sangre de un individuo, o de un derivado sanguíneo, se determina en uno o más puntos de tiempo, opcionalmente junto con un régimen terapéutico. La presencia del ctDNA se correlaciona con la carga tumoral y es útil para supervisar la respuesta a la terapia, supervisar la enfermedad residual, supervisar la presencia de metástasis, supervisar la carga tumoral total, y similares. Aunque no sea necesario, para algunos métodos, el CAPP-Seq se puede realizar junto con métodos de imágenes tumorales, por ejemplo, exploraciones PET/CT y similares.
CAPP-seq puede utilizarse para la detección de cánceres y la genotipificación de tumores sin biopsia, donde se analiza una muestra de ctDNA del paciente sin referencia a una muestra de biopsia. En algunas de tales realizaciones, donde el CAPP-Seq identifica una mutación en una diana clínicamente procesable de una muestra de ctDNA, los métodos incluyen proporcionar una terapia apropiada para la diana. Tales mutaciones incluyen, sin limitación, reordenamientos y otras mutaciones en las que están implicados oncogenes, tirosina quinasas receptoras, etc. Las dianas procesables pueden incluir, por ejemplo, ALK, ROS1, RET, EGFR, KRAS, y similares.
Los métodos de CAPP-Seq pueden incluir etapas de análisis de datos, que pueden proporcionarse como un programa de instrucciones ejecutables por ordenador y realizarse por medio de componentes de software cargados en el ordenador. Dichos métodos incluyen el diseño de un conjunto selector de identificación para un cáncer de interés. Se proporcionan otros métodos bioinformáticos para determinar y cuantificar cuándo el ADN tumoral circulante es detectable por encima del nivel de fondo, por ejemplo, utilizando un enfoque que integra contenido de información y clases de mutación en un índice de detección.
En el presente documento se desvela un método para determinar la presencia de ácidos nucleicos tumorales (tNA) en una muestra de ácidos nucleicos libres de células (cfNA) de un individuo mediante la detección de mutaciones somáticas. El método puede comprender (a) obtener una muestra de cfNA; (b) seleccionar el cfNA para secuencias correspondientes a una pluralidad de regiones de mutaciones en un cáncer de interés; (c) secuenciar el cfNA seleccionado; (d) determinar la presencia de mutaciones somáticas, en donde la presencia de las mutaciones somáticas puede ser indicativa de células tumorales presentes en el individuo; y (e) proporcionar al individuo una evaluación de la presencia de células tumorales.
El ácido nucleico libre de células puede ser ADN libre de células (cfDNA). El ácido nucleico libre de células puede ser ARN libre de células (cfRNA). Los ácidos nucleicos libres de células pueden ser una mezcla de ADN libre de células (cfDNA) y ARN libre de células (cfRNA). El ácido nucleico tumoral puede ser un ácido nucleico procedente de una célula tumoral. El ácido nucleico tumoral puede ser ADN derivado de un tumor (tDNA). El ácido nucleico tumoral puede ser un ADN tumoral circulante (ctDNA). El ácido nucleico tumoral puede ser ARN derivado de tumor (tRNA). El ácido nucleico tumoral puede ser un ARN tumoral circulante (ctRNA). Los ácidos nucleicos tumorales pueden ser una mezcla de ADN derivado de tumor y ARN derivado de tumor. Los ácidos nucleicos tumorales pueden ser una mezcla de ctDNA y ctRNA.
La selección del cfNA puede comprender (i) hibridar la muestra de ácido nucleico libre de células con una pluralidad de sondas de conjuntos selectores que comprenden un miembro de unión específico; (ii) unir ácidos nucleicos hibridados a un miembro de unión específico complementario; y (iii) retirar mediante lavado el ADN no unido.
La muestra de cfNA puede compararse con una secuencia de ADN tumoral conocida del individuo.
La muestra de cfNA puede analizarse de novo para detectar la presencia de mutaciones somáticas.
Las mutaciones somáticas pueden incluir variantes de un solo nucleótido, inserciones, deleciones, variaciones del número de copias y reordenamientos.
La pluralidad de regiones de mutaciones puede comprender al menos 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 125, 150, 175 o 200 regiones genómicas diferentes. La pluralidad de regiones de mutaciones puede comprender al menos 500 regiones genómicas diferentes. La pluralidad de regiones genómicas de mutaciones puede comprender un total de 100 a 500 kb de secuencia.
Puede estar presente al menos una mutación somática en al menos el 60%, 65 %, 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 92 %, 95 %, 97 % o 99 % de los individuos de una población de pacientes con el cáncer de interés.
El cáncer de interés puede ser una leucemia. El cáncer de interés puede ser un tumor sólido. El cáncer puede ser un carcinoma. El carcinoma puede ser un adenocarcinoma o un carcinoma de células escamosas. El carcinoma puede ser cáncer de pulmón no microcítico.
Es posible que al individuo no se le haya diagnosticado previamente un cáncer. El individuo puede estar en tratamiento contra el cáncer.
Se pueden obtener dos o más muestras del individuo durante un período de tiempo y se puede comparar la enfermedad residual o la carga tumoral.
El método puede comprender además tratar al individuo de acuerdo con el análisis de la presencia de células tumorales. El método puede comprender además tratar al individuo basándose en la detección de las mutaciones somáticas.
La determinación de la presencia de mutaciones somáticas puede comprender: (i) integrar fracciones de cfDNA en todos los SNV somáticos; (ii) realizar un ajuste de fondo específico de la posición; y (iii) evaluar el significado estadístico mediante muestreo de Monte Carlo de los alelos de fondo a través del selector, en donde las etapas (i) -(iii) se incorporan como un programa de instrucciones ejecutable por ordenador y se realizan por medio de componentes de software cargados en el ordenador.
El método puede comprender además el análisis de inserciones y/o deleciones mediante la comparación de su abundancia fraccionada en una muestra de cfDNA dada con su abundancia fraccionada en una cohorte. El método puede comprender además combinar la abundancia fraccionada en una única puntuación Z.
El método puede comprender además la integración de diferentes tipos de mutación para estimar la importancia de la cuantificación de la carga tumoral.
La determinación de la presencia de mutaciones somáticas puede ser la identificación de acontecimientos de fusión genómica y puntos de ruptura mediante el método que comprende: (i) identificación de lecturas discordantes; (ii) detección de puntos de ruptura en la resolución de pares de bases, y (iii) validación in silico de fusiones candidatas, en donde las etapas (i) -(iii) se incorporan como un programa de instrucciones ejecutable por ordenador y se realizan por medio de componentes de software cargados en el ordenador.
La determinación de la presencia de una mutación somática puede comprender las etapas de (i) tomar las frecuencias alélicas de una única muestra de cfDNA y seleccionar datos de alta calidad; (ii) ensayar si un alelo de cfDNA de entrada dado puede ser significativamente diferente del alelo de línea germinal pareado correspondiente; (iii) ensamblar una base de datos de frecuencias de alelos de fondo de cfDNA por distribución binomial; (iv) ensayar si un alelo de entrada dado difiere significativamente del fondo de cfDNA en la misma posición, y seleccionar los que tienen una frecuencia de referencia promedio de un umbral predeterminado; y (v) distinguir los SNV derivados de tumores del ruido de fondo restante mediante análisis de valores atípicos, en donde las etapas (i) -(vi) se pueden incorporar como un programa de instrucciones ejecutable por ordenador y se realizan por medio de componentes de software cargados en el ordenador.
Las sondas del conjunto selector pueden comprender secuencias correspondientes a regiones genómicas mutadas identificadas por el método que comprende identificar una pluralidad de regiones genómicas de un grupo de regiones genómicas que pueden estar mutadas en un cáncer específico.
La identificación de la pluralidad de regiones genómicas puede comprender para cada región genómica en la pluralidad de regiones genómicas, la clasificación de la región genómica para maximizar el número de sujetos con el cáncer específico que tienen al menos una mutación dentro de la región genómica.
La identificación de la pluralidad de regiones genómicas puede comprender: (i) seleccionar genes que se sabe que son impulsores del cáncer de interés para generar un conjunto de impulsores conocidos; (ii) seleccionar exones de impulsores conocidos con el índice de recurrencia (IR) más alto que identifican al menos un nuevo paciente en comparación con la etapa (a); y repetir hasta que no haya más exones que cumplan estos criterios; (iii) identificar exones restantes de impulsores conocidos con un IR > 30 y con SNV que cubren > 3 pacientes en la base de datos relevante que tienen como resultado la mayor reducción en pacientes con solo 1 SNV; y repetir hasta que no haya más exones que cumplan estos criterios; (iv) repetir la etapa (b) usando IR > 20; (v) añadir todos los exones de genes adicionales que se predijo previamente que albergaban mutaciones impulsoras; y (vi) añadir para el reordenamiento recurrente conocido los intrones más frecuentemente implicados en el acontecimiento de fusión y los exones flanqueantes, en donde las etapas (i) -(vi) se incorporan como un programa de instrucciones ejecutable por ordenador y se realizan por medio de componentes de software cargados en el ordenador.
La pluralidad de regiones de mutaciones en un cáncer de interés puede seleccionarse de las regiones expuestas en la Tabla 2.
El método de la reivindicación 27, en donde la pluralidad de regiones de mutaciones puede comprender al menos 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95 o 100 regiones expuestas en la Tabla 2.
También se desvelan en el presente documento composiciones que comprenden sondas de conjuntos selectores. La composición puede comprender un conjunto de sondas de conjunto selector de al menos aproximadamente 25 nucleótidos de longitud, que comprende un miembro de unión específico y que comprende secuencias de al menos 100 regiones expuestas en la Tabla 2.
El conjunto de sondas selectoras puede comprender oligonucleótidos que comprenden secuencias de al menos 300 regiones de la Tabla 2. El conjunto de sondas selectoras puede comprender oligonucleótidos que comprenden secuencias de al menos 500 regiones de la Tabla 2.
En el presente documento también se desvelan poblaciones de ADN libre de células (cfDNA). La población de cfDNA puede ser una población enriquecida. La población enriquecida de cfDNA puede producirse mediante selección de híbridos. La selección de híbridos puede comprender el uso de una o más sondas de conjunto selector. Las sondas de conjunto selector se pueden unir a un soporte sólido o semisólido. El soporte puede comprender una matriz. El soporte puede comprender una microesfera. La microesfera puede ser una microesfera revestida. La microesfera puede ser una microesfera de estreptavidina. El soporte sólido puede comprender una superficie plana. El soporte sólido puede comprender un portaobjetos. El soporte sólido puede comprender un portaobjetos de vidrio.
En el presente documento se desvelan además métodos para la detección, diagnóstico, pronóstico o selección de terapia para un sujeto que padece una enfermedad o afección. El método puede comprender: (a) obtener información de secuencia de una muestra de ADN libre de células (cfDNA) derivada del sujeto; y (b) usar la información de secuencia derivada de (a) para detectar ADN no germinal libre de células (cfNG-DNA) en la muestra, en donde el método puede ser capaz de detectar un porcentaje de cfNG-DNA que puede ser inferior al 2% del cfDNA total.
El método puede ser capaz de detectar un porcentaje de ctDNA que puede ser inferior al 1,5 % del cfDNA total. El método puede ser capaz de detectar un porcentaje de ctDNA que puede ser inferior al 1 % del cfDNA total. El método puede ser capaz de detectar un porcentaje de ctDNA que puede ser inferior al 0,5 % del cfDNA total. El método puede ser capaz de detectar un porcentaje de ctDNA que puede ser inferior al 0,1 % del cfDNA total. El método puede ser capaz de detectar un porcentaje de ctDNA que puede ser inferior al 0,01 % del cfDNA total. El método puede ser capaz de detectar un porcentaje de ctDNA que puede ser inferior al 0,001 % del cfDNA total. El método puede ser capaz de detectar un porcentaje de ctDNA que puede ser inferior al 0,0001 % del cfDNA total.
La muestra puede ser una muestra de plasma o suero (sudor, aire espirado, lágrimas, saliva, orina, heces, líquido amniótico). La muestra puede ser una muestra de líquido cefalorraquídeo. En algunos casos, la muestra no es una muestra de líquido de frotis de Papanicolaou. En algunos casos, la muestra no es una muestra de líquido quístico. En algunos casos, la muestra no es una muestra de líquido pancreático.
La información de secuencia puede comprender información relacionada con al menos 10, 20, 30, 40, 100, 200 o 300 regiones genómicas. Las regiones genómicas pueden comprender genes, regiones exónicas, regiones intrónicas, regiones no traducidas, regiones no codificantes o una combinación de las mismas. Las regiones genómicas pueden comprender dos o más regiones exónicas, regiones intrónicas y regiones no traducidas. Las regiones genómicas pueden comprender al menos una región exónica y al menos una región intrónica. Al menos el 5 % de las regiones genómicas pueden comprender regiones intrónicas. Al menos aproximadamente el 20 % de las regiones genómicas pueden comprender regiones exónicas.
Las regiones genómicas pueden comprender menos de 1,5 megabases (Mb) del genoma. Las regiones genómicas pueden comprender menos de 1 Mb del genoma. Las regiones genómicas pueden comprender menos de 500 kilobases (kb) del genoma. Las regiones genómicas pueden comprender menos de 50, 75, 100 o 350 kb del genoma. Las regiones genómicas pueden comprender entre 100 kb y 300 kb del genoma.
La información de secuencia puede comprender información relativa a 1,2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20 o más regiones genómicas de un conjunto selector que comprende una pluralidad de regiones genómicas. La información de secuencia puede comprender información relativa a 25, 30, 40, 50, 60, 70, 80, 90, 100 o más regiones genómicas de un conjunto selector que comprende una pluralidad de regiones genómicas. La información de secuencia puede comprender información relativa a una pluralidad de regiones genómicas.
La pluralidad de regiones genómicas puede basarse en un conjunto selector que comprende regiones genómicas que comprenden una o más mutaciones presentes en uno o más sujetos de una población de sujetos con cáncer. Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de la pluralidad de regiones genómicas puede estar basada en un conjunto selector que comprende regiones genómicas que comprenden una o más mutaciones presentes en uno o más sujetos de una población de sujetos con cáncer.
El tamaño total de las regiones genómicas del conjunto selector puede comprender menos de 1,5 megabases (Mb), 1 Mb, 500 kilobases (kb), 350 kb, 300 kb, 250 kb, 200 kb o 150 kb del genoma. El tamaño total de las regiones genómicas del conjunto selector puede estar entre 100 kb y 300 kb del genoma.
El conjunto selector puede comprender 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 100 o más regiones genómicas seleccionadas de la Tabla 2. El conjunto selector puede comprender 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 100 o más regiones genómicas seleccionadas de la Tabla 6. El conjunto selector puede comprender 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 100 o más regiones genómicas seleccionadas de la Tabla 7. El conjunto selector puede comprender 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 100 o más regiones genómicas seleccionadas de la Tabla 8. El conjunto selector puede comprender 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 100 o más regiones genómicas seleccionadas de la Tabla 9. El conjunto selector puede comprender 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 100 o más regiones genómicas seleccionadas de la Tabla 10. El conjunto selector puede comprender 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 100 o más regiones genómicas seleccionadas de la Tabla 11. El conjunto selector puede comprender 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 100 o más regiones genómicas seleccionadas de la Tabla 12. El conjunto selector puede comprender 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 100 o más regiones genómicas seleccionadas de la Tabla 13. El conjunto selector puede comprender 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 100 o más regiones genómicas seleccionadas de la Tabla 14. El conjunto selector puede comprender 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 100 o más regiones genómicas seleccionadas de la Tabla 15. El conjunto selector puede comprender 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 100 o más regiones genómicas seleccionadas de la Tabla 16. El conjunto selector puede comprender 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 100 o más regiones genómicas seleccionadas de la Tabla 17. El conjunto selector puede comprender 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 100 o más regiones genómicas seleccionadas de la Tabla 18. En algunos casos, el sujeto no padece cáncer de páncreas.
La obtención de información de secuencia de la muestra de ADN libre de células puede comprender la realización de una secuenciación masivamente paralela. La secuenciación masivamente paralela puede realizarse en un subconjunto de un genoma de cfDNA procedente de la muestra de cfDNA. El subconjunto del genoma puede comprender menos de 1,5 megabases (Mb), 1 Mb, 500 kilobases (kb), 350 kb, 300 kb, 250 kb, 200 kb o 150 kb del genoma. El subconjunto del genoma puede comprender entre 100 kb y 300 kb del genoma.
La obtención de información de secuencia de la muestra de ADN libre de células puede comprender el uso de códigos de barras de una sola molécula. El uso de códigos de barras de una sola molécula puede comprender adjuntar códigos de barras que comprenden diferentes secuencias a ácidos nucleicos de la muestra de cfDNA.
La información de secuencia puede comprender información de secuencia relativa a los adaptadores. La información de secuencia puede comprender información de secuencia relativa a los códigos de barras moleculares. La información de secuencia puede comprender información de secuencia relativa a los índices de muestra.
El método puede comprender obtener información de secuenciación de muestras de ADN libres de células a partir de dos o más muestras del sujeto. El método puede comprender obtener información de secuenciación de muestras de ADN sin células a partir de dos o más sujetos diferentes. Las dos o más muestras pueden ser del mismo tipo de muestra. Las dos o más muestras pueden ser dos tipos diferentes de muestra. Las dos o más muestras pueden obtenerse del sujeto en el mismo momento. Las dos o más muestras pueden obtenerse del sujeto en dos o más momentos. Las muestras de dos o más sujetos diferentes pueden indexarse y agruparse antes de la secuenciación.
El uso de la información de secuencia puede comprender detectar una o más mutaciones. Dichas una o más mutaciones pueden comprender uno o más SNV, indeles, fusiones, puntos de rotura, variantes estructurales, número variable de repeticiones en tándem, regiones hipervariables, minisatélites, repeticiones dinucleotídicas, repeticiones trinucleotídicas, repeticiones tetranucleotídicas, repeticiones de secuencia sencilla, variantes de número de copias o una combinación de las mismas en regiones seleccionadas del genoma del sujeto. El uso de la información de secuencia puede comprender detectar uno o más SNV, indeles, variantes de número de copias y reordenamientos en regiones seleccionadas del genoma del sujeto. El uso de la información de secuencia puede comprender la detección de dos o más SNV, indeles, variantes de número de copias y reordenamientos en regiones seleccionadas del genoma del sujeto. El uso de la información de secuencia puede comprender detectar al menos un SNV, indel, variante del número de copias y reordenamiento en regiones seleccionadas del genoma del sujeto.
En algunos casos, la detección de dichas una o más mutaciones no implica realizar PCR digital (dPCR).
La detección de dichas una o más mutaciones puede comprender la aplicación de un algoritmo a la información de secuencia para determinar una cantidad de una o más regiones genómicas a partir de un conjunto selector. El conjunto selector puede comprender una pluralidad de regiones genómicas que comprenden una o más mutaciones presentes en uno o más sujetos con cáncer de una población de sujetos con cáncer. El conjunto selector puede comprender una pluralidad de regiones genómicas que comprenden una o más mutaciones presentes en al menos aproximadamente el 60 % de los sujetos con cáncer de la población de sujetos con cáncer.
El cfNG-DNA puede proceder de un tumor en el sujeto. El método puede comprender además la detección de un cáncer en el sujeto basándose en la detección del cfNG-DNA. El método puede comprender además diagnosticar un cáncer en el sujeto basándose en la detección del cfNG-DNA. El diagnóstico del cáncer puede tener una sensibilidad de al menos aproximadamente el 50 %, 52 %, 55 %, 57 %, 60 %, 62 %, 65 %, 67 %, 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 % o 99 %. El diagnóstico del cáncer puede tener una especificidad de al menos aproximadamente el 50%, 52 %, 55 %, 57 %, 60 %, 62 %, 65 %, 67 %, 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 % o 99 %. El método puede comprender además pronosticar un cáncer en el sujeto basándose en la detección del cfNG-DNA. El pronóstico del cáncer puede tener una sensibilidad de al menos aproximadamente el 50 %, 52 %, 55 %, 57 %, 60 %, 62 %, 65 %, 67 %, 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 % o 99 %. El pronóstico del cáncer puede tener una especificidad de al menos aproximadamente el 50 %, 52 %, 55 %, 57 %, 60 %, 62 %, 65 %, 67 %, 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 % o 99 %. El método puede comprender además determinar un régimen terapéutico para el sujeto basándose en la detección del cfNG-DNA. El método puede comprender además administrar una terapia contra el cáncer al sujeto basándose en la detección del cfNG-DNA.
El cfNG-DNA puede proceder de un feto en el sujeto. El método puede comprender además diagnosticar una enfermedad o afección en el feto basándose en la detección del cfNG-DNA. El diagnóstico de la enfermedad o afección en el feto puede tener una sensibilidad de al menos aproximadamente el 50 %, 52 %, 55 %, 57 %, 60 %, 62 %, 65 %, 67 %, 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 % o 99 %. El diagnóstico de la enfermedad o afección en el feto puede tener una especificidad de al menos aproximadamente el 50 %, 52 %, 55 %, 57 %, 60 %, 62 %, 65 %, 67 %, 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 % o 99 %.
El cfNG-DNA puede proceder de un órgano trasplantado, célula o tejido en el sujeto. El método puede comprender además diagnosticar un rechazo de trasplante de órganos en el sujeto basándose en la detección del cfNG-DNA. El diagnóstico del rechazo del trasplante de órganos puede tener una sensibilidad de al menos aproximadamente el 50 %, 52 %, 55 %, 57 %, 60 %, 62 %, 65 %, 67 %, 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 % o 99 %. El diagnóstico del rechazo del trasplante de órganos puede tener una especificidad de al menos aproximadamente el 50 %, 52 %, 55 %, 57 %, 60 %, 62 %, 65 %, 67 %, 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 % o 99 %. El método puede comprender además pronosticar un riesgo de rechazo de trasplante de órganos en el sujeto basándose en la detección del cfNG-DNA. El pronóstico del riesgo de rechazo de un trasplante de órganos puede tener una sensibilidad de al menos aproximadamente el 50 %, 52 %, 55 %, 57 %, 60 %, 62 %, 65 %, 67 %, 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 % o 99 %. El pronóstico del riesgo de rechazo de un trasplante de órganos puede tener una especificidad de al menos aproximadamente el 50 %, 52 %, 55 %, 57 %, 60 %, 62 %, 65 %, 67 %, 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 % o 99 %. El método puede comprender además determinar una terapia inmunosupresora para el sujeto basándose en la detección del cfNG-DNA. El método puede comprender además administrar una terapia inmunosupresora al sujeto basándose en la detección del cfNG-DNA.
En el presente documento también se desvelan métodos para diagnosticar un cáncer. El método puede comprender (a) obtener información de secuencia de ADN genómico libre de células derivado de una muestra de un sujeto, en donde la información de secuencia puede derivar de regiones que están mutadas en al menos el 80 % de una población de sujetos afectados por un cáncer; y (b) diagnosticar un cáncer seleccionado de un grupo que consiste en cáncer de pulmón, cáncer de mama, cáncer colorrectal y cáncer de próstata en el sujeto basándose en la información de secuencia, en donde el método tiene una sensibilidad de al menos el 80 %.
Las regiones que están mutadas pueden comprender un tamaño total de menos de 1,5 Mb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 1 Mb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 500 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 350 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 300 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 250 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 200 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 150 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 100 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 50 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 40 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 30 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 20 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 10 kb del genoma.
Las regiones que están mutadas pueden comprender un tamaño total entre 100 kb y 300 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total entre 5 kb y 200 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total entre 5 kb y 150 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total entre 5 kb y 100 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total entre 5 kb y 75 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total entre 1 kb y 50 kb del genoma.
La información de secuencia puede proceder de 2 o más regiones. La información de secuencia puede proceder de 3 o más regiones. La información de secuencia puede proceder de 4 o más regiones. La información de secuencia puede proceder de 5 o más regiones. La información de secuencia puede proceder de 6 o más regiones. La información de secuencia puede proceder de 7 o más regiones. La información de secuencia puede proceder de 8 o más regiones. La información de secuencia puede proceder de 9 o más regiones. La información de secuencia puede proceder de 10 o más regiones. La información de secuencia puede proceder de 20 o más regiones. La información de secuencia puede proceder de 30 o más regiones. La información de secuencia puede proceder de 40 o más regiones. La información de secuencia puede proceder de 50 o más regiones. La información de secuencia puede proceder de 60 o más regiones. La información de secuencia puede proceder de 70 o más regiones. La información de secuencia puede proceder de 80 o más regiones. La información de secuencia puede proceder de 90 o más regiones. La información de secuencia puede proceder de 100 o más regiones.
La población de sujetos afectados por el cáncer puede ser sujetos de una o más bases de datos. Dichas una o más bases de datos pueden comprender el Atlas del Genoma del Cáncer (TCGA).
La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 60 % de la población de sujetos afectados por el cáncer. La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 70 % de la población de sujetos afectados por el cáncer. La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 80 % de la población de sujetos afectados por el cáncer. La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 90 % de la población de sujetos afectados por el cáncer. La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 95 % de la población de sujetos afectados por el cáncer. La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 99 % de la población de sujetos afectados por el cáncer.
La información de secuencia puede proceder de regiones que pueden estar mutadas en al menos el 65 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que pueden estar mutadas en al menos el 70 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que pueden estar mutadas en al menos el 75 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que pueden estar mutadas en al menos el 80 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que pueden estar mutadas en al menos el 85 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que pueden estar mutadas en al menos el 90 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que pueden estar mutadas en al menos el 95 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que pueden estar mutadas en al menos el 99 % de la población de sujetos afectados por el cáncer.
La obtención de la información de secuencia puede comprender la secuenciación de regiones no codificantes. Las regiones no codificantes pueden comprender uno o más lncRNA, snoRNA, siRNA, miRNA, piRNA, tiRNA, PASR, TASR, aTASR, TSSa-RNA, snRNA, RE-RNA, uaRNA, x-ncRNA, hY RNA, usRNA, snaR, vtRNA, T-UCR, pseudogenes, GRC-RNA, aRNA, PALR, PROMPT, LSINCT, o una combinación de los mismos.
Como alternativa o adicionalmente, la obtención de la información de secuencia puede comprender la secuenciación de regiones codificantes de proteínas. Las regiones codificantes de proteínas pueden comprender uno o más exones, intrones, regiones no traducidas o una combinación de los mismos.
En algunos casos, al menos una de las regiones no comprende KRAS o EGFR. En algunos casos, al menos dos de las regiones no comprenden KRAS y EGFR. En algunos casos, al menos una de las regiones no comprende KRAS, EGFR, p53, PIK3CA, BRAF, EZH2 o BRCA1. En algunos casos, al menos dos de las regiones no comprenden KRAS, EGFR, p53, PIK3CA, BRAF, EZH2 o BRCA1. En algunos casos, al menos tres de las regiones no comprenden KRAS, EGFR, p53, PIK3CA, BRAF, EZH2 o BRCA1. En algunos casos, al menos cuatro de las regiones no comprenden KRAS, EGFR, p53, PIK3CA, BRAF, EZH2 o BRCA1.
El método puede comprender además detectar mutaciones en las regiones basándose en la información de secuenciación. El diagnóstico del cáncer puede basarse en la detección de mutaciones. La detección de al menos 3 mutaciones puede ser indicativa del cáncer. La detección de una o más mutaciones en tres o más regiones puede ser indicativa del cáncer.
El cáncer de mama puede ser un cáncer BRCA1.
El método puede tener una sensibilidad de al menos el 85 %, 87 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 % o 99 %.
El método puede tener una especificidad de al menos el 50 %, 52 %, 55 %, 57 %, 60 %, 62 %, 65 %, 67 %, 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 % o 99 %.
El método puede comprender además proporcionar un informe generado por ordenador que comprende el diagnóstico del cáncer.
En el presente documento también se desvelan métodos para determinar el pronóstico de una afección o enfermedad en un sujeto que lo necesite. El método puede comprender (a) obtener información de secuencia de ADN genómico libre de células derivado de una muestra de un sujeto, en donde la información de secuencia puede proceder de regiones que están mutadas en al menos el 80 % de una población de sujetos afectados por una afección; y (b) determinar un pronóstico de una afección o enfermedad en el sujeto basándose en la información de secuencia.
Las regiones que están mutadas pueden comprender un tamaño total de menos de 1,5 Mb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 1 Mb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 500 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 350 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 300 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 250 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 200 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 150 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 100 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 50 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 40 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 30 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 20 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 10 kb del genoma.
Las regiones que están mutadas pueden comprender un tamaño total entre 100 kb y 300 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total entre 5 kb y 200 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total entre 5 kb y 150 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total entre 5 kb y 100 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total entre 5 kb y 75 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total entre 1 kb y 50 kb del genoma.
La información de secuencia puede proceder de 2 o más regiones. La información de secuencia puede proceder de 3 o más regiones. La información de secuencia puede proceder de 4 o más regiones. La información de secuencia puede proceder de 5 o más regiones. La información de secuencia puede proceder de 6 o más regiones. La información de secuencia puede proceder de 7 o más regiones. La información de secuencia puede proceder de 8 o más regiones. La información de secuencia puede proceder de 9 o más regiones. La información de secuencia puede proceder de 10 o más regiones. La información de secuencia puede proceder de 20 o más regiones. La información de secuencia puede proceder de 30 o más regiones. La información de secuencia puede proceder de 40 o más regiones. La información de secuencia puede proceder de 50 o más regiones. La información de secuencia puede proceder de 60 o más regiones. La información de secuencia puede proceder de 70 o más regiones. La información de secuencia puede proceder de 80 o más regiones. La información de secuencia puede proceder de 90 o más regiones. La información de secuencia puede proceder de 100 o más regiones.
La población de sujetos afectados por el cáncer puede ser sujetos de una o más bases de datos. Dichas una o más bases de datos pueden comprender el Atlas del Genoma del Cáncer (TCGA).
La información de secuencia puede proceder de regiones que pueden estar mutadas en al menos el 65 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que pueden estar mutadas en al menos el 70 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que pueden estar mutadas en al menos el 75 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que pueden estar mutadas en al menos el 80 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que pueden estar mutadas en al menos el 85 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que pueden estar mutadas en al menos el 90 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que pueden estar mutadas en al menos el 95 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que pueden estar mutadas en al menos el 99 % de la población de sujetos afectados por el cáncer.
La obtención de la información de secuencia puede comprender la secuenciación de regiones no codificantes. Las regiones no codificantes pueden comprender uno o más lncRNA, snoRNA, siRNA, miRNA, piRNA, tiRNA, PASR, TASR, aTASR, TSSa-RNA, snRNA, RE-RNA, uaRNA, x-ncRNA, hY RNA, usRNA, snaR, vtRNA, T-UCR, pseudogenes, GRC-RNA, aRNA, PALR, PROMPT, LSINCT, o una combinación de los mismos.
Como alternativa o adicionalmente, la obtención de la información de secuencia puede comprender la secuenciación de regiones codificantes de proteínas. Las regiones codificantes de proteínas pueden comprender uno o más exones, intrones, regiones no traducidas o una combinación de los mismos.
En algunos casos, al menos una de las regiones no comprende KRAS o EGFR. En algunos casos, al menos dos de las regiones no comprenden KRAS y EGFR. En algunos casos, al menos una de las regiones no comprende KRAS, EGFR, p53, PIK3CA, BRAF, EZH2 o BRCA1. En algunos casos, al menos dos de las regiones no comprenden KRAS, EGFR, p53, PIK3CA, BRAF, EZH2 o BRCA1. En algunos casos, al menos tres de las regiones no comprenden KRAS, EGFR, p53, PIK3CA, BRAF, EZH2 o BRCA1. En algunos casos, al menos cuatro de las regiones no comprenden KRAS, EGFR, p53, PIK3CA, BRAF, EZH2 o BRCA1.
El método puede comprender además detectar mutaciones en las regiones basándose en la información de secuenciación. El pronóstico de la afección o enfermedad puede basarse en la detección de las mutaciones. La detección de al menos 3 mutaciones puede ser indicativa de un resultado de la afección o enfermedad. La detección de una o más mutaciones en tres o más regiones puede ser indicativa de un resultado de la afección o enfermedad.
La afección puede ser un cáncer. El cáncer puede ser un tumor sólido. El tumor sólido puede ser cáncer de pulmón no microcítico (NSCLC). El cáncer puede ser un cáncer de mama. El cáncer de mama puede ser un cáncer BRCA1. El cáncer puede ser un cáncer de pulmón, cáncer colorrectal, cáncer de próstata, cáncer de ovario, cáncer esofágico, cáncer de mama, linfoma o leucemia.
El método puede tener una sensibilidad de al menos el 50 %, 52 %, 55 %, 57 %, 60 %, 62 %, 65 %, 67 %, 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 % o 99 %.
El método puede tener una especificidad de al menos el 50 %, 52 %, 55 %, 57 %, 60 %, 62 %, 65 %, 67 %, 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 % o 99 %.
El método puede comprender además proporcionar un informe generado por ordenador que comprende el pronóstico de la afección.
En el presente documento también se desvelan métodos de diagnóstico, pronóstico o determinación de un régimen terapéutico para un sujeto afectado o susceptible de tener un cáncer. El método puede comprender (a) obtener información de secuencia para regiones seleccionadas de ADN genómico a partir de una muestra de ADN libre de células del sujeto; (b) usar la información de secuencia para determinar la presencia o ausencia de una o más mutaciones en las regiones seleccionadas, en donde al menos el 70 % de una población de sujetos afectados por el cáncer tiene una o más mutaciones en las regiones; y (c) proporcionar un informe con un diagnóstico, pronóstico o régimen de tratamiento para el sujeto, basado en la presencia o ausencia de dichas una o más mutaciones.
Las regiones seleccionadas pueden comprender un tamaño total de menos de 1,5 Mb del genoma. Las regiones seleccionadas pueden comprender un tamaño total de menos de 1 Mb del genoma. Las regiones seleccionadas pueden comprender un tamaño total de menos de 500 kb del genoma. Las regiones seleccionadas pueden comprender un tamaño total de menos de 350 kb del genoma. Las regiones seleccionadas pueden comprender un tamaño total de menos de 300 kb del genoma. Las regiones seleccionadas pueden comprender un tamaño total de menos de 250 kb del genoma. Las regiones seleccionadas pueden comprender un tamaño total de menos de 200 kb del genoma. Las regiones seleccionadas pueden comprender un tamaño total de menos de 150 kb del genoma. Las regiones seleccionadas pueden comprender un tamaño total de menos de 100 kb del genoma. Las regiones seleccionadas pueden comprender un tamaño total de menos de 50 kb del genoma. Las regiones seleccionadas pueden comprender un tamaño total de menos de 40 kb del genoma. Las regiones seleccionadas pueden comprender un tamaño total de menos de 30 kb del genoma. Las regiones seleccionadas pueden comprender un tamaño total de menos de 20 kb del genoma. Las regiones seleccionadas pueden comprender un tamaño total de menos de 10 kb del genoma.
Las regiones seleccionadas pueden comprender un tamaño total entre 100 kb y 300 kb del genoma. Las regiones seleccionadas pueden comprender un tamaño total entre 5 kb y 200 kb del genoma. Las regiones seleccionadas pueden comprender un tamaño total entre 5 kb y 150 kb del genoma. Las regiones seleccionadas pueden comprender un tamaño total entre 5 kb y 100 kb del genoma. Las regiones seleccionadas pueden comprender un tamaño total entre 5 kb y 75 kb del genoma. Las regiones seleccionadas pueden comprender un tamaño total entre 1 kb y 50 kb del genoma.
La información de secuencia puede proceder de 2 o más regiones. La información de secuencia puede proceder de 3 o más regiones. La información de secuencia puede proceder de 4 o más regiones. La información de secuencia puede proceder de 5 o más regiones. La información de secuencia puede proceder de 6 o más regiones. La información de secuencia puede proceder de 7 o más regiones. La información de secuencia puede proceder de 8 o más regiones. La información de secuencia puede proceder de 9 o más regiones. La información de secuencia puede proceder de 10 o más regiones. La información de secuencia puede proceder de 20 o más regiones. La información de secuencia puede proceder de 30 o más regiones. La información de secuencia puede proceder de 40 o más regiones. La información de secuencia puede proceder de 50 o más regiones. La información de secuencia puede proceder de 60 o más regiones. La información de secuencia puede proceder de 70 o más regiones. La información de secuencia puede proceder de 80 o más regiones. La información de secuencia puede proceder de 90 o más regiones. La información de secuencia puede proceder de 100 o más regiones.
La población de sujetos afectados por el cáncer puede ser sujetos de una o más bases de datos. Dichas una o más bases de datos pueden comprender el Atlas del Genoma del Cáncer (TCGA).
La información de secuencia puede proceder de regiones que pueden estar mutadas en al menos el 65 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que pueden estar mutadas en al menos el 70 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que pueden estar mutadas en al menos el 75 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que pueden estar mutadas en al menos el 80 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que pueden estar mutadas en al menos el 85 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que pueden estar mutadas en al menos el 90 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que pueden estar mutadas en al menos el 95 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que pueden estar mutadas en al menos el 99 % de la población de sujetos afectados por el cáncer.
La obtención de la información de secuencia puede comprender la secuenciación de regiones no codificantes. Las regiones no codificantes pueden comprender uno o más lncRNA, snoRNA, siRNA, miRNA, piRNA, tiRNA, PASR, TASR, aTASR, TSSa-RNA, snRNA, RE-RNA, uaRNA, x-ncRNA, hY RNA, usRNA, snaR, vtRNA, T-UCR, pseudogenes, GRC-RNA, aRNA, PALR, PROMPT, LSINCT, o una combinación de los mismos.
Como alternativa o adicionalmente, la obtención de la información de secuencia puede comprender la secuenciación de regiones codificantes de proteínas. Las regiones codificantes de proteínas pueden comprender uno o más exones, intrones, regiones no traducidas o una combinación de los mismos.
En algunos casos, al menos una de las regiones no comprende KRAS o EGFR. En algunos casos, al menos dos de las regiones no comprenden KRAS y EGFR. En algunos casos, al menos una de las regiones no comprende KRAS, EGFR, p53, PIK3CA, BRAF, EZH2 o BRCA1. En algunos casos, al menos dos de las regiones no comprenden KRAS, EGFR, p53, PIK3CA, BRAF, EZH2 o BRCA1. En algunos casos, al menos tres de las regiones no comprenden KRAS, EGFR, p53, PIK3CA, BRAF, EZH2 o BRCA1. En algunos casos, al menos cuatro de las regiones no comprenden KRAS, EGFR, p53, PIK3CA, BRAF, EZH2 o BRCA1.
La detección de al menos 3 mutaciones puede ser indicativa de un resultado del cáncer. La detección de al menos 4 mutaciones puede ser indicativa de un resultado del cáncer. La detección de al menos 5 mutaciones puede ser indicativa de un resultado del cáncer. La detección de al menos 6 mutaciones puede ser indicativa de un resultado del cáncer.
La detección de una o más mutaciones en tres o más regiones puede ser indicativa de un resultado del cáncer. La detección de una o más mutaciones en cuatro o más regiones puede ser indicativa de un resultado del cáncer. La detección de una o más mutaciones en cinco o más regiones puede ser indicativa de un resultado del cáncer. La detección de una o más mutaciones en seis o más regiones puede ser indicativa de un resultado del cáncer.
El cáncer puede ser cáncer de pulmón no microcítico (NSCLC). El cáncer puede ser un cáncer de mama. El cáncer de mama puede ser un cáncer BRCA1. El cáncer puede ser un cáncer de pulmón, cáncer colorrectal, cáncer de próstata, cáncer de ovario, cáncer esofágico, cáncer de mama, linfoma o leucemia.
El método de diagnóstico o pronóstico del cáncer puede tener una sensibilidad de al menos el 50 %, 52 %, 55 %, 57 %, 60 %, 62 %, 65 %, 67 %, 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 % o 99 %. El método de diagnóstico o pronóstico del cáncer puede tener una especificidad de al menos el 50 %, 52 %, 55 %, 57 %, 60 %, 62 %, 65 %, 67 %, 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 % o 99 %.
Puede comprender además administrar un fármaco terapéutico al sujeto. Además, puede comprender modificar un régimen terapéutico. La modificación del régimen terapéutico puede comprender terminar el régimen terapéutico. La modificación del régimen terapéutico puede comprender aumentar la dosis o la frecuencia del régimen terapéutico. La modificación del régimen terapéutico puede comprender disminuir la dosis o la frecuencia del régimen terapéutico. La modificación del régimen terapéutico puede comprender iniciar el régimen terapéutico.
En el presente documento se desvelan además métodos para determinar una región terapéutica para el tratamiento de una afección en un sujeto que lo necesite. El método puede comprender (a) obtener información de secuencia de ADN genómico libre de células derivado de una muestra de un sujeto, en donde la información de secuencia puede proceder de regiones que están mutadas en al menos el 80 % de una población de sujetos afectados por una afección; y (b) determinar un régimen terapéutico para una afección en el sujeto basándose en la información de la secuencia.
Las regiones que están mutadas pueden comprender un tamaño total de menos de 1,5 Mb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 1 Mb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 500 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 350 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 300 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 250 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 200 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 150 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 100 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 50 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 40 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 30 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 20 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 10 kb del genoma.
Las regiones que están mutadas pueden comprender un tamaño total entre 100 kb y 300 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total entre 5 kb y 200 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total entre 5 kb y 150 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total entre 5 kb y 100 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total entre 5 kb y 75 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total entre 1 kb y 50 kb del genoma.
La información de secuencia puede proceder de 2 o más regiones. La información de secuencia puede proceder de 3 o más regiones. La información de secuencia puede proceder de 4 o más regiones. La información de secuencia puede proceder de 5 o más regiones. La información de secuencia puede proceder de 6 o más regiones. La información de secuencia puede proceder de 7 o más regiones. La información de secuencia puede proceder de 8 o más regiones. La información de secuencia puede proceder de 9 o más regiones. La información de secuencia puede proceder de 10 o más regiones. La información de secuencia puede proceder de 20 o más regiones. La información de secuencia puede proceder de 30 o más regiones. La información de secuencia puede proceder de 40 o más regiones. La información de secuencia puede proceder de 50 o más regiones. La información de secuencia puede proceder de 60 o más regiones. La información de secuencia puede proceder de 70 o más regiones. La información de secuencia puede proceder de 80 o más regiones. La información de secuencia puede proceder de 90 o más regiones. La información de secuencia puede proceder de 100 o más regiones.
La población de sujetos afectados por el cáncer puede ser sujetos de una o más bases de datos. Dichas una o más bases de datos pueden comprender el Atlas del Genoma del Cáncer (TCGA).
La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 60 % de la población de sujetos afectados por el cáncer. La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 70 % de la población de sujetos afectados por el cáncer. La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 80 % de la población de sujetos afectados por el cáncer. La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 90 % de la población de sujetos afectados por el cáncer. La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 95 % de la población de sujetos afectados por el cáncer. La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 99 % de la población de sujetos afectados por el cáncer.
La información de secuencia puede proceder de regiones que pueden estar mutadas en al menos el 65 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que pueden estar mutadas en al menos el 70 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que pueden estar mutadas en al menos el 75 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que pueden estar mutadas en al menos el 80 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que pueden estar mutadas en al menos el 85 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que pueden estar mutadas en al menos el 90 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que pueden estar mutadas en al menos el 95 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que pueden estar mutadas en al menos el 99 % de la población de sujetos afectados por el cáncer.
La obtención de la información de secuencia puede comprender la secuenciación de regiones no codificantes. Las regiones no codificantes pueden comprender uno o más lncRNA, snoRNA, siRNA, miRNA, piRNA, tiRNA, PASR, TASR, aTASR, TSSa-RNA, snRNA, RE-RNA, uaRNA, x-ncRNA, hY RNA, usRNA, snaR, vtRNA, T-UCR, pseudogenes, GRC-RNA, aRNA, PALR, PROMPT, LSINCT, o una combinación de los mismos.
Como alternativa o adicionalmente, la obtención de la información de secuencia puede comprender la secuenciación de regiones codificantes de proteínas. Las regiones codificantes de proteínas pueden comprender uno o más exones, intrones, regiones no traducidas o una combinación de los mismos.
En algunos casos, al menos una de las regiones no comprende KRAS o EGFR. En algunos casos, al menos dos de las regiones no comprenden KRAS y EGFR. En algunos casos, al menos una de las regiones no comprende KRAS, EGFR, p53, PIK3CA, BRAF, EZH2 o BRCA1. En algunos casos, al menos dos de las regiones no comprenden KRAS, EGFR, p53, PIK3CA, BRAF, EZH2 o BRCA1. En algunos casos, al menos tres de las regiones no comprenden KRAS, EGFR, p53, PIK3CA, BRAF, EZH2 o BRCA1. En algunos casos, al menos cuatro de las regiones no comprenden KRAS, EGFR, p53, PIK3CA, BRAF, EZH2 o BRCA1.
El método puede comprender además detectar mutaciones en las regiones basándose en la información de secuenciación. La determinación del régimen terapéutico puede basarse en la detección de mutaciones.
La afección puede ser un cáncer. El cáncer puede ser un tumor sólido. El tumor sólido puede ser cáncer de pulmón no microcítico (NSCLC). El cáncer puede ser un cáncer de mama. El cáncer de mama puede ser un cáncer BRCA1. El cáncer puede ser un cáncer de pulmón, cáncer colorrectal, cáncer de próstata, cáncer de ovario, cáncer esofágico, cáncer de mama, linfoma o leucemia.
En el presente documento se desvelan además métodos para evaluar la carga tumoral en un sujeto que lo necesite. El método puede comprender (a) obtener información de secuencia sobre ácidos nucleicos libres de células derivados de una muestra del sujeto; (b) utilizar un medio legible por ordenador para determinar las cantidades de ADN tumoral circulante (ctDNA) en la muestra; (c) evaluar la carga tumoral basándose en las cantidades de ctDNA; y (d) notificar la carga tumoral al sujeto o a un representante del sujeto.
La determinación de cantidades de ctDNA puede comprender la determinación de cantidades absolutas de ctDNA. La determinación de cantidades de ctDNA puede comprender la determinación de cantidades relativas de ctDNA. La determinación de las cantidades de ctDNA puede realizarse contando las lecturas de secuencia pertenecientes al ctDNA. La determinación de las cantidades de ctDNA se puede realizar mediante PCR cuantitativa. La determinación de las cantidades de ctDNA se puede realizar mediante PCR digital. La determinación de las cantidades de ctDNA puede comprender el recuento de las lecturas de secuenciación del ctDNA.
La determinación de las cantidades de ctDNA puede realizarse mediante la generación de un código de barras molecular del ctDNA. La generación del código de barras molecular del ctDNA puede comprender unir adaptadores a uno o más extremos del ctDNA. El adaptador puede comprender una pluralidad de oligonucleótidos. El adaptador puede comprender uno o más desoxirribonucleótidos. El adaptador puede comprender ribonucleótidos. El adaptador puede ser monocatenario. El adaptador puede ser bicatenario. El adaptador puede comprender porciones bicatenarias y monocatenarias. Por ejemplo, el adaptador puede ser un adaptador en forma de Y. El adaptador puede ser un adaptador lineal. El adaptador puede ser un adaptador circular. El adaptador puede comprender un código de barras molecular, índice de muestra, secuencia de cebador, secuencia enlazadora o una combinación de las mismas. El código de barras molecular puede estar adyacente al índice de la muestra. El código de barras molecular puede estar adyacente a la secuencia del cebador. El índice de muestra puede estar adyacente a la secuencia del cebador. Una secuencia enlazadora puede conectar el código de barras molecular al índice de muestra. Una secuencia enlazadora puede conectar el código de barras molecular a la secuencia del cebador. Una secuencia enlazadora puede conectar el índice de muestra a la secuencia del cebador.
El adaptador puede comprender un código de barras molecular. El código de barras molecular puede comprender una secuencia aleatoria. El código de barras molecular puede comprender una secuencia predeterminada. Dos o más adaptadores pueden comprender dos o más códigos de barras moleculares diferentes. Los códigos de barras moleculares se pueden optimizar para minimizar la dimerización. Los códigos de barras moleculares pueden optimizarse para permitir la identificación incluso con errores de secuenciación o amplificación. Como ejemplos, la amplificación de un primer código de barras molecular puede introducir un error de una sola base. El primer código de barras molecular puede comprender una diferencia mayor que una sola base con respecto a los otros códigos de barras moleculares. Por tanto, el primer código de barras molecular con el error de una sola base sigue pudiendo identificarse como el primer código de barras molecular. El código de barras molecular puede comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10 o más nucleótidos. El código de barras molecular puede comprender al menos 3 nucleótidos. El código de barras molecular puede comprender al menos 4 nucleótidos. El código de barras molecular puede comprender menos de 20, 19, 18, 17, 16 o 15 nucleótidos. El código de barras molecular puede comprender menos de 10 nucleótidos. El código de barras molecular puede comprender menos de 8 nucleótidos. El código de barras molecular puede comprender menos de 6 nucleótidos. El código de barras molecular puede comprender de 2 a 15 nucleótidos. El código de barras molecular puede comprender de 2 a 12 nucleótidos. El código de barras molecular puede comprender de 3 a 10 nucleótidos. El código de barras molecular puede comprender de 3 a 8 nucleótidos. El código de barras molecular puede comprender de 4 a 8 nucleótidos. El código de barras molecular puede comprender de 4 a 6 nucleótidos.
El adaptador puede comprender un índice de muestra. El índice de muestra puede comprender una secuencia aleatoria. El índice de muestra puede comprender una secuencia predeterminada. Dos o más conjuntos de adaptadores pueden comprender dos o más índices de muestra diferentes. Los adaptadores dentro de un conjunto de adaptadores pueden comprender índices de muestra idénticos. Los índices de muestra se pueden optimizar para minimizar la dimerización. Los índices de muestra pueden optimizarse para permitir la identificación incluso con errores de secuenciación o amplificación. Como ejemplos, la amplificación de un primer índice de muestra puede introducir un error de una sola base. El primer índice de muestra puede comprender una diferencia mayor que una sola base con respecto a los otros índices de muestra. Por tanto, el primer índice de muestra con el error de una sola base sigue pudiendo identificarse como el primer código de barras molecular. El índice de muestra puede comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10 o más nucleótidos. El índice de muestra puede comprender al menos 3 nucleótidos. El índice de muestra puede comprender al menos 4 nucleótidos. El índice de muestra puede comprender menos de 20, 19, 18, 17, 16 o 15 nucleótidos. El índice de muestra puede comprender menos de 10 nucleótidos. El índice de muestra puede comprender menos de 8 nucleótidos. El índice de muestra puede comprender menos de 6 nucleótidos. El índice de muestra puede comprender de 2 a 15 nucleótidos. El índice de muestra puede comprender de 2 a 12 nucleótidos. El índice de muestra puede comprender de 3 a 10 nucleótidos. El índice de muestra puede comprender de 3 a 8 nucleótidos. El índice de muestra puede comprender de 4 a 8 nucleótidos. El índice de muestra puede comprender de 4 a 6 nucleótidos.
El adaptador puede comprender una secuencia de cebador. La secuencia del cebador puede ser una secuencia del cebador de PCR. La secuencia del cebador puede ser un cebador de secuenciación.
Pueden unirse adaptadores a un extremo de un ácido nucleico de una muestra. Los ácidos nucleicos pueden ser ADN. El ADN puede ser ADN libre de células (cfDNA). El ADN puede ser ADN tumoral circulante (ctDNA). Los ácidos nucleicos pueden ser ARN. Se pueden unir adaptadores a los dos extremos del ácido nucleico. Los adaptadores pueden unirse a uno o más extremos de un ácido nucleico monocatenario. Los adaptadores pueden unirse a uno o más extremos de un ácido nucleico bicatenario.
Los adaptadores pueden unirse al ácido nucleico mediante ligamiento. El ligamiento puede ser ligamiento de extremos romos. El ligamiento puede ser ligamiento de extremos adhesivos. Los adaptadores pueden unirse al ácido nucleico mediante extensión del cebador. Los adaptadores pueden unirse al ácido nucleico mediante transcripción inversa. Los adaptadores pueden unirse a los ácidos nucleicos mediante hibridación. Los adaptadores pueden comprender una secuencia que sea al menos parcialmente complementaria al ácido nucleico. Como alternativa, en algunos casos, los adaptadores no comprenden una secuencia que sea complementaria al ácido nucleico.
La información de secuencia puede comprender información relacionada con una o más regiones genómicas. La información de secuencia puede comprender información relacionada con al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 100, 200, 300 regiones genómicas. Las regiones genómicas pueden comprender genes, regiones exónicas, regiones intrónicas, regiones no traducidas, regiones no codificantes o una combinación de las mismas.
Las regiones genómicas pueden comprender dos o más regiones exónicas, regiones intrónicas y regiones no traducidas. Las regiones genómicas pueden comprender al menos una región exónica y al menos una región intrónica. Al menos el 1 %, 2 %, 3 %, 4 %, 5 %, 6 %, 7 %, 8 %, 9 %, 10 %, 15 %, 20 % o 25 % de las regiones genómicas pueden comprender regiones intrónicas. Al menos el 1 %, 2 %, 3 %, 4 %, 5 %, 6 %, 7 %, 8 %, 9 %, 10 %, 15 %, 20 % o 25 % de las regiones genómicas pueden comprender regiones no traducidas. Al menos aproximadamente el 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas pueden comprender regiones exónicas. Al menos, menos de aproximadamente el 97 %, 95 %, 93 %, 90 %, 87 %, 85 %, 83 %, 80 %, 75 %, 70 %, 65 %, 60 %, 55 %, 50% de las regiones genómicas pueden comprender regiones exónicas.
Las regiones genómicas pueden comprender menos de 1,5 megabases (Mb) del genoma. Las regiones genómicas pueden comprender menos de 1 Mb del genoma.
Las regiones genómicas pueden comprender menos de 500 kilobases (kb) del genoma.
Las regiones genómicas pueden comprender menos de 350 kb del genoma. Las regiones genómicas pueden comprender menos de 300 kb del genoma. Las regiones genómicas pueden comprender menos de 250 kb del genoma. Las regiones genómicas pueden comprender menos de 200 kb del genoma. Las regiones genómicas pueden comprender menos de 150 kb del genoma. Las regiones genómicas pueden comprender menos de 100 kb del genoma. Las regiones genómicas pueden comprender menos de 50 kb del genoma. Las regiones genómicas pueden comprender menos de 40 kb, 30 kb, 20 kb o 10 kb del genoma.
Las regiones genómicas pueden comprender entre 100 kb y 300 kb del genoma. Las regiones genómicas pueden comprender entre 100 kb y 200 kb del genoma. Las regiones genómicas pueden comprender entre 10 kb y 300 kb del genoma. Las regiones genómicas pueden comprender entre 10 kb y 300 kb del genoma. Las regiones genómicas pueden comprender entre 10 kb y 200 kb del genoma. Las regiones genómicas pueden comprender entre 10 kb y 150 kb del genoma. Las regiones genómicas pueden comprender entre 10 kb y 100 kb del genoma. Las regiones genómicas pueden comprender entre 10 kb y 75 kb del genoma. Las regiones genómicas pueden comprender entre 5 kb y 70 kb del genoma. Las regiones genómicas pueden comprender entre 1 kb y 50 kb del genoma.
La información de secuencia puede comprender información relativa a 1,2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20 o más regiones genómicas de un conjunto selector que comprende una pluralidad de regiones genómicas. La información de secuencia puede comprender información relativa a 25, 30, 40, 50, 60, 70, 80, 90, 100 o más regiones genómicas de un conjunto selector que comprende una pluralidad de regiones genómicas.
La información de secuencia puede comprender información relativa a una pluralidad de regiones genómicas.
La pluralidad de regiones genómicas puede basarse en un conjunto selector que comprende regiones genómicas que comprenden una o más mutaciones presentes en uno o más sujetos de una población de sujetos con cáncer. Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de la pluralidad de regiones genómicas puede estar basada en un conjunto selector que comprende regiones genómicas que comprenden una o más mutaciones presentes en uno o más sujetos de una población de sujetos con cáncer.
El tamaño total de las regiones genómicas del conjunto selector puede comprender menos de 1,5 megabases (Mb), 1 Mb, 500 kilobases (kb), 350 kb, 300 kb, 250 kb, 200 kb o 150 kb del genoma. El tamaño total de las regiones genómicas del conjunto selector puede estar entre 100 kb y 300 kb del genoma.
El conjunto selector puede comprender 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 100 o más regiones genómicas seleccionadas de la Tabla 2.
La obtención de información de secuencia puede comprender la realización de una secuenciación masivamente paralela. Puede realizarse una secuenciación masivamente paralela en un subconjunto de un genoma de los ácidos nucleicos libres de células de la muestra.
El subconjunto del genoma puede comprender menos de 1,5 megabases (Mb), 1 Mb, 500 kilobases (kb), 350 kb, 300 kb, 250 kb, 200 kb, 150 kb, 100 kb, 75 kb, 50 kb, 40 kb, 30 kb, 20 kb, 10 kb o 5 kb del genoma. El subconjunto del genoma puede comprender entre 100 kb y 300 kb del genoma. El subconjunto del genoma puede comprender entre 100 kb y 200 kb del genoma. El subconjunto del genoma puede comprender entre 10 kb y 300 kb del genoma. El subconjunto del genoma puede comprender entre 10 kb y 200 kb del genoma. El subconjunto del genoma puede comprender entre 10 kb y 100 kb del genoma. El subconjunto del genoma puede comprender entre 5 kb y 100 kb del genoma. El subconjunto del genoma puede comprender entre 5 kb y 70 kb del genoma. El subconjunto del genoma puede comprender entre 1 kb y 50 kb del genoma.
El método puede comprender obtener información de secuenciación de muestras de ADN libres de células a partir de dos o más muestras del sujeto. El método puede comprender obtener información de secuenciación de muestras de ADN libres de células a partir de dos o más muestras de dos o más sujetos. Las dos o más muestras pueden ser del mismo tipo de muestra. Las dos o más muestras pueden ser dos tipos diferentes de muestra. Las dos o más muestras pueden obtenerse en el mismo momento. Las dos o más muestras se pueden obtener en dos o más momentos.
La determinación de las cantidades de ctDNA puede comprender la detección de una o más mutaciones. La determinación de las cantidades de ctDNA puede comprender la detección de dos o más tipos diferentes de mutaciones. Los tipos de mutaciones incluyen, pero sin limitación, SNV, indeles, fusiones, puntos de rotura, variantes estructurales, número variable de repeticiones en tándem, regiones hipervariables, minisatélites, repeticiones dinucleotídicas, repeticiones trinucleotídicas, repeticiones tetranucleotídicas, repeticiones de secuencia sencilla, o una combinación de las mismas en regiones seleccionadas del genoma del sujeto. La determinación de las cantidades de ctDNA puede comprender la detección de uno o más SNV, indeles, variantes del número de copias y reordenamientos en regiones seleccionadas del genoma del sujeto. La determinación de las cantidades de ctDNA puede comprender la detección de dos o más SNV, indeles, variantes del número de copias y reordenamientos en regiones seleccionadas del genoma del sujeto. La determinación de las cantidades de ctDNA puede comprender la detección de al menos un SNV, indel, variante del número de copias y reordenamiento en regiones seleccionadas del genoma del sujeto.
En algunos casos, la determinación de las cantidades de ctDNA comprende la realización de PCR digital (dPCR). La determinación de las cantidades de ctDNA puede comprender la aplicación de un algoritmo a la información de secuencia para determinar una cantidad de una o más regiones genómicas a partir de un conjunto selector.
El conjunto selector puede comprender una pluralidad de regiones genómicas que comprenden una o más mutaciones presentes en uno o más sujetos con cáncer de una población de sujetos con cáncer. El conjunto selector puede comprender una pluralidad de regiones genómicas que comprenden dos o más tipos diferentes de mutaciones presentes en uno o más sujetos con cáncer de una población de sujetos con cáncer. El conjunto selector puede comprender una pluralidad de regiones genómicas que comprenden una o más mutaciones presentes en al menos aproximadamente el 60 % de los sujetos con cáncer de la población de sujetos con cáncer.
El representante del sujeto puede ser un proveedor de atención médica. El proveedor de atención médica puede ser una enfermera, médico, técnico médico o personal del hospital. El representante del sujeto puede ser un miembro de la familia del sujeto. El representante del sujeto puede ser un tutor legal del sujeto.
En el presente documento también se desvelan métodos para determinar el estado patológico de un cáncer en un sujeto. El método puede comprender (a) obtener una cantidad de ADN tumoral circulante (ctDNA) en una muestra del sujeto; (b) obtener un volumen de un tumor en el sujeto; y (c) determinar el estado patológico de un cáncer en el sujeto basándose en la relación entre la cantidad de ctDNA y el volumen del tumor. Una relación alta de ctDNA con respecto al volumen puede ser indicativa de una enfermedad radiográficamente oculta. Una relación baja de ctDNA con respecto al volumen puede ser indicativa de un estado no maligno.
El método puede comprender además modificar un diagnóstico o pronóstico del cáncer basándose en la relación de la cantidad de ctDNA con respecto al volumen del tumor. El método puede comprender diagnosticar un estadio del cáncer basándose en la relación de la cantidad de ctDNA con respecto al volumen del tumor. La modificación del diagnóstico puede comprender un cambio en el estadio del cáncer basado en la relación de la cantidad de ctDNA con respecto al volumen del tumor. Por ejemplo, a un sujeto se le puede diagnosticar un cáncer en estadio III. Sin embargo, una baja relación de la cantidad de ctDNA con respecto al volumen del tumor puede ocasionar un ajuste del diagnóstico del cáncer a un cáncer en estadio I o II. La modificación de un pronóstico del cáncer puede comprender un cambio en el resultado o estadio del cáncer previsto. Por ejemplo, un médico puede predecir que un cáncer en el sujeto está en remisión basándose en el volumen del tumor. Sin embargo, una alta relación de la cantidad de ctDNA con respecto al volumen del tumor puede dar como resultado una predicción de que el cáncer es recurrente.
La obtención del volumen del tumor puede comprender la obtención de una imagen del tumor. La obtención del volumen del tumor puede comprender la obtención de una exploración CT del tumor.
La obtención de la cantidad de ctDNA puede comprender PCR. La obtención de la cantidad de ctDNA puede comprender PCR digital. La obtención de la cantidad de ctDNA puede comprender PCR cuantitativa.
La obtención de la cantidad de ctDNA puede comprender la obtención de información de secuenciación sobre el ctDNA. La información de secuenciación puede comprender información relacionada con una o más regiones genómicas basada en un conjunto selector.
La obtención de la cantidad de ctDNA puede comprender la hibridación del ctDNA a una matriz. La matriz puede comprender una pluralidad de sondas para la hibridación selectiva de una o más regiones genómicas basada en un conjunto selector. El conjunto selector puede comprender una o más regiones genómicas de la Tabla 2. El conjunto selector puede comprender una o más regiones genómicas que comprenden una o más mutaciones, en donde dichas una o más mutaciones pueden estar presentes en una población de sujetos que padecen un cáncer. El conjunto selector puede comprender una pluralidad de regiones genómicas que comprenden una pluralidad de mutaciones, en donde la pluralidad de mutaciones puede estar presente en al menos el 60 % de una población de sujetos que padecen un cáncer.
En el presente documento también se desvelan métodos para detectar el cáncer en estadio I en un sujeto que lo necesita. El método puede comprender (a) realizar la secuenciación en ADN libre de células derivado de una muestra, en donde el ADN libre de células a secuenciar puede estar basado en un conjunto selector que comprende una pluralidad de regiones genómicas; (b) usar un medio legible por ordenador para determinar la cantidad de ADN libre de células; y (c) detectar un cáncer en estadio I en la muestra basándose en la cantidad del ADN libre de células.
La determinación de la cantidad del ADN libre de células puede comprender la determinación de cantidades absolutas de ADN libre de células. La cantidad del ADN libre de células puede determinarse contando las lecturas de secuenciación pertenecientes al ADN libre de células. La cantidad del ADN libre de células puede determinarse mediante PCR cuantitativa.
La determinación de cantidades de ADN libre de células (cfDNA) se puede realizar mediante la generación del código de barras molecular del cfDNA. La generación del código de barras molecular del cfDNA puede comprender unir adaptadores a uno o más extremos del cfDNA. El adaptador puede comprender una pluralidad de oligonucleótidos. El adaptador puede comprender uno o más desoxirribonucleótidos. El adaptador puede comprender ribonucleótidos. El adaptador puede ser monocatenario. El adaptador puede ser bicatenario. El adaptador puede comprender porciones monocatenarias y bicatenarias. Por ejemplo, el adaptador puede ser un adaptador en forma de Y. El adaptador puede ser un adaptador lineal. El adaptador puede ser un adaptador circular. El adaptador puede comprender un código de barras molecular, índice de muestra, secuencia de cebador, secuencia enlazadora o una combinación de las mismas. El código de barras molecular puede estar adyacente al índice de la muestra. El código de barras molecular puede estar adyacente a la secuencia del cebador. El índice de muestra puede estar adyacente a la secuencia del cebador. Una secuencia enlazadora puede conectar el código de barras molecular al índice de muestra. Una secuencia enlazadora puede conectar el código de barras molecular a la secuencia del cebador. Una secuencia enlazadora puede conectar el índice de muestra a la secuencia del cebador.
El adaptador puede comprender un código de barras molecular. El código de barras molecular puede comprender una secuencia aleatoria. El código de barras molecular puede comprender una secuencia predeterminada. Dos o más adaptadores pueden comprender dos o más códigos de barras moleculares diferentes. Los códigos de barras moleculares se pueden optimizar para minimizar la dimerización. Los códigos de barras moleculares pueden optimizarse para permitir la identificación incluso con errores de secuenciación o amplificación. Como ejemplos, la amplificación de un primer código de barras molecular puede introducir un error de una sola base. El primer código de barras molecular puede comprender una diferencia mayor que una sola base con respecto a los otros códigos de barras moleculares. Por tanto, el primer código de barras molecular con el error de una sola base sigue pudiendo identificarse como el primer código de barras molecular. El código de barras molecular puede comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10 o más nucleótidos. El código de barras molecular puede comprender al menos 3 nucleótidos.
El código de barras molecular puede comprender al menos 4 nucleótidos. El código de barras molecular puede comprender menos de 20, 19, 18, 17, 16 o 15 nucleótidos. El código de barras molecular puede comprender menos de 10 nucleótidos. El código de barras molecular puede comprender menos de 8 nucleótidos. El código de barras molecular puede comprender menos de 6 nucleótidos. El código de barras molecular puede comprender de 2 a 15 nucleótidos. El código de barras molecular puede comprender de 2 a 12 nucleótidos. El código de barras molecular puede comprender de 3 a 10 nucleótidos. El código de barras molecular puede comprender de 3 a 8 nucleótidos. El código de barras molecular puede comprender de 4 a 8 nucleótidos. El código de barras molecular puede comprender de 4 a 6 nucleótidos.
El adaptador puede comprender un índice de muestra. El índice de muestra puede comprender una secuencia aleatoria. El índice de muestra puede comprender una secuencia predeterminada. Dos o más conjuntos de adaptadores pueden comprender dos o más índices de muestra diferentes. Los adaptadores dentro de un conjunto de adaptadores pueden comprender índices de muestra idénticos. Los índices de muestra se pueden optimizar para minimizar la dimerización. Los índices de muestra pueden optimizarse para permitir la identificación incluso con errores de secuenciación o amplificación. Como ejemplos, la amplificación de un primer índice de muestra puede introducir un error de una sola base. El primer índice de muestra puede comprender una diferencia mayor que una sola base con respecto a los otros índices de muestra. Por tanto, el primer índice de muestra con el error de una sola base sigue pudiendo identificarse como el primer código de barras molecular. El índice de muestra puede comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10 o más nucleótidos. El índice de muestra puede comprender al menos 3 nucleótidos. El índice de muestra puede comprender al menos 4 nucleótidos. El índice de muestra puede comprender menos de 20, 19, 18, 17, 16 o 15 nucleótidos. El índice de muestra puede comprender menos de 10 nucleótidos. El índice de muestra puede comprender menos de 8 nucleótidos. El índice de muestra puede comprender menos de 6 nucleótidos. El índice de muestra puede comprender de 2 a 15 nucleótidos. El índice de muestra puede comprender de 2 a 12 nucleótidos. El índice de muestra puede comprender de 3 a 10 nucleótidos. El índice de muestra puede comprender de 3 a 8 nucleótidos. El índice de muestra puede comprender de 4 a 8 nucleótidos. El índice de muestra puede comprender de 4 a 6 nucleótidos.
El adaptador puede comprender una secuencia de cebador. La secuencia del cebador puede ser una secuencia del cebador de PCR. La secuencia del cebador puede ser un cebador de secuenciación.
Los adaptadores se pueden unir a un extremo del cfDNA. Los adaptadores se pueden unir a los dos extremos del cfDNA. Los adaptadores se pueden unir a uno o más extremos de un cfDNA monocatenario. Los adaptadores se pueden unir a uno o más extremos de un cfDNA bicatenario.
Los adaptadores se pueden unir al cfDNA mediante ligamiento. El ligamiento puede ser ligamiento de extremos romos. El ligamiento puede ser ligamiento de extremos adhesivos. Los adaptadores se pueden unir al cfDNA mediante extensión del cebador. Los adaptadores se pueden unir al cfDNA mediante transcripción inversa. Los adaptadores se pueden unir al cfDNA mediante hibridación. Los adaptadores pueden comprender una secuencia que sea al menos parcialmente complementaria al cfDNA. Como alternativa, en algunos casos, los adaptadores no comprenden una secuencia que es complementaria al cfDNA.
La secuenciación puede comprender una secuenciación masivamente paralela. La secuenciación puede comprender la secuenciación de escopeta (shotgun).
El conjunto selector puede comprender 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95 o 100 o más regiones genómicas de la Tabla 2.
Al menos el 20 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % o más de las regiones genómicas en el conjunto selector pueden estar basadas en las regiones genómicas de la Tabla 2.
La pluralidad de regiones genómicas puede comprender una o más mutaciones presentes en al menos el 60 %, 62 %, 65 %, 67 %, 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 92 %, 95 %, 97 % o 99 % o más de una población de sujetos que padecen el cáncer.
El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede comprender menos de 1,5 megabases (Mb), 1 Mb, 500 kilobases (kb), 350 kb, 300 kb, 250 kb, 200 kb o 150 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede comprender menos de 100 kb, 90 kb, 80 kb, 70 kb, 60 kb, 50 kb, 40 kb, 30 kb, 20 kb, 10 kb, 5 kb o 1 kb de un genoma.
El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 100 kb y 300 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 100 kb y 200 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 10 kb y 300 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 10 kb y 200 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 10 kb y 100 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 5 kb y 100 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 5 kb y 75 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 5 kb y 50 kb de un genoma.
El método para detectar el cáncer en estadio I puede tener una sensibilidad de al menos el 60 %, 65 %, 70 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 92 %, 95 %, 97 % o 99 % o más. El método para detectar el cáncer en estadio I puede tener una sensibilidad de al menos el 60 %. El método para detectar el cáncer en estadio I puede tener una sensibilidad de al menos el 70 %. El método para detectar el cáncer en estadio I puede tener una sensibilidad de al menos el 80 %. El método para detectar el cáncer en estadio I puede tener una sensibilidad de al menos el 90 %. El método para detectar el cáncer en estadio I puede tener una sensibilidad de al menos el 95 %.
El método para detectar el cáncer en estadio I puede tener una especificidad de al menos el 60 %, 65 %, 70 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 92 %, 95 %, 97 % o 99 % o más. El método para detectar el cáncer en estadio I puede tener una especificidad de al menos el 60 %. El método para detectar el cáncer en estadio I puede tener una especificidad de al menos el 70 %. El método para detectar el cáncer en estadio I puede tener una especificidad de al menos el 80 %. El método para detectar el cáncer en estadio I puede tener una especificidad de al menos el 90 %. El método para detectar el cáncer en estadio I puede tener una especificidad de al menos el 95 %.
El método puede detectar al menos el 50 %, 52 %, 55 %, 57 %, 60 %, 62 %, 65 %, 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 92 %, 95 %, 97 % o más del cáncer en estadio I. El método puede detectar al menos el 50 % o más de cáncer en estadio I. El método puede detectar al menos el 60 % o más de cáncer en estadio I. El método puede detectar al menos el 70 % o más de cáncer en estadio I. El método puede detectar al menos el 75 % o más de cáncer en estadio I.
En el presente documento también se desvelan métodos para detectar cáncer en estadio II. El método puede comprender (a) realizar la secuenciación en ADN libre de células derivado de una muestra, en donde el ADN libre de células a secuenciar puede estar basado en un conjunto selector que comprende una pluralidad de regiones genómicas; (b) usar un medio legible por ordenador para determinar la cantidad de ADN libre de células; y (c) detectar un cáncer en estadio II en la muestra basándose en la cantidad de ADN libre de células.
La determinación de la cantidad del ADN libre de células puede comprender la determinación de cantidades absolutas de ADN libre de células. La cantidad del ADN libre de células puede determinarse contando las lecturas de secuenciación pertenecientes al ADN libre de células. La cantidad del ADN libre de células puede determinarse mediante PCR cuantitativa.
La determinación de cantidades de ADN libre de células (cfDNA) se puede realizar mediante la generación del código de barras molecular del cfDNA. La generación del código de barras molecular del cfDNA puede comprender unir adaptadores a uno o más extremos del cfDNA. El adaptador puede comprender una pluralidad de oligonucleótidos. El adaptador puede comprender uno o más desoxirribonucleótidos. El adaptador puede comprender ribonucleótidos. El adaptador puede ser monocatenario. El adaptador puede ser bicatenario. El adaptador puede comprender porciones monocatenarias y bicatenarias. Por ejemplo, el adaptador puede ser un adaptador en forma de Y. El adaptador puede ser un adaptador lineal. El adaptador puede ser un adaptador circular. El adaptador puede comprender un código de barras molecular, índice de muestra, secuencia de cebador, secuencia enlazadora o una combinación de las mismas. El código de barras molecular puede estar adyacente al índice de la muestra. El código de barras molecular puede estar adyacente a la secuencia del cebador. El índice de muestra puede estar adyacente a la secuencia del cebador. Una secuencia enlazadora puede conectar el código de barras molecular al índice de muestra. Una secuencia enlazadora puede conectar el código de barras molecular a la secuencia del cebador. Una secuencia enlazadora puede conectar el índice de muestra a la secuencia del cebador.
El adaptador puede comprender un código de barras molecular. El código de barras molecular puede comprender una secuencia aleatoria. El código de barras molecular puede comprender una secuencia predeterminada. Dos o más adaptadores pueden comprender dos o más códigos de barras moleculares diferentes. Los códigos de barras moleculares se pueden optimizar para minimizar la dimerización. Los códigos de barras moleculares pueden optimizarse para permitir la identificación incluso con errores de secuenciación o amplificación. Como ejemplos, la amplificación de un primer código de barras molecular puede introducir un error de una sola base. El primer código de barras molecular puede comprender una diferencia mayor que una sola base con respecto a los otros códigos de barras moleculares. Por tanto, el primer código de barras molecular con el error de una sola base sigue pudiendo identificarse como el primer código de barras molecular. El código de barras molecular puede comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10 o más nucleótidos. El código de barras molecular puede comprender al menos 3 nucleótidos. El código de barras molecular puede comprender al menos 4 nucleótidos. El código de barras molecular puede comprender menos de 20, 19, 18, 17, 16 o 15 nucleótidos. El código de barras molecular puede comprender menos de 10 nucleótidos. El código de barras molecular puede comprender menos de 8 nucleótidos. El código de barras molecular puede comprender menos de 6 nucleótidos. El código de barras molecular puede comprender de 2 a 15 nucleótidos. El código de barras molecular puede comprender de 2 a 12 nucleótidos. El código de barras molecular puede comprender de 3 a 10 nucleótidos. El código de barras molecular puede comprender de 3 a 8 nucleótidos. El código de barras molecular puede comprender de 4 a 8 nucleótidos. El código de barras molecular puede comprender de 4 a 6 nucleótidos.
El adaptador puede comprender un índice de muestra. El índice de muestra puede comprender una secuencia aleatoria. El índice de muestra puede comprender una secuencia predeterminada. Dos o más conjuntos de adaptadores pueden comprender dos o más índices de muestra diferentes. Los adaptadores dentro de un conjunto de adaptadores pueden comprender índices de muestra idénticos. Los índices de muestra se pueden optimizar para minimizar la dimerización. Los índices de muestra pueden optimizarse para permitir la identificación incluso con errores de secuenciación o amplificación. Como ejemplos, la amplificación de un primer índice de muestra puede introducir un error de una sola base. El primer índice de muestra puede comprender una diferencia mayor que una sola base con respecto a los otros índices de muestra. Por tanto, el primer índice de muestra con el error de una sola base sigue pudiendo identificarse como el primer código de barras molecular. El índice de muestra puede comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10 o más nucleótidos. El índice de muestra puede comprender al menos 3 nucleótidos. El índice de muestra puede comprender al menos 4 nucleótidos. El índice de muestra puede comprender menos de 20, 19, 18, 17, 16 o 15 nucleótidos. El índice de muestra puede comprender menos de 10 nucleótidos. El índice de muestra puede comprender menos de 8 nucleótidos. El índice de muestra puede comprender menos de 6 nucleótidos. El índice de muestra puede comprender de 2 a 15 nucleótidos. El índice de muestra puede comprender de 2 a 12 nucleótidos. El índice de muestra puede comprender de 3 a 10 nucleótidos. El índice de muestra puede comprender de 3 a 8 nucleótidos. El índice de muestra puede comprender de 4 a 8 nucleótidos. El índice de muestra puede comprender de 4 a 6 nucleótidos.
El adaptador puede comprender una secuencia de cebador. La secuencia del cebador puede ser una secuencia del cebador de PCR. La secuencia del cebador puede ser un cebador de secuenciación.
Los adaptadores se pueden unir a un extremo del cfDNA. Los adaptadores se pueden unir a los dos extremos del cfDNA. Los adaptadores se pueden unir a uno o más extremos de un cfDNA monocatenario. Los adaptadores se pueden unir a uno o más extremos de un cfDNA bicatenario.
Los adaptadores se pueden unir al cfDNA mediante ligamiento. El ligamiento puede ser ligamiento de extremos romos. El ligamiento puede ser ligamiento de extremos adhesivos. Los adaptadores se pueden unir al cfDNA mediante extensión del cebador. Los adaptadores se pueden unir al cfDNA mediante transcripción inversa. Los adaptadores se pueden unir al cfDNA mediante hibridación. Los adaptadores pueden comprender una secuencia que sea al menos parcialmente complementaria al cfDNA. Como alternativa, en algunos casos, los adaptadores no comprenden una secuencia que es complementaria al cfDNA.
La secuenciación puede comprender una secuenciación masivamente paralela. La secuenciación puede comprender la secuenciación de escopeta (shotgun).
El conjunto selector puede comprender 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95 o 100 o más regiones genómicas de la Tabla 2.
Al menos el 20 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % o más de las regiones genómicas en el conjunto selector pueden estar basadas en las regiones genómicas de la Tabla 2.
La pluralidad de regiones genómicas puede comprender una o más mutaciones presentes en al menos el 60 %, 62 %, 65 %, 67 %, 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 92 %, 95 %, 97 % o 99 % o más de una población de sujetos que padecen el cáncer.
El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede comprender menos de 1,5 megabases (Mb), 1 Mb, 500 kilobases (kb), 350 kb, 300 kb, 250 kb, 200 kb o 150 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede comprender menos de 100 kb, 90 kb, 80 kb, 70 kb, 60 kb, 50 kb, 40 kb, 30 kb, 20 kb, 10 kb, 5 kb o 1 kb de un genoma.
El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 100 kb y 300 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 100 kb y 200 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 10 kb y 300 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 10 kb y 200 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 10 kb y 100 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 5 kb y 100 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 5 kb y 75 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 5 kb y 50 kb de un genoma.
El método para detectar el cáncer en estadio II puede tener una sensibilidad de al menos el 60 %, 65 %, 70 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 92 %, 95 %, 97 % o 99 % o más. El método para detectar el cáncer en estadio II puede tener una sensibilidad de al menos el 60 %. El método para detectar el cáncer en estadio II puede tener una sensibilidad de al menos el 70 %. El método para detectar el cáncer en estadio II puede tener una sensibilidad de al menos el 80 %. El método para detectar el cáncer en estadio II puede tener una sensibilidad de al menos el 90 %. El método para detectar el cáncer en estadio II puede tener una sensibilidad de al menos el 95 %.
El método para detectar el cáncer en estadio II puede tener una especificidad de al menos el 60 %, 65 %, 70 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 92 %, 95 %, 97 % o 99 % o más. El método para detectar el cáncer en estadio II puede tener una especificidad de al menos el 60 %. El método para detectar el cáncer en estadio II puede tener una especificidad de al menos el 70 %. El método para detectar el cáncer en estadio II puede tener una especificidad de al menos el 80 %. El método para detectar el cáncer en estadio II puede tener una especificidad de al menos el 90 %. El método para detectar el cáncer en estadio II puede tener una especificidad de al menos el 95 %.
El método puede detectar al menos el 50 %, 52 %, 55 %, 57 %, 60 %, 62 %, 65 %, 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 92 %, 95 %, 97 % o más del cáncer en estadio II. El método puede detectar al menos el 50 % o más de cáncer en estadio II. El método puede detectar al menos el 60 % o más de cáncer en estadio II. El método puede detectar al menos el 70 % o más de cáncer en estadio II. El método puede detectar al menos el 75 % o más de cáncer en estadio II. El método puede detectar al menos el 80 % o más de cáncer en estadio II. El método puede detectar al menos el 85 % o más de cáncer en estadio II. El método puede detectar al menos el 90 % o más de cáncer en estadio II.
En el presente documento también se desvelan métodos para detectar cáncer en estadio III en un sujeto que lo necesita. El método puede comprender (a) realizar la secuenciación en ADN libre de células derivado de una muestra, en donde el ADN libre de células a secuenciar puede estar basado en un conjunto selector que comprende una pluralidad de regiones genómicas; (b) usar un medio legible por ordenador para determinar la cantidad de ADN libre de células; y (c) detectar un cáncer en estadio III en la muestra basándose en la cantidad de ADN libre de células.
La determinación de la cantidad del ADN libre de células puede comprender la determinación de cantidades absolutas de ADN libre de células. La cantidad del ADN libre de células puede determinarse contando las lecturas de secuenciación pertenecientes al ADN libre de células. La cantidad del ADN libre de células puede determinarse mediante PCR cuantitativa.
La determinación de cantidades de ADN libre de células (cfDNA) se puede realizar mediante la generación del código de barras molecular del cfDNA. La generación del código de barras molecular del cfDNA puede comprender unir adaptadores a uno o más extremos del cfDNA. El adaptador puede comprender una pluralidad de oligonucleótidos. El adaptador puede comprender uno o más desoxirribonucleótidos. El adaptador puede comprender ribonucleótidos. El adaptador puede ser monocatenario. El adaptador puede ser bicatenario. El adaptador puede comprender porciones monocatenarias y bicatenarias. Por ejemplo, el adaptador puede ser un adaptador en forma de Y. El adaptador puede ser un adaptador lineal. El adaptador puede ser un adaptador circular. El adaptador puede comprender un código de barras molecular, índice de muestra, secuencia de cebador, secuencia enlazadora o una combinación de las mismas. El código de barras molecular puede estar adyacente al índice de la muestra. El código de barras molecular puede estar adyacente a la secuencia del cebador. El índice de muestra puede estar adyacente a la secuencia del cebador. Una secuencia enlazadora puede conectar el código de barras molecular al índice de muestra. Una secuencia enlazadora puede conectar el código de barras molecular a la secuencia del cebador. Una secuencia enlazadora puede conectar el índice de muestra a la secuencia del cebador.
El adaptador puede comprender un código de barras molecular. El código de barras molecular puede comprender una secuencia aleatoria. El código de barras molecular puede comprender una secuencia predeterminada. Dos o más adaptadores pueden comprender dos o más códigos de barras moleculares diferentes. Los códigos de barras moleculares se pueden optimizar para minimizar la dimerización. Los códigos de barras moleculares pueden optimizarse para permitir la identificación incluso con errores de secuenciación o amplificación. Como ejemplos, la amplificación de un primer código de barras molecular puede introducir un error de una sola base. El primer código de barras molecular puede comprender una diferencia mayor que una sola base con respecto a los otros códigos de barras moleculares. Por tanto, el primer código de barras molecular con el error de una sola base sigue pudiendo identificarse como el primer código de barras molecular. El código de barras molecular puede comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10 o más nucleótidos. El código de barras molecular puede comprender al menos 3 nucleótidos. El código de barras molecular puede comprender al menos 4 nucleótidos. El código de barras molecular puede comprender menos de 20, 19, 18, 17, 16 o 15 nucleótidos. El código de barras molecular puede comprender menos de 10 nucleótidos. El código de barras molecular puede comprender menos de 8 nucleótidos. El código de barras molecular puede comprender menos de 6 nucleótidos. El código de barras molecular puede comprender de 2 a 15 nucleótidos. El código de barras molecular puede comprender de 2 a 12 nucleótidos. El código de barras molecular puede comprender de 3 a 10 nucleótidos. El código de barras molecular puede comprender de 3 a 8 nucleótidos. El código de barras molecular puede comprender de 4 a 8 nucleótidos. El código de barras molecular puede comprender de 4 a 6 nucleótidos.
El adaptador puede comprender un índice de muestra. El índice de muestra puede comprender una secuencia aleatoria. El índice de muestra puede comprender una secuencia predeterminada. Dos o más conjuntos de adaptadores pueden comprender dos o más índices de muestra diferentes. Los adaptadores dentro de un conjunto de adaptadores pueden comprender índices de muestra idénticos. Los índices de muestra se pueden optimizar para minimizar la dimerización. Los índices de muestra pueden optimizarse para permitir la identificación incluso con errores de secuenciación o amplificación. Como ejemplos, la amplificación de un primer índice de muestra puede introducir un error de una sola base. El primer índice de muestra puede comprender una diferencia mayor que una sola base con respecto a los otros índices de muestra. Por tanto, el primer índice de muestra con el error de una sola base sigue pudiendo identificarse como el primer código de barras molecular. El índice de muestra puede comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10 o más nucleótidos. El índice de muestra puede comprender al menos 3 nucleótidos. El índice de muestra puede comprender al menos 4 nucleótidos. El índice de muestra puede comprender menos de 20, 19, 18, 17, 16 o 15 nucleótidos. El índice de muestra puede comprender menos de 10 nucleótidos. El índice de muestra puede comprender menos de 8 nucleótidos. El índice de muestra puede comprender menos de 6 nucleótidos. El índice de muestra puede comprender de 2 a 15 nucleótidos. El índice de muestra puede comprender de 2 a 12 nucleótidos. El índice de muestra puede comprender de 3 a 10 nucleótidos. El índice de muestra puede comprender de 3 a 8 nucleótidos. El índice de muestra puede comprender de 4 a 8 nucleótidos. El índice de muestra puede comprender de 4 a 6 nucleótidos.
El adaptador puede comprender una secuencia de cebador. La secuencia del cebador puede ser una secuencia del cebador de PCR. La secuencia del cebador puede ser un cebador de secuenciación.
Los adaptadores se pueden unir a un extremo del cfDNA. Los adaptadores se pueden unir a los dos extremos del cfDNA. Los adaptadores se pueden unir a uno o más extremos de un cfDNA monocatenario. Los adaptadores se pueden unir a uno o más extremos de un cfDNA bicatenario.
Los adaptadores se pueden unir al cfDNA mediante ligamiento. El ligamiento puede ser ligamiento de extremos romos. El ligamiento puede ser ligamiento de extremos adhesivos. Los adaptadores se pueden unir al cfDNA mediante extensión del cebador. Los adaptadores se pueden unir al cfDNA mediante transcripción inversa. Los adaptadores se pueden unir al cfDNA mediante hibridación. Los adaptadores pueden comprender una secuencia que sea al menos parcialmente complementaria al cfDNA. Como alternativa, en algunos casos, los adaptadores no comprenden una secuencia que es complementaria al cfDNA.
La secuenciación puede comprender una secuenciación masivamente paralela. La secuenciación puede comprender la secuenciación de escopeta (shotgun).
El conjunto selector puede comprender 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95 o 100 o más regiones genómicas de la Tabla 2.
Al menos el 20 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % o más de las regiones genómicas en el conjunto selector pueden estar basadas en las regiones genómicas de la Tabla 2.
La pluralidad de regiones genómicas puede comprender una o más mutaciones presentes en al menos el 60 %, 62 %, 65 %, 67 %, 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 92 %, 95 %, 97 % o 99 % o más de una población de sujetos que padecen el cáncer.
El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede comprender menos de 1,5 megabases (Mb), 1 Mb, 500 kilobases (kb), 350 kb, 300 kb, 250 kb, 200 kb o 150 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede comprender menos de 100 kb, 90 kb, 80 kb, 70 kb, 60 kb, 50 kb, 40 kb, 30 kb, 20 kb, 10 kb, 5 kb o 1 kb de un genoma.
El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 100 kb y 300 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 100 kb y 200 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 10 kb y 300 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 10 kb y 200 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 10 kb y 100 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 5 kb y 100 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 5 kb y 75 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 5 kb y 50 kb de un genoma.
El método para detectar el cáncer en estadio III puede tener una sensibilidad de al menos el 60 %, 65 %, 70 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 92 %, 95 %, 97 % o 99 % o más. El método para detectar el cáncer en estadio III puede tener una sensibilidad de al menos el 60 %. El método para detectar el cáncer en estadio III puede tener una sensibilidad de al menos el 70 %. El método para detectar el cáncer en estadio III puede tener una sensibilidad de al menos el 80 %. El método para detectar el cáncer en estadio III puede tener una sensibilidad de al menos el 90 %. El método para detectar el cáncer en estadio III puede tener una sensibilidad de al menos el 95 %.
El método para detectar el cáncer en estadio III puede tener una especificidad de al menos el 60 %, 65 %, 70 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 92 %, 95 %, 97 % o 99 % o más. El método para detectar el cáncer en estadio III puede tener una especificidad de al menos el 60 %. El método para detectar el cáncer en estadio III puede tener una especificidad de al menos el 70 %. El método para detectar el cáncer en estadio III puede tener una especificidad de al menos el 80 %. El método para detectar el cáncer en estadio III puede tener una especificidad de al menos el 90 %. El método para detectar el cáncer en estadio III puede tener una especificidad de al menos el 95 %.
El método puede detectar al menos el 50 %, 52 %, 55 %, 57 %, 60 %, 62 %, 65 %, 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 92 %, 95 %, 97 % o más del cáncer en estadio III. El método puede detectar al menos el 50 % o más de cáncer en estadio III. El método puede detectar al menos el 60 % o más de cáncer en estadio III. El método puede detectar al menos el 70 % o más
de cáncer en estadio III. El método puede detectar al menos el 75 % o más de cáncer en estadio III. El método puede detectar al menos el 80 % o más de cáncer en estadio III. El método puede detectar al menos el 85 % o más de cáncer en estadio III. El método puede detectar al menos el 90 % o más de cáncer en estadio III.
En el presente documento también se desvela un método para detectar cáncer en estadio IV en un sujeto que lo necesita. El método puede comprender (a) realizar la secuenciación en ADN libre de células derivado de una muestra, en donde el ADN libre de células a secuenciar puede estar basado en un conjunto selector que comprende una pluralidad de regiones genómicas; (b) usar un medio legible por ordenador para determinar la cantidad de ADN libre de células; y (c) detectar un cáncer en estadio IV en la muestra basándose en la cantidad de ADN libre de células.
La determinación de la cantidad del ADN libre de células puede comprender la determinación de cantidades absolutas de ADN libre de células. La cantidad del ADN libre de células puede determinarse contando las lecturas de secuenciación pertenecientes al ADN libre de células. La cantidad del ADN libre de células puede determinarse mediante PCR cuantitativa.
La determinación de cantidades de ADN libre de células (cfDNA) se puede realizar mediante la generación del código de barras molecular del cfDNA. La generación del código de barras molecular del cfDNA puede comprender unir adaptadores a uno o más extremos del cfDNA. El adaptador puede comprender una pluralidad de oligonucleótidos. El adaptador puede comprender uno o más desoxirribonucleótidos. El adaptador puede comprender ribonucleótidos. El adaptador puede ser monocatenario. El adaptador puede ser bicatenario. El adaptador puede comprender porciones monocatenarias y bicatenarias. Por ejemplo, el adaptador puede ser un adaptador en forma de Y. El adaptador puede ser un adaptador lineal. El adaptador puede ser un adaptador circular. El adaptador puede comprender un código de barras molecular, índice de muestra, secuencia de cebador, secuencia enlazadora o una combinación de las mismas. El código de barras molecular puede estar adyacente al índice de la muestra. El código de barras molecular puede estar adyacente a la secuencia del cebador. El índice de muestra puede estar adyacente a la secuencia del cebador. Una secuencia enlazadora puede conectar el código de barras molecular al índice de muestra. Una secuencia enlazadora puede conectar el código de barras molecular a la secuencia del cebador. Una secuencia enlazadora puede conectar el índice de muestra a la secuencia del cebador.
El adaptador puede comprender un código de barras molecular. El código de barras molecular puede comprender una secuencia aleatoria. El código de barras molecular puede comprender una secuencia predeterminada. Dos o más adaptadores pueden comprender dos o más códigos de barras moleculares diferentes. Los códigos de barras moleculares se pueden optimizar para minimizar la dimerización. Los códigos de barras moleculares pueden optimizarse para permitir la identificación incluso con errores de secuenciación o amplificación. Como ejemplos, la amplificación de un primer código de barras molecular puede introducir un error de una sola base. El primer código de barras molecular puede comprender una diferencia mayor que una sola base con respecto a los otros códigos de barras moleculares. Por tanto, el primer código de barras molecular con el error de una sola base sigue pudiendo identificarse como el primer código de barras molecular. El código de barras molecular puede comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10 o más nucleótidos. El código de barras molecular puede comprender al menos 3 nucleótidos. El código de barras molecular puede comprender al menos 4 nucleótidos. El código de barras molecular puede comprender menos de 20, 19, 18, 17, 16 o 15 nucleótidos. El código de barras molecular puede comprender menos de 10 nucleótidos. El código de barras molecular puede comprender menos de 8 nucleótidos. El código de barras molecular puede comprender menos de 6 nucleótidos. El código de barras molecular puede comprender de 2 a 15 nucleótidos. El código de barras molecular puede comprender de 2 a 12 nucleótidos. El código de barras molecular puede comprender de 3 a 10 nucleótidos. El código de barras molecular puede comprender de 3 a 8 nucleótidos. El código de barras molecular puede comprender de 4 a 8 nucleótidos. El código de barras molecular puede comprender de 4 a 6 nucleótidos.
El adaptador puede comprender un índice de muestra. El índice de muestra puede comprender una secuencia aleatoria. El índice de muestra puede comprender una secuencia predeterminada. Dos o más conjuntos de adaptadores pueden comprender dos o más índices de muestra diferentes. Los adaptadores dentro de un conjunto de adaptadores pueden comprender índices de muestra idénticos. Los índices de muestra se pueden optimizar para minimizar la dimerización. Los índices de muestra pueden optimizarse para permitir la identificación incluso con errores de secuenciación o amplificación. Como ejemplos, la amplificación de un primer índice de muestra puede introducir un error de una sola base. El primer índice de muestra puede comprender una diferencia mayor que una sola base con respecto a los otros índices de muestra. Por tanto, el primer índice de muestra con el error de una sola base sigue pudiendo identificarse como el primer código de barras molecular. El índice de muestra puede comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10 o más nucleótidos. El índice de muestra puede comprender al menos 3 nucleótidos. El índice de muestra puede comprender al menos 4 nucleótidos. El índice de muestra puede comprender menos de 20, 19, 18, 17, 16 o 15 nucleótidos. El índice de muestra puede comprender menos de 10 nucleótidos. El índice de muestra puede comprender menos de 8 nucleótidos. El índice de muestra puede comprender menos de 6 nucleótidos. El índice de muestra puede comprender de 2 a 15 nucleótidos. El índice de muestra puede comprender de 2 a 12 nucleótidos. El índice de muestra puede comprender de 3 a 10 nucleótidos. El índice de muestra puede comprender de 3 a 8 nucleótidos. El índice de muestra puede comprender de 4 a 8 nucleótidos. El índice de muestra puede comprender de 4 a 6 nucleótidos.
El adaptador puede comprender una secuencia de cebador. La secuencia del cebador puede ser una secuencia del cebador de PCR. La secuencia del cebador puede ser un cebador de secuenciación.
Los adaptadores se pueden unir a un extremo del cfDNA. Los adaptadores se pueden unir a los dos extremos del cfDNA. Los adaptadores se pueden unir a uno o más extremos de un cfDNA monocatenario. Los adaptadores se pueden unir a uno o más extremos de un cfDNA bicatenario.
Los adaptadores se pueden unir al cfDNA mediante ligamiento. El ligamiento puede ser ligamiento de extremos romos. El ligamiento puede ser ligamiento de extremos adhesivos. Los adaptadores se pueden unir al cfDNA mediante extensión del cebador. Los adaptadores se pueden unir al cfDNA mediante transcripción inversa. Los adaptadores se pueden unir al cfDNA mediante hibridación. Los adaptadores pueden comprender una secuencia que sea al menos parcialmente complementaria al cfDNA. Como alternativa, en algunos casos, los adaptadores no comprenden una secuencia que es complementaria al cfDNA.
La secuenciación puede comprender una secuenciación masivamente paralela. La secuenciación puede comprender la secuenciación de escopeta (shotgun).
El conjunto selector puede comprender 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95 o 100 o más regiones genómicas de la Tabla 2.
Al menos el 20 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % o más de las regiones genómicas en el conjunto selector pueden estar basadas en las regiones genómicas de la Tabla 2.
La pluralidad de regiones genómicas puede comprender una o más mutaciones presentes en al menos el 60 %, 62 %, 65 %, 67 %, 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 92 %, 95 %, 97 % o 99 % o más de una población de sujetos que padecen el cáncer.
El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede comprender menos de 1,5 megabases (Mb), 1 Mb, 500 kilobases (kb), 350 kb, 300 kb, 250 kb, 200 kb o 150 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede comprender menos de 100 kb, 90 kb, 80 kb, 70 kb, 60 kb, 50 kb, 40 kb, 30 kb, 20 kb, 10 kb, 5 kb o 1 kb de un genoma.
El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 100 kb y 300 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 100 kb y 200 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 10 kb y 300 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 10 kb y 200 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 10 kb y 100 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 5 kb y 100 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 5 kb y 75 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 5 kb y 50 kb de un genoma.
El método para detectar el cáncer en estadio IV puede tener una sensibilidad de al menos el 60 %, 65 %, 70 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 92 %, 95 %, 97 % o 99 % o más. El método para detectar el cáncer en estadio IV puede tener una sensibilidad de al menos el 60 %. El método para detectar el cáncer en estadio IV puede tener una sensibilidad de al menos el 70 %. El método para detectar el cáncer en estadio IV puede tener una sensibilidad de al menos el 80 %. El método para detectar el cáncer en estadio IV puede tener una sensibilidad de al menos el 90 %. El método para detectar el cáncer en estadio IV puede tener una sensibilidad de al menos el 95 %.
El método para detectar el cáncer en estadio IV puede tener una especificidad de al menos el 60 %, 65 %, 70 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 92 %, 95 %, 97 % o 99 % o más. El método para detectar el cáncer en estadio IV puede tener una especificidad de al menos el 60 %. El método para detectar el cáncer en estadio IV puede tener una especificidad de al menos el 70 %. El método para detectar el cáncer en estadio IV puede tener una especificidad de al menos el 80 %. El método para detectar el cáncer en estadio IV puede tener una especificidad de al menos el 90 %. El método para detectar el cáncer en estadio IV puede tener una especificidad de al menos el 95 %.
El método puede detectar al menos el 50 %, 52 %, 55 %, 57 %, 60 %, 62 %, 65 %, 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 92 %, 95 %, 97 % o más del cáncer en estadio IV. El método puede detectar al menos el 50 % o más de cáncer en estadio IV. El método puede detectar al menos el 60 % o más de cáncer en estadio IV. El método puede detectar al menos el 70 % o más de cáncer en estadio IV. El método puede detectar al menos el 75 % o más de cáncer en estadio IV. El método puede detectar al menos el 80 % o más de cáncer en estadio IV. El método puede detectar al menos el 85 % o más de cáncer en estadio IV. El método puede detectar al menos el 90 % o más de cáncer en estadio IV.
En el presente documento también se desvelan métodos para producir un conjunto selector. El método puede comprender (a) identificar regiones genómicas que comprenden mutaciones en uno o más sujetos de una población de sujetos que padecen cáncer; (b) clasificar las regiones genómicas basándose en un índice de recurrencia (IR), en donde el IR de la región genómica se determina dividiendo el número de sujetos o tumores con mutaciones en la región genómica por el tamaño de la región genómica; y (c) producir un conjunto selector que comprende una o más regiones genómicas basándose en el IR.
Al menos un subconjunto de las regiones genómicas que se clasifican pueden ser regiones exónicas. Al menos el 20 %, 2 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 %, 95 % o 97 % de las regiones genómicas que se clasifican pueden comprender regiones exónicas. Al menos el 30 % de las regiones genómicas que se clasifican pueden comprender regiones exónicas. Al menos el 40 % de las regiones genómicas que se clasifican pueden comprender regiones exónicas. Al menos el 50 % de las regiones genómicas que se clasifican pueden comprender regiones exónicas. Al menos el 60 % de las regiones genómicas que se clasifican pueden comprender regiones exónicas. Menos del 97 %, 95 %, 92 %, 90 %, 87 %, 85 %, 82 %, 80 %, 77 %, 75 %, 72 %, 70 %, 67 %, 65 %, 62 %, 60 %, 57 %, 55 %, 52 %, 50 %, 45 % o 40 % de las regiones genómicas que se clasifican pueden comprender regiones exónicas. Menos del 97 % de las regiones genómicas que se clasifican pueden comprender regiones exónicas. Menos del 92 % de las regiones genómicas que se clasifican pueden comprender regiones exónicas. Menos del 84 % de las regiones genómicas que se clasifican pueden comprender regiones exónicas. Menos del 75 % de las regiones genómicas que se clasifican pueden comprender regiones exónicas. Menos del 65 % de las regiones genómicas que se clasifican pueden comprender regiones exónicas.
Al menos un subconjunto de las regiones genómicas del conjunto selector puede comprender regiones exónicas. Al menos el 20 %, 2 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 %, 95 % o 97 % de las regiones genómicas del conjunto selector pueden comprender regiones exónicas. Al menos el 30 % de las regiones genómicas del conjunto selector pueden comprender regiones exónicas. Al menos el 40 % de las regiones genómicas del conjunto selector pueden comprender regiones exónicas. Al menos el 50 % de las regiones genómicas del conjunto selector pueden comprender regiones exónicas. Al menos el 60 % de las regiones genómicas del conjunto selector pueden comprender regiones exónicas. Menos del 97 %, 95 %, 92 %, 90 %, 87 %, 85 %, 82 %, 80 %, 77 %, 75 %, 72 %, 70 %, 67 %, 65 %, 62 %, 60 %, 57 %, 55 %, 52 %, 50 %, 45 % o 40 % de las regiones genómicas del conjunto selector pueden comprender regiones exónicas. Menos del 97 % de las regiones genómicas del conjunto selector pueden comprender regiones exónicas. Menos del 92 % de las regiones genómicas del conjunto selector pueden comprender regiones exónicas. Menos del 84 % de las regiones genómicas del conjunto selector pueden comprender regiones exónicas. Menos del 75 % de las regiones genómicas del conjunto selector pueden comprender regiones exónicas. Menos del 65 % de las regiones genómicas del conjunto selector pueden comprender regiones exónicas.
Al menos un subconjunto de las regiones genómicas que se clasifican pueden ser regiones intrónicas. Al menos el 20 %, 2 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 %, 95 % o 97 % de las regiones genómicas que se clasifican pueden comprender regiones intrónicas. Al menos el 30 % de las regiones genómicas que se clasifican pueden comprender regiones intrónicas. Al menos el 40 % de las regiones genómicas que se clasifican pueden comprender regiones intrónicas. Al menos el 50 % de las regiones genómicas que se clasifican pueden comprender regiones intrónicas. Al menos el 60 % de las regiones genómicas que se clasifican pueden comprender regiones intrónicas. Menos del 97 %, 95 %, 92 %, 90 %, 87 %, 85 %, 82 %, 80 %, 77 %, 75 %, 72 %, 70 %, 67 %, 65 %, 62 %, 60 %, 57 %, 55 %, 52 %, 50 %, 45 % o 40 % de las regiones genómicas que se clasifican pueden comprender regiones intrónicas. Menos del 97 % de las regiones genómicas que se clasifican pueden comprender regiones intrónicas. Menos del 92 % de las regiones genómicas que se clasifican pueden comprender regiones intrónicas. Menos del 84 % de las regiones genómicas que se clasifican pueden comprender regiones intrónicas. Menos del 75 % de las regiones genómicas que se clasifican pueden comprender regiones intrónicas. Menos del 65 % de las regiones genómicas que se clasifican pueden comprender regiones intrónicas.
Al menos un subconjunto de las regiones genómicas del conjunto selector puede comprender regiones intrónicas. Al menos el 20 %, 2 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 %, 95 % o 97 % de las regiones genómicas del conjunto selector pueden comprender regiones intrónicas. Al menos el 30 % de las regiones genómicas del conjunto selector pueden comprender regiones intrónicas. Al menos el 40 % de las regiones genómicas del conjunto selector pueden comprender regiones intrónicas. Al menos el 50 % de las regiones genómicas del conjunto selector pueden comprender regiones intrónicas. Al menos el 60 % de las regiones genómicas del conjunto selector pueden comprender regiones intrónicas. Menos del 97 %, 95 %, 92 %, 90 %, 87 %, 85 %, 82 %, 80 %, 77 %, 75 %, 72 %, 70 %, 67 %, 65 %, 62 %, 60 %, 57 %, 55 %, 52 %, 50 %, 45 % o 40 % de las regiones genómicas del conjunto selector pueden comprender regiones intrónicas. Menos del 97 % de las regiones genómicas del conjunto selector pueden comprender regiones intrónicas. Menos del 92 % de las regiones genómicas del conjunto selector pueden comprender regiones intrónicas. Menos del 84 % de las regiones genómicas del conjunto selector pueden comprender regiones intrónicas. Menos del 75 % de las regiones genómicas del conjunto selector pueden comprender regiones intrónicas. Menos del 65 % de las regiones genómicas del conjunto selector pueden comprender regiones intrónicas.
Al menos un subconjunto de las regiones genómicas que se clasifican pueden ser regiones no traducidas. Al menos el 20 %, 2 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 %, 95 % o 97 % de las regiones genómicas que se clasifican pueden comprender regiones no traducidas. Al menos el 30 % de las regiones genómicas que se clasifican pueden comprender regiones no traducidas. Al menos el 40 % de las regiones genómicas que se clasifican pueden comprender regiones no traducidas. Al menos el 50 % de las regiones genómicas que se clasifican pueden comprender regiones no traducidas. Al menos el 60 % de las regiones genómicas que se clasifican pueden comprender regiones no traducidas. Menos del 97 %, 95 %, 92 %, 90 %, 87 %, 85 %, 82 %, 80 %, 77 %, 75 %, 72 %, 70 %, 67 %, 65 %, 62 %, 60 %, 57 %, 55 %, 52 %, 50 %, 45 % o 40 % de las regiones genómicas que se clasifican pueden comprender regiones no traducidas. Menos del 97 % de las regiones genómicas que se clasifican pueden comprender regiones no traducidas. Menos del 92 % de las regiones genómicas que se clasifican pueden comprender regiones no traducidas. Menos del 84 % de las regiones genómicas que se clasifican pueden comprender regiones no traducidas. Menos del 75 % de las regiones genómicas que se clasifican pueden comprender regiones no traducidas. Menos del 65 % de las regiones genómicas que se clasifican pueden comprender regiones no traducidas.
Al menos un subconjunto de las regiones genómicas del conjunto selector puede comprender regiones no traducidas. Al menos el 20 %, 2 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 %, 95 % o 97 % de las regiones genómicas del conjunto selector pueden comprender regiones no traducidas. Al menos el 30 % de las regiones genómicas del conjunto selector pueden comprender regiones no traducidas. Al menos el 40 % de las regiones genómicas del conjunto selector pueden comprender regiones no traducidas. Al menos el 50 % de las regiones genómicas del conjunto selector pueden comprender regiones no traducidas. Al menos el 60 % de las regiones genómicas del conjunto selector pueden comprender regiones no traducidas. Menos del 97 %, 95 %, 92 %, 90 %, 87 %, 85 %, 82 %, 80 %, 77 %, 75 %, 72 %, 70 %, 67 %, 65 %, 62 %, 60 %, 57 %, 55 %, 52 %, 50 %, 45 % o 40 % de las regiones genómicas del conjunto selector pueden comprender regiones no traducidas. Menos del 97 % de las regiones genómicas del conjunto selector pueden comprender regiones no traducidas. Menos del 92 % de las regiones genómicas del conjunto selector pueden comprender regiones no traducidas. Menos del 84 % de las regiones genómicas del conjunto selector pueden comprender regiones no traducidas. Menos del 75 % de las regiones genómicas del conjunto selector pueden comprender regiones no traducidas. Menos del 65 % de las regiones genómicas del conjunto selector pueden comprender regiones no traducidas.
Al menos un subconjunto de las regiones genómicas que se clasifican pueden ser regiones no codificantes. Al menos el 20 %, 2 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 %, 95 % o 97 % de las regiones genómicas que se clasifican pueden comprender regiones no codificantes. Al menos el 30 % de las regiones genómicas que se clasifican pueden comprender regiones no codificantes. Al menos el 40% de las regiones genómicas que se clasifican pueden comprender regiones no codificantes. Al menos el 50 %
de las regiones genómicas que se clasifican pueden comprender regiones no codificantes. Al menos el 60 % de las regiones genómicas que se clasifican pueden comprender regiones no codificantes. Menos del 97 %, 95 %, 92 %, 90 %, 87 %, 85 %, 82 %, 80 %, 77 %, 75 %, 72 %, 70 %, 67 %, 65 %, 62 %, 60 %, 57 %, 55 %, 52 %, 50 %, 45 % o 40 % de las regiones genómicas que se clasifican pueden comprender regiones no codificantes. Menos del 97 % de las regiones genómicas que se clasifican pueden comprender regiones no codificantes. Menos del 92 % de las regiones genómicas que se clasifican pueden comprender regiones no codificantes. Menos del 84 % de las regiones genómicas que se clasifican pueden comprender regiones no codificantes. Menos del 75 % de las regiones genómicas que se clasifican pueden comprender regiones no codificantes. Menos del 65 % de las regiones genómicas que se clasifican pueden comprender regiones no codificantes.
Al menos un subconjunto de las regiones genómicas del conjunto selector puede comprender regiones no codificantes. Al menos el 20 %, 2 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 %, 95 % o 97 % de las regiones genómicas del conjunto selector pueden comprender regiones no codificantes. Al menos el 30% de las regiones genómicas del conjunto selector pueden comprender regiones no codificantes. Al menos el 40 % de las regiones genómicas del conjunto selector pueden comprender regiones no codificantes. Al menos el 50 % de las regiones genómicas del conjunto selector pueden comprender regiones no codificantes. Al menos el 60 % de las regiones genómicas del conjunto selector pueden comprender regiones no codificantes. Menos del 97 %, 95 %, 92 %, 90 %, 87 %, 85 %, 82 %, 80 %, 77 %, 75 %, 72 %, 70 %, 67 %, 65 %, 62 %, 60 %, 57 %, 55 %, 52 %, 50 %, 45 % o 40 % de las regiones genómicas del conjunto selector pueden comprender regiones no codificantes. Menos del 97 % de las regiones genómicas del conjunto selector pueden comprender regiones no codificantes. Menos del 92 % de las regiones genómicas del conjunto selector pueden comprender regiones no codificantes. Menos del 84 % de las regiones genómicas del conjunto selector pueden comprender regiones no codificantes. Menos del 75 % de las regiones genómicas del conjunto selector pueden comprender regiones no codificantes. Menos del 65 % de las regiones genómicas del conjunto selector pueden comprender regiones no codificantes.
La producción del conjunto selector basado en el IR puede comprender la selección de regiones genómicas que tienen un índice de recurrencia en el percentil superior 60, 65, 70, 72, 75, 77, 80, 82, 85, 87, 90, 92, 95 o 97 o mayor. La producción del conjunto selector basado en el IR puede comprender la selección de regiones genómicas que tienen un índice de recurrencia en el percentil superior 80 o mayor. La producción del conjunto selector basado en el IR puede comprender la selección de regiones genómicas que tienen un índice de recurrencia en el percentil superior 70 o mayor. La producción del conjunto selector basado en el IR puede comprender la selección de regiones genómicas que tienen un índice de recurrencia en el percentil superior 90 o mayor.
La producción del conjunto selector puede comprender además la selección de regiones genómicas que den como resultado la mayor reducción en el número de sujetos con una mutación en la región genómica.
La producción del conjunto selector puede comprender la aplicación de un algoritmo a un subconjunto de las regiones genómicas clasificadas. El algoritmo se puede aplicar 2, 3, 4, 5, 6, 7, 8, 9, 10 o más veces. El algoritmo se puede aplicar dos o más veces. El algoritmo se puede aplicar tres o más veces.
La producción del conjunto selector puede comprender la selección de regiones genómicas que maximicen un número medio de mutaciones por sujeto del conjunto selector. La producción del conjunto selector puede comprender seleccionar regiones genómicas que maximicen el número de sujetos en el conjunto selector.
La producción del conjunto selector puede comprender la selección de regiones genómicas que minimicen el tamaño total de las regiones genómicas.
El conjunto selector puede comprender información relativa a una pluralidad de regiones genómicas que comprenden una o más mutaciones presentes en al menos un sujeto que padece cáncer. El conjunto selector puede comprender información relativa a una pluralidad de regiones genómicas que comprenden 1, 2, 3, 4, 5, 6, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más mutaciones presentes en al menos un sujeto que padece cáncer. El conjunto selector puede comprender información relativa a una pluralidad de regiones genómicas que comprenden 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200 o más mutaciones presentes en al menos un sujeto que padece cáncer.
El conjunto selector puede comprender información relativa a una pluralidad de regiones genómicas que comprenden una o más mutaciones presentes en al menos un sujeto que padece cáncer. Dichas una o más mutaciones dentro de la pluralidad de regiones genómicas pueden estar presentes en al menos 1, 2, 3, 4, 5, 6, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más sujetos que padecen un cáncer. Dichas una o más mutaciones dentro de las regiones genómicas pueden estar presentes en al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200 o más sujetos que padecen un cáncer.
El conjunto selector puede comprender información relativa a una pluralidad de regiones genómicas que comprenden una o más mutaciones presentes en al menos un sujeto que padece cáncer. Dichas una o más mutaciones dentro de la pluralidad de regiones genómicas pueden estar presentes en al menos el 1 %, 2 %, 3 %, 4 %, 5 %, 6 %, 8 %, 9 %, 10 %, 11 %, 12 %, 13 %, 14 %, 15 %, 16 %, 17 %, 18 %, 19 %, 20 % o más de sujetos de una población de sujetos que padecen un cáncer. Dichas una o más mutaciones dentro de la pluralidad de regiones genómicas pueden estar presentes en al menos el 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 %, 95 % o más de sujetos de una población de sujetos que padecen un cáncer.
El conjunto selector puede comprender información de secuencia relativa a una pluralidad de regiones genómicas que comprenden una o más mutaciones presentes en al menos un sujeto que padece cáncer. El conjunto selector puede comprender información de secuencia relativa a una pluralidad de regiones genómicas que comprenden 1, 2, 3, 4, 5, 6, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más mutaciones presentes en al menos un sujeto que padece cáncer. El conjunto selector puede comprender información de secuencia relativa a una pluralidad de regiones genómicas que comprenden 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200 o más mutaciones presentes en al menos un sujeto que padece un cáncer.
El conjunto selector puede comprender información de secuencia relativa a una pluralidad de regiones genómicas que comprenden una o más mutaciones presentes en al menos un sujeto que padece cáncer. Dichas una o más mutaciones dentro de la pluralidad de regiones genómicas pueden estar presentes en al menos 1, 2, 3, 4, 5, 6, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más sujetos que padecen un cáncer. Dichas una o más mutaciones dentro de las regiones genómicas pueden estar presentes en al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200 o más sujetos que padecen un cáncer.
El conjunto selector puede comprender información de secuencia relativa a una pluralidad de regiones genómicas que comprenden una o más mutaciones presentes en al menos un sujeto que padece cáncer. Dichas una o más mutaciones dentro de la pluralidad de regiones genómicas pueden estar presentes en al menos el 1 %, 2 %, 3 %, 4 %, 5 %, 6 %, 8 %, 9 %, 10 %, 11 %, 12 %, 13 %, 14 %, 15 %, 16 %, 17 %, 18 %, 19 %, 20 % o más de sujetos de una población de sujetos que padecen un cáncer. Dichas una o más mutaciones dentro de la pluralidad de regiones genómicas pueden estar presentes en al menos el 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 %, 95 % o más de sujetos de una población de sujetos que padecen un cáncer.
El conjunto selector puede comprender coordenadas genómicas pertenecientes a una pluralidad de regiones genómicas que comprenden una o más mutaciones presentes en al menos un sujeto que padece un cáncer. El conjunto selector puede comprender coordenadas genómicas pertenecientes a una pluralidad de regiones genómicas que comprenden 1, 2, 3, 4, 5, 6, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más mutaciones presentes en al menos un sujeto que padece un cáncer. El conjunto selector puede comprender coordenadas genómicas pertenecientes a una pluralidad de regiones genómicas que comprenden 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200 o más mutaciones presentes en al menos un sujeto que padece un cáncer.
El conjunto selector puede comprender coordenadas genómicas pertenecientes a una pluralidad de regiones genómicas que comprenden una o más mutaciones presentes en al menos un sujeto que padece un cáncer. Dichas una o más mutaciones dentro de la pluralidad de regiones genómicas pueden estar presentes en al menos 1, 2, 3, 4, 5, 6, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más sujetos que padecen un cáncer. Dichas una o más mutaciones dentro de la pluralidad de regiones genómicas pueden estar presentes en al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200 o más sujetos que padecen un cáncer.
El conjunto selector puede comprender coordenadas genómicas pertenecientes a una pluralidad de regiones genómicas que comprenden una o más mutaciones presentes en al menos un sujeto que padece un cáncer. Dichas una o más mutaciones dentro de la pluralidad de regiones genómicas pueden estar presentes en al menos el 1 %, 2 %, 3 %, 4 %, 5 %, 6 %, 8 %, 9 %, 10 %, 11 %, 12 %, 13 %, 14 %, 15 %, 16 %, 17 %, 18 %, 19 %, 20 % o más de sujetos de una población de sujetos que padecen un cáncer. Dichas una o más mutaciones dentro de la pluralidad de regiones genómicas pueden estar presentes en al menos el 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 %, 95 % o más de sujetos de una población de sujetos que padecen un cáncer.
El conjunto selector puede comprender regiones genómicas que comprenden uno o más tipos de mutaciones. El conjunto selector puede comprender regiones genómicas que comprenden dos o más tipos de mutaciones. El conjunto selector puede comprender regiones genómicas que comprenden tres o más tipos de mutaciones. El conjunto selector puede comprender regiones genómicas que comprenden cuatro o más tipos de mutaciones. Los tipos de mutaciones pueden incluir, pero sin limitación, variantes de un solo nucleótido (SNV), inserciones/eliminaciones (indeles), reordenamientos y variantes del número de copias (CNV).
El conjunto selector puede comprender regiones genómicas que comprenden dos o más tipos diferentes de mutaciones seleccionadas de un grupo que consiste en variantes de un solo nucleótido (SNV), inserciones/eliminaciones (indeles), reordenamientos y variantes del número de copias (CNV). El conjunto selector puede comprender regiones genómicas que comprenden tres o más tipos diferentes de mutaciones seleccionadas de un grupo que consiste en variantes de un solo nucleótido (SNV), inserciones/eliminaciones (indeles), reordenamientos y variantes del número de copias (CNV). El conjunto selector puede comprender regiones genómicas que comprenden cuatro o más tipos diferentes de mutaciones seleccionadas de un grupo que consiste en variantes de un solo nucleótido (SNV), inserciones/eliminaciones (indeles), reordenamientos y variantes del número de copias (CNV).
El conjunto selector puede comprender una región genómica que comprende al menos un SNV y una región genómica que comprende al menos otro tipo de mutación. El conjunto selector puede comprender una región genómica que comprende al menos un SNV y una región genómica que comprende al menos un indel. El conjunto selector puede comprender una región genómica que comprende al menos un SNV y una región genómica que comprende al menos un reordenamiento. El conjunto selector puede comprender una región genómica que comprende al menos un SNV y una región genómica que comprende al menos una CNV.
El conjunto selector puede comprender una región genómica que comprende al menos un indel y una región genómica que comprende al menos otro tipo de mutación. El conjunto selector puede comprender una región genómica que comprende al menos un indel y una región genómica que comprende al menos un SNV. El conjunto selector puede comprender una región genómica que comprende al menos un indel y una región genómica que comprende al menos un reordenamiento. El conjunto selector puede comprender una región genómica que comprende al menos un indel y una región genómica que comprende al menos un CNV.
El conjunto selector puede comprender una región genómica que comprende al menos un reordenamiento. El conjunto selector puede comprender una región genómica que comprende al menos un reordenamiento y una región genómica que comprende al menos otro tipo de mutación. El conjunto selector puede comprender una región genómica que comprende al menos un reordenamiento y una región genómica que comprende al menos un SNV. El conjunto selector puede comprender una región genómica que comprende al menos un reordenamiento y una región genómica que comprende al menos un indel. El conjunto selector puede comprender una región genómica que comprende al menos un reordenamiento y una región genómica que comprende al menos un CNV.
El conjunto selector puede comprender una región genómica que comprende al menos un CNV y una región genómica que comprende al menos otro tipo de mutación. El conjunto selector puede comprender una región genómica que comprende al menos un CNV y una región genómica que comprende al menos una SNV. El conjunto selector puede comprender una región genómica que comprende al menos un CNV y una región genómica que comprende al menos un indel. El conjunto selector puede comprender una región genómica que comprende al menos un CNV y una región genómica que comprende al menos un reordenamiento.
Al menos aproximadamente el 1 %, 2 %, 3 %, 4 %, 5 %, 6 %, 7 %, 8 %, 9 %, 10 %, 11 %, 12 %, 13 %, 14 %, 15 %, 16 %, 17 %, 18 %, 19 % o 20 % de las regiones genómicas del conjunto selector pueden comprender un SNV. Al menos aproximadamente el 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 % o 60 % de las regiones genómicas del conjunto selector pueden comprender un SNV. Al menos aproximadamente el 10% de las regiones genómicas del conjunto selector pueden comprender un SNV. Al menos aproximadamente el 15 % de las regiones genómicas del conjunto selector pueden comprender un SNV. Al menos aproximadamente el 20 % de las regiones genómicas del conjunto selector pueden comprender un SNV. Al menos aproximadamente el 30 % de las regiones genómicas del conjunto selector pueden comprender un SNV. Al menos aproximadamente el 40 % de las regiones genómicas del conjunto selector pueden comprender un SNV. Al menos aproximadamente el 50 % de las regiones genómicas del conjunto selector pueden comprender un SNV. Al menos aproximadamente el 60 % de las regiones genómicas del conjunto selector pueden comprender un SNV.
Menos del 99 %, 98 %, 97 %, 95 %, 92 %, 90 %, 87 %, 85 %, 82 %, 80 %, 77 %, 75 %, 72 %, 70 %, 67 %, 65 %, 62 %, 60 %, 57 %, 55 %, 52 %, 50 % de las regiones genómicas del conjunto selector pueden comprender un SNV. Menos del 97% de las regiones genómicas del conjunto selector pueden comprender un SNV. Menos del 95 % de las regiones genómicas del conjunto selector pueden comprender un SNV. Menos del 90 % de las regiones genómicas del conjunto selector pueden comprender un SNV. Menos del 85 % de las regiones genómicas del conjunto selector pueden comprender un SNV. Menos del 77 % de las regiones genómicas del conjunto selector pueden comprender un SNV.
Las regiones genómicas del conjunto selector pueden comprender entre aproximadamente el 10 % y aproximadamente el 95 % de SNV. Las regiones genómicas del conjunto selector pueden comprender entre aproximadamente el 10 % y aproximadamente el 90 % de SNV. Las regiones genómicas del conjunto selector pueden comprender entre aproximadamente el 15 % y aproximadamente el 95 % de SNV. Las regiones genómicas del conjunto selector pueden comprender entre aproximadamente el 20 % y aproximadamente el 95 % de SNV. Las regiones genómicas del conjunto selector pueden comprender entre aproximadamente el 30 % y aproximadamente el 95 % de SNV. Las regiones genómicas del conjunto selector pueden comprender entre aproximadamente el 30 % y aproximadamente el 90 % de SNV. Las regiones genómicas del conjunto selector pueden comprender entre aproximadamente el 30 % y aproximadamente el 85 % de SNV. Las regiones genómicas del conjunto selector pueden comprender entre aproximadamente el 30 % y aproximadamente el 80 % de SNV.
Al menos aproximadamente el 1 %, 2 %, 3 %, 4 %, 5 %, 6 %, 7 %, 8 %, 9 %, 10 %, 11 %, 12 %, 13 %, 14 %, 15 %, 16 %, 17 %, 18 %, 19 % o 20 % de las regiones genómicas del conjunto selector pueden comprender una indel. Al menos aproximadamente el 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 % o 60 % de las regiones genómicas del conjunto selector pueden comprender una indel. Al menos aproximadamente el 1 % de las regiones genómicas del conjunto selector puede comprender una indel. Al menos aproximadamente el 3 % de las regiones genómicas del conjunto selector puede comprender una indel. Al menos aproximadamente el 5 % de las regiones genómicas del conjunto selector puede comprender una indel. Al menos aproximadamente el 8 % de las regiones genómicas del conjunto selector puede comprender una indel. Al menos aproximadamente el 10 % de las regiones genómicas del conjunto selector puede comprender una indel. Al menos aproximadamente el 15 % de las regiones genómicas del conjunto selector puede comprender una indel. Al menos aproximadamente el 30 % de las regiones genómicas del conjunto selector puede comprender una indel.
Menos del 99 %, 98 %, 97 %, 95 %, 92 %, 90 %, 87 %, 85 %, 82 %, 80 %, 77 %, 75 %, 72 %, 70 %, 67 %, 65 %, 62 %, 60 %, 57 %, 55 %, 52 %, 50 % de las regiones genómicas del conjunto selector puede comprender una indel. Menos del 97% de las regiones genómicas del conjunto selector pueden comprender una indel. Menos del 95 % de las regiones genómicas del conjunto selector pueden comprender una indel. Menos del 90 % de las regiones genómicas del conjunto selector pueden comprender una indel. Menos del 85 % de las regiones genómicas del conjunto selector pueden comprender una indel. Menos del 77 % de las regiones genómicas del conjunto selector pueden comprender una indel.
Las regiones genómicas del conjunto selector pueden comprender entre aproximadamente el 10 % y aproximadamente el 95 % de indeles. Las regiones genómicas del conjunto selector pueden comprender entre aproximadamente el 10 % y aproximadamente el 90 % de indeles. Las regiones genómicas del conjunto selector pueden comprender entre aproximadamente el 10 % y aproximadamente el 85 % de indeles. Las regiones genómicas del conjunto selector pueden comprender entre aproximadamente el 10 % y aproximadamente el 80 % de indeles. Las regiones genómicas del conjunto selector pueden comprender entre aproximadamente el 10 % y aproximadamente el 75 % de indeles. Las regiones genómicas del conjunto selector pueden comprender entre aproximadamente el 10 % y aproximadamente el 70 % de indeles. Las regiones genómicas del conjunto selector pueden comprender entre aproximadamente el 10 % y aproximadamente el 60 % de indeles. Las regiones genómicas del conjunto selector pueden comprender entre aproximadamente el 10 % y aproximadamente el 50 % de indeles.
Al menos aproximadamente el 1 %, 2 %, 3 %, 4 %, 5 %, 6 %, 7 %, 8 %, 9 %, 10 %, 11 %, 12 %, 13 %, 14 %, 15 %, 16 %, 17 %, 18 %, 19 % o 20 % de las regiones genómicas del conjunto selector pueden comprender un reordenamiento. Al menos aproximadamente el 1% de las regiones genómicas del conjunto selector pueden comprender un reordenamiento. Al menos aproximadamente el 2 % de las regiones genómicas del conjunto selector pueden comprender un reordenamiento. Al menos aproximadamente el 3 % de las regiones genómicas del conjunto selector pueden comprender un reordenamiento. Al menos aproximadamente el 4 % de las regiones genómicas del conjunto selector pueden comprender un reordenamiento. Al menos aproximadamente el 5 % de las regiones genómicas del conjunto selector pueden comprender un reordenamiento.
Al menos aproximadamente el 1 %, 2 %, 3 %, 4 %, 5 %, 6 %, 7 %, 8 %, 9 %, 10 %, 11 %, 12 %, 13 %, 14 %, 15 %, 16 %, 17 %, 18 %, 19 % o 20 % de las regiones genómicas del conjunto selector pueden comprender un CNV. Al menos aproximadamente el 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 % o 60 % de las regiones genómicas del conjunto selector pueden comprender un CNV. Al menos aproximadamente el 1 % de las regiones genómicas del conjunto selector pueden comprender un CNV. Al menos aproximadamente el 3 % de las regiones genómicas del conjunto selector pueden comprender un CNV. Al menos aproximadamente el 5 % de las regiones genómicas del conjunto selector pueden comprender un CNV. Al menos aproximadamente el 8 % de las regiones genómicas del conjunto selector pueden comprender un CNV. Al menos aproximadamente el 10% de las regiones genómicas del conjunto selector pueden comprender un CNV. Al menos aproximadamente el 15 % de las regiones genómicas del conjunto selector pueden comprender un CNV. Al menos aproximadamente el 30 % de las regiones genómicas del conjunto selector pueden comprender un CNV.
Menos del 99 %, 98 %, 97 %, 95 %, 92 %, 90 %, 87 %, 85 %, 82 %, 80 %, 77 %, 75 %, 72 %, 70 %, 67 %, 65 %, 62 %, 60 %, 57 %, 55 %, 52 %, 50 % de las regiones genómicas del conjunto selector pueden comprender un CNV. Menos del 97% de las regiones genómicas del conjunto selector pueden comprender un CNV. Menos del 95 % de las regiones genómicas del conjunto selector pueden comprender un CNV. Menos del 90 % de las regiones genómicas del conjunto selector pueden comprender un CNV. Menos del 85 % de las regiones genómicas del conjunto selector pueden comprender un CNV. Menos del 77 % de las regiones genómicas del conjunto selector pueden comprender un CNV.
Las regiones genómicas del conjunto selector pueden comprender entre aproximadamente el 5 % y aproximadamente el 80 % de CNV. Las regiones genómicas del conjunto selector pueden comprender entre aproximadamente el 5 % y aproximadamente el 70 % de CNV. Las regiones genómicas del conjunto selector pueden comprender entre aproximadamente el 5 % y aproximadamente el 60 % de CNV. Las regiones genómicas del conjunto selector pueden comprender entre aproximadamente el 5 % y aproximadamente el 50 % de CNV. Las regiones genómicas del conjunto selector pueden comprender entre aproximadamente el 5 % y aproximadamente el 40 % de CNV. Las regiones genómicas del conjunto selector pueden comprender entre aproximadamente el 5 % y aproximadamente el 35 % de CNV. Las regiones genómicas del conjunto selector pueden comprender entre aproximadamente el 5 % y aproximadamente el 30 % de CNV. Las regiones genómicas del conjunto selector pueden comprender entre aproximadamente el 5 % y aproximadamente el 25 % de CNV.
El conjunto selector se puede utilizar para clasificar una muestra procedente de un sujeto. El conjunto selector se puede utilizar para clasificar 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14 o 15 o más muestras procedentes de un sujeto. El conjunto selector se puede utilizar para clasificar dos o más muestras procedentes de un sujeto.
El conjunto selector se puede utilizar para clasificar una o más muestras procedentes de uno o más sujetos. El conjunto selector se puede utilizar para clasificar dos o más muestras procedentes de dos o más sujetos. El conjunto selector se puede utilizar para clasificar una pluralidad de muestras de 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 o 20 o más sujetos.
Las muestras pueden ser del mismo tipo de muestra. Las muestras pueden ser dos o más tipos diferentes de muestras. La muestra puede ser una muestra de plasma. La muestra puede ser una muestra de tumor. La muestra puede ser una muestra de la línea germinal. La muestra puede comprender moléculas derivadas de tumores. La muestra puede comprender moléculas no derivadas de tumores.
El conjunto selector puede clasificar la muestra como una muestra que contiene tumor. El conjunto selector puede clasificar la muestra como una muestra libre de tumores.
El conjunto selector puede ser un conjunto selector personalizado. El conjunto selector se puede utilizar para diagnosticar un cáncer en un sujeto que lo necesite. El conjunto selector se puede utilizar para pronosticar un estado o resultado de un cáncer en un sujeto que lo necesite. El conjunto selector se puede utilizar para determinar un régimen terapéutico para tratar un cáncer en un sujeto que lo necesite.
Como alternativa, el conjunto selector puede ser un conjunto selector universal. El conjunto selector se puede utilizar para diagnosticar un cáncer en una pluralidad de sujetos que lo necesiten. El conjunto selector se puede utilizar para pronosticar un estado o resultado de un cáncer en una pluralidad de sujetos que lo necesiten. El conjunto selector se puede utilizar para determinar un régimen terapéutico para tratar un cáncer en una pluralidad de sujetos que lo necesiten.
La pluralidad de sujetos puede comprender 5, 10, 15, 20, 25, 30, 35, 40, 50, 60, 70, 80, 90 o 100 o más sujetos. La pluralidad de sujetos puede comprender 5 o más sujetos. La pluralidad de sujetos puede comprender 10 o más sujetos. La pluralidad de sujetos puede comprender 25 o más sujetos. La pluralidad de sujetos puede comprender 50 o más sujetos. La pluralidad de sujetos puede comprender 75 o más sujetos. La pluralidad de sujetos puede comprender 100 o más sujetos.
El conjunto selector se puede utilizar para clasificar uno o más sujetos basándose en una o más muestras de dichos uno o más sujetos. El conjunto selector se puede utilizar para clasificar a un sujeto como respondedor a una terapia. El conjunto selector se puede utilizar para clasificar a un sujeto como no respondedor a una terapia.
El conjunto selector se puede usar para diseñar una pluralidad de oligonucleótidos. La pluralidad de oligonucleótidos puede hibridar selectivamente con una o más regiones genómicas identificadas por el conjunto selector. Al menos dos oligonucleótidos pueden hibridar selectivamente con una región genómica. Al menos tres oligonucleótidos pueden hibridar selectivamente con una región genómica. Al menos cuatro oligonucleótidos pueden hibridar selectivamente con una región genómica.
Un oligonucleótido de la pluralidad de oligonucleótidos puede ser al menos de aproximadamente 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95 o 100 nucleótidos de longitud. Un oligonucleótido puede ser al menos de aproximadamente 20 nucleótidos de longitud. Un oligonucleótido puede ser al menos de aproximadamente 30 nucleótidos de longitud. Un oligonucleótido puede ser al menos de aproximadamente 40 nucleótidos de longitud. Un oligonucleótido puede ser al menos de aproximadamente 45 nucleótidos de longitud. Un oligonucleótido puede ser al menos de aproximadamente 50 nucleótidos de longitud.
Un oligonucleótido de la pluralidad de oligonucleótidos puede ser menor o igual a 300, 275, 250, 225, 200, 190, 180, 170, 160, 150, 140, 130, 125, 120, 115, 110, 105, 100, 95, 90, 85, 80, 75 o 70 nucleótidos de longitud. Un oligonucleótido de la pluralidad de oligonucleótidos puede ser menor o igual a 200 nucleótidos de longitud. Un oligonucleótido de la pluralidad de oligonucleótidos puede ser menor o igual a 150 nucleótidos de longitud. Un oligonucleótido de la pluralidad de oligonucleótidos puede ser menor o igual a 110 nucleótidos de longitud. Un oligonucleótido de la pluralidad de oligonucleótidos puede ser menor o igual a 100 nucleótidos de longitud. Un oligonucleótido de la pluralidad de oligonucleótidos puede ser menor o igual a 80 nucleótidos de longitud.
Un oligonucleótido de la pluralidad de oligonucleótidos puede tener entre aproximadamente 20 y 200 nucleótidos de longitud. Un oligonucleótido de la pluralidad de oligonucleótidos puede tener entre aproximadamente 20 y 170 nucleótidos de longitud. Un oligonucleótido de la pluralidad de oligonucleótidos puede tener entre aproximadamente 20 y 150 nucleótidos de longitud. Un oligonucleótido de la pluralidad de oligonucleótidos puede tener entre aproximadamente 20 y 130 nucleótidos de longitud. Un oligonucleótido de la pluralidad de oligonucleótidos puede tener entre aproximadamente 20 y 120 nucleótidos de longitud. Un oligonucleótido de la pluralidad de oligonucleótidos puede tener entre aproximadamente 30 y 150 nucleótidos de longitud. Un oligonucleótido de la pluralidad de oligonucleótidos puede tener entre aproximadamente 30 y 120 nucleótidos de longitud. Un oligonucleótido de la pluralidad de oligonucleótidos puede tener entre aproximadamente 40 y 150 nucleótidos de longitud. Un oligonucleótido de la pluralidad de oligonucleótidos puede tener entre aproximadamente 40 y 120 nucleótidos de longitud. Un oligonucleótido de la pluralidad de oligonucleótidos puede tener entre aproximadamente 50 y 150 nucleótidos de longitud. Un oligonucleótido de la pluralidad de oligonucleótidos puede tener entre aproximadamente 50 y 120 nucleótidos de longitud.
Un oligonucleótido de la pluralidad de oligonucleótidos puede unirse a un soporte sólido. El soporte sólido puede ser una microesfera. La microesfera puede ser una microesfera revestida. La microesfera puede ser una microesfera recubierta de estreptavidina. El soporte sólido puede ser una matriz. El soporte sólido puede ser un portaobjetos de vidrio.
En el presente documento también se desvelan métodos para producir un conjunto selector personalizado. El método puede comprender (a) obtener un genotipo de un tumor en un sujeto; (b) identificar regiones genómicas que comprenden una o más mutaciones basándose en el genotipo del tumor; y (c) producir un conjunto selector que comprende al menos una región genómica.
La obtención del genotipo del tumor en el sujeto puede comprender la realización de una reacción de secuenciación en una muestra del sujeto. La secuenciación puede comprender la secuenciación del genoma completo. La secuenciación puede comprender la secuenciación del exoma completo.
La secuenciación puede comprender el uso de uno o más adaptadores. Los adaptadores se pueden unir a uno o más ácidos nucleicos de la muestra. El adaptador puede comprender una pluralidad de oligonucleótidos. El adaptador puede comprender uno o más desoxirribonucleótidos. El adaptador puede comprender ribonucleótidos. El adaptador puede ser monocatenario. El adaptador puede ser bicatenario. El adaptador puede comprender porciones monocatenarias y bicatenarias. Por ejemplo, el adaptador puede ser un adaptador en forma de Y. El adaptador puede ser un adaptador lineal. El adaptador puede ser un adaptador circular. El adaptador puede comprender un código de barras molecular, índice de muestra, secuencia de cebador, secuencia enlazadora o una combinación de las mismas.
El código de barras molecular puede estar adyacente al índice de la muestra. El código de barras molecular puede estar adyacente a la secuencia del cebador. El índice de muestra puede estar adyacente a la secuencia del cebador. Una secuencia enlazadora puede conectar el código de barras molecular al índice de muestra. Una secuencia enlazadora puede conectar el código de barras molecular a la secuencia del cebador. Una secuencia enlazadora puede conectar el índice de muestra a la secuencia del cebador.
El adaptador puede comprender un código de barras molecular. El código de barras molecular puede comprender una secuencia aleatoria. El código de barras molecular puede comprender una secuencia predeterminada. Dos o más adaptadores pueden comprender dos o más códigos de barras moleculares diferentes. Los códigos de barras moleculares se pueden optimizar para minimizar la dimerización. Los códigos de barras moleculares pueden optimizarse para permitir la identificación incluso con errores de secuenciación o amplificación. Como ejemplos, la amplificación de un primer código de barras molecular puede introducir un error de una sola base. El primer código de barras molecular puede comprender una diferencia mayor que una sola base con respecto a los otros códigos de barras moleculares. Por tanto, el primer código de barras molecular con el error de una sola base sigue pudiendo identificarse como el primer código de barras molecular. El código de barras molecular puede comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10 o más nucleótidos. El código de barras molecular puede comprender al menos 3 nucleótidos. El código de barras molecular puede comprender al menos 4 nucleótidos. El código de barras molecular puede comprender menos de 20, 19, 18, 17, 16 o 15 nucleótidos. El código de barras molecular puede comprender menos de 10 nucleótidos. El código de barras molecular puede comprender menos de 8 nucleótidos. El código de barras molecular puede comprender menos de 6 nucleótidos. El código de barras molecular puede comprender de 2 a 15 nucleótidos. El código de barras molecular puede comprender de 2 a 12 nucleótidos. El código de barras molecular puede comprender de 3 a 10 nucleótidos. El código de barras molecular puede comprender de 3 a 8 nucleótidos. El código de barras molecular puede comprender de 4 a 8 nucleótidos. El código de barras molecular puede comprender de 4 a 6 nucleótidos.
El adaptador puede comprender un índice de muestra. El índice de muestra puede comprender una secuencia aleatoria. El índice de muestra puede comprender una secuencia predeterminada. Dos o más conjuntos de adaptadores pueden comprender dos o más índices de muestra diferentes. Los adaptadores dentro de un conjunto de adaptadores pueden comprender índices de muestra idénticos. Los índices de muestra se pueden optimizar para minimizar la dimerización. Los índices de muestra pueden optimizarse para permitir la identificación incluso con errores de secuenciación o amplificación. Como ejemplos, la amplificación de un primer índice de muestra puede introducir un error de una sola base. El primer índice de muestra puede comprender una diferencia mayor que una sola base con respecto a los otros índices de muestra. Por tanto, el primer índice de muestra con el error de una sola base sigue pudiendo identificarse como el primer código de barras molecular. El índice de muestra puede comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10 o más nucleótidos. El índice de muestra puede comprender al menos 3 nucleótidos. El índice de muestra puede comprender al menos 4 nucleótidos. El índice de muestra puede comprender menos de 20, 19, 18, 17, 16 o 15 nucleótidos. El índice de muestra puede comprender menos de 10 nucleótidos. El índice de muestra puede comprender menos de 8 nucleótidos. El índice de muestra puede comprender menos de 6 nucleótidos. El índice de muestra puede comprender de 2 a 15 nucleótidos. El índice de muestra puede comprender de 2 a 12 nucleótidos. El índice de muestra puede comprender de 3 a 10 nucleótidos. El índice de muestra puede comprender de 3 a 8 nucleótidos. El índice de muestra puede comprender de 4 a 8 nucleótidos. El índice de muestra puede comprender de 4 a 6 nucleótidos.
El adaptador puede comprender una secuencia de cebador. La secuencia del cebador puede ser una secuencia del cebador de PCR. La secuencia del cebador puede ser un cebador de secuenciación.
Pueden unirse adaptadores a un extremo de un ácido nucleico de una muestra. Los ácidos nucleicos pueden ser ADN. El ADN puede ser ADN libre de células (cfDNA). El ADN puede ser ADN tumoral circulante (ctDNA). Los ácidos nucleicos pueden ser ARN. Se pueden unir adaptadores a los dos extremos del ácido nucleico. Los adaptadores pueden unirse a uno o más extremos de un ácido nucleico monocatenario. Los adaptadores pueden unirse a uno o más extremos de un ácido nucleico bicatenario.
Los adaptadores pueden unirse al ácido nucleico mediante ligamiento. El ligamiento puede ser ligamiento de extremos romos. El ligamiento puede ser ligamiento de extremos adhesivos. Los adaptadores pueden unirse al ácido nucleico mediante extensión del cebador. Los adaptadores pueden unirse al ácido nucleico mediante transcripción inversa. Los adaptadores pueden unirse a los ácidos nucleicos mediante hibridación. Los adaptadores pueden comprender una secuencia que sea al menos parcialmente complementaria al ácido nucleico. Como alternativa, en algunos casos, los adaptadores no comprenden una secuencia que sea complementaria al ácido nucleico.
La identificación de regiones genómicas que comprenden una o más mutaciones basándose en el genotipo del tumor puede comprender la determinación de una secuencia consenso para la región genómica que comprende dichas una o más mutaciones. La determinación de la secuencia consenso puede basarse en los adaptadores. La determinación de la secuencia consenso puede basarse en la parte del código de barras molecular del adaptador. La determinación de la secuencia consenso puede comprender el análisis de las lecturas de secuencia pertenecientes a un código de barras molecular. La determinación de la secuencia consenso puede comprender la determinación de un porcentaje de lecturas de secuencia con secuencias idénticas basándose en el código de barras molecular. La identificación de regiones genómicas que comprenden una o más mutaciones puede comprender la producción de una lista de regiones genómicas basándose en un porcentaje de la secuencia consenso. La producción de la lista de regiones genómicas puede comprender la selección de regiones genómicas con al menos un 80 %, 82 %, 85 %, 87 %, 90 %, 91 %, 92 %,
93 %, 94 %, 95 %, 96 %, 97 %, 98 %, 99 % o 100 % de consenso basándose en el código de barras molecular. Por ejemplo, la información de la secuencia se puede organizar en familias de códigos de barras moleculares (por ejemplo, se agrupan juntas las secuencias con códigos de barras moleculares idénticos). El análisis de una familia de códigos de barras moleculares puede revelar dos secuencias diferentes. Se pueden asociar 1000 lecturas de secuencia con una primera secuencia y se pueden asociar 10 lecturas de secuencia con una segunda secuencia. La secuencia dominante (por ejemplo, la primera secuencia) puede tener un consenso del 99 % (por ejemplo, (1000 dividido por 1010) por 100 %). La lista de regiones genómicas puede comprender la secuencia dominante de la región genómica.
La lista de regiones genómicas puede comprender regiones genómicas con un consenso del 90 % basado en el código de barras molecular. La lista de regiones genómicas puede comprender regiones genómicas con un consenso del
95 % basado en el código de barras molecular. La lista de regiones genómicas puede comprender regiones genómicas con un consenso del 98 % basado en el código de barras molecular. La lista de regiones genómicas puede comprender regiones genómicas con un consenso de secuencia del 100 % basado en el código de barras molecular. La identificación de regiones genómicas que comprenden una o más mutaciones basándose en el genotipo del tumor puede comprender la producción de una lista de regiones genómicas clasificadas por un porcentaje de su consenso de secuencia.
La identificación de regiones genómicas que comprenden una o más mutaciones basadas en el genotipo del tumor puede comprender el cálculo de una abundancia fraccionada de la región genómica. La identificación de regiones genómicas que comprenden una o más mutaciones basándose en el genotipo del tumor puede comprender el cálculo de una abundancia fraccionada de la región genómica a partir de la lista de regiones genómicas clasificadas por el porcentaje de su consenso de secuencia. La abundancia fraccionada se puede calcular dividiendo un número de lecturas de secuencia que pertenecen a una región genómica con dichas una o más mutaciones por el número total de lecturas de secuencia para las regiones genómicas. Por ejemplo, una región genómica puede comprender el exón
2 del gen X. El número total de lecturas de secuencia pertenecientes a la región genómica puede ser 1000, conteniendo 100 de las lecturas de secuencia una inserción en el exón 2 del gen X. La abundancia fraccionada de la región genómica que contiene la inserción en el exón 2 del gen X sería 0,1 (por ejemplo, 100 lecturas de secuencia divididas por 1000). La identificación de regiones genómicas que comprenden una o más mutaciones basándose en el genotipo del tumor puede comprender la producción de una lista de regiones genómicas clasificadas por su abundancia fraccionada.
La producción del conjunto selector puede comprender la selección de una o más regiones genómicas de la lista de regiones genómicas clasificadas por su abundancia fraccionada. La producción del conjunto selector puede comprender la selección de una o más regiones genómicas con una abundancia fraccionada de menos del 50 %,
47 %, 45 %, 42 %, 40 %, 37 %, 35 %, 34 %, 33 %, 31 %, 30 %, 29 %, 28 %, 27 %, 26 %, 25 %, 24 %, 23 %, 22 %,
21 %, 20 %, 19 %, 18 %, 17 %, 16 %, 15 %, 14 %, 13 %, 12 %, 11 %, 10 %, 9 %, 8 %, 7 %, 6 %, 5 %, 4 %, 3 %, 2 % o 1 %. La producción del conjunto selector puede comprender la selección de una o más regiones genómicas con una abundancia fraccionada de menos del 37 %. La producción del conjunto selector puede comprender la selección de una o más regiones genómicas con una abundancia fraccionada de menos del 33 %. La producción del conjunto selector puede comprender la selección de una o más regiones genómicas con una abundancia fraccionada de menos del 30 %. La producción del conjunto selector puede comprender la selección de una o más regiones genómicas con una abundancia fraccionada de menos del 27 %. La producción del conjunto selector puede comprender la selección de una o más regiones genómicas con una abundancia fraccionada de menos del 25 %. La producción del conjunto selector puede comprender la selección de una o más regiones genómicas con una abundancia fraccionada de entre aproximadamente el 0,00001 % y aproximadamente el 35 %. La producción del conjunto selector puede comprender la selección de una o más regiones genómicas con una abundancia fraccionada de entre aproximadamente el 0,00001
% y aproximadamente el 30 %. La producción del conjunto selector puede comprender la selección de una o más regiones genómicas con una abundancia fraccionada de entre aproximadamente el 0,00001 % y aproximadamente el
27 %.
El conjunto selector puede comprender al menos 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 o más regiones genómicas. El conjunto selector puede comprender una región genómica. El conjunto selector puede comprender al menos 2 regiones genómicas. El conjunto selector puede comprender al menos 3 regiones genómicas.
Las regiones genómicas del conjunto selector pueden comprender una o más mutaciones no identificadas previamente. Las regiones genómicas del conjunto selector pueden comprender 2 o más mutaciones no ide previamente. Las regiones genómicas del conjunto selector pueden comprender 3 o más mutaciones no ide previamente. Las regiones genómicas del conjunto selector pueden comprender 4 o más mutaciones no ide previamente.
Las regiones genómicas pueden comprender una o más mutaciones seleccionadas de un grupo que consiste en SNV, indeles, reordenamientos y CNV. Las regiones genómicas pueden comprender dos o más mutaciones seleccionadas de un grupo que consiste en SNV, indeles, reordenamientos y CNV. Las regiones genómicas pueden comprender tres o más mutaciones seleccionadas de un grupo que consiste en SNV, indeles, reordenamientos y CNV. Las regiones genómicas pueden comprender cuatro o más mutaciones seleccionadas de un grupo que consiste en SNV, indeles, reordenamientos y CNV.
Las regiones genómicas pueden comprender uno o más tipos de mutaciones seleccionadas de un grupo que consiste en SNV, indeles, reordenamientos y CNV. Las regiones genómicas pueden comprender dos o más tipos de mutaciones seleccionadas de un grupo que consiste en SNV, indeles, reordenamientos y CNV. Las regiones genómicas pueden comprender tres o más tipos de mutaciones seleccionadas de un grupo que consiste en SNV, indeles, reordenamientos y CNV. Las regiones genómicas pueden comprender cuatro o más tipos de mutaciones seleccionadas de un grupo que consiste en SNV, indeles, reordenamientos y CNV.
En el presente documento también se desvelan medios legibles por ordenador para su uso en los métodos desvelados en el presente documento. El medio legible por ordenador puede comprender información de secuencia para dos o más regiones genómicas en donde (a) las regiones genómicas pueden comprender una o más mutaciones en más del 80 % de los tumores de una población de sujetos afectados por un cáncer; (b) las regiones genómicas representan menos de 1,5 Mb del genoma; y (c) uno o más de los siguientes (i) es posible que la afección no sea leucemia de células pilosas, cáncer de ovario, macroglobulinemia de Waldenstrom; (ii) una región genómica puede comprender al menos una mutación en al menos un sujeto afectado por el cáncer; (iii) el cáncer incluye dos o más tipos diferentes de cáncer; (iv) las dos o más regiones genómicas pueden proceder de dos o más genes diferentes; (v) las regiones genómicas pueden comprender dos o más mutaciones; o (vi) dichas dos o más regiones genómicas pueden comprender al menos 10 kb.
En algunos casos, la afección no es leucemia de células pilosas.
Las regiones genómicas pueden comprender una o más mutaciones en más del 60 % de los tumores de una población adicional de sujetos afectados por otro tipo de cáncer.
Las regiones genómicas pueden proceder de 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más genes diferentes. Las regiones genómicas pueden proceder de 25, 30, 35, 40, 45, 50, 60, 70, 80, 90, 100 o más genes diferentes.
Las regiones genómicas pueden comprender al menos 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45 o 50 kb. Las regiones genómicas pueden comprender al menos 5 kb. Las regiones genómicas pueden comprender al menos 10 kb. Las regiones genómicas pueden comprender al menos 50 kb.
La información de secuencia puede comprender coordenadas genómicas pertenecientes a las 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones genómicas. La información de secuencia puede comprender coordenadas genómicas pertenecientes a las 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 o más regiones genómicas. La información de secuencia puede comprender coordenadas genómicas pertenecientes a las 125, 150, 175, 200, 225, 250, 275, 300, 325, 350, 375, 400, 425, 450, 475, 500 o más regiones genómicas.
La información de secuencia puede comprender una secuencia de ácido nucleico relativa a 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones genómicas. La información de secuencia puede comprender una secuencia de ácido nucleico relativa a las 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 o más regiones genómicas. La información de secuencia puede comprender una secuencia de ácido nucleico relativa a las 125, 150, 175, 200, 225, 250, 275, 300, 325, 350, 375, 400, 425, 450, 475, 500 o más regiones genómicas.
La información de secuencia puede comprender una longitud de las 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones genómicas. La información de secuencia puede comprender una longitud de las 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 o más regiones genómicas. La información de secuencia puede comprender una longitud de las 125, 150, 175, 200, 225, 250, 275, 300, 325, 350, 375, 400, 425, 450, 475, 500 o más regiones genómicas.
En el presente documento también se desvelan composiciones para su uso en los métodos y sistemas desvelados en el presente documento. La composición puede comprender un conjunto de oligonucleótidos que hibridan selectivamente con una pluralidad de regiones genómicas, en donde (a) más del 80 % de los tumores de una población de sujetos con cáncer incluyen una o más mutaciones en las regiones genómicas; (b) la pluralidad de regiones genómicas representa menos de 1,5 Mb del genoma; y (c) el conjunto de oligonucleótidos puede comprender 5 o más oligonucleótidos diferentes que hibridan selectivamente con la pluralidad de regiones genómicas.
Un oligonucleótido del conjunto de oligonucleótidos puede comprender una etiqueta. La etiqueta puede ser biotina. La etiqueta puede ser un marcador. La etiqueta puede ser un marcador o tinte fluorescente. La etiqueta puede ser un adaptador.
Las regiones genómicas pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 2. Las regiones genómicas pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 150, 200, 250, 300, 350, 400, 450, 500 o 525 regiones de las identificadas en la Tabla 2. Las regiones genómicas pueden comprender al menos 2 regiones de las identificadas en la Tabla 2. Las regiones genómicas pueden comprender al menos 20 regiones de las identificadas en la Tabla 2. Las regiones genómicas pueden comprender al menos 60 regiones de las identificadas en la Tabla 2. Las regiones genómicas pueden comprender al menos 100 regiones de las identificadas en la Tabla 2. Las regiones genómicas pueden comprender al menos 300 regiones de las identificadas en la Tabla 2. Las regiones genómicas pueden comprender al menos 400 regiones de las identificadas en la Tabla 2. Las regiones genómicas pueden comprender al menos 500 regiones de las identificadas en la Tabla 2.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 2. Al menos aproximadamente el 5 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 2. Al menos aproximadamente el 10 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 2. Al menos aproximadamente el 20 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 2. Al menos aproximadamente el 30 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 2. Al menos aproximadamente el 40 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 2.
Las regiones genómicas pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 6. Las regiones genómicas pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 150, 200, 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800 u 830 regiones de las identificadas en la Tabla 6. Las regiones genómicas pueden comprender al menos 2 regiones de las identificadas en la Tabla 6. Las regiones genómicas pueden comprender al menos 20 regiones de las identificadas en la Tabla 6. Las regiones genómicas pueden comprender al menos 60 regiones de las identificadas en la Tabla 6. Las regiones genómicas pueden comprender al menos 100 regiones de las identificadas en la Tabla 6. Las regiones genómicas pueden comprender al menos 300 regiones de las identificadas en la Tabla 6. Las regiones genómicas pueden comprender al menos 600 regiones de las identificadas en la Tabla 6. Las regiones genómicas pueden comprender al menos 800 regiones de las identificadas en la Tabla 6.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 6. Al menos aproximadamente el 5 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 6. Al menos aproximadamente el 10 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 6. Al menos aproximadamente el 20 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 6. Al menos aproximadamente el 30 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 6. Al menos aproximadamente el 40 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 6.
Las regiones genómicas pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 7. Las regiones genómicas pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 125, 150, 175, 200, 225, 250, 275, 300, 325, 350, 375, 400, 425 o 450 regiones de las identificadas en la Tabla 7. Las regiones genómicas pueden comprender al menos 2 regiones de las identificadas en la Tabla 7. Las regiones genómicas pueden comprender al menos 20 regiones de las identificadas en la Tabla 7. Las regiones genómicas pueden comprender al menos 60 regiones de las identificadas en la Tabla 7. Las regiones genómicas pueden comprender al menos 100 regiones de las identificadas en la Tabla 7. Las regiones genómicas pueden comprender al menos 200 regiones de las identificadas en la Tabla 7. Las regiones genómicas pueden comprender al menos 300 regiones de las identificadas en la Tabla 7. Las regiones genómicas pueden comprender al menos 400 regiones de las identificadas en la Tabla 7.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 7. Al menos aproximadamente el 5 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 7. Al menos aproximadamente el 10 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 7. Al menos aproximadamente el 20 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 7. Al menos aproximadamente el 30 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 7. Al menos aproximadamente el 40 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 7.
Las regiones genómicas pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 8. Las regiones genómicas pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 8. Las regiones genómicas pueden comprender al menos 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000 o 1050 regiones de las identificadas en la Tabla 8. Las regiones genómicas pueden comprender al menos 2 regiones de las identificadas en la Tabla 8. Las regiones genómicas pueden comprender al menos 20 regiones de las identificadas en la Tabla 8. Las regiones genómicas pueden comprender al menos 60 regiones de las identificadas en la Tabla 8. Las regiones genómicas pueden comprender al menos 100 regiones de las identificadas en la Tabla 8. Las regiones genómicas pueden comprender al menos 300 regiones de las identificadas en la Tabla 8. Las regiones genómicas pueden comprender al menos 600 regiones de las identificadas en la Tabla 8. Las regiones genómicas pueden comprender al menos 800 regiones de las identificadas en la Tabla 8. Las regiones genómicas pueden comprender al menos 1000 regiones de las identificadas en la Tabla 8.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %,
75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 8. Al menos aproximadamente el 5 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 8. Al m aproximadamente el 10 % de las regiones genómicas pueden ser regiones identificadas en la Tb aproximadamente el 20 % de las regiones genómicas pueden ser regiones identificadas en la Tb aproximadamente el 30 % de las regiones genómicas pueden ser regiones identificadas en la Ta aproximadamente el 40 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 8.
Las regiones genómicas pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 9. Las regiones genómicas pueden comprender al menos 25, 30, 35, 40,
45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 9. Las regiones genómicas pueden comprender al menos 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000, 1100,
1200, 1300, 1400 o 1500 regiones de las identificadas en la Tabla 9. Las regiones genómicas pueden comprender al menos 2 regiones de las identificadas en la Tabla 9. Las regiones genómicas pueden comprender al menos 20 regiones de las identificadas en la Tabla 9. Las regiones genómicas pueden comprender al menos 60 regiones de las identificadas en la Tabla 9. Las regiones genómicas pueden comprender al menos 100 regiones de las identificadas en la Tabla 9. Las regiones genómicas pueden comprender al menos 300 regiones de las identificadas en la Tabla 9.
Las regiones genómicas pueden comprender al menos 500 regiones de las identificadas en la Tabla 9. Las regiones genómicas pueden comprender al menos 1000 regiones de las identificadas en la Tabla 9. Las regiones genómicas pueden comprender al menos 1300 regiones de las identificadas en la Tabla 9.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %,
75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 9. Al menos aproximadamente el 5 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 9. Al m aproximadamente el 10 % de las regiones genómicas pueden ser regiones identificadas en la Ta aproximadamente el 20 % de las regiones genómicas pueden ser regiones identificadas en la Ta aproximadamente el 30 % de las regiones genómicas pueden ser regiones identificadas en la Ta aproximadamente el 40 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 9.
Las regiones genómicas pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 10. Las regiones genómicas pueden comprender al menos 25, 30, 35,
40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 10. Las regiones genómicas pueden comprender al menos 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195, 200, 210,
220, 230, 240, 250, 260, 270, 280, 290, 300, 310, 320 o 330 regiones de las identificadas en la Tabla 10. Las regiones genómicas pueden comprender al menos 2 regiones de las identificadas en la Tabla 10. Las regiones genómicas pueden comprender al menos 20 regiones de las identificadas en la Tabla 10. Las regiones genómicas pueden comprender al menos 60 regiones de las identificadas en la Tabla 10.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %,
75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 10. Al menos aproximadamente el 5 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 10. Al menos aproximadamente el 10 % de las regiones genómicas pueden ser regiones identificadas en la Tabl aproximadamente el 20 % de las regiones genómicas pueden ser regiones identificadas en la Tabl aproximadamente el 30 % de las regiones genómicas pueden ser regiones identificadas en la Tabl aproximadamente el 40 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 10.
Las regiones genómicas pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 11. Las regiones genómicas pueden comprender al menos 25, 30, 35,
40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 11. Las regiones genómicas pueden comprender al menos 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195, 200, 210,
220, 230, 240, 250, 260, 270, 280, 290, 300, 310, 320, 330, 340, 350, 375, 400, 420, 440 o 460 regiones de las identificadas en la Tabla 11. Las regiones genómicas pueden comprender al menos 2 regiones de las identificadas en la Tabla 11. Las regiones genómicas pueden comprender al menos 20 regiones de las identificadas en la Tabla 11.
Las regiones genómicas pueden comprender al menos 60 regiones de las identificadas en la Tabla 11. Las regiones genómicas pueden comprender al menos 100 regiones de las identificadas en la Tabla 11. Las regiones genómicas pueden comprender al menos 200 regiones de las identificadas en la Tabla 11. Las regiones genómicas pueden comprender al menos 300 regiones de las identificadas en la Tabla 11. Las regiones genómicas pueden comprender al menos 400 regiones de las identificadas en la Tabla 11.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %,
75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 11. Al menos aproximadamente el 5 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 11. Al menos aproximadamente el 10 % de las regiones genómicas pueden ser regiones identificadas en la Tabl aproximadamente el 20 % de las regiones genómicas pueden ser regiones identificadas en la Tabl aproximadamente el 30 % de las regiones genómicas pueden ser regiones identificadas en la Tabl aproximadamente el 40 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 11.
Las regiones genómicas pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 12. Las regiones genómicas pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 12. Las regiones genómicas pueden comprender al menos 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195, 200, 210, 220, 230, 240, 250, 260, 270, 280, 290, 300, 310, 320, 330, 340, 350, 375, 400, 420, 440, 460, 480 o 500 regiones de las identificadas en la Tabla 12. Las regiones genómicas pueden comprender al menos 2 regiones de las identificadas en la Tabla 12. Las regiones genómicas pueden comprender al menos 20 regiones de las identificadas en la Tabla 12.
Las regiones genómicas pueden comprender al menos 60 regiones de las identificadas en la Tabla 12. Las regiones genómicas pueden comprender al menos 100 regiones de las identificadas en la Tabla 12. Las regiones genómicas pueden comprender al menos 200 regiones de las identificadas en la Tabla 12. Las regiones genómicas pueden comprender al menos 300 regiones de las identificadas en la Tabla 12. Las regiones genómicas pueden comprender al menos 400 regiones de las identificadas en la Tabla 12. Las regiones genómicas pueden comprender al menos 500 regiones de las identificadas en la Tabla 12.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 12. Al menos aproximadamente el 5 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 12. Al menos aproximadamente el 10 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 12. Al menos aproximadamente el 20 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 12. Al menos aproximadamente el 30 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 12. Al menos aproximadamente el 40 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 12.
Las regiones genómicas pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 13. Las regiones genómicas pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 13. Las regiones genómicas pueden comprender al menos 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000, 1050, 1100, 1150, 1200, 1250, 1300, 1350, 1400 o 1450 regiones de las identificadas en la Tabla 13. Las regiones genómicas pueden comprender al menos 2 regiones de las identificadas en la Tabla 13. Las regiones genómicas pueden comprender al menos 20 regiones de las identificadas en la Tabla 13. Las regiones genómicas pueden comprender al menos 60 regiones de las identificadas en la Tabla 13. Las regiones genómicas pueden comprender al menos 100 regiones de las identificadas en la Tabla 13. Las regiones genómicas pueden comprender al menos 300 regiones de las identificadas en la Tabla 13. Las regiones genómicas pueden comprender al menos 500 regiones de las identificadas en la Tabla 13. Las regiones genómicas pueden comprender al menos 1000 regiones de las identificadas en la Tabla 13. Las regiones genómicas pueden comprender al menos 1300 regiones de las identificadas en la Tabla 13.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 13. Al menos aproximadamente el 5 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 13. Al menos aproximadamente el 10 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 13. Al menos aproximadamente el 20 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 13. Al menos aproximadamente el 30 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 13. Al menos aproximadamente el 40 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 13.
Las regiones genómicas pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 14. Las regiones genómicas pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 14. Las regiones genómicas pueden comprender al menos 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000, 1050, 1100, 1150, 1200, 1210, 1220, 1230 o 1240 regiones de las identificadas en la Tabla 14. Las regiones genómicas pueden comprender al menos 2 regiones de las identificadas en la Tabla 14. Las regiones genómicas pueden comprender al menos 20 regiones de las identificadas en la Tabla 14. Las regiones genómicas pueden comprender al menos 60 regiones de las identificadas en la Tabla 14. Las regiones genómicas pueden comprender al menos 100 regiones de las identificadas en la Tabla 14. Las regiones genómicas pueden comprender al menos 300 regiones de las identificadas en la Tabla 14. Las regiones genómicas pueden comprender al menos 500 regiones de las identificadas en la Tabla 14. Las regiones genómicas pueden comprender al menos 1000 regiones de las identificadas en la Tabla 14. Las regiones genómicas pueden comprender al menos 1100 regiones de las identificadas en la Tabla 14. Las regiones genómicas pueden comprender al menos 1200 regiones de las identificadas en la Tabla 14.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 14. Al menos aproximadamente el 5 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 14. Al menos aproximadamente el 10 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 14. Al menos aproximadamente el 20 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 14. Al menos aproximadamente el 30 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 14. Al menos aproximadamente el 40 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 14.
Las regiones genómicas pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 15. Las regiones genómicas pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 110, 120, 130, 140, 150, 160 o 170 regiones de las identificadas en la Tabla 15. Las regiones genómicas pueden comprender al menos 2 regiones de las identificadas en la Tabla 15. Las regiones genómicas pueden comprender al menos 20 regiones de las identificadas en la Tabla 15. Las regiones genómicas pueden comprender al menos 60 regiones de las identificadas en la Tabla 15. Las regiones genómicas pueden comprender al menos 100 regiones de las identificadas en la Tabla 15. Las regiones genómicas pueden comprender al menos 120 regiones de las identificadas en la Tabla 15. Las regiones genómicas pueden comprender al menos 150 regiones de las identificadas en la Tabla 15.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 15. Al menos aproximadamente el 5 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 15. Al menos aproximadamente el 10 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 15. Al menos aproximadamente el 20 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 15. Al menos aproximadamente el 30 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 15. Al menos aproximadamente el 40 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 15.
Las regiones genómicas pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 16. Las regiones genómicas pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 16. Las regiones genómicas pueden comprender al menos 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000, 1100, 1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900, 2000 o 2050 regiones de las identificadas en la Tabla 16. Las regiones genómicas pueden comprender al menos 2 regiones de las identificadas en la Tabla 16. Las regiones genómicas pueden comprender al menos 20 regiones de las identificadas en la Tabla 16. Las regiones genómicas pueden comprender al menos 60 regiones de las identificadas en la Tabla 16. Las regiones genómicas pueden comprender al menos 100 regiones de las identificadas en la Tabla 16. Las regiones genómicas pueden comprender al menos 300 regiones de las identificadas en la Tabla 16. Las regiones genómicas pueden comprender al menos 500 regiones de las identificadas en la Tabla 16. Las regiones genómicas pueden comprender al menos 1000 regiones de las identificadas en la Tabla 16. Las regiones genómicas pueden comprender al menos 1200 regiones de las identificadas en la Tabla 16. Las regiones genómicas pueden comprender al menos 1500 regiones de las identificadas en la Tabla 16. Las regiones genómicas pueden comprender al menos 1700 regiones de las identificadas en la Tabla 16. Las regiones genómicas pueden comprender al menos 2000 regiones de las identificadas en la Tabla 16.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 16. Al menos aproximadamente el 5 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 16. Al menos aproximadamente el 10 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 16. Al menos aproximadamente el 20 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 16. Al menos aproximadamente el 30 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 16. Al menos aproximadamente el 40 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 16.
Las regiones genómicas pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 17. Las regiones genómicas pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 17. Las regiones genómicas pueden comprender al menos 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000, 1010, 1020, 1030, 1040, 1050, 1060, 1070 o 1080 regiones de las identificadas en la Tabla 17. Las regiones genómicas pueden comprender al menos 2 regiones de las identificadas en la Tabla 17. Las regiones genómicas pueden comprender al menos 20 regiones de las identificadas en la Tabla 17. Las regiones genómicas pueden comprender al menos 60 regiones de las identificadas en la Tabla 17. Las regiones genómicas pueden comprender al menos 100 regiones de las identificadas en la Tabla 17. Las regiones genómicas pueden comprender al menos 300 regiones de las identificadas en la Tabla 17. Las regiones genómicas pueden comprender al menos 500 regiones de las identificadas en la Tabla 17. Las regiones genómicas pueden comprender al menos 1000 regiones de las identificadas en la Tabla 17. Las regiones genómicas pueden comprender al menos 1050 regiones de las identificadas en la Tabla 17.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 17. Al menos aproximadamente el 5 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 17. Al menos aproximadamente el 10 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 17. Al menos aproximadamente el 20 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 17. Al menos aproximadamente el 30 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 17. Al menos aproximadamente el 40 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 17.
Las regiones genómicas pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 18. Las regiones genómicas pueden comprender al menos 25, 30, 35,
40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 18. Las regiones genómicas pueden comprender al menos 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195, 200, 210,
220, 230, 240, 250, 260, 270, 280, 290, 300, 310, 320, 330, 340, 350, 375, 400, 420, 440, 460, 480, 500, 520, 540 o
555 regiones de las identificadas en la Tabla 18. Las regiones genómicas pueden comprender al menos 2 regiones de las identificadas en la Tabla 18. Las regiones genómicas pueden comprender al menos 20 regiones de las identificadas en la Tabla 18. Las regiones genómicas pueden comprender al menos 60 regiones de las identificadas en la Tabla 18. Las regiones genómicas pueden comprender al menos 100 regiones de las identificadas en la Tabla
18. Las regiones genómicas pueden comprender al menos 200 regiones de las identificadas en la Tabla 18. Las regiones genómicas pueden comprender al menos 300 regiones de las identificadas en la Tabla 18. Las regiones genómicas pueden comprender al menos 400 regiones de las identificadas en la Tabla 18. Las regiones genómicas pueden comprender al menos 500 regiones de las identificadas en la Tabla 18.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %,
75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 18. Al menos aproximadamente el 5 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 18. Al menos aproximadamente el 10 % de las regiones genómicas pueden ser regiones identificadas en la Tabl aproximadamente el 20 % de las regiones genómicas pueden ser regiones identificadas en la Tabl aproximadamente el 30 % de las regiones genómicas pueden ser regiones identificadas en la Tabl aproximadamente el 40 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 18.
El conjunto de oligonucleótidos puede hibridar con menos de 1,5, 1,45, 1,4, 1,35, 1,3, 1,25, 1,2, 1,15, 1,1, 1,05 o 1,0 Megabases (Mb) del genoma. El conjunto de oligonucleótidos puede hibridar con menos de 1000, 900, 800, 700, 600,
550, 500, 450, 400, 350, 300, 250, 200, 150 o 100 kb del genoma. El conjunto de oligonucleótidos puede hibridar con menos de 1,5 megabases (Mb) del genoma. El conjunto de oligonucleótidos puede hibridar con menos de 1,25 megabases (Mb) del genoma. El conjunto de oligonucleótidos puede hibridar con menos de 1 megabases (Mb) del genoma. El conjunto de oligonucleótidos puede hibridar con menos de 1000 kb del genoma. El conjunto de oligonucleótidos puede hibridar con menos de 500 kb del genoma. El conjunto de oligonucleótidos puede hibridar con menos de 300 kb del genoma. El conjunto de oligonucleótidos puede hibridar con menos de 100 kb del genoma. El conjunto de oligonucleótidos puede ser capaz de hibridar con más de 50 kb del genoma.
El conjunto de oligonucleótidos puede ser capaz de hibridar con 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 60, 70, 80, 90,
100, 150, 200, 250, 300, 350, 400, 450 o 500 o más regiones genómicas diferentes. El conjunto de oligonucleótidos puede ser capaz de hibridar con 5 o más regiones genómicas diferentes. El conjunto de oligonucleótidos puede ser capaz de hibridar con 20 o más regiones genómicas diferentes. El conjunto de oligonucleótidos puede ser capaz de hibridar con 50 o más regiones genómicas diferentes. El conjunto de oligonucleótidos puede ser capaz de hibridar con
100 o más regiones genómicas diferentes.
La pluralidad de regiones genómicas puede comprender 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 60, 70,
80, 90, 100 o más regiones codificantes de proteínas diferentes. Las regiones codificantes de proteínas pueden comprender un exón, intrón, región no traducidas o una combinación de los mismos.
La pluralidad de regiones genómicas puede comprender 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 60, 70,
80, 90, 100 o más regiones no codificantes diferentes. Las regiones no codificantes pueden comprender un ARN no codificante, ARN ribosómico (rRNA), ARN de transferencia (tRNA), o una combinación de los mismos.
Los oligonucleótidos se pueden unir a un soporte sólido. El soporte sólido puede ser una microesfera. La microesfera puede ser una microesfera revestida. La microesfera puede ser una microesfera de estreptavidina. El soporte sólido puede ser una matriz. El soporte sólido puede ser un portaobjetos de vidrio.
En el presente documento se desvelan poblaciones de ADN tumoral circulante (ctDNA) para su uso en cualquiera de los métodos o sistemas desvelados en el presente documento. Una población de ADN tumoral circulante (ctDNA) puede comprender ctDNA enriquecido por selección de híbridos utilizando cualquiera de las composiciones que comprenden el conjunto de oligonucleótidos desvelados en el presente documento. Una población de ctDNA puede comprender ctDNA enriquecido por hibridación selectiva del ctDNA utilizando el conjunto de oligonucleótidos basado en los conjuntos selectores desvelados en el presente documento. Una población de ctDNA puede comprender ctDNA enriquecido por hibridación selectiva utilizando un conjunto de oligonucleótidos basado en cualquiera de las Tablas 2 y 6-18.
En el presente documento también se desvelan matrices para su uso en cualquiera de los métodos y sistemas desvelados en el presente documento. La matriz puede comprender una pluralidad de oligonucleótidos para capturar selectivamente regiones genómicas, en donde las regiones genómicas pueden comprender una pluralidad de mutaciones presentes en más del 60 % de una población de sujetos que padecen cáncer.
La pluralidad de mutaciones puede estar presente en más del 60 % de una población adicional de sujetos que padecen
un tipo adicional de cáncer. La pluralidad de mutaciones puede estar presente en más del 60 % de una población adicional de sujetos que padecen dos o más tipos adicionales de cáncer. La pluralidad de mutaciones puede estar presente en más del 60 % de una población adicional de sujetos que padecen tres o más tipos adicionales de cáncer.
La pluralidad de mutaciones puede estar presente en más del 60 % de una población adicional de sujetos que padecen cuatro o más tipos adicionales de cáncer.
Un oligonucleótido del conjunto de oligonucleótidos puede comprender una etiqueta. La etiqueta puede ser biotina. La etiqueta puede comprender un marcador. La etiqueta puede ser un marcador o tinte fluorescente. La etiqueta puede ser un adaptador. El adaptador puede comprender un código de barras molecular. El adaptador puede comprender un índice de muestra.
Las regiones genómicas pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 2. Las regiones genómicas pueden comprender al menos 25, 30, 35, 40,
45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 150, 200, 250, 300, 350, 400, 450, 500 o 525 regiones de las identificadas en la Tabla 2. Las regiones genómicas pueden comprender al menos 2 regiones de las identificadas en la Tabla 2.
Las regiones genómicas pueden comprender al menos 20 regiones de las identificadas en la Tabla 2. Las regiones genómicas pueden comprender al menos 60 regiones de las identificadas en la Tabla 2. Las regiones genómicas pueden comprender al menos 100 regiones de las identificadas en la Tabla 2. Las regiones genómicas pueden comprender al menos 300 regiones de las identificadas en la Tabla 2. Las regiones genómicas pueden comprender al menos 400 regiones de las identificadas en la Tabla 2. Las regiones genómicas pueden comprender al menos 500 regiones de las identificadas en la Tabla 2.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %,
75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 2. Al menos aproximadamente el 5 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 2. Al menos aproximadamente el 10 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 2. Al menos aproximadamente el 20 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 2. Al menos aproximadamente el 30 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 2. Al menos aproximadamente el 40 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 2.
Las regiones genómicas pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 6. Las regiones genómicas pueden comprender al menos 25, 30, 35, 40,
45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 150, 200, 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800 u
830 regiones de las identificadas en la Tabla 6. Las regiones genómicas pueden comprender al menos 2 regiones de las identificadas en la Tabla 6. Las regiones genómicas pueden comprender al menos 20 regiones de las identificadas en la Tabla 6. Las regiones genómicas pueden comprender al menos 60 regiones de las identificadas en la Tabla 6.
Las regiones genómicas pueden comprender al menos 100 regiones de las identificadas en la Tabla 6. Las regiones genómicas pueden comprender al menos 300 regiones de las identificadas en la Tabla 6. Las regiones genómicas pueden comprender al menos 600 regiones de las identificadas en la Tabla 6. Las regiones genómicas pueden comprender al menos 800 regiones de las identificadas en la Tabla 6.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %,
75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 6. Al menos aproximadamente el 5 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 6. Al menos aproximadamente el 10 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 6. Al menos aproximadamente el 20 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 6. Al menos aproximadamente el 30 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 6. Al menos aproximadamente el 40 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 6.
Las regiones genómicas pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 7. Las regiones genómicas pueden comprender al menos 25, 30, 35, 40,
45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 125, 150, 175, 200, 225, 250, 275, 300, 325, 350, 375, 400, 425 o 450 regiones de las identificadas en la Tabla 7. Las regiones genómicas pueden comprender al menos 2 regiones de las identificadas en la Tabla 7. Las regiones genómicas pueden comprender al menos 20 regiones de las identificadas en la Tabla 7. Las regiones genómicas pueden comprender al menos 60 regiones de las identificadas en la Tabla 7. Las regiones genómicas pueden comprender al menos 100 regiones de las identificadas en la Tabla 7. Las regiones genómicas pueden comprender al menos 200 regiones de las identificadas en la Tabla 7. Las regiones genómicas pueden comprender al menos 300 regiones de las identificadas en la Tabla 7. Las regiones genómicas pueden comprender al menos 400 regiones de las identificadas en la Tabla 7.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %,
75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 7. Al menos aproximadamente el 5 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 7. Al menos aproximadamente el 10 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 7. Al menos aproximadamente el 20 % de las regiones genómicas pueden ser regiones identificadas en la aproximadamente el 30 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 7. Al menos aproximadamente el 40 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 7.
Las regiones genómicas pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 8. Las regiones genómicas pueden comprender al menos 25, 30, 35, 40,
45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 8. Las regiones genómicas pueden comprender al menos 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000 o 1050 regiones de las identificadas en la Tabla 8. Las regiones genómicas pueden comprender al menos 2 regiones de las identificadas en la Tabla 8. Las regiones genómicas pueden comprender al menos 20 regiones de las identificadas en la Tabla 8. Las regiones genómicas pueden comprender al menos 60 regiones de las identificadas en la Tabla 8. Las regiones genómicas pueden comprender al menos 100 regiones de las identificadas en la Tabla 8. Las regiones genómicas pueden comprender al menos 300 regiones de las identificadas en la Tabla 8. Las regiones genómicas pueden comprender al menos 600 regiones de las identificadas en la Tabla 8. Las regiones genómicas pueden comprender al menos 800 regiones de las identificadas en la Tabla 8. Las regiones genómicas pueden comprender al menos 1000 regiones de las identificadas en la Tabla 8.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %,
75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 8. Al menos aproximadamente el 5 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 8. Al menos aproximadamente el 10 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 8. Al menos aproximadamente el 20 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 8. Al menos aproximadamente el 30 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 8. Al menos aproximadamente el 40 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 8.
Las regiones genómicas pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 9. Las regiones genómicas pueden comprender al menos 25, 30, 35, 40,
45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 9. Las regiones genómicas pueden comprender al menos 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000, 1100, 1200, 1300, 1400 o 1500 regiones de las identificadas en la Tabla 9. Las regiones genómicas pueden comprender al menos 2 regiones de las identificadas en la Tabla 9. Las regiones genómicas pueden comprender al menos 20 regiones de las identificadas en la Tabla 9. Las regiones genómicas pueden comprender al menos 60 regiones de las identificadas en la Tabla 9. Las regiones genómicas pueden comprender al menos 100 regiones de las identificadas en la Tabla 9. Las regiones genómicas pueden comprender al menos 300 regiones de las identificadas en la Tabla 9.
Las regiones genómicas pueden comprender al menos 500 regiones de las identificadas en la Tabla 9. Las regiones genómicas pueden comprender al menos 1000 regiones de las identificadas en la Tabla 9. Las regiones genómicas pueden comprender al menos 1300 regiones de las identificadas en la Tabla 9.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %,
75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 9. Al menos aproximadamente el 5 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 9. Al menos aproximadamente el 10 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 9. Al menos aproximadamente el 20 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 9. Al menos aproximadamente el 30 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 9. Al menos aproximadamente el 40 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 9.
Las regiones genómicas pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 10. Las regiones genómicas pueden comprender al menos 25, 30, 35,
40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 10. Las regiones genómicas pueden comprender al menos 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195, 200, 210, 220, 230, 240, 250, 260, 270, 280, 290, 300, 310, 320 o 330 regiones de las identificadas en la Tabla 10. Las regiones genómicas pueden comprender al menos 2 regiones de las identificadas en la Tabla 10. Las regiones genómicas pueden comprender al menos 20 regiones de las identificadas en la Tabla 10. Las regiones genómicas pueden comprender al menos 60 regiones de las identificadas en la Tabla 10.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %,
75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 10. Al menos aproximadamente el 5 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 10. Al menos aproximadamente el 10 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 10. Al m aproximadamente el 20 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 10. Al m aproximadamente el 30 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 10. Al m aproximadamente el 40 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 10.
Las regiones genómicas pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 11. Las regiones genómicas pueden comprender al menos 25, 30, 35,
40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 11. Las regiones genómicas pueden comprender al menos 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195, 200, 210, 220, 230, 240, 250, 260, 270, 280, 290, 300, 310, 320, 330, 340, 350, 375, 400, 420, 440 o 460 regiones de las identificadas en la Tabla 11. Las regiones genómicas pueden comprender al menos 2 regiones de las identificadas en la Tabla 11. Las regiones genómicas pueden comprender al menos 20 regiones de las identificadas en la Tabla 11.
Las regiones genómicas pueden comprender al menos 60 regiones de las identificadas en la Tabla 11. Las regiones genómicas pueden comprender al menos 100 regiones de las identificadas en la Tabla 11. Las regiones genómicas pueden comprender al menos 200 regiones de las identificadas en la Tabla 11. Las regiones genómicas pueden comprender al menos 300 regiones de las identificadas en la Tabla 11. Las regiones genómicas pueden comprender al menos 400 regiones de las identificadas en la Tabla 11.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 11. Al menos aproximadamente el 5 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 11. Al menos aproximadamente el 10 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 11. Al menos aproximadamente el 20 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 11. Al menos aproximadamente el 30 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 11. Al menos aproximadamente el 40 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 11.
Las regiones genómicas pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 12. Las regiones genómicas pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 12. Las regiones genómicas pueden comprender al menos 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195, 200, 210, 220, 230, 240, 250, 260, 270, 280, 290, 300, 310, 320, 330, 340, 350, 375, 400, 420, 440, 460, 480 o 500 regiones de las identificadas en la Tabla 12. Las regiones genómicas pueden comprender al menos 2 regiones de las identificadas en la Tabla 12. Las regiones genómicas pueden comprender al menos 20 regiones de las identificadas en la Tabla 12.
Las regiones genómicas pueden comprender al menos 60 regiones de las identificadas en la Tabla 12. Las regiones genómicas pueden comprender al menos 100 regiones de las identificadas en la Tabla 12. Las regiones genómicas pueden comprender al menos 200 regiones de las identificadas en la Tabla 12. Las regiones genómicas pueden comprender al menos 300 regiones de las identificadas en la Tabla 12. Las regiones genómicas pueden comprender al menos 400 regiones de las identificadas en la Tabla 12. Las regiones genómicas pueden comprender al menos 500 regiones de las identificadas en la Tabla 12.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 12. Al menos aproximadamente el 5 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 12. Al menos aproximadamente el 10 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 12. Al menos aproximadamente el 20 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 12. Al menos aproximadamente el 30 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 12. Al menos aproximadamente el 40 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 12.
Las regiones genómicas pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 13. Las regiones genómicas pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 13. Las regiones genómicas pueden comprender al menos 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000, 1050, 1100, 1150, 1200, 1250, 1300, 1350, 1400 o 1450 regiones de las identificadas en la Tabla 13. Las regiones genómicas pueden comprender al menos 2 regiones de las identificadas en la Tabla 13. Las regiones genómicas pueden comprender al menos 20 regiones de las identificadas en la Tabla 13. Las regiones genómicas pueden comprender al menos 60 regiones de las identificadas en la Tabla 13. Las regiones genómicas pueden comprender al menos 100 regiones de las identificadas en la Tabla 13. Las regiones genómicas pueden comprender al menos 300 regiones de las identificadas en la Tabla 13. Las regiones genómicas pueden comprender al menos 500 regiones de las identificadas en la Tabla 13. Las regiones genómicas pueden comprender al menos 1000 regiones de las identificadas en la Tabla 13. Las regiones genómicas pueden comprender al menos 1300 regiones de las identificadas en la Tabla 13.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 13. Al menos aproximadamente el 5 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 13. Al menos aproximadamente el 10 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 13. Al menos aproximadamente el 20 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 13. Al menos aproximadamente el 30 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 13. Al menos aproximadamente el 40 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 13.
Las regiones genómicas pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 14. Las regiones genómicas pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 14. Las regiones genómicas pueden comprender al menos 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000, 1050, 1100, 1150, 1200, 1210, 1220, 1230 o 1240 regiones de las identificadas en la Tabla 14. Las regiones genómicas pueden comprender al menos 2 regiones de las identificadas en la Tabla 14. Las regiones genómicas pueden comprender al menos 20 regiones de las identificadas en la Tabla 14. Las regiones genómicas pueden comprender al menos 60 regiones de las identificadas en la Tabla 14. Las regiones genómicas pueden comprender al menos 100 regiones de las identificadas en la Tabla 14. Las regiones genómicas pueden comprender al menos 300 regiones de las identificadas en la Tabla 14. Las regiones genómicas pueden comprender al menos 500 regiones de las identificadas en la Tabla 14. Las regiones genómicas pueden comprender al menos 1000 regiones de las identificadas en la Tabla 14. Las regiones genómicas pueden comprender al menos 1100 regiones de las identificadas en la Tabla 14. Las regiones genómicas pueden comprender al menos 1200 regiones de las identificadas en la Tabla 14.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 14. Al menos aproximadamente el 5 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 14. Al menos aproximadamente el 10 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 14. Al menos aproximadamente el 20 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 14. Al menos aproximadamente el 30 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 14. Al menos aproximadamente el 40 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 14.
Las regiones genómicas pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 15. Las regiones genómicas pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 110, 120, 130, 140, 150, 160 o 170 regiones de las identificadas en la Tabla 15. Las regiones genómicas pueden comprender al menos 2 regiones de las identificadas en la Tabla 15. Las regiones genómicas pueden comprender al menos 20 regiones de las identificadas en la Tabla 15. Las regiones genómicas pueden comprender al menos 60 regiones de las identificadas en la Tabla 15. Las regiones genómicas pueden comprender al menos 100 regiones de las identificadas en la Tabla 15. Las regiones genómicas pueden comprender al menos 120 regiones de las identificadas en la Tabla 15. Las regiones genómicas pueden comprender al menos 150 regiones de las identificadas en la Tabla 15.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 15. Al menos aproximadamente el 5 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 15. Al menos aproximadamente el 10 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 15. Al menos aproximadamente el 20 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 15. Al menos aproximadamente el 30 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 15. Al menos aproximadamente el 40 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 15.
Las regiones genómicas pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 16. Las regiones genómicas pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 16. Las regiones genómicas pueden comprender al menos 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000, 1100, 1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900, 2000 o 2050 regiones de las identificadas en la Tabla 16. Las regiones genómicas pueden comprender al menos 2 regiones de las identificadas en la Tabla 16. Las regiones genómicas pueden comprender al menos 20 regiones de las identificadas en la Tabla 16. Las regiones genómicas pueden comprender al menos 60 regiones de las identificadas en la Tabla 16. Las regiones genómicas pueden comprender al menos 100 regiones de las identificadas en la Tabla 16. Las regiones genómicas pueden comprender al menos 300 regiones de las identificadas en la Tabla 16. Las regiones genómicas pueden comprender al menos 500 regiones de las identificadas en la Tabla 16. Las regiones genómicas pueden comprender al menos 1000 regiones de las identificadas en la Tabla 16. Las regiones genómicas pueden comprender al menos 1200 regiones de las identificadas en la Tabla 16. Las regiones genómicas pueden comprender al menos 1500 regiones de las identificadas en la Tabla 16. Las regiones genómicas pueden comprender al menos 1700 regiones de las identificadas en la Tabla 16. Las regiones genómicas pueden comprender al menos 2000 regiones de las identificadas en la Tabla 16.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 16. Al menos aproximadamente el 5 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 16. Al menos aproximadamente el 10 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 16. Al menos aproximadamente el 20 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 16. Al menos aproximadamente el 30 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 16. Al menos aproximadamente el 40 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 16.
Las regiones genómicas pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 17. Las regiones genómicas pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 17. Las regiones genómicas pueden comprender al menos 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000, 1010, 1020, 1030, 1040, 1050, 1060, 1070 o 1080 regiones de las identificadas en la Tabla 17. Las regiones genómicas pueden comprender al menos 2 regiones de las identificadas en la Tabla 17. Las regiones genómicas pueden comprender al menos 20 regiones de las identificadas en la Tabla 17. Las regiones genómicas pueden comprender al menos 60 regiones de las identificadas en la Tabla 17. Las regiones genómicas pueden comprender al menos 100 regiones de las identificadas en la Tabla 17. Las regiones genómicas pueden comprender al menos 300 regiones de las identificadas en la Tabla 17. Las regiones genómicas pueden comprender al menos 500 regiones de las identificadas en la Tabla 17. Las regiones genómicas pueden comprender al menos 1000 regiones de las identificadas en la Tabla 17. Las regiones genómicas pueden comprender al menos 1050 regiones de las identificadas en la Tabla
17.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %,
75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 17. Al menos aproximadamente el 5 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 17. Al menos aproximadamente el 10 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 17. Al menos aproximadamente el 20 % de las regiones genómicas pueden ser regiones identificadas en la Tabl aproximadamente el 30 % de las regiones genómicas pueden ser regiones identificadas en la Tabl aproximadamente el 40 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 17.
Las regiones genómicas pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 18. Las regiones genómicas pueden comprender al menos 25, 30, 35,
40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 18. Las regiones genómicas pueden comprender al menos 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195, 200, 210,
220, 230, 240, 250, 260, 270, 280, 290, 300, 310, 320, 330, 340, 350, 375, 400, 420, 440, 460, 480, 500, 520, 540 o
555 regiones de las identificadas en la Tabla 18. Las regiones genómicas pueden comprender al menos 2 regiones de las identificadas en la Tabla 18. Las regiones genómicas pueden comprender al menos 20 regiones de las identificadas en la Tabla 18. Las regiones genómicas pueden comprender al menos 60 regiones de las identificadas en la Tabla 18. Las regiones genómicas pueden comprender al menos 100 regiones de las identificadas en la Tabla
18. Las regiones genómicas pueden comprender al menos 200 regiones de las identificadas en la Tabla 18. Las regiones genómicas pueden comprender al menos 300 regiones de las identificadas en la Tabla 18. Las regiones genómicas pueden comprender al menos 400 regiones de las identificadas en la Tabla 18. Las regiones genómicas pueden comprender al menos 500 regiones de las identificadas en la Tabla 18.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %,
75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 18. Al menos aproximadamente el 5 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 18. Al menos aproximadamente el 10 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 18. Al menos aproximadamente el 20 % de las regiones genómicas pueden ser regiones identificadas en la Tabl aproximadamente el 30 % de las regiones genómicas pueden ser regiones identificadas en la Tabl aproximadamente el 40 % de las regiones genómicas pueden ser regiones identificadas en la Tabla 18.
Los oligonucleótidos pueden capturar selectivamente 5, 10, 15, 20, 25 o 30 o más regiones genómicas diferentes.
Los oligonucleótidos pueden hibridar con menos de 1,5, 1,47, 1,45, 1,42, 1,40, 1,37, 1,35, 1,32, 1,30, 1,27, 1,25, 1,22,
1,20, 1,17, 1,15, 1,12, 1,10, 1,07, 1,05, 1,02 o 1,0 Megabases (Mb) del genoma. Los oligonucleótidos pueden hibridar con menos de 1000, 900, 800, 700, 600, 500, 400, 300, 200, 100, 90, 80, 70, 60, 50, 40, 30, 20 o 10 kb del genoma.
Los oligonucleótidos pueden ser capaces de hibridar con más de 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45 o 50 kb del genoma. Los oligonucleótidos pueden ser capaces de hibridar con más de 5 kb del genoma. Los oligonucleótidos pueden ser capaces de hibridar con más de 10 kb del genoma. Los oligonucleótidos pueden ser capaces de hibridar con más de 30 kb del genoma. Los oligonucleótidos pueden ser capaces de hibridar con más de
50 kb del genoma.
La pluralidad de regiones genómicas puede comprender 2 o más regiones codificantes de proteínas diferentes. La pluralidad de regiones genómicas puede comprender al menos 3 regiones codificantes de proteínas diferentes. Las regiones codificantes de proteínas pueden comprender un exón, intrón, región no traducidas o una combinación de los mismos.
La pluralidad de regiones genómicas puede comprender al menos una región no codificante. La región no codificante puede comprender un ARN no codificante, ARN ribosómico (rRNA), ARN de transferencia (tRNA), o una combinación de los mismos.
En el presente documento se desvelan además métodos para determinar una cantidad de ADN tumoral circulante (ctDNA). El método puede comprender (a) ligar uno o más adaptadores a ADN libre de células (cfDNA) derivado de una muestra de un sujeto para producir uno o más cfDNA ligados al adaptador; (b) realizar la secuenciación en uno o más cfDNA ligados al adaptador, en donde el cfDNA ligado al adaptador que se va a secuenciar se basan en un conjunto selector que comprende una pluralidad de regiones genómicas; y (c) usar un medio legible por ordenador para determinar la cantidad de cfDNA que se origina en un tumor basándose en la información de secuenciación obtenida a partir del cfDNA ligado al adaptador.
En algunos casos, la secuenciación no comprende la secuenciación del genoma completo. En algunos casos, la secuenciación no comprende la secuenciación del exorna completo. La secuenciación puede comprender una secuenciación masivamente paralela.
Las regiones genómicas del conjunto selector pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 2. Las regiones genómicas del selector pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 150, 200, 250, 300, 350, 400, 450, 500 o 525 regiones de las identificadas en la Tabla 2. Las regiones genómicas del conjunto selector pueden comprender al menos 2 regiones de las identificadas en la Tabla 2. Las regiones genómicas del conjunto selector pueden comprender al menos 20 regiones de las identificadas en la Tabla 2. Las regiones genómicas del conjunto selector pueden comprender al menos 60 regiones de las identificadas en la Tabla 2. Las regiones genómicas del conjunto selector pueden comprender al menos 100 regiones de las identificadas en la Tabla 2. Las regiones genómicas del conjunto selector pueden comprender al menos 300 regiones de las identificadas en la Tabla 2. Las regiones genómicas del conjunto selector pueden comprender al menos 400 regiones de las identificadas en la Tabla 2. Las regiones genómicas del conjunto selector pueden comprender al menos 500 regiones de las identificadas en la Tabla 2.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 2. Al menos aproximadamente el 5 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 2. Al menos aproximadamente el 10 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 2. Al menos aproximadamente el 20 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 2. Al menos aproximadamente el 30 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 2. Al menos aproximadamente el 40 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 2.
Las regiones genómicas del conjunto selector pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 6. Las regiones genómicas del conjunto selector pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 150, 200, 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800 u 830 regiones de las identificadas en la Tabla 6. Las regiones genómicas del conjunto selector pueden comprender al menos 2 regiones de las identificadas en la Tabla 6. Las regiones genómicas del conjunto selector pueden comprender al menos 20 regiones de las identificadas en la Tabla 6. Las regiones genómicas del conjunto selector pueden comprender al menos 60 regiones de las identificadas en la Tabla 6. Las regiones genómicas del conjunto selector pueden comprender al menos 100 regiones de las identificadas en la Tabla 6. Las regiones genómicas del conjunto selector pueden comprender al menos 300 regiones de las identificadas en la Tabla 6. Las regiones genómicas del conjunto selector pueden comprender al menos 600 regiones de las identificadas en la Tabla 6. Las regiones genómicas del conjunto selector pueden comprender al menos 800 regiones de las identificadas en la Tabla 6.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 6. Al menos aproximadamente el 5 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 6. Al menos aproximadamente el 10 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 6. Al menos aproximadamente el 20 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 6. Al menos aproximadamente el 30 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 6. Al menos aproximadamente el 40 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 6.
Las regiones genómicas del conjunto selector pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 7. Las regiones genómicas del conjunto selector pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 125, 150, 175, 200, 225, 250, 275, 300, 325, 350, 375, 400, 425 o 450 regiones de las identificadas en la Tabla 7. Las regiones genómicas del conjunto selector pueden comprender al menos 2 regiones de las identificadas en la Tabla 7. Las regiones genómicas del conjunto selector pueden comprender al menos 20 regiones de las identificadas en la Tabla 7. Las regiones genómicas del conjunto selector pueden comprender al menos 60 regiones de las identificadas en la Tabla 7. Las regiones genómicas del conjunto selector pueden comprender al menos 100 regiones de las identificadas en la Tabla 7. Las regiones genómicas del conjunto selector pueden comprender al menos 200 regiones de las identificadas en la Tabla 7. Las regiones genómicas del conjunto selector pueden comprender al menos 300 regiones de las identificadas en la Tabla 7. Las regiones genómicas del conjunto selector pueden comprender al menos 400 regiones de las identificadas en la Tabla 7.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 7. Al menos aproximadamente el 5 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 7. Al menos aproximadamente el 10 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 7. Al menos aproximadamente el 20 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 7. Al menos aproximadamente el 30 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 7. Al menos aproximadamente el 40 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 7.
Las regiones genómicas del conjunto selector pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 8. Las regiones genómicas del conjunto selector pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 8. Las regiones genómicas del conjunto selector pueden comprender al menos 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000 o 1050 regiones de las identificadas en la Tabla 8. Las regiones genómicas del conjunto selector pueden comprender al menos 2 regiones de las identificadas en la Tabla 8. Las regiones genómicas del conjunto selector pueden comprender al menos 20 regiones de las identificadas en la Tabla 8. Las regiones genómicas del conjunto selector pueden comprender al menos 60 regiones de las identificadas en la Tabla 8. Las regiones genómicas del conjunto selector pueden comprender al menos 100 regiones de las identificadas en la Tabla 8. Las regiones genómicas del conjunto selector pueden comprender al menos 300 regiones de las identificadas en la Tabla 8. Las regiones genómicas del conjunto selector pueden comprender al menos 600 regiones de las identificadas en la Tabla 8. Las regiones genómicas del conjunto selector pueden comprender al menos 800 regiones de las identificadas en la Tabla 8. Las regiones genómicas del conjunto selector pueden comprender al menos 1000 regiones de las identificadas en la Tabla 8.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 8. Al menos aproximadamente el 5 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 8. Al menos aproximadamente el 10 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 8. Al menos aproximadamente el 20 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 8. Al menos aproximadamente el 30 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 8. Al menos aproximadamente el 40 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 8.
Las regiones genómicas del conjunto selector pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 9. Las regiones genómicas del conjunto selector pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 9. Las regiones genómicas del conjunto selector pueden comprender al menos 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000, 1100, 1200, 1300, 1400 o 1500 regiones de las identificadas en la Tabla 9. Las regiones genómicas del conjunto selector pueden comprender al menos 2 regiones de las identificadas en la Tabla 9. Las regiones genómicas del conjunto selector pueden comprender al menos 20 regiones de las identificadas en la Tabla 9. Las regiones genómicas del conjunto selector pueden comprender al menos 60 regiones de las identificadas en la Tabla 9. Las regiones genómicas del conjunto selector pueden comprender al menos 100 regiones de las identificadas en la Tabla 9. Las regiones genómicas del conjunto selector pueden comprender al menos 300 regiones de las identificadas en la Tabla 9. Las regiones genómicas del conjunto selector pueden comprender al menos 500 regiones de las identificadas en la Tabla 9. Las regiones genómicas del conjunto selector pueden comprender al menos 1000 regiones de las identificadas en la Tabla 9. Las regiones genómicas del conjunto selector pueden comprender al menos 1300 regiones de las identificadas en la Tabla 9.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 9. Al menos aproximadamente el 5 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 9. Al menos aproximadamente el 10 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 9. Al menos aproximadamente el 20 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 9. Al menos aproximadamente el 30 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 9. Al menos aproximadamente el 40 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 9.
Las regiones genómicas del conjunto selector pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 10. Las regiones genómicas del conjunto selector pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 10. Las regiones genómicas del conjunto selector pueden comprender al menos 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195, 200, 210, 220, 230, 240, 250, 260, 270, 280, 290, 300, 310, 320 o 330 regiones de las identificadas en la Tabla 10. Las regiones genómicas del conjunto selector pueden comprender al menos 2 regiones de las identificadas en la Tabla 10. Las regiones genómicas del conjunto selector pueden comprender al menos 20 regiones de las identificadas en la Tabla 10. Las regiones genómicas del conjunto selector pueden comprender al menos 60 regiones de las identificadas en la Tabla 10.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 10. Al menos aproximadamente el 5 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 10. Al menos aproximadamente el 10 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 10. Al menos aproximadamente el 20 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 10. Al menos aproximadamente el 30 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 10. Al menos aproximadamente el 40 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 10.
Las regiones genómicas del conjunto selector pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 11. Las regiones genómicas del conjunto selector pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 11. Las regiones genómicas del conjunto selector pueden comprender al menos 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195, 200, 210, 220, 230, 240, 250, 260, 270, 280, 290, 300, 310, 320, 330, 340, 350, 375, 400, 420, 440 o 460 regiones de las identificadas en la Tabla 11. Las regiones genómicas del conjunto selector pueden comprender al menos 2 regiones de las identificadas en la Tabla 11. Las regiones genómicas del conjunto selector pueden comprender al menos 20 regiones de las identificadas en la Tabla 11. Las regiones genómicas del conjunto selector pueden comprender al menos 60 regiones de las identificadas en la Tabla 11. Las regiones genómicas del conjunto selector pueden comprender al menos 100 regiones de las identificadas en la Tabla 11. Las regiones genómicas del conjunto selector pueden comprender al menos 200 regiones de las identificadas en la Tabla 11. Las regiones genómicas del conjunto selector pueden comprender al menos 300 regiones de las identificadas en la Tabla 11. Las regiones genómicas del conjunto selector pueden comprender al menos 400 regiones de las identificadas en la Tabla 11.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 11. Al menos aproximadamente el 5 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 11. Al menos aproximadamente el 10 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 11. Al menos aproximadamente el 20 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 11. Al menos aproximadamente el 30 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 11. Al menos aproximadamente el 40 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 11.
Las regiones genómicas del conjunto selector pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 12. Las regiones genómicas del conjunto selector pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 12. Las regiones genómicas del conjunto selector pueden comprender al menos 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195, 200, 210, 220, 230, 240, 250, 260, 270, 280, 290, 300, 310, 320, 330, 340, 350, 375, 400, 420, 440, 460, 480 o 500 regiones de las identificadas en la Tabla 12. Las regiones genómicas del conjunto selector pueden comprender al menos 2 regiones de las identificadas en la Tabla 12. Las regiones genómicas del conjunto selector pueden comprender al menos 20 regiones de las identificadas en la Tabla 12. Las regiones genómicas del conjunto selector pueden comprender al menos 60 regiones de las identificadas en la Tabla 12. Las regiones genómicas del conjunto selector pueden comprender al menos 100 regiones de las identificadas en la Tabla 12. Las regiones genómicas del conjunto selector pueden comprender al menos 200 regiones de las identificadas en la Tabla 12. Las regiones genómicas del conjunto selector pueden comprender al menos 300 regiones de las identificadas en la Tabla 12. Las regiones genómicas del conjunto selector pueden comprender al menos 400 regiones de las identificadas en la Tabla 12. Las regiones genómicas del conjunto selector pueden comprender al menos 500 regiones de las identificadas en la Tabla 12.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 12. Al menos aproximadamente el 5 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 12. Al menos aproximadamente el 10 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 12. Al menos aproximadamente el 20 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 12. Al menos aproximadamente el 30 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 12. Al menos aproximadamente el 40 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 12.
Las regiones genómicas del conjunto selector pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 13. Las regiones genómicas del conjunto selector pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 13. Las regiones genómicas del selector pueden comprender al menos 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000, 1050, 1100, 1150, 1200, 1250, 1300, 1350, 1400 o 1450 regiones de las identificadas en la Tabla 13. Las regiones genómicas del conjunto selector pueden comprender al menos 2 regiones de las identificadas en la Tabla 13. Las regiones genómicas del conjunto selector pueden comprender al menos 20 regiones de las identificadas en la Tabla 13. Las regiones genómicas del conjunto selector pueden comprender al menos 60 regiones de las identificadas en la Tabla 13. Las regiones genómicas del conjunto selector pueden comprender al menos 100 regiones de las identificadas en la Tabla 13. Las regiones genómicas del conjunto selector pueden comprender al menos 300 regiones de las identificadas en la Tabla 13. Las regiones genómicas del conjunto selector pueden comprender al menos 500 regiones de las identificadas en la Tabla 13. Las regiones genómicas del conjunto selector pueden comprender al menos 1000 regiones de las identificadas en la Tabla 13. Las regiones genómicas del conjunto selector pueden comprender al menos 1300 regiones de las identificadas en la Tabla 13.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 13. Al menos aproximadamente el 5 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 13. Al menos aproximadamente el 10 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 13. Al menos aproximadamente el 20 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 13. Al menos aproximadamente el 30 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 13. Al menos aproximadamente el 40 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 13.
Las regiones genómicas del conjunto selector pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 14. Las regiones genómicas del conjunto selector pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 14. Las regiones genómicas del conjunto selector pueden comprender al menos 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000, 1050, 1100, 1150, 1200, 1210, 1220, 1230 o 1240 regiones de las identificadas en la Tabla 14. Las regiones genómicas del conjunto selector pueden comprender al menos 2 regiones de las identificadas en la Tabla 14. Las regiones genómicas del conjunto selector pueden comprender al menos 20 regiones de las identificadas en la Tabla 14. Las regiones genómicas del conjunto selector pueden comprender al menos 60 regiones de las identificadas en la Tabla 14. Las regiones genómicas del conjunto selector pueden comprender al menos 100 regiones de las identificadas en la Tabla 14. Las regiones genómicas del conjunto selector pueden comprender al menos 300 regiones de las identificadas en la Tabla 14. Las regiones genómicas del conjunto selector pueden comprender al menos 500 regiones de las identificadas en la Tabla 14. Las regiones genómicas del conjunto selector pueden comprender al menos 1000 regiones de las identificadas en la Tabla 14. Las regiones genómicas del conjunto selector pueden comprender al menos 1100 regiones de las identificadas en la Tabla 14. Las regiones genómicas del conjunto selector pueden comprender al menos 1200 regiones de las identificadas en la Tabla 14.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 14. Al menos aproximadamente el 5 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 14. Al menos aproximadamente el 10 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 14. Al menos aproximadamente el 20 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 14. Al menos aproximadamente el 30 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 14. Al menos aproximadamente el 40 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 14.
Las regiones genómicas del conjunto selector pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 15. Las regiones genómicas del conjunto selector pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 110, 120, 130, 140, 150, 160 o 170 regiones de las identificadas en la Tabla 15. Las regiones genómicas del conjunto selector pueden comprender al menos 2 regiones de las identificadas en la Tabla 15. Las regiones genómicas del conjunto selector pueden comprender al menos 20 regiones de las identificadas en la Tabla 15. Las regiones genómicas del conjunto selector pueden comprender al menos 60 regiones de las identificadas en la Tabla 15. Las regiones genómicas del conjunto selector pueden comprender al menos 100 regiones de las identificadas en la Tabla 15. Las regiones genómicas del conjunto selector pueden comprender al menos 120 regiones de las identificadas en la Tabla 15. Las regiones genómicas del conjunto selector pueden comprender al menos 150 regiones de las identificadas en la Tabla 15.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 15. Al menos aproximadamente el 5 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 15. Al menos aproximadamente el 10 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 15. Al menos aproximadamente el 20 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 15. Al menos aproximadamente el 30 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 15. Al menos aproximadamente el 40 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 15.
Las regiones genómicas del conjunto selector pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 16. Las regiones genómicas del conjunto selector pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 16. Las regiones genómicas del conjunto selector pueden comprender al menos 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000, 1100, 1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900, 2000 o 2050 regiones de las identificadas en la Tabla 16. Las regiones genómicas del conjunto selector pueden comprender al menos 2 regiones de las identificadas en la Tabla 16. Las regiones genómicas del conjunto selector pueden comprender al menos 20 regiones de las identificadas en la Tabla 16. Las regiones genómicas del conjunto selector pueden comprender al menos 60 regiones de las identificadas en la Tabla 16. Las regiones genómicas del conjunto selector pueden comprender al menos 100 regiones de las identificadas en la Tabla 16. Las regiones genómicas del conjunto selector pueden comprender al menos 300 regiones de las identificadas en la Tabla 16. Las regiones genómicas del conjunto selector pueden comprender al menos 500 regiones de las identificadas en la Tabla 16. Las regiones genómicas del conjunto selector pueden comprender al menos 1000 regiones de las identificadas en la Tabla 16. Las regiones genómicas del conjunto selector pueden comprender al menos 1200 regiones de las identificadas en la Tabla 16. Las regiones genómicas del conjunto selector pueden comprender al menos 1500 regiones de las identificadas en la Tabla 16. Las regiones genómicas del conjunto selector pueden comprender al menos 1700 regiones de las identificadas en la Tabla 16. Las regiones genómicas del conjunto selector pueden comprender al menos 2000 regiones de las identificadas en la Tabla 16.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 16. Al menos aproximadamente el 5 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 16. Al menos aproximadamente el 10 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 16. Al menos aproximadamente el 20 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 16. Al menos aproximadamente el 30 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 16. Al menos aproximadamente el 40 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 16.
Las regiones genómicas del conjunto selector pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 17. Las regiones genómicas del conjunto selector pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 17. Las regiones genómicas del conjunto selector pueden comprender al menos 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000, 1010, 1020, 1030, 1040, 1050, 1060, 1070 o 1080 regiones de las identificadas en la Tabla 17. Las regiones genómicas del conjunto selector pueden comprender al menos 2 regiones de las identificadas en la Tabla 17. Las regiones genómicas del conjunto selector pueden comprender al menos 20 regiones de las identificadas en la Tabla 17. Las regiones genómicas del conjunto selector pueden comprender al menos 60 regiones de las identificadas en la Tabla 17. Las regiones genómicas del conjunto selector pueden comprender al menos 100 regiones de las identificadas en la Tabla 17. Las regiones genómicas del conjunto selector pueden comprender al menos 300 regiones de las identificadas en la Tabla 17. Las regiones genómicas del conjunto selector pueden comprender al menos 500 regiones de las identificadas en la Tabla 17. Las regiones genómicas del conjunto selector pueden comprender al menos 1000 regiones de las identificadas en la Tabla 17. Las regiones genómicas del conjunto selector pueden comprender al menos 1050 regiones de las identificadas en la Tabla 17.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 17. Al menos aproximadamente el 5 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 17. Al menos aproximadamente el 10 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 17. Al menos aproximadamente el 20 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 17. Al menos aproximadamente el 30 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 17. Al menos aproximadamente el 40 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 17.
Las regiones genómicas del conjunto selector pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 18. Las regiones genómicas del conjunto selector pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 18. Las regiones genómicas del conjunto selector pueden comprender al menos 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195, 200, 210, 220, 230, 240, 250, 260, 270, 280, 290, 300, 310, 320, 330, 340, 350, 375, 400, 420, 440, 460, 480, 500, 520, 540 o 555 regiones de las identificadas en la Tabla 18. Las regiones genómicas del conjunto selector pueden comprender al menos 2 regiones de las identificadas en la Tabla 18. Las regiones genómicas del conjunto selector pueden comprender al menos 20 regiones de las identificadas en la Tabla 18. Las regiones genómicas del conjunto selector pueden comprender al menos 60 regiones de las identificadas en la Tabla 18. Las regiones genómicas del conjunto selector pueden comprender al menos 100 regiones de las identificadas en la Tabla 18. Las regiones genómicas del conjunto selector pueden comprender al menos 200 regiones de las identificadas en la Tabla 18. Las regiones genómicas del conjunto selector pueden comprender al menos 300 regiones de las identificadas en la Tabla 18. Las regiones genómicas del conjunto selector pueden comprender al menos 400 regiones de las identificadas en la Tabla 18. Las regiones genómicas del conjunto selector pueden comprender al menos 500 regiones de las identificadas en la Tabla 18.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 18. Al menos aproximadamente el 5 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 18. Al menos aproximadamente el 10 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 18. Al menos aproximadamente el 20 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 18. Al menos aproximadamente el 30 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 18. Al menos aproximadamente el 40 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 18.
La pluralidad de regiones genómicas puede comprender una o más mutaciones presentes en al menos el 60 %, 62 %, 65 %, 67 %, 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 92 %, 95 %, 97 % o 99% o más de una población de sujetos que padecen el cáncer. La pluralidad de regiones genómicas puede comprender una o más mutaciones presentes en al menos el 60 % o más de una población de sujetos que padecen el cáncer. La pluralidad de regiones genómicas puede comprender una o más mutaciones presentes en al menos el 72 % o más de una población de sujetos que padecen el cáncer. La pluralidad de regiones genómicas puede comprender una o más mutaciones presentes en al menos el 80 % o más de una población de sujetos que padecen el cáncer.
El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede comprender menos de 1,5 megabases (Mb), 1 Mb, 500 kilobases (kb), 350 kb, 300 kb, 250 kb, 200 kb o 150 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede comprender menos de 1,5 Mb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede comprender menos de 1 Mb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede comprender menos de 500 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede comprender menos de 300 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede comprender menos de 100, 90, 80, 70, 60, 50, 40, 30, 20, 10 o 5 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede comprender menos de 100 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede comprender menos de 75 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede comprender menos de 50 kb de un genoma.
El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 100 kb y 1000 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 100 kb y 500 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 100 kb y 300 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 5 kb y 500 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 5 kb y 300 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 5 kb y 200 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 1 kb y 100 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 1 kb y 50 kb de un genoma.
En el presente documento también se desvelan métodos para preparar una biblioteca para secuenciación. El método puede comprender (a) realizar una reacción de amplificación en ADN libre de células (cfDNA) derivado de una muestra para producir una pluralidad de amplicones, en donde la reacción de amplificación puede comprender 20 o menos ciclos de amplificación; y (b) producir una biblioteca para secuenciación, comprendiendo la biblioteca la pluralidad de amplicones.
La reacción de amplificación puede comprender 19, 18, 17, 16, 15, 14, 13, 12, 11 o 10 o menos ciclos de amplificación. La reacción de amplificación puede comprender 15 o menos ciclos de amplificación.
El método puede comprender además unir adaptadores a uno o más extremos del cfDNA. El adaptador puede comprender una pluralidad de oligonucleótidos. El adaptador puede comprender uno o más desoxirribonucleótidos. El adaptador puede comprender ribonucleótidos. El adaptador puede ser monocatenario. El adaptador puede ser bicatenario. El adaptador puede comprender porciones monocatenarias y bicatenarias. Por ejemplo, el adaptador puede ser un adaptador en forma de Y. El adaptador puede ser un adaptador lineal. El adaptador puede ser un adaptador circular. El adaptador puede comprender un código de barras molecular, índice de muestra, secuencia de cebador, secuencia enlazadora o una combinación de las mismas. El código de barras molecular puede estar adyacente al índice de la muestra. El código de barras molecular puede estar adyacente a la secuencia del cebador. El índice de muestra puede estar adyacente a la secuencia del cebador. Una secuencia enlazadora puede conectar el código de barras molecular al índice de muestra. Una secuencia enlazadora puede conectar el código de barras molecular a la secuencia del cebador. Una secuencia enlazadora puede conectar el índice de muestra a la secuencia del cebador.
El adaptador puede comprender un código de barras molecular. El código de barras molecular puede comprender una secuencia aleatoria. El código de barras molecular puede comprender una secuencia predeterminada. Dos o más adaptadores pueden comprender dos o más códigos de barras moleculares diferentes. Los códigos de barras moleculares se pueden optimizar para minimizar la dimerización. Los códigos de barras moleculares pueden optimizarse para permitir la identificación incluso con errores de secuenciación o amplificación. Como ejemplos, la amplificación de un primer código de barras molecular puede introducir un error de una sola base. El primer código de barras molecular puede comprender una diferencia mayor que una sola base con respecto a los otros códigos de barras moleculares. Por tanto, el primer código de barras molecular con el error de una sola base sigue pudiendo identificarse como el primer código de barras molecular. El código de barras molecular puede comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10 o más nucleótidos. El código de barras molecular puede comprender al menos 3 nucleótidos.
El código de barras molecular puede comprender al menos 4 nucleótidos. El código de barras molecular puede comprender menos de 20, 19, 18, 17, 16 o 15 nucleótidos. El código de barras molecular puede comprender menos de 10 nucleótidos. El código de barras molecular puede comprender menos de 8 nucleótidos. El código de barras molecular puede comprender menos de 6 nucleótidos. El código de barras molecular puede comprender de 2 a 15 nucleótidos. El código de barras molecular puede comprender de 2 a 12 nucleótidos. El código de barras molecular puede comprender de 3 a 10 nucleótidos. El código de barras molecular puede comprender de 3 a 8 nucleótidos. El código de barras molecular puede comprender de 4 a 8 nucleótidos. El código de barras molecular puede comprender de 4 a 6 nucleótidos.
El adaptador puede comprender un índice de muestra. El índice de muestra puede comprender una secuencia aleatoria. El índice de muestra puede comprender una secuencia predeterminada. Dos o más conjuntos de adaptadores pueden comprender dos o más índices de muestra diferentes. Los adaptadores dentro de un conjunto de adaptadores pueden comprender índices de muestra idénticos. Los índices de muestra se pueden optimizar para minimizar la dimerización. Los índices de muestra pueden optimizarse para permitir la identificación incluso con errores de secuenciación o amplificación. Como ejemplos, la amplificación de un primer índice de muestra puede introducir un error de una sola base. El primer índice de muestra puede comprender una diferencia mayor que una sola base con respecto a los otros índices de muestra. Por tanto, el primer índice de muestra con el error de una sola base sigue pudiendo identificarse como el primer código de barras molecular. El índice de muestra puede comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10 o más nucleótidos. El índice de muestra puede comprender al menos 3 nucleótidos. El índice de muestra puede comprender al menos 4 nucleótidos. El índice de muestra puede comprender menos de 20, 19, 18, 17, 16 o 15 nucleótidos. El índice de muestra puede comprender menos de 10 nucleótidos. El índice de muestra puede comprender menos de 8 nucleótidos. El índice de muestra puede comprender menos de 6 nucleótidos. El índice de muestra puede comprender de 2 a 15 nucleótidos. El índice de muestra puede comprender de 2 a 12 nucleótidos. El índice de muestra puede comprender de 3 a 10 nucleótidos. El índice de muestra puede comprender de 3 a 8 nucleótidos. El índice de muestra puede comprender de 4 a 8 nucleótidos. El índice de muestra puede comprender de 4 a 6 nucleótidos.
El adaptador puede comprender una secuencia de cebador. La secuencia del cebador puede ser una secuencia del cebador de PCR. La secuencia del cebador puede ser un cebador de secuenciación.
Pueden unirse adaptadores a un extremo de un ácido nucleico de una muestra. Los ácidos nucleicos pueden ser ADN. El ADN puede ser ADN libre de células (cfDNA). El ADN puede ser ADN tumoral circulante (ctDNA). Los ácidos nucleicos pueden ser ARN. Se pueden unir adaptadores a los dos extremos del ácido nucleico. Los adaptadores pueden unirse a uno o más extremos de un ácido nucleico monocatenario. Los adaptadores pueden unirse a uno o más extremos de un ácido nucleico bicatenario.
Los adaptadores pueden unirse al ácido nucleico mediante ligamiento. El ligamiento puede ser ligamiento de extremos romos. El ligamiento puede ser ligamiento de extremos adhesivos. Los adaptadores pueden unirse al ácido nucleico mediante extensión del cebador. Los adaptadores pueden unirse al ácido nucleico mediante transcripción inversa. Los adaptadores pueden unirse a los ácidos nucleicos mediante hibridación. Los adaptadores pueden comprender una secuencia que sea al menos parcialmente complementaria al ácido nucleico. Como alternativa, en algunos casos, los adaptadores no comprenden una secuencia que sea complementaria al ácido nucleico.
El método puede comprender además fragmentar el cfDNA. El método puede comprender además reparar los extremos del cfDNA. El método puede comprender además añadir una cola de A al cfDNA.
En el presente documento también se desvelan métodos para determinar el significado estadístico de un conjunto selector. El método puede comprender (a) detectar la presencia de una o más mutaciones en una o más muestras de un sujeto, en donde dichas una o más mutaciones pueden basarse en un conjunto selector que comprende regiones genómicas que comprenden dichas una o más mutaciones; (b) determinar un tipo de mutación de dichas una o más mutaciones presentes en la muestra; y (c) determinar el significado estadístico del conjunto selector calculando un índice de detección de ctDNA basado en un valor p del tipo de mutación de mutaciones presentes en dichas una o más muestras.
En algunos casos, si se observa un reordenamiento en dos o más muestras del sujeto, entonces el índice de detección de ctDNA es 0. Al menos una de las dos o más muestras puede ser una muestra de plasma. Al menos una de las dos o más muestras puede ser una muestra de tumor. El reordenamiento puede ser una fusión o un punto de ruptura.
En algunos casos, si está presente un tipo de mutación, entonces el índice de detección de ctDNA es el valor p del tipo de mutación.
En algunos casos, si (i) en la muestra están presentes dos o más tipos de mutaciones; (ii) los valores p de los dos o más tipos de mutaciones son inferiores a 0,1; y (iii) un reordenamiento no es uno de los tipos de mutaciones, la detección de ctDNA se calcula basándose en los valores p combinados de las dos o más mutaciones. Los valores p de las dos o más mutaciones pueden combinarse de acuerdo con el método de Fisher. Uno de los dos o más tipos de mutaciones puede ser una SNV. El valor p de la SNV puede determinarse mediante muestreo de Montecarlo. Uno de los dos o más tipos de mutaciones puede ser una indel.
En algunos casos, si (i) en la muestra están presentes dos o más tipos de mutaciones; (ii) un valor p de al menos uno de los dos o más tipos de mutaciones es mayor que 0,1; y (iii) un reordenamiento no es uno de los tipos de mutaciones, la detección de ctDNA se calcula basándose en el valor p de uno de los dos o más tipos de mutaciones. Uno de los dos o más tipos de mutaciones puede ser una SNV. El índice de detección de ctDNA puede calcularse basándose en el valor p de la SNV. Uno de los dos o más tipos de mutaciones puede ser una indel.
En el presente documento también se describen métodos para identificar reordenamientos en uno o más ácidos nucleicos. El método puede comprender (a) obtener información de secuenciación relativa a una pluralidad de regiones genómicas; (b) producir una lista de regiones genómicas, en donde las regiones genómicas pueden ser adyacentes a uno o más sitios de reordenamiento candidatos o las regiones genómicas pueden comprender uno o más sitios de reordenamiento candidatos; y (c) aplicar un algoritmo a la lista de regiones genómicas para validar los sitios de reordenamiento candidatos, identificándose así reordenamientos.
La información de secuenciación puede comprender un archivo de alineamiento. El archivo de alineamiento puede comprender un archivo de alineamiento de lecturas pareadas (pair-end), coordenadas de exón y un genoma de referencia.
La información de secuenciación se puede obtener a partir de una base de datos. La base de datos puede comprender información de secuenciación relativa a una población de sujetos que padecen una enfermedad o afección. La enfermedad o afección puede ser un cáncer.
La información de secuenciación puede obtenerse a partir de una o más muestras de uno o más sujetos.
La producción de la lista de regiones genómicas puede comprender la identificación de pares de lectura discordantes basándose en la información de secuenciación. El par de lectura discordante puede referirse a una lectura y su pareja, donde: (i) el tamaño de la inserción puede no ser igual a la distribución esperada del conjunto de datos; o (ii) la orientación de mapeo de las lecturas puede ser inesperada.
La producción de la lista de regiones genómicas puede comprender la clasificación de los pares de lectura discordantes basándose en la información de secuenciación. La producción de la lista de regiones genómicas puede comprender además la clasificación de las regiones genómicas. Las regiones genómicas pueden clasificarse en orden decreciente de profundidad de lectura discordante.
La producción de la lista de regiones genómicas puede comprender la selección de regiones genómicas con una profundidad de lectura mínima definida por el usuario.
La profundidad de lectura mínima definida por el usuario puede ser al menos 2x, 3x, 4x, 5x, 6x, 7x, 8x, 9x, 10x o más.
El método puede comprender además eliminar fragmentos duplicados.
La producción de la lista de regiones genómicas puede comprender el uso de uno o más algoritmos. El algoritmo puede analizar lecturas pareadas correctamente en las que una de las lecturas pareadas puede truncarse para producir una lectura con recorte suave (soft-clipped). El algoritmo puede analizar las lecturas con recorte suave basándose en un patrón. El patrón puede basarse en x número de bases omitidas (Sx) y en y número de bases mapeadas contiguas (My). El patrón puede ser MySx o SxMy.
La aplicación del algoritmo para validar los sitios de reordenamiento candidatos puede comprender la eliminación de los reordenamientos candidatos con una frecuencia de lectura de menos de 2. La aplicación del algoritmo para validar los sitios de reordenamiento candidatos puede comprender la clasificación de los reordenamientos candidatos basándose en su frecuencia de lectura.
La aplicación del algoritmo para validar los sitios de reordenamiento candidatos puede comprender la comparación de dos o más lecturas del reordenamiento candidato. La aplicación del algoritmo para validar los sitios de reordenamiento candidatos puede comprender la identificación del reordenamiento candidato como un reordenamiento si las dos o más lecturas tienen un alineamiento de secuencia.
La aplicación del algoritmo para validar los sitios de reordenamiento candidatos puede comprender la evaluación de la concordancia entre lecturas. La evaluación de la concordancia entre lecturas puede comprender la división de una primera lectura de secuenciación del sitio de reordenamiento candidato en una pluralidad de subsecuencias de longitud /. La evaluación de la concordancia entre lecturas puede comprender la división de una segunda lectura de secuenciación del sitio de reordenamiento candidato en una pluralidad de subsecuencias de longitud /. La evaluación de la concordancia entre lecturas puede comprender la comparación de las subsecuencias de la primera lectura de secuenciación con las subsecuencias de la segunda lectura de secuenciación. Las lecturas de secuenciación primera y segunda pueden considerarse concordantes si se puede lograr un umbral mínimo de coincidencia.
La aplicación del algoritmo para validar los sitios de reordenamiento candidatos puede comprender la validación in silico de los sitios de reordenamiento candidatos. La validación in silico puede comprender el alineamiento de las lecturas de secuenciación del sitio de reordenamiento candidato con respecto a una secuencia de reordenamiento de referencia. La secuencia de reordenamiento de referencia puede obtenerse a partir de un genoma de referencia. El sitio de reordenamiento candidato puede identificarse como un reordenamiento si las lecturas se corresponden con la secuencia de reordenamiento de referencia con una identidad de al menos el 70 %, 75 %, 80 %, 85 %, 90 %, 95 %, 97 % o más.
El sitio de reordenamiento candidato puede identificarse como un reordenamiento si la longitud de las secuencias alineadas puede ser al menos del 70 %, 75 %, 80 %, 85 %, 90 % o 95 % o más de la longitud de lectura del sitio de reordenamiento candidato.
En el presente documento también se describen métodos para identificar variaciones de un solo nucleótido (SNV) derivadas de tumores. El método puede comprender (a) obtener una muestra de un sujeto que padece un cáncer o que se sospecha que padece un cáncer; (b) realizar una reacción de secuenciación en la muestra para producir información de secuenciación; (c) aplicar un algoritmo a la información de secuenciación para producir una lista de alelos tumorales candidatos basada en la información de secuenciación de la etapa (b), en donde un alelo de tumor candidato puede comprender una base no dominante que puede no ser un SNP de línea germinal; y (d) identificar SNV derivadas de tumores basándose en la lista de alelos tumorales candidatos.
La producción de la lista de alelos tumorales candidatos puede comprender la clasificación de los alelos tumorales por su abundancia fraccionada. La producción de la lista de alelos tumorales candidatos puede comprender la selección de alelos tumorales con una abundancia fraccionada en el percentil superior 70, 75, 80, 85, 87, 90, 92, 95 o 97. La producción de la lista de alelos tumorales candidatos puede comprender la selección de alelos tumorales con una abundancia fraccionada de menos del 1 %, 0,9 %, 0,8 %, 0,7 %, 0,6 %, 0,5 %, 0,4 %, 0,3 %, 0,2 %, 0,1 % del total de alelos en la muestra del sujeto.
La producción de la lista de alelos tumorales candidatos puede comprender la clasificación de los alelos tumorales basándose en su profundidad de secuenciación. La producción de la lista de alelos tumorales candidatos puede comprender la selección de alelos tumorales que cumplan con una profundidad de secuenciación mínima. La profundidad de secuenciación mínima puede ser de al menos 100x, 200x, 300x, 400x, 500x, 600x, 700x, 800x, 900x, 1000x o más.
La producción de la lista de alelos tumorales candidatos puede comprender el cálculo de un porcentaje de sesgo de cadena de un alelo tumoral. La producción de la lista de alelos tumorales candidatos puede comprender la clasificación de los alelos tumorales basándose en su porcentaje de sesgo de cadena. La producción de la lista de alelos tumorales candidatos puede comprender la selección de alelos tumorales con un porcentaje de sesgo de cadena definido por el usuario. El porcentaje de sesgo de cadena definido por el usuario puede ser menor o igual al 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 %, 95 % o 97 %.
La producción de la lista de alelos tumorales candidatos puede comprender la comparación de la secuencia del alelo tumoral con un alelo tumoral de referencia. La producción de la lista de alelos tumorales candidatos puede comprender además la identificación de los alelos tumorales que son diferentes del alelo tumoral de referencia.
La identificación de los alelos tumorales que son diferentes del alelo tumoral de referencia puede comprender el uso de uno o más análisis estadísticos. Dichos uno o más análisis estadísticos pueden comprender el uso de la corrección de Bonferroni para calcular una probabilidad binomial ajustada por Bonferroni para el alelo tumoral.
La producción de la lista de alelos tumorales candidatos puede comprender la selección de alelos tumorales basándose en la probabilidad binomial ajustada por Bonferroni. La probabilidad binomial ajustada por Bonferroni de un alelo tumoral candidato puede ser menor o igual a 3 x 10-8, 2,9 x 10-8, 2,8 x 10-8, 2,7 x 10-8, 2,6 x 10-8, 2,5 x 10-8, 2,3 x 10-8, 2,2 x 10-8, 2,1 x 10-8, 2,09 x 10-8, 2,08 x 10-8, 2,07 x 10-8, 2,06 x 10-8, 2,05 x 10-8, 2,04 x 10-8, 2,03 x 10-8, 2,02 x 10-8, 2,01 x 10-8 o 2 x 10-8 La probabilidad binomial ajustada por Bonferroni de un alelo tumoral candidato puede ser menor o igual a 2,08 x 10-8.
La identificación de los alelos tumorales que son diferentes del alelo tumoral de referencia puede comprender además aplicar una prueba Z a la probabilidad binomial ajustada por Bonferroni para producir una puntuación Z de una sola cola ajustada por Bonferroni para el alelo tumoral. Un alelo tumoral con una puntuación Z de una sola cola ajustada por Bonferroni mayor o igual a 6, 5,9, 5,8, 5,7, 5,6, 5,5, 5,4, 5,3, 5,2, 5,1 o 5,0 pueden considerarse diferentes del alelo tumoral de referencia.
La muestra puede ser una muestra de sangre. La muestra puede ser una muestra pareada.
En el presente documento también se desvelan métodos para producir un conjunto selector. El método puede comprender (a) obtener información de secuenciación de una muestra de tumor de un sujeto que padece un cáncer; (b) comparar la información de secuenciación de la muestra de tumor con la información de secuenciación de una muestra no tumoral del sujeto para identificar una o más mutaciones específicas de la información de secuenciación de la muestra de tumor; y (c) producir un conjunto selector que comprende una o más regiones genómicas que comprenden dichas una o más mutaciones específicas de la información de secuenciación de la muestra de tumor.
El conjunto selector puede comprender información de secuenciación relativa a dichas una o más regiones genómicas. El conjunto selector puede comprender coordenadas genómicas relativas a dichas una o más regiones genómicas.
El conjunto selector puede usarse para producir una pluralidad de oligonucleótidos que hibridan selectivamente dichas una o más regiones genómicas. La pluralidad de oligonucleótidos puede biotinilarse.
Dichas una o más mutaciones pueden comprender SNV. Dichas una o más mutaciones pueden comprender indeles. Dichas una o más mutaciones pueden comprender reordenamientos.
La producción del conjunto selector puede comprender la identificación de las SNV derivados de tumores usando los métodos desvelados en el presente documento.
La producción del conjunto selector puede comprender la identificación de reordenamientos derivados de tumores usando el método desvelado en el presente documento.
Breve descripción de los dibujos
Figura 1: Desarrollo de perfilado personalizado de cáncer mediante secuenciación profunda (CAPP-Seq). (a) Esquema que representa el diseño de los selectores CAPP-Seq y su aplicación para evaluar el ADN tumoral circulante. (b) Diseño multifásico del selector de NSCLC. Fase 1: Se capturan regiones genómicas que albergan mutaciones impulsoras conocidas/presuntas en NSCLC. Fases 2-4: Adición de exones que contienen SNV recurrentes utilizando datos de w Es de adenocarcinomas de pulmón y carcinomas de células escamosas de TCGA (n = 407). Las regiones se seleccionaron de forma iterativa para maximizar el número de mutaciones por tumor mientras se minimiza el tamaño del selector. Índice de recurrencia = total de pacientes únicos con mutaciones cubiertas por kb de exón. Fases 5-6: Se añadieron exones de los impulsores de NSCLC previstos e intrones/exones que albergaban puntos de ruptura en reordenamientos en los que están implicados ALK, ROS1 y RET. Parte inferior: aumento de la longitud del selector durante cada fase de diseño. (c) Análisis del número de SNV por adenocarcinoma de pulmón cubiertas por el selector de NSCLC en la cohorte de WES de TCGA (Formación; n = 229) y un conjunto de datos de WES de adenocarcinoma de pulmón independientes (Validación; n = 183). Los resultados se comparan con los selectores muestreados al azar procedentes del exoma (P < 1,0 x 10'6 para la diferencia entre selectores aleatorios y el selector de NSCLC). (d) Número de SNV por paciente identificadas por el selector de NSCLC en los datos de WES de tres adenocarcinomas de TCGA, cánceres de colon (COAD), recto (READ) y endometrioide (UCEC).
Figura 2: Rendimiento analítico. (a-c) Parámetros de calidad de un análisis CAPP-Seq representativo de cfDNA en plasma, entre los que se incluyen la distribución de la longitud de los fragmentos de ADNc secuenciados (a) y la profundidad de la cobertura de secuenciación en todas las regiones genómicas en el selector (b). (c) Variación en la profundidad de secuenciación en muestras de cfDNA de 4 pacientes. La envolvente naranja representa el error estándar de la media (s.e.m.). (d) Análisis de la tasa de fondo para 40 muestras de cfDNA en plasma recogidas de 13 pacientes con NSCLC y 5 individuos sanos. (e) Análisis de fondo biológico en d que se centra en 107 mutaciones somáticas recurrentes de un panel SNaPshot presentado previamente. Se excluyeron las mutaciones encontradas en el tumor de un paciente determinado. La frecuencia media en todos los sujetos fue de ~ 0,01 %. Una única mutación atípica (TP53 R175H) se indica con un rombo naranja. (f) Mutaciones individuales de e clasificadas de mayor a menor recurrencia, según la frecuencia media en las 40 muestras de cfDNA. El umbral del valor p de 0,01 (línea horizontal) corresponde al percentil 99 del fondo del selector global en d. (g) Análisis de series de dilución de frecuencias esperadas frente a observadas de alelos mutantes usando CAPP-Seq. Se generaron series de diluciones añadiendo ADN de HCC78 fragmentado al cfDNA de control. (h) Análisis del efecto del número de SNV consideradas sobre las estimaciones de abundancia fraccionada (intervalos de confianza del 95 % mostrados en gris). (i) Análisis del efecto del número de SNV consideradas sobre el coeficiente de correlación medio entre las fracciones de cáncer esperadas y observadas (línea discontinua azul) utilizando datos del panel h. Se muestran intervalos de confianza del 95 % para e-f. La variación estadística para g se muestra como s.e.m.
Figura 3: Análisis de sensibilidad y especificidad. (a) Análisis de la característica operativa del receptor (ROC) de muestras de cfDNA procedentes de muestras previas al tratamiento y controles sanos, divididas en todos los estadios (n = 13 pacientes) y estadios II-IV (n = 9 pacientes). Los valores del área bajo la curva (AUC) son significativos a P < 0,0001. Sn, sensibilidad; Sp, especificidad. (b) Datos de partida relacionados con a. TP, verdadero positivo; FP, falso positivo; TN, verdadero negativo; FN, falso negativo. (c) Concordancia entre el volumen del tumor, medido por CT o PET/CT, y μg por ml de ctDNA procedente de muestras antes del tratamiento (n = 9), medidos por CAPP-Seq. Los pacientes P6 y P9 fueron excluidos debido a la incapacidad de evaluar con precisión el volumen del tumor y las diferencias relacionadas con la captura de fusiones, respectivamente. Cabe destacar que, la regresión lineal se realizó en un espacio no logarítmico; los ejes log-log y la línea diagonal discontinua son solo para fines de visualización.
Figura 4: Detección y supervisión no invasiva del ADN tumoral circulante. (a-h) Supervisión de la enfermedad usando CAPP-Seq. (a-b) Cambios en la carga de la enfermedad en respuesta al tratamiento en un paciente con NSCLC en estadio III utilizando SNV y una indel (a), y un paciente con NSCLC en estadio IV utilizando tres puntos de ruptura de reordenamiento (b). (c) Concordancia entre diferentes indicadores (SNV y una fusión) en un paciente con NSCLC en estadio IV. (d) Detección de una mutación de resistencia EGFR T790M subclonal en un paciente con NSCLC en estadio IV. Se muestra la abundancia fraccionada del clon dominante y el clon que contiene T790M en el tumor primario (izquierda) y las muestras de plasma (derecha). (e-f) Los resultados de CAPP-Seq de muestras de cfDNA posteriores al tratamiento son predictivos de los resultados clínicos en un paciente de NSCLc en estadio IIB (e) y en un paciente de NSCLC en estadio IIIB (f). (g-h) Supervisión de la carga tumoral después de la resección completa del tumor (g) y radioterapia ablativa estereotáctica (SABR) (h) para dos pacientes con NSCLC en estadio IB. (i) Análisis exploratorio de la posible aplicación de CAPP-Seq para genotipificación de tumores sin biopsia o detección de cáncer. Todas las muestras de cfDNA plasmático de los pacientes de la Tabla 1 se examinaron para detectar la presencia de valores atípicos de alelos mutantes sin conocimiento de las mutaciones del tumor primario; se muestran muestras con mutaciones detectables, junto con dos muestras que, según se determinó, eran negativas para el cáncer (PI-2 y P16-3) y una muestra sin SNV derivadas de tumores (P9-5; véase la Tabla 1). La fracción de alelos mutante más baja detectada fue ~ 0,5 % (línea horizontal discontinua). Las barras de error en d representan s.e.m (error estándar de la media). Tú, tumor; Ef, derrame pleural; SD, enfermedad estable; PD, enfermedad progresiva; PR, respuesta parcial; CR, respuesta completa; d Od , muerto por la enfermedad.
Figura 5: Comparación con otros métodos para la detección de ctDNA en plasma. (a) Modelado analítico de CAPP-Seq, WES y WGS para diferentes límites de detección de cfDNA tumoral en plasma. Los cálculos se basan en la mediana del número de mutaciones detectadas por NSCLC para CAPP-Seq (por ejemplo, 4) y el número notificado de mutaciones en exomas y genomas de NSCLC. La línea de puntos vertical representa la fracción mediana de cfDNA derivado de tumor en plasma de pacientes con NSCLC en este estudio (ver más abajo). (b) Costes para que WES y WGS alcancen el mismo límite de detección teórico que CAPP-Seq (mostrado como una línea continua oscura en la Figura 5a).
Figura 6: Pipeline computacional de CAPP-Seq. Se ilustran esquemáticamente las etapas principales del pipeline (flujo de trabajo sistematizado) bioinformático para el descubrimiento de mutaciones y la cuantificación en plasma. Figura 7: el enriquecimiento estadístico de exones de NSCLC mutados de forma recurrente captura impulsores conocidos. Se emplearon dos métricas para priorizar los exones con mutaciones recurrentes para su inclusión en el selector de NSCLC de CAPP-Seq. La primera, denominada índice de recurrencia (IR), se define como el número de pacientes únicos (por ejemplo, tumores) con mutaciones somáticas por kilobase de un exón dado y la segunda métrica se basa en el número mínimo de pacientes únicos (por ejemplo, tumores) con mutaciones en un kb dado de exón. Se analizaron exones que contenían al menos una SNV no silente genotipificada por TCGA (n = 47.769) en una cohorte combinada de 407 pacientes con adenocarcinoma de pulmón (LUAD) y carcinoma de células escamosas (SCC). (a) Los impulsores de NSCLC conocidos/presuntos están altamente enriquecidos con un IR > 30 (recuadro), que comprende el 1,8 % (n = 861) de los exones analizados. (b) Los impulsores de NSCLC conocidos/presuntos están altamente enriquecidos en > 3 pacientes con mutaciones por exón (recuadro), que abarca el 16 % de los exones analizados.
Figura 8: Pipeline analítico de FACTERA para mapeo de puntos de interrupción. Las etapas principales utilizadas por FACTERA para identificar con precisión los puntos de ruptura genómicos a partir de datos de secuenciación de extremos pareados alineados se ilustran de forma anecdótica utilizando dos genes hipotéticos, w y v. (a) Se usan lecturas pareadas de forma incorrecta o "discordantes" (indicadas en amarillo) para localizar genes implicados en una fusión potencial (en este caso, w y v). (b) Debido a que las lecturas truncadas (por ejemplo, con recorte suave) pueden indicar un punto de ruptura de fusión, también se analiza más a fondo cualquiera de estas lecturas dentro de las regiones genómicas delineadas por w y v. (c) Considérense lecturas con recorte suave, R1 y R2, cuyos segmentos no recortados se asignan a w y v, respectivamente. Si R1 y R2 derivan de un fragmento que abarca una verdadera fusión entre w y v, entonces, la parte mapeada de R1 debe coincidir con la parte con recorte suave de R2, y viceversa. Esto se evalúa por FACTERA usando indexación rápida de k-meros y comparación. (d) Se representan cuatro posibles orientaciones de R1 y R2. Sin embargo, solo los Casos 1a y 2a pueden generar fusiones válidas. Por tanto, antes de la comparación de k-meros (panel c), se toma el complemento inverso de R1 se los Casos 1b y 2b, respectivamente, convirtiéndolos en los Casos 1a y 2a. (e) En algunos casos, las secuencias cortas que flanquean inmediatamente el punto de ruptura son idénticas, evitando la determinación inequívoca del punto de ruptura. Se supone que los iteradores i y j denotan las primeras posiciones de secuencia coincidentes entre R1 y R2. Para reconciliar el solapamiento de secuencias, FACTERA ajusta arbitrariamente el punto de ruptura en R2 (por ejemplo, pb2) para que coincida con R1 (por ejemplo, pb1) utilizando el desplazamiento de secuencia determinado por las diferencias en la distancia entre pb2 e i, y pb1 y j. Se ilustran dos casos, que corresponden a las orientaciones de secuencia descritas en d.
Figura 9: Aplicación de FACTERA a las líneas celulares de NSCLC NCI-H3122 y HCC78, y validación de puntos de ruptura por Sanger. (a) Recopilar un subconjunto de lecturas con recorte suave que se asignan a la fusión EML4-ALK identificada en NCI-H3122 junto con el cromatograma de Sanger correspondiente. (b) Lo mismo que en a, pero para la translocación SLC34A2-ROS1 identificada en HCC78.
Figura 10: Mejoras en el desempeño de CAPP-Seq con procedimientos de preparación de bibliotecas optimizados. Usando 32 ng de cfDNA de entrada procedente de plasma, se compararon los métodos de preparación de bibliotecas estándar con los métodos "con microesferas"5, así como dos ADN polimerasas disponibles comercialmente (Phusion y KAPA HiFi). También se comparó la pre-amplificación del molde por amplificación del genoma completo (WGA) usando PCR de oligonucleótidos degenerados (DOP). Los índices considerados para estas comparaciones incluyeron (a) la longitud de los fragmentos de cfDNA capturados secuenciados, (b) la profundidad y uniformidad de la cobertura de secuenciación en todas las regiones genómicas en el selector, y (c) mapeo de secuencias y estadísticos de captura, entre los que se incluyen la singularidad. En conjunto, estas comparaciones identificaron que la polimerasa KAPA HiFi y el protocolo "con microesfera" son los que tienen el desempeño más robusto y uniforme.
Figura 11: Optimización de la recuperación de alelos de cfDNA de entrada baja durante la preparación de la biblioteca Illumina. Las barras reflejan el rendimiento relativo de las bibliotecas CAPP-Seq construidas a partir de 4 ng cfDNA, calculado promediando mediciones cuantitativas de PCR de n = 4 indicadores preseleccionados dentro de CAPP-Seq con eficiencias de amplificación predefinidas. (a) El ligamiento de dieciséis horas a 16 °C aumenta la eficacia del ligamiento y la recuperación del indicador. (b) El volumen de ligamiento del adaptador no tuvo un efecto significativo sobre la eficiencia del ligamiento y la recuperación del indicador. (c) La realización de reacciones enzimáticas "con microesferas" para minimizar las etapas de transferencia de tubo aumenta la recuperación del indicador. (d) El aumento de la concentración del adaptador durante el ligamiento aumenta la eficacia del ligamiento y la recuperación del indicador. La recuperación del indicador también es mayor cuando se usa la ADN polimerasa KAPA HiFi en comparación con la ADN polimerasa Phusion (e) y cuando se usa el kit de preparación de bibliotecas KAPA con las modificaciones en a - d en comparación con el sistema de biblioteca NuGEN SP Ovation Ultralow con automatización en una estación de trabajo Mondrian SP (f). La abundancia relativa de indicador se determinó mediante qPCR utilizando el método 2'ñCt. Se utilizó una prueba t bilateral con igual varianza para probar el significado estadístico entre los grupos. Todos los valores se presentan como medias ± s.d (desviación estándar). N.S., no significativo. Basándose en estos resultados, se estimó que la combinación de las modificaciones metodológicas en a y c - e mejora el rendimiento en las bibliotecas NGS 3,3 veces.
Figura 12: desempeño de CAPP-Seq con diversas cantidades de cfDNA de entrada. (a) Longitud de los fragmentos de cfDNA capturados secuenciados. (b) Profundidad de cobertura de secuenciación en todas las regiones genómicas del selector (eliminación de duplicados previos). (c) Mapeo de secuencias y estadísticos de captura. Como cabía esperar, más masa de cfDNA de entrada se correlaciona con más fragmentos únicos secuenciados. Figura 13. Análisis de la complejidad de la biblioteca y recuperación de moléculas. (a) Se representa la proporción esperada de complejidad adicional de la biblioteca presente en las lecturas posteriores al duplicado para todas las muestras de pacientes y de control, incluyendo cfDNA en plasma (n = 40) y especímenes de tumor/PBL pareados (n = 17 cada uno). Debido al tamaño altamente estereotipado de los fragmentos de ADNc que aparecen de forma natural en el plasma sanguíneo, en comparación con el ADN genómico cortado por sonicación, dos fragmentos cualesquiera de ADN circulante en el plasma tienen inherentemente más probabilidad de haberse producido por casualidad a partir de diferentes moléculas originales, considerando células tumorales o no tumorales como fuente de este cfDNA. Para estimar esta complejidad "faltante", se consideró que dos fragmentos de ADN (por ejemplo, lecturas finales pareadas) con coordenadas de inicio/final idénticas que difieren en una sola variante de línea germinal definida a priori (por ejemplo, un alelo materno y uno paterno) representan dos moléculas de partida únicas e independientes en lugar de artefactos técnicos (por ejemplo, duplicados de PCR). Por lo tanto, se utilizó el número de fragmentos que compartían idénticas coordenadas de inicio/final con los alelos de la línea germinal tanto maternos como paternos de SNP heterocigotos para estimar la complejidad adicional de la biblioteca. Las estimaciones de complejidad de la biblioteca actualizadas para tener en cuenta estos datos también se proporcionan en las Tablas 3, 20 y 21 y se determinan como se describe en el presente documento. (b) Evaluación empírica de la recuperación de moléculas en cfDNA (n = 40) mediante la determinación de la masa de ADN producida en comparación con el rendimiento de biblioteca esperado basado en la entrada de masa, número de ciclos de PCR y eficiencia (media = 46 %). (ab) Los valores se presentan como medias ± intervalos de confianza del 95 %.
Figura 14. Análisis de contaminación cruzada de bibliotecas. Se evaluaron las fracciones alélicas de los SNP de la línea germinal homocigotos específicos del paciente en muestras de cfDNA multiplexadas en el mismo carril. Los SNP se llamaron como se describe en los Métodos. La tasa media de "contaminación cruzada" en las muestras de cfDNA fue del 0,06 %, como se muestra por la línea de puntos horizontal. Este nivel de contaminación es demasiado bajo para afectar a las estimaciones de la carga tumoral dada la baja fracción de cfDNA derivado del tumor en el plasma de pacientes con NSCLC (mediana de ~ 0. 1 %; Fig. 5a) (por ejemplo, 0,06 x 0,1 = 0,006 % de una muestra dada representaría en promedio la contaminación del ctDNA de otra muestra). Cabe destacar que, para minimizar el riesgo de contaminación entre muestras, se utilizaron puntas con barrera para aerosoles, trabajo en campana y sin multiplexar bibliotecas de tumores y plasma en el mismo carril.
Figura 15. Análisis del sesgo a nivel del selector en la secuencia capturada. Debido a que el selector de NSCLC se diseñó para dirigirse al genoma de referencia de hg19, se consideró que el sesgo del selector para SNV, en caso de que las hubiera, debe ser discernible como una proporción sistemáticamente más baja de alelos de no referencia con respecto a alelos de referencia en los SNP de la línea germinal heterocigotos. Por lo tanto, se analizaron los SNP de alta confianza detectados por VarScan en muestras de PBL de pacientes, donde la confianza alta se definió como variantes con una fracción de no referencia > 10 % presente en el subconjunto de SNP comunes de dbSNP (versión 137.0). Como se muestra, se detectó un sesgo muy pequeño hacia la referencia (8 de 11 muestras tienen una mediana de frecuencia alélica de no referencia del 49 %; las 3 muestras restantes no tienen sesgo). Es importante indicar que, tal sesgo parece demasiado pequeño para afectar significativamente a los resultados de los presentes inventores. Las cajas representan el rango intercuartílico y los bigotes encapsulan los percentiles 10 a 90. Los SNP de la línea germinal se identificaron utilizando VarScan 2.
Figura 16: análisis empírico de adición de CAPP-Seq usando dos líneas celulares de NSCLC. (a) Las fracciones esperadas y observadas (por CAPP-Seq) de ADN de NCI-H3122 añadidas al ADN de control de HCC78 son lineales para todas las fracciones probadas (0,1 %, 1 % y 10 %; R2 = 1). (b) Usando datos de a, análisis del efecto del número de SNV consideradas sobre las estimaciones de abundancia fraccionada (intervalos de confianza del 95 % mostrados en gris). (c) Análisis del efecto del número de SNV consideradas sobre el coeficiente de correlación medio y el coeficiente de variación entre las fracciones de cáncer esperadas y observadas (línea discontinua azul) utilizando datos del panel a. (d) Las fracciones esperadas y observadas de la fusión EML4-ALK presente en HCC78 son lineales (R2 = 0,995) sobre todas las concentraciones de adición probadas (véase en la Fig. 9b la verificación del punto de ruptura). Las fracciones de EML4-ALK observadas se normalizaron basándose en la abundancia relativa de la fusión en el 100 % de ADN de H3122. Asimismo, tanto una sola inserción heterocigótica ("Indel"; chr7: 107416855, T) como una deleción homocigótica de 4,9 kb ("Deleción", chr17: 29422259-29592392) en NCI-H3122 fueron concordantes con concentraciones definidas. Los valores en a se presentan como medias ± s.e.m. Figura 17: Mapeo de puntos de ruptura de resolución de pares de bases para todos los pacientes y líneas celulares enumeradas por FACTERA. Se representa gráficamente las fusiones de genes en las que están implicadas ALK (a) y ROS1 (b). Los esquemas en los paneles superiores indican las posiciones genómicas exactas (HG19 NCBI Build 37.1/GRCh37) de los puntos de ruptura en ALK, ROS1, EML4, KIF5B, SLC34A2, CD74, MKX y FYN. Los paneles inferiores representan exones que flanquean las fusiones de genes predichas indicando la notación el gen del compañero de fusión 5' y el último exón fusionado seguido del gen del compañero de fusión 3' y el primer exón fusionado. Por ejemplo, en S13de137;R34, los exones 1-13 de SLC34A2 (excluyendo los 37 nucleótidos 3' del exón 13) se fusionan con los exones 34-43 de ROS1. Los exones en FYN proceden de su UTR 5' y preceden al primer exón codificante. La línea verde de puntos en la fusión FYN-ROS1 predicha indica la primera metionina en marco en el exón 33 de ROS1, que conserva un marco de lectura abierto que codifica el dominio quinasa de ROS1. Todos los reordenamientos se confirmaron independientemente por PCR y/o FISH.
Figura 18: la presencia de fusiones está inversamente relacionada con el número de SNV detectadas por CAPP-Seq. Para cada paciente enumerado en la Tabla 1, se representa gráficamente el número de SNV identificadas frente a la presencia (n = 11) o ausencia (n = 6) de fusiones genómicas detectadas. El significado estadístico se determinó usando una prueba de suma de rangos de Wilcoxon bilateral, y los valores resumidos se presentan como medias ± s.e.m.
Figura 19. Análisis de la curva operativa del receptor (ROC) del desempeño de CAPP-Seq, que incluye muestras antes y después del tratamiento. Comparación de la sensibilidad y la especificidad conseguidas para los datos no deduplicados (paneles a y c) y deduplicados (después de la eliminación de duplicados por PCR) (paneles b y d). Además, todas las etapas (paneles a y b) se comparan con etapas de intermedias a avanzadas (etapas II-IV, paneles c y d). Por último, para todos los análisis ROC, se muestra el efecto del filtro de indel/fusión sobre la sensibilidad/especificidad. En la Tabla 4 se proporcionan las fracciones de indicador para las muestras de cfDNA no deduplicadas y deduplicadas.
Figura 20. Sensibilidad y especificidad de CAPP-Seq sobre todos los indicadores de pacientes y muestras de cfDNA plasmáticos secuenciados. Todos los valores mostrados reflejan un índice de detección de ctDNA de 0,03. Véanse en la sección de Métodos los detalles sobre métricas de detección y determinación de las categorías de positivo para cáncer, negativo para cáncer y desconocido.
Figura 21. Detección de cáncer no invasivo con CAPP-Seq, relacionada con la Fig. 4i. (a) Etapas para identificar las SNV candidatas en el cfDNA plasmático demostradas utilizando una muestra de paciente con NSCLC (P6, véase la Tabla 4). Después de la filtración por etapas, se aplica la detección de valores atípicos. (b) Lo mismo que en a, pero usando una muestra de cfDNA plasmático de un paciente al que se le extirpó quirúrgicamente el tumor. Como cabía esperar, no se identifican SNV. (c, d) Tres muestras representativas adicionales que aplican la detección retrospectiva a pacientes analizados en este estudio. Las muestras P2 y P5 han confirmado SNV derivadas de tumor, mientras que P9 es positivo para cáncer pero carece de SNV derivadas de tumor. Puntos rojos, SNV derivadas de tumor confirmadas; Puntos verdes, ruido de fondo.
La Figura 22 muestra un diagrama de flujo del análisis de pacientes.
La Figura 23 muestra un sistema para implementar los métodos de divulgación.
Descripción detallada de la invención
Es característico de las células cancerosas que, debido a una mutación somática, la secuencia del genoma de la célula cancerosa haya cambiado con respecto a la secuencia del genoma del individuo del que deriva. La mayoría de los cánceres humanos son relativamente heterogéneos en cuanto a mutaciones somáticas en genes individuales. De manera específica, en la mayoría de los tumores humanos, las alteraciones somáticas recurrentes de genes individuales representan una minoría de pacientes, y solo una minoría de tipos de tumores se pueden definir utilizando un pequeño número de mutaciones recurrentes en posiciones predefinidas. La presente invención resuelve este problema mediante el uso del enriquecimiento de moléculas de ácido nucleico derivadas de tumores a partir de ácidos nucleicos genómicos totales con un conjunto selector. El diseño del selector es vital porque (1) dicta qué mutaciones se pueden detectar con alta probabilidad para un paciente con un cáncer dado, y (2) el tamaño del selector (en kb) afecta directamente al coste y la profundidad de la cobertura de la secuencia.
Aunque los cambios genéticos específicos difieren de un individuo a otro y entre los tipos de cáncer, hay regiones del genoma que muestran cambios recurrentes. En esas regiones existe una mayor probabilidad de que cualquier cáncer individual presente una variación genética. Los cambios genéticos en las células cancerosas proporcionan un medio por el cual las células cancerosas pueden distinguirse de las células normales (por ejemplo, no cancerosas). El ADN libre de células, por ejemplo, los fragmentos de ADN encontrados en muestras de sangre, pueden analizarse con respecto a la presencia de una variación genética característica de las células tumorales. Sin embargo, los niveles absolutos de ADN tumoral en tales muestras son a menudo pequeños y la variación genética puede representar solo una porción muy pequeña de todo el genoma. La presente invención aborda este problema proporcionando métodos para la detección selectiva de regiones mutadas asociadas con el cáncer, permitiendo así la detección precisa del ADN o ARN de células cancerosas a partir del fondo del ADN o ARN de células normales. Aunque los métodos desvelados en el presente documento pueden referirse específicamente al ADN (por ejemplo, ADN libre de células, ADN tumoral circulante), debe entenderse que los métodos, composiciones y sistemas divulgados en el presente documento son aplicables a todos los tipos de ácidos nucleicos (por ejemplo, ARN, ADN, híbridos de ARN/ADN).
En el presente documento se proporcionan métodos para la detección ultrasensible de un ácido nucleico minoritario en una muestra heterogénea. El método puede comprender (a) obtener información de secuencia de una muestra de ADN libre de células (cfDNA) derivada de un sujeto; y (b) usar la información de secuencia derivada de (a) para detectar ácidos nucleicos minoritarios libres de células en la muestra, en donde el método es capaz de detectar un porcentaje de ácidos nucleicos minoritarios libres de células que es menor del 2 % del cfDNA total. El ácido nucleico minoritario puede referirse a un ácido nucleico que se originó a partir de una célula o tejido que es diferente de una célula o tejido normal del sujeto. Por ejemplo, el sujeto puede estar infectado con un patógeno tal como una bacteria y el ácido nucleico minoritario puede ser un ácido nucleico del patógeno. En otro ejemplo, el sujeto es un receptor de una célula, tejido u órgano de un donante y el ácido nucleico minoritario puede ser un ácido nucleico que se originó en la célula, tejido u órgano del donante. En otro ejemplo, el sujeto es un sujeto gestante y el ácido nucleico minoritario puede ser un ácido nucleico procedente de un feto. El método puede comprender usar la información de la secuencia para detectar una o más mutaciones somáticas en el feto. El método puede comprender usar la información de la secuencia para detectar una o más mutaciones post-cigóticas en el feto. Como alternativa, el sujeto puede padecer un cáncer y el ácido nucleico minoritario puede ser un ácido nucleico que se origina en una célula cancerosa.
En el presente documento se proporcionan métodos para la detección ultrasensible de ADN tumoral circulante en una muestra. El método puede denominarse perfilado personalizado de cáncer mediante secuenciación profunda (CAPP-Seq). El método puede comprender (a) obtener información de secuencia de una muestra de ADN libre de células (cfDNA) derivada de un sujeto; y (b) usar la información de secuencia derivada de (a) para detectar ADN tumoral libre de células (ctDNA) en la muestra, en donde el método es capaz de detectar un porcentaje de ctDNA que es menor del 2 % del cfDNA total. El CAPP-Seq puede cuantificar con precisión el ADN tumoral libre de células de tumores en estadio temprano y avanzado. El CAPP-Seq puede identificar alelos mutantes hasta un 0,025 % con un límite de detección de < 0,01 %. Los niveles de ADN derivado de tumores a menudo son paralelos a las respuestas clínicas a diversas terapias y CAPP-Seq puede identificar mutaciones accionables. El CAPP-Seq se puede aplicar de forma rutinaria para detectar y supervisar tumores de forma no invasiva, facilitando así la terapia oncológica personalizada.
En el presente documento se desvelan métodos para determinar la cantidad de ADN tumoral circulante (ADNc) en una muestra. El método puede comprender (a) ligar uno o más adaptadores a ADN libre de células (cfDNA) derivado de una muestra de un sujeto para producir uno o más cfDNA ligados al adaptador; (b) realizar la secuenciación en uno o más cfDNA ligados al adaptador, en donde el cfDNA ligado al adaptador que se va a secuenciar se basa en un conjunto selector que comprende una pluralidad de regiones genómicas; y (c) usar un medio legible por ordenador para determinar la cantidad de cfDNA que se origina en un tumor basándose en la información de secuenciación obtenida a partir del cfDNA ligado al adaptador.
En el presente documento también se desvelan métodos para detectar, diagnosticar o pronosticar un estado o resultado de un cáncer en un sujeto. El método puede comprender (a) obtener información de secuencia de una muestra de ADN libre de células (cfDNA) derivada del sujeto; (b) usar la información de secuencia derivada de (a) para detectar ADN tumoral libre de células (ctDNA) en la muestra en donde el método es capaz de detectar un porcentaje de ctDNA que es menos del 2 % del cfDNA total.
Además, en el presente documento se desvelan métodos para diagnosticar un estado o resultado de un cáncer en un sujeto. El método puede comprender (a) obtener información de secuencia de ADN genómico libre de células derivado de una muestra de un sujeto, en donde la información de secuencia deriva de regiones genómicas que están mutadas en al menos el 80 % de una población de sujetos afectados por un cáncer; y (b) diagnosticar un cáncer seleccionado de un grupo que consiste en cáncer de pulmón, cáncer de mama, cáncer colorrectal y cáncer de próstata en el sujeto basándose en la información de secuencia, en donde el método tiene una sensibilidad del 80 %.
Además, en el presente documento se desvelan métodos para pronosticar un estado o resultado de un cáncer en un sujeto. El método puede comprender (a) obtener información de secuencia de ADN genómico libre de células derivado de una muestra de un sujeto, en donde la información de secuencia deriva de regiones genómicas que están mutadas en al menos el 80 % de una población de sujetos afectados por una afección; y (b) determinar un pronóstico de una afección en el sujeto basándose en la información de secuencia.
En el presente documento también se desvelan métodos para seleccionar una terapia para un sujeto que padece un cáncer. El método puede comprender (a) obtener información de secuencia de una muestra de ADN libre de células (cfDNA) derivada del sujeto; (b) usar la información de secuencia derivada de (a) para detectar ADN tumoral libre de células (ctDNA) en la muestra en donde el método es capaz de detectar un porcentaje de ctDNA que es menos del 2 % del cfDNA total.
Como alternativa, el método puede comprender (a) obtener información de secuencia de ADN genómico libre de células derivado de una muestra de un sujeto, en donde la información de secuencia deriva de regiones genómicas que están mutadas en al menos el 80 % de una población de sujetos afectados por una afección; y (b) determinar un régimen terapéutico de una afección en el sujeto basándose en la información de la secuencia.
En el presente documento también se desvelan métodos para el diagnóstico, pronóstico o determinación de un régimen terapéutico para un sujeto afectado o que se sospecha que tiene un cáncer. El método puede comprender (a) obtener información de secuencia para regiones seleccionadas de ADN genómico a partir de una muestra de ADN libre de células del sujeto; (b) usar la información de secuencia para determinar la presencia o ausencia de una o más mutaciones en las regiones seleccionadas, en donde al menos el 70 % de una población de sujetos afectados por el cáncer tiene una o más mutaciones en las regiones; y (c) proporcionar un informe con un diagnóstico, pronóstico o régimen de tratamiento para el sujeto, basado en la presencia o ausencia de dichas una o más mutaciones.
En el presente documento también se desvelan métodos para evaluar la carga tumoral en un sujeto. El método puede comprender (a) obtener información de secuencia sobre ácidos nucleicos libres de células derivados de una muestra del sujeto; (b) utilizar un medio legible por ordenador para determinar las cantidades de ADN tumoral circulante (ctDNA) en la muestra; (c) evaluar la carga tumoral basándose en las cantidades de ctDNA; y (d) notificar la carga tumoral al sujeto o a un representante del sujeto.
En el presente documento también se desvelan métodos para determinar el estado patológico de un cáncer en un sujeto. El método puede comprender (a) obtener una cantidad de ADN tumoral circulante (ctDNA) en una muestra del sujeto; (b) obtener un volumen de un tumor en el sujeto; y (c) determinar el estado patológico de un cáncer en el sujeto basándose en la relación entre la cantidad de ctDNA y el volumen del tumor.
En el presente documento se desvelan métodos para detectar al menos el 50% del cáncer en estadio I con una especificidad superior al 90%. El método puede comprender (a) realizar la secuenciación en ADN libre de células derivado de una muestra, en donde el ADN libre de células a secuenciar está basado en un conjunto selector que comprende una pluralidad de regiones genómicas; (b) utilizar un medio legible por ordenador para determinar una cantidad de ADN libre de células basándose en la información de secuenciación del ADN libre de células; y (c) detectar un cáncer en estadio I en la muestra basándose en la cantidad del ADN libre de células.
En el presente documento se desvelan métodos para detectar al menos el 60 % del cáncer en estadio II con una especificidad superior al 90% que comprenden (a) realizar la secuenciación en ADN libre de células derivado de una muestra, en donde el ADN libre de células a secuenciar está basado en un conjunto selector que comprende una pluralidad de regiones genómicas; (b) utilizar un medio legible por ordenador para determinar una cantidad de ADN libre de células basándose en la información de secuenciación del ADN libre de células; y (c) detectar un cáncer en estadio II en la muestra basándose en la cantidad de ADN libre de células.
En el presente documento se desvelan métodos para detectar al menos el 60 % del cáncer en estadio III con una especificidad superior al 90% que comprenden (a) realizar la secuenciación en ADN libre de células derivado de una muestra, en donde el ADN libre de células a secuenciar está basado en un conjunto selector que comprende una pluralidad de regiones genómicas; (b) utilizar un medio legible por ordenador para determinar una cantidad de ADN libre de células basándose en la información de secuenciación del ADN libre de células; y (c) detectar un cáncer en estadio III en la muestra basándose en la cantidad de ADN libre de células.
En el presente documento se desvelan métodos para detectar al menos el 60 % del cáncer en estadio IV con una especificidad superior al 90% que comprenden (a) realizar la secuenciación en ADN libre de células derivado de una muestra, en donde el ADN libre de células a secuenciar está basado en un conjunto selector que comprende una pluralidad de regiones genómicas; (b) utilizar un medio legible por ordenador para determinar una cantidad de ADN libre de células basándose en la información de secuenciación del ADN libre de células; y (c) detectar un cáncer en estadio IV en la muestra basándose en la cantidad de ADN libre de células.
También se proporcionan conjuntos selectores para su uso en los métodos desvelados en el presente documento. El conjunto selector puede comprender una pluralidad de regiones genómicas que comprenden una o más mutaciones presentes en una población de sujetos que padecen un cáncer. El conjunto selector puede ser una biblioteca de regiones genómicas mutadas de forma recurrente utilizadas en los métodos CAPP-Seq. El establecimiento como diana de regiones genómicas mutadas de forma recurrente puede permitir una distinción entre el ADN de la célula tumoral y el ADN normal. Además, el establecimiento como diana de la región genómica mutada de forma recurrente puede proporcionar la detección simultánea de mutaciones puntuales, variación del número de copias, inserciones/deleciones y reordenamientos.
El conjunto selector puede ser un medio legible por ordenador. El medio legible por ordenador puede comprender información de secuencia de ácido nucleico para dos o más regiones de ADN genómico en donde (a) las regiones genómicas comprenden una o más mutaciones en > 80 % de los tumores de una población de sujetos afectados por un cáncer; (b) las regiones de ADN genómico representan menos de 1,5 Mb del genoma; y (c) uno o más de los siguientes: (i) la afección no es leucemia de células pilosas, cáncer de ovario, macroglobulinemia de Waldenstrom; (ii) cada una de las regiones genómicas comprende al menos una mutación en al menos un sujeto afectado por el cáncer; (iii) el cáncer incluye dos o más tipos diferentes de cáncer; (iv) las dos o más regiones genómicas proceden de dos o más genes diferentes; (v) las regiones genómicas comprenden dos o más mutaciones; o (vi) las dos o más regiones genómicas pueden comprender al menos 10 kb.
El conjunto selector puede proporcionar, por ejemplo, oligonucleótidos útiles en la amplificación selectiva de ácidos nucleicos derivados de tumores. El conjunto selector puede proporcionar, por ejemplo, oligonucleótidos útiles en la captura selectiva o enriquecimiento de ácidos nucleicos derivados de tumores. En el presente documento se desvelan composiciones que comprenden un conjunto de oligonucleótidos basados en el conjunto selector. La composición puede comprender un conjunto de oligonucleótidos que hibridan selectivamente con una pluralidad de regiones de ADN genómico, en donde (a) > 80 % de los tumores de una población de sujetos con cáncer incluyen una o más mutaciones en las regiones de ADN genómico; (b) la pluralidad de regiones de ADN genómico representa menos de 1,5 Mb del genoma; y (c) el conjunto de oligonucleótidos comprende 5 o más oligonucleótidos diferentes que hibridan selectivamente con la pluralidad de regiones de ADN genómico.
La composición puede comprender oligonucleótidos que hibridan selectivamente con una pluralidad de regiones genómicas, donde las regiones genómicas comprenden una pluralidad de mutaciones presentes en > 60 % de una población de sujetos que padecen un cáncer.
También se desvela en el presente documento una matriz que comprende una pluralidad de oligonucleótidos para capturar selectivamente regiones genómicas, donde las regiones genómicas comprenden una pluralidad de mutaciones presentes en > 60 % de una población de sujetos que padecen un cáncer.
En el presente documento también se desvelan métodos para producir un conjunto selector para un cáncer. El método de producir un conjunto selector para un cáncer puede comprender (a) identificar regiones de ADN genómico mutadas de forma recurrente del cáncer seleccionado; y (b) priorizar regiones utilizando uno o más de los siguientes criterios (i) un índice de recurrencia (IR) para la región o regiones genómicas, en donde el IR es el número de pacientes o tumores únicos con mutaciones somáticas por longitud de una región genómica; y (ii) un número mínimo de pacientes o tumores únicos con mutaciones en una longitud de región genómica.
En el presente documento se desvelan métodos de enriquecimiento en ADN tumoral circulante de una muestra. El método puede comprender poner en contacto ácidos nucleicos libres de células de una muestra con una pluralidad de oligonucleótidos, en donde la pluralidad de oligonucleótidos hibridan selectivamente con una pluralidad de regiones genómicas que comprenden una pluralidad de mutaciones presentes en > 60 % de una población de sujetos que padecen un cáncer.
Como alternativa, el método puede comprender poner en contacto ácidos nucleicos libres de células de una muestra con un conjunto de oligonucleótidos, en donde el conjunto de oligonucleótidos hibrida selectivamente con una pluralidad de regiones genómicas, en donde (a) > 80 % de los tumores de una población de sujetos con cáncer incluyen una o más mutaciones en las regiones genómicas; (b) la pluralidad de regiones genómicas representa menos de 1,5 Mb del genoma; y (c) el conjunto de oligonucleótidos comprende 5 o más oligonucleótidos diferentes que hibridan selectivamente con la pluralidad de regiones genómicas.
En el presente documento también se desvelan métodos para preparar una muestra de ácido nucleico para secuenciación. El método puede comprender (a) realizar una reacción de amplificación en ADN libre de células (cfDNA) derivado de una muestra para producir una pluralidad de amplicones, donde la reacción de amplificación comprende 20 o menos ciclos de amplificación; y (b) producir una biblioteca para secuenciación, comprendiendo la biblioteca la pluralidad de amplicones.
En el presente documento también se desvelan sistemas para implementar uno o más de los métodos o etapas de los métodos desvelados en el presente documento. La Figura 23 muestra un sistema informático (también "sistema" en el presente documento) 2301 programado o configurado de otro modo para implementar los métodos de la divulgación, tales como la producción de un conjunto selector y/o análisis de datos. El sistema 2301 incluye una unidad central de procesamiento (CPU, también "procesador" y "procesador de ordenador" en el presente documento) 2305, que puede ser un procesador de un solo núcleo o de múltiples núcleos, o una pluralidad de procesadores para procesamiento en paralelo. El sistema 2301 también incluye la memoria 2310 (por ejemplo, memoria de acceso aleatorio, memoria de solo lectura, memoria flash), unidad de almacenamiento electrónico 2315 (por ejemplo, disco duro), interfaz de comunicaciones 2320 (por ejemplo, adaptador de red) para comunicarse con uno o más sistemas, y dispositivos periféricos 2325, tales como una caché, otra memoria, almacenamiento de datos y/o adaptadores de pantalla electrónicos. La memoria 2310, la unidad de almacenamiento 2315, la interfaz 2320 y los dispositivos periféricos 2325 están en comunicación con la CPU 2305 a través de un bus de comunicaciones (líneas continuas), tal como una placa base. La unidad de almacenamiento 2315 puede ser una unidad de almacenamiento de datos (o depósito de datos) para almacenar datos. El sistema 2301 está acoplado operativamente a una red informática ("red") 2330 con la ayuda de la interfaz de comunicaciones 2320. La red 2330 puede ser Internet, una internet y/o extranet, o una intranet y/o extranet que esté en comunicación con Internet. La red 2330 en algunos casos es una red de telecomunicaciones y/o datos. La red 2330 puede incluir uno o más servidores informáticos, que pueden habilitar la computación distribuida, tal como la computación en la nube. La red 2330, en algunos casos, con la ayuda del sistema 2301, puede implementar una red punto a punto, que puede permitir que los dispositivos acoplados al sistema 2301 se comporten como un cliente o como un servidor.
El sistema 2301 está en comunicación con un sistema de procesamiento 2335. El sistema de procesamiento 2335 se puede configurar para implementar los métodos desvelados en el presente documento. En algunos ejemplos, el sistema de procesamiento 2335 es un sistema de secuenciación de ácidos nucleicos, tal como, por ejemplo, un sistema de secuenciación de última generación (por ejemplo, secuenciador Illumina, secuenciador Ion Torrent, secuenciador Pacific Biosciences). El sistema de procesamiento 2335 puede estar en comunicación con el sistema 2301 a través de la red 2330, o por conexión directa (por ejemplo, con cable, inalámbrica). El sistema de procesamiento 2335 se puede configurar para un análisis, tal como el análisis de secuencias de ácidos nucleicos.
Los métodos que se describen en el presente documento se pueden implementar mediante un código ejecutable (o software) de máquina (o procesador informático) almacenado en una ubicación de almacenamiento electrónico del sistema 2301, tal como, por ejemplo, en la memoria 2310 o en la unidad de almacenamiento electrónica 2315. Durante su uso, el código puede ejecutarse por el procesador 2305. En algunos ejemplos, el código puede recuperarse de la unidad de almacenamiento 2315 y almacenarse en la memoria 2310 para que el procesador 2305 tenga fácil acceso. En algunas situaciones, puede excluirse la unidad de almacenamiento electrónica 2315 y las instrucciones ejecutables por máquina se almacenan en la memoria 2310.
En el presente documento se desvela un sistema implementado por ordenador para calcular un índice de recurrencia para una o más regiones genómicas. El sistema implementado por ordenador puede comprender (a) un dispositivo de procesamiento digital que comprende un sistema operativo configurado para realizar instrucciones ejecutables y un dispositivo de memoria; y (b) un programa informático que incluye instrucciones ejecutables por el dispositivo de procesamiento digital para crear un índice de recurrencia, comprendiendo el programa informático (i) un primer módulo de software configurado para recibir datos relativos a una pluralidad de mutaciones; (ii) un segundo módulo de software configurado para relacionar la pluralidad de mutaciones con una o más regiones genómicas y/o uno o más sujetos; y (iii) un tercer módulo de software configurado para calcular un índice de recurrencia de una o más regiones genómicas, en donde el índice de recurrencia se basa en un número de mutaciones por sujeto por kilobase de secuencia de nucleótidos.
Conjunto selector
Los métodos, kits y sistemas desvelados en el presente documento pueden comprender uno o más conjuntos selectores o usos de los mismos. Un conjunto selector puede ser una construcción bioinformática que comprende la información de secuencia para regiones del genoma (por ejemplo, regiones genómicas) asociadas con uno o más cánceres de interés. Un conjunto selector puede ser una construcción bioinformática que comprende coordenadas genómicas para una o más regiones genómicas. Las regiones genómicas pueden comprender una o más regiones mutadas de forma recurrente. Las regiones genómicas pueden comprender una o más mutaciones asociadas con uno o más cánceres de interés.
El número de regiones genómicas en un conjunto selector puede variar según la naturaleza del cáncer. La inclusión de un mayor número de regiones genómicas generalmente puede aumentar la probabilidad de que se identifique una única mutación somática. Sin embargo, la inclusión de demasiadas regiones genómicas en la biblioteca no está exenta de costos, ya que el número de regiones genómicas está directamente relacionado con la longitud de los ácidos nucleicos que deben secuenciarse en el análisis. A lo sumo, se podría secuenciar el genoma completo de una muestra de tumor y una muestra genómica, y las secuencias resultantes se podrían comparar para observar cualquier diferencia.
Los conjuntos selectores de la invención pueden abordar este problema identificando regiones genómicas que están mutadas de forma recurrente en un cáncer particular y después clasificando esas regiones para maximizar la probabilidad de que la región incluya una mutación somática distintiva en un tumor particular. La biblioteca de regiones genómicas mutadas de forma recurrente, o "conjunto selector", se puede utilizar en toda una población para un cáncer o una clase de cáncer determinados, y no es necesario optimizarlo para cada sujeto.
El conjunto selector puede comprender al menos aproximadamente 2, 3, 4, 5, 6, 7, 8 o 9 regiones genómicas diferentes. El conjunto selector puede comprender al menos 10 regiones genómicas; al menos aproximadamente 25, al menos aproximadamente 50, al menos aproximadamente 100, al menos aproximadamente 150, al menos aproximadamente 200, al menos aproximadamente 250, al menos aproximadamente 300, al menos aproximadamente 350, al menos aproximadamente 400, al menos aproximadamente 500, al menos aproximadamente 600, al menos aproximadamente 700, al menos aproximadamente 800, al menos aproximadamente 900, al menos aproximadamente 1000 o más regiones genómicas diferentes.
El conjunto selector puede comprender entre aproximadamente 10 y aproximadamente 1000 regiones genómicas diferentes. El conjunto selector puede comprender entre aproximadamente 10 y aproximadamente 900 regiones genómicas diferentes. El conjunto selector puede comprender entre aproximadamente 10 y aproximadamente 800 regiones genómicas diferentes. El conjunto selector puede comprender entre aproximadamente 10 y aproximadamente 700 regiones genómicas diferentes. El conjunto selector puede comprender entre aproximadamente 20 y aproximadamente 600 regiones genómicas diferentes. El conjunto selector puede comprender entre aproximadamente 20 y aproximadamente 500 regiones genómicas diferentes. El conjunto selector puede comprender entre aproximadamente 20 y aproximadamente 400 regiones genómicas diferentes. El conjunto selector puede comprender entre aproximadamente 50 y aproximadamente 500 regiones genómicas diferentes. El conjunto selector puede comprender entre aproximadamente 50 y aproximadamente 400 regiones genómicas diferentes. El conjunto selector puede comprender entre aproximadamente 50 y aproximadamente 300 regiones genómicas diferentes.
El conjunto selector puede comprender una pluralidad de regiones genómicas. La pluralidad de regiones genómicas puede comprender como máximo 5000 regiones genómicas diferentes. La pluralidad de regiones genómicas puede comprender como máximo 2000 regiones genómicas diferentes. La pluralidad de regiones genómicas puede comprender como máximo 1000 regiones genómicas diferentes. La pluralidad de regiones genómicas puede comprender como máximo 500 regiones genómicas diferentes. La pluralidad de regiones genómicas puede comprender como máximo 400 regiones genómicas diferentes. La pluralidad de regiones genómicas puede comprender como máximo 300 regiones genómicas diferentes. La pluralidad de regiones genómicas puede comprender como máximo 200 regiones genómicas diferentes. La pluralidad de regiones genómicas puede comprender como máximo 150 regiones genómicas diferentes. La pluralidad de regiones genómicas puede comprender como máximo 100 regiones genómicas diferentes. La pluralidad de regiones genómicas puede comprender como máximo 50 regiones genómicas diferentes o incluso menos.
Una región genómica puede comprender una región codificante de proteínas, o una porción de la misma. Una región codificante de proteínas puede referirse a una región del genoma que codifica una proteína. Una región codificante de proteínas puede comprender un intrón, exón y/o región no traducida (UTR). Una región genómica puede comprender dos o más regiones codificantes de proteínas, o porciones de las mismas. Por ejemplo, una región genómica puede comprender una porción de un exón y una porción de un intrón. Una región genómica puede comprender tres o más regiones codificantes de proteínas, o porciones de las mismas. Por ejemplo, una región genómica puede comprender una porción de un primer exón, una porción de un intrón y una porción de un segundo exón. Como alternativa o adicionalmente, una región genómica puede comprender una porción de un exón, una porción de un intrón y una porción de una región no traducida.
Una región genómica puede comprender un gen. Una región genómica puede comprender solo una porción de un gen. Una región genómica puede comprender un exón de un gen. Una región genómica puede comprender un intrón de un gen. Una región genómica puede comprender una región no traducida (UTR) de un gen. En algunos casos, una región genómica no comprende un gen completo. Una región genómica puede comprender menos del 90 %, 85 %, 80 %, 75 %, 70 %, 65 %, 60 %, 55 %, 50 %, 45 %, 40 %, 35 %, 30 %, 25 %, 20 %, 15 %, 10 % o 5 % de un gen. Una región genómica puede comprender menos del 60 % de un gen.
Una región genómica puede comprender una región no codificante de proteínas. Una región no codificante de proteínas también puede denominarse región no codificante. Una región no codificante de proteínas puede referirse a una región del genoma que no codifica una proteína. Una región no codificante de proteínas se puede transcribir en un ARN no codificante (ncRNA). El ARN no codificante puede tener una función conocida. Por ejemplo, el ARN no codificante puede ser un ARN de transferencia (tRNA), ARN ribosómico (rRNA) y/o ARN regulador. El ARN no codificante puede tener una función desconocida. Los ejemplos de ncRNA incluyen, pero sin limitación, tRNA, rRNA, ARN nuclear pequeño (snRNA), ARN nucleolar pequeño (snoRNA), microRNA, ARN de interferencia pequeño (siRNA), ARN que interactúa con piwi (piRNA) y ncRNA largo (por ejemplo, Xist, HOTAIR). Una región genómica puede comprender un pseudogén, transposón y/o retrotransposón.
Una región genómica puede comprender una región mutada de forma recurrente. Una región mutada de forma recurrente puede referirse a una región del genoma, generalmente el genoma humano, en la que existe una mayor probabilidad de mutación genética en un cáncer de interés, con respecto al genoma en su conjunto. Una región de mutación recurrente puede referirse a una región del genoma que contiene una o más mutaciones que son recurrentes en la población. Por ejemplo, una región de mutación recurrente puede referirse a una región del genoma que contiene una mutación que está presente en dos o más sujetos de una población. Una región mutada de forma recurrente puede caracterizarse por un "índice de recurrencia" (IR). El IR generalmente se refiere al número de sujetos individuales (por ejemplo, pacientes con cáncer) con una mutación que existe dentro de una determinada kilobase de secuencia genómica (por ejemplo, número de pacientes con mutaciones/longitud de la región genómica en kb). Una región genómica también puede caracterizarse por el número de pacientes con una mutación por exón. Pueden seleccionarse umbrales para cada métrica (por ejemplo, IR y pacientes por exón o región genómica) para enriquecer estadísticamente los impulsores conocidos/presuntos del cáncer de interés. Un impulsor conocido/presunto del cáncer de interés puede ser un gen. En el carcinoma de pulmón no microcítico (NSCLC), estas métricas pueden enriquecer a los impulsores conocidos/presuntos (consulte los genes presentados en la T abla 2). Los umbrales también se pueden seleccionar eligiendo arbitrariamente el percentil superior para cada métrica.
Un conjunto selector puede comprender una región genómica que comprende una mutación que no es recurrente en la población. Por ejemplo, una región genómica puede comprender una o más mutaciones que están presentes en un sujeto dado. En algunos casos, puede usarse una región genómica que comprende una o más mutaciones en un sujeto para producir un conjunto selector personalizado para el sujeto.
El término "mutación" puede referirse a una alteración genética en el genoma de un organismo. Para los fines de la invención, las mutaciones de interés suelen ser cambios en relación con la secuencia de la línea germinal, por ejemplo, cambios específicos de células cancerosas. Las mutaciones pueden incluir variantes de un solo nucleótido (SNV), variantes de número de copias (CNV), inserciones, deleciones y reordenamientos (por ejemplo, fusiones). El conjunto selector puede comprender una o más regiones genómicas que comprenden una o más mutaciones seleccionadas de un grupo que consiste en SNV, CNV, inserciones, deleciones y reordenamientos. El conjunto selector puede comprender una pluralidad de regiones genómicas que comprenden dos o más mutaciones seleccionadas de un grupo que consiste en SNV, CNV, inserciones, deleciones y reordenamientos. El conjunto selector puede comprender una pluralidad de regiones genómicas que comprenden tres o más mutaciones seleccionadas de un grupo que consiste en SNV, CNV, inserciones, deleciones y reordenamientos. El conjunto selector puede comprender una pluralidad de regiones genómicas que comprenden cuatro o más mutaciones seleccionadas de un grupo que consiste en SNV, CNV, inserciones, deleciones y reordenamientos. El conjunto selector puede comprender una pluralidad de regiones genómicas que comprenden cinco o más mutaciones seleccionadas de un grupo que consiste en SNV, CNV, inserciones, deleciones y reordenamientos. El conjunto selector puede comprender una pluralidad de regiones genómicas que comprende al menos una SNV, inserción y deleción. El conjunto selector puede comprender una pluralidad de regiones genómicas que comprenden al menos una SNV y reordenamiento. El conjunto selector puede comprender una pluralidad de regiones genómicas que comprenden al menos una inserción, deleción y reordenamiento. El conjunto selector puede comprender una pluralidad de regiones genómicas que comprenden al menos una deleción y reordenamiento. El conjunto selector puede comprender una pluralidad de regiones genómicas que comprenden al menos una inserción y un reordenamiento. El conjunto selector puede comprender una pluralidad de regiones genómicas que comprende al menos una SNV, inserción, deleción y reordenamiento. El conjunto selector puede comprender una pluralidad de regiones genómicas que comprenden al menos un reordenamiento y al menos una mutación seleccionada de un grupo que consiste en SNV, inserción y deleción. El conjunto selector puede comprender una pluralidad de regiones genómicas que comprenden al menos un reordenamiento y al menos una mutación seleccionada de un grupo que consiste en SNV, CNV, inserción y deleción.
Un conjunto selector puede comprender una mutación en una región genómica que se sabe que está asociada con un cáncer. La mutación en una región genómica que se sabe que está asociada con un cáncer puede denominarse "mutación somática conocida". Una mutación somática conocida puede ser una mutación localizada en uno o más genes que se sabe que están asociados con un cáncer. Una mutación somática conocida puede ser una mutación localizada en uno o más oncogenes. Por ejemplo, Las mutaciones somáticas conocidas pueden incluir una o más mutaciones ubicadas en p53, EGFR, KRAS y/o BRCA1.
Un conjunto selector puede comprender una mutación en una región genómica que se predice que está asociada con un cáncer. Un conjunto selector puede comprender una mutación en una región genómica que no se ha informado que esté asociada con un cáncer.
Una región genómica puede comprender una secuencia del genoma humano de tamaño suficiente para capturar una 0 más mutaciones recurrentes. Los métodos de la invención pueden estar dirigidos a cfDNA, que generalmente tiene menos de aproximadamente 200 pb de longitud y, por lo tanto, una región genómica puede tener generalmente menos de aproximadamente 10 kb. La longitud de la región genómica en un conjunto selector puede ser en promedio de aproximadamente 100 pb, aproximadamente 125 pb, aproximadamente 150 pb, 175 pb, aproximadamente 200 pb, aproximadamente 225 pb, aproximadamente 250 pb, aproximadamente 275 pb o aproximadamente 300 pb. Generalmente, la región genómica de una SNV puede ser bastante corta, de aproximadamente 45 a aproximadamente 500 pb de longitud, mientras que la región genómica para una fusión u otro reordenamiento genómico puede ser más larga, de aproximadamente 1 Kpb a aproximadamente 10 Kpb de longitud. Una región genómica en un conjunto selector puede tener menos de aproximadamente 10 Kpb, 9 Kbp, 8 Kbp, 7 Kbp, 6 Kbp, 5 Kbp, 4 Kbp, 3 Kbp, 2 Kbp o 1 Kbp de longitud. Una región genómica en un conjunto selector puede tener menos de aproximadamente 1000 pb, 900 pb, 800 pb, 700 pb, 600 pb, 500 pb, 400 pb, 300 pb, 200 pb o 100 pb. Puede decirse que una región genómica "identifica" una mutación cuando la mutación está dentro de la secuencia de esa región genómica.
La secuencia total cubierta por el conjunto selector puede ser inferior a aproximadamente 1,5 megapares de bases (Mpb), 1,4 Mpb, 1,3 Mpb, 1,2 Mpb, 1,1 Mpb, 1 Mpb. La secuencia total cubierta por el conjunto selector puede ser inferior a aproximadamente 1000 kb, inferior a aproximadamente 900 kb, inferior a aproximadamente 800 kb, inferior a aproximadamente 700 kb, inferior a aproximadamente 600 kb, inferior a aproximadamente 500 kb, inferior a aproximadamente 400 kb, inferior a aproximadamente 350 kb, inferior a aproximadamente 300 kb, inferior a aproximadamente 250 kb, inferior a aproximadamente 200 kb o inferior a aproximadamente 150 kb. La secuencia total cubierta por el conjunto selector puede estar entre aproximadamente 100 kb y 500 kb. La secuencia total cubierta por el conjunto selector puede estar entre aproximadamente 100 kb y 350 kb. La secuencia total cubierta por el conjunto selector puede estar entre aproximadamente 100 kb y 150 kb.
El conjunto selector puede comprender 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más mutaciones en una pluralidad de regiones genómicas. El conjunto selector puede comprender 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 o más mutaciones en una pluralidad de regiones genómicas. El conjunto selector puede comprender 125, 150, 175, 200, 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000 o más mutaciones en una pluralidad de regiones genómicas.
Al menos una parte de las mutaciones puede estar dentro de la misma región genómica. Al menos aproximadamente 2, 3, 4, 5, 6, 7, 8, 9, 10 o más mutaciones pueden estar dentro de la misma región genómica. Al menos aproximadamente 2 mutaciones pueden estar dentro de la misma región genómica. Al menos aproximadamente 3 mutaciones pueden estar dentro de la misma región genómica.
Al menos una parte de las mutaciones puede estar dentro de regiones genómicas diferentes. Al menos aproximadamente 2, 3, 4, 5, 6, 7, 8, 9, 10 o más mutaciones pueden estar dentro de dos o más regiones genómicas diferentes. Al menos aproximadamente 2 mutaciones pueden estar dentro de dos o más regiones genómicas diferentes. Al menos aproximadamente 3 mutaciones pueden estar dentro de dos o más regiones genómicas diferentes.
Dos o más mutaciones pueden estar en dos o más regiones genómicas diferentes de la misma región no codificante. Dos o más mutaciones pueden estar en dos o más regiones genómicas diferentes de la misma región codificante de proteínas. Dos o más mutaciones pueden estar en dos o más regiones genómicas diferentes del mismo gen. Por ejemplo, una primera mutación puede estar ubicada en una primera región genómica que comprende un primer exón de un primer gen y una segunda mutación puede estar ubicada en una segunda región genómica que comprende un segundo exón del primer gen. En otro ejemplo, una primera mutación puede estar ubicada en una primera región genómica que comprende una primera porción de un primer ARN no codificante largo y una segunda mutación puede estar ubicada en una segunda región genómica que comprende una segunda porción del primer ARN no codificante largo.
Como alternativa o adicionalmente, dos o más mutaciones pueden estar en dos o más regiones genómicas diferentes de dos o más regiones no codificantes diferentes, regiones codificantes de proteínas y/o genes. Por ejemplo, una primera mutación puede estar ubicada en una primera región genómica que comprende un primer exón de un primer gen y una segunda mutación puede estar ubicada en una segunda región genómica que comprende un segundo exón de un segundo gen. En otro ejemplo, una primera mutación puede estar ubicada en una primera región genómica que comprende un primer exón de un primer gen y una segunda mutación puede estar ubicada en una segunda región genómica que comprende una porción de un microRNA.
El conjunto selector puede identificar una mediana de al menos 2, habitualmente al menos 3 y, preferentemente, al menos 4 mutaciones diferentes por sujeto individual. El conjunto selector puede identificar una mediana de al menos 5, 6, 7, 8, 9, 10, 11, 12, 13 o más mutaciones diferentes por sujeto individual. Las diferentes mutaciones pueden estar en una o más regiones genómicas. Las diferentes mutaciones pueden estar en 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15 o más regiones genómicas. Las diferentes mutaciones pueden estar en 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15 o más regiones mutadas de forma recurrente.
La mediana del número de mutaciones identificadas por el conjunto selector se puede determinar en una población de hasta 10, hasta 25, hasta 25, hasta 50, hasta 87, hasta 100 o más sujetos. La mediana del número de mutaciones identificadas por el conjunto selector se puede determinar en una población de hasta 125, 150, 175, 200, 225, 250, 275, 300, 325, 350, 375, 400 o más sujetos. En tal población, un conjunto selector de interés puede identificar una o más mutaciones en al menos el 60 %, al menos el 65 %, al menos el 70 %, al menos el 75 %, al menos el 80 %, al menos el 82 %, al menos el 85 %, al menos el 87 %, al menos el 90 %, al menos el 92 %, al menos el 95% o más de los sujetos.
Las mutaciones totales identificadas por el conjunto selector pueden estar presentes en al menos el 60 %, al menos el 65 %, al menos el 70 %, al menos el 75 %, al menos el 80 %, al menos el 82 %, al menos el 85 %, al menos el 87 %, al menos el 90 %, al menos el 92 %, al menos el 95 % o más de los sujetos en una población. Por ejemplo, el conjunto selector puede identificar una primera mutación presente en el 20 % de los sujetos y una segunda mutación en el 80 % de los sujetos, por tanto, las mutaciones totales identificadas por el conjunto selector pueden estar presentes en el 80 % al 100 % de los sujetos de la población.
Además de una construcción bioinformática, se puede utilizar un conjunto selector para generar un oligonucleótido o un conjunto de oligonucleótidos para una captura específica, secuenciación y/o amplificación de cfDNA correspondiente a una región genómica. El conjunto de oligonucleótidos puede incluir al menos un oligonucleótido para cada región genómica a la que se va a dirigir. Los oligonucleótidos pueden tener la característica general de una longitud suficiente para identificar de forma única la región genómica, por ejemplo, normalmente al menos aproximadamente 15 nucleótidos, al menos aproximadamente 16, 17, 18, 19, 20 nucleótidos de longitud. Un oligonucleótido puede comprender además un adaptador para el sistema de secuenciación; una etiqueta para la clasificación; una etiqueta de unión específica, por ejemplo, biotina, FITC, etc. Los oligonucleótidos para la amplificación pueden comprender un par de secuencias que flanquean la región de interés, y de orientación opuesta. El oligonucleótido puede comprender una secuencia de cebador. El oligonucleótido puede comprender una secuencia que sea complementaria a al menos una porción de la región genómica.
Los métodos expuestos en el presente documento pueden generar una construcción bioinformática que comprende la información de secuencia del conjunto selector. Para utilizar el conjunto selector para métodos de diagnóstico y pronóstico del paciente, se puede generar un conjunto de sondas selectoras a partir de la biblioteca de conjuntos selectores. El conjunto de sondas selectoras puede comprender una secuencia de al menos aproximadamente 20 regiones genómicas, al menos aproximadamente 30 regiones genómicas, al menos aproximadamente 40 regiones genómicas, al menos aproximadamente 50 regiones genómicas, al menos aproximadamente 60 regiones genómicas, al menos aproximadamente 70 regiones genómicas, al menos aproximadamente 80 regiones genómicas, al menos aproximadamente 90 regiones genómicas, al menos aproximadamente 100 regiones genómicas, al menos aproximadamente 200 regiones genómicas, al menos aproximadamente 300 regiones genómicas, al menos aproximadamente 400 regiones genómicas, o al menos aproximadamente 500 regiones genómicas. Las regiones genómicas pueden seleccionarse de las regiones genómicas expuestas en una cualquiera de las Tablas 2 y 6-18. La selección puede basarse en criterios bioinformáticos, incluyendo el valor adicional proporcionado por la región, el IR, etc. Puede utilizarse una cobertura preestablecida de pacientes como límite, por ejemplo, cuando al menos el 90 % tiene una o más SNV, cuando al menos el 95 % tiene una o más SNV, cuando al menos el 98 % tiene una o más SNV.
El conjunto selector puede comprender una o más regiones genómicas identificadas por la Tabla 2. Las regiones genómicas del conjunto selector pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 2. Las regiones genómicas del selector pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 150, 200, 250, 300, 350, 400, 450, 500 o 525 regiones de las identificadas en la Tabla 2. Las regiones genómicas del conjunto selector pueden comprender al menos 2 regiones de las identificadas en la Tabla 2. Las regiones genómicas del conjunto selector pueden comprender al menos 20 regiones de las identificadas en la Tabla 2. Las regiones genómicas del conjunto selector pueden comprender al menos 60 regiones de las identificadas en la Tabla 2. Las regiones genómicas del conjunto selector pueden comprender al menos 100 regiones de las identificadas en la Tabla 2. Las regiones genómicas del conjunto selector pueden comprender al menos 300 regiones de las identificadas en la Tabla 2. Las regiones genómicas del conjunto selector pueden comprender al menos 400 regiones de las identificadas en la Tabla 2. Las regiones genómicas del conjunto selector pueden comprender al menos 500 regiones de las identificadas en la Tabla 2.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 2. Al menos aproximadamente el 5 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 2. Al menos aproximadamente el 10 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 2. Al menos aproximadamente el 20 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 2. Al menos aproximadamente el 30 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 2. Al menos aproximadamente el 40 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 2.
El conjunto selector puede comprender una o más regiones genómicas identificadas por la Tabla 6. Las regiones genómicas del conjunto selector pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 6. Las regiones genómicas del conjunto selector pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 150, 200, 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800 u 830 regiones de las identificadas en la Tabla 6. Las regiones genómicas del conjunto selector pueden comprender al menos 2 regiones de las identificadas en la Tabla 6. Las regiones genómicas del conjunto selector pueden comprender al menos 20 regiones de las identificadas en la Tabla 6. Las regiones genómicas del conjunto selector pueden comprender al menos 60 regiones de las identificadas en la Tabla 6. Las regiones genómicas del conjunto selector pueden comprender al menos 100 regiones de las identificadas en la Tabla 6. Las regiones genómicas del conjunto selector pueden comprender al menos 300 regiones de las identificadas en la Tabla 6. Las regiones genómicas del conjunto selector pueden comprender al menos 600 regiones de las identificadas en la Tabla 6. Las regiones genómicas del conjunto selector pueden comprender al menos 800 regiones de las identificadas en la Tabla 6.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 6. Al menos aproximadamente el 5 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 6. Al menos aproximadamente el 10 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 6. Al menos aproximadamente el 20 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 6. Al menos aproximadamente el 30 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 6. Al menos aproximadamente el 40 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 6.
El conjunto selector puede comprender una o más regiones genómicas identificadas por la Tabla 7. Las regiones genómicas del conjunto selector pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 7. Las regiones genómicas del conjunto selector pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 125, 150, 175, 200, 225, 250, 275, 300, 325, 350, 375, 400, 425 o 450 regiones de las identificadas en la Tabla 7. Las regiones genómicas del conjunto selector pueden comprender al menos 2 regiones de las identificadas en la Tabla 7. Las regiones genómicas del conjunto selector pueden comprender al menos 20 regiones de las identificadas en la Tabla 7. Las regiones genómicas del conjunto selector pueden comprender al menos 60 regiones de las identificadas en la Tabla 7. Las regiones genómicas del conjunto selector pueden comprender al menos 100 regiones de las identificadas en la Tabla 7. Las regiones genómicas del conjunto selector pueden comprender al menos 200 regiones de las identificadas en la Tabla 7. Las regiones genómicas del conjunto selector pueden comprender al menos 300 regiones de las identificadas en la Tabla 7. Las regiones genómicas del conjunto selector pueden comprender al menos 400 regiones de las identificadas en la Tabla 7.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 7. Al menos aproximadamente el 5 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 7. Al menos aproximadamente el 10 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 7. Al menos aproximadamente el 20 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 7. Al menos aproximadamente el 30 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 7. Al menos aproximadamente el 40 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 7.
El conjunto selector puede comprender una o más regiones genómicas identificadas por la Tabla 8. Las regiones genómicas del conjunto selector pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 8. Las regiones genómicas del conjunto selector pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 8. Las regiones genómicas del conjunto selector pueden comprender al menos 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000 o 1050 regiones de las identificadas en la Tabla 8. Las regiones genómicas del conjunto selector pueden comprender al menos 2 regiones de las identificadas en la Tabla 8. Las regiones genómicas del conjunto selector pueden comprender al menos 20 regiones de las identificadas en la Tabla 8. Las regiones genómicas del conjunto selector pueden comprender al menos 60 regiones de las identificadas en la Tabla 8. Las regiones genómicas del conjunto selector pueden comprender al menos 100 regiones de las identificadas en la Tabla 8. Las regiones genómicas del conjunto selector pueden comprender al menos 300 regiones de las identificadas en la Tabla 8. Las regiones genómicas del conjunto selector pueden comprender al menos 600 regiones de las identificadas en la Tabla 8. Las regiones genómicas del conjunto selector pueden comprender al menos 800 regiones de las identificadas en la Tabla 8. Las regiones genómicas del conjunto selector pueden comprender al menos 1000 regiones de las identificadas en la Tabla 8.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 8. Al menos aproximadamente el 5 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 8. Al menos aproximadamente el 10 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 8. Al menos aproximadamente el 20 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 8. Al menos aproximadamente el 30 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 8. Al menos aproximadamente el 40 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 8.
El conjunto selector puede comprender una o más regiones genómicas identificadas por la Tabla 9. Las regiones genómicas del conjunto selector pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 9. Las regiones genómicas del conjunto selector pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 9. Las regiones genómicas del conjunto selector pueden comprender al menos 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000, 1100, 1200, 1300, 1400 o 1500 regiones de las identificadas en la Tabla 9. Las regiones genómicas del conjunto selector pueden comprender al menos 2 regiones de las identificadas en la Tabla 9. Las regiones genómicas del conjunto selector pueden comprender al menos 20 regiones de las identificadas en la Tabla 9. Las regiones genómicas del conjunto selector pueden comprender al menos 60 regiones de las identificadas en la Tabla 9. Las regiones genómicas del conjunto selector pueden comprender al menos 100 regiones de las identificadas en la Tabla 9. Las regiones genómicas del conjunto selector pueden comprender al menos 300 regiones de las identificadas en la Tabla 9. Las regiones genómicas del conjunto selector pueden comprender al menos 500 regiones de las identificadas en la Tabla 9. Las regiones genómicas del conjunto selector pueden comprender al menos 1000 regiones de las identificadas en la Tabla 9. Las regiones genómicas del conjunto selector pueden comprender al menos 1300 regiones de las identificadas en la Tabla 9.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 9. Al menos aproximadamente el 5 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 9. Al menos aproximadamente el 10 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 9. Al menos aproximadamente el 20 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 9. Al menos aproximadamente el 30 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 9. Al menos aproximadamente el 40 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 9.
El conjunto selector puede comprender una o más regiones genómicas identificadas por la Tabla 10. Las regiones genómicas del conjunto selector pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 10. Las regiones genómicas del conjunto selector pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 10. Las regiones genómicas del conjunto selector pueden comprender al menos 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195, 200, 210, 220, 230, 240, 250, 260, 270, 280, 290, 300, 310, 320 o 330 regiones de las identificadas en la Tabla 10. Las regiones genómicas del conjunto selector pueden comprender al menos 2 regiones de las identificadas en la Tabla 10. Las regiones genómicas del conjunto selector pueden comprender al menos 20 regiones de las identificadas en la Tabla 10. Las regiones genómicas del conjunto selector pueden comprender al menos 60 regiones de las identificadas en la Tabla 10.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 10. Al menos aproximadamente el 5 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 10. Al menos aproximadamente el 10 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 10. Al menos aproximadamente el 20 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 10. Al menos aproximadamente el 30 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 10. Al menos aproximadamente el 40 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 10.
El conjunto selector puede comprender una o más regiones genómicas identificadas por la Tabla 11. Las regiones genómicas del conjunto selector pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 11. Las regiones genómicas del conjunto selector pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 11. Las regiones genómicas del conjunto selector pueden comprender al menos 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195, 200, 210, 220, 230, 240, 250, 260, 270, 280, 290, 300, 310, 320, 330, 340, 350, 375, 400, 420, 440 o 460 regiones de las identificadas en la Tabla 11. Las regiones genómicas del conjunto selector pueden comprender al menos 2 regiones de las identificadas en la Tabla 11. Las regiones genómicas del conjunto selector pueden comprender al menos 20 regiones de las identificadas en la Tabla 11. Las regiones genómicas del conjunto selector pueden comprender al menos 60 regiones de las identificadas en la Tabla 11. Las regiones genómicas del conjunto selector pueden comprender al menos 100 regiones de las identificadas en la Tabla 11. Las regiones genómicas del conjunto selector pueden comprender al menos 200 regiones de las identificadas en la Tabla 11. Las regiones genómicas del conjunto selector pueden comprender al menos 300 regiones de las identificadas en la Tabla 11. Las regiones genómicas del conjunto selector pueden comprender al menos 400 regiones de las identificadas en la Tabla 11.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 11. Al menos aproximadamente el 5 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 11. Al menos aproximadamente el 10 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 11. Al menos aproximadamente el 20 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 11. Al menos aproximadamente el 30 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 11. Al menos aproximadamente el 40 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 11.
El conjunto selector puede comprender una o más regiones genómicas identificadas por la Tabla 12. Las regiones genómicas del conjunto selector pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 12. Las regiones genómicas del conjunto selector pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 12. Las regiones genómicas del conjunto selector pueden comprender al menos 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195, 200, 210, 220, 230, 240, 250, 260, 270, 280, 290, 300, 310, 320, 330, 340, 350, 375, 400, 420, 440, 460, 480 o 500 regiones de las identificadas en la Tabla 12. Las regiones genómicas del conjunto selector pueden comprender al menos 2 regiones de las identificadas en la Tabla 12. Las regiones genómicas del conjunto selector pueden comprender al menos 20 regiones de las identificadas en la Tabla 12. Las regiones genómicas del conjunto selector pueden comprender al menos 60 regiones de las identificadas en la Tabla 12. Las regiones genómicas del conjunto selector pueden comprender al menos 100 regiones de las identificadas en la Tabla 12. Las regiones genómicas del conjunto selector pueden comprender al menos 200 regiones de las identificadas en la Tabla 12. Las regiones genómicas del conjunto selector pueden comprender al menos 300 regiones de las identificadas en la Tabla 12. Las regiones genómicas del conjunto selector pueden comprender al menos 400 regiones de las identificadas en la Tabla 12. Las regiones genómicas del conjunto selector pueden comprender al menos 500 regiones de las identificadas en la Tabla 12.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 12. Al menos aproximadamente el 5 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 12. Al menos aproximadamente el 10 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 12. Al menos aproximadamente el 20 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 12. Al menos aproximadamente el 30 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 12. Al menos aproximadamente el 40 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 12.
El conjunto selector puede comprender una o más regiones genómicas identificadas por la Tabla 13. Las regiones genómicas del conjunto selector pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 13. Las regiones genómicas del conjunto selector pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 13. Las regiones genómicas del selector pueden comprender al menos 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000, 1050, 1100, 1150, 1200, 1250, 1300, 1350, 1400 o 1450 regiones de las identificadas en la Tabla 13. Las regiones genómicas del conjunto selector pueden comprender al menos 2 regiones de las identificadas en la Tabla 13. Las regiones genómicas del conjunto selector pueden comprender al menos 20 regiones de las identificadas en la Tabla 13. Las regiones genómicas del conjunto selector pueden comprender al menos 60 regiones de las identificadas en la Tabla 13. Las regiones genómicas del conjunto selector pueden comprender al menos 100 regiones de las identificadas en la Tabla 13. Las regiones genómicas del conjunto selector pueden comprender al menos 300 regiones de las identificadas en la Tabla 13. Las regiones genómicas del conjunto selector pueden comprender al menos 500 regiones de las identificadas en la Tabla 13. Las regiones genómicas del conjunto selector pueden comprender al menos 1000 regiones de las identificadas en la Tabla 13. Las regiones genómicas del conjunto selector pueden comprender al menos 1300 regiones de las identificadas en la Tabla 13.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 13. Al menos aproximadamente el 5 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 13. Al menos aproximadamente el 10 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 13. Al menos aproximadamente el 20 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 13. Al menos aproximadamente el 30 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 13. Al menos aproximadamente el 40 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 13.
El conjunto selector puede comprender una o más regiones genómicas identificadas por la Tabla 14. Las regiones genómicas del conjunto selector pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 14. Las regiones genómicas del conjunto selector pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 14. Las regiones genómicas del conjunto selector pueden comprender al menos 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000, 1050, 1100, 1150, 1200, 1210, 1220, 1230 o 1240 regiones de las identificadas en la Tabla 14. Las regiones genómicas del conjunto selector pueden comprender al menos 2 regiones de las identificadas en la Tabla 14. Las regiones genómicas del conjunto selector pueden comprender al menos 20 regiones de las identificadas en la Tabla 14. Las regiones genómicas del conjunto selector pueden comprender al menos 60 regiones de las identificadas en la Tabla 14. Las regiones genómicas del conjunto selector pueden comprender al menos 100 regiones de las identificadas en la Tabla 14. Las regiones genómicas del conjunto selector pueden comprender al menos 300 regiones de las identificadas en la Tabla 14. Las regiones genómicas del conjunto selector pueden comprender al menos 500 regiones de las identificadas en la Tabla 14. Las regiones genómicas del conjunto selector pueden comprender al menos 1000 regiones de las identificadas en la Tabla 14. Las regiones genómicas del conjunto selector pueden comprender al menos 1100 regiones de las identificadas en la Tabla 14. Las regiones genómicas del conjunto selector pueden comprender al menos 1200 regiones de las identificadas en la Tabla 14.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 14. Al menos aproximadamente el 5 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 14. Al menos aproximadamente el 10 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 14. Al menos aproximadamente el 20 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 14. Al menos aproximadamente el 30 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 14. Al menos aproximadamente el 40 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 14.
El conjunto selector puede comprender una o más regiones genómicas identificadas por la Tabla 15. Las regiones genómicas del conjunto selector pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 15. Las regiones genómicas del conjunto selector pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 110, 120, 130, 140, 150, 160 o 170 regiones de las identificadas en la Tabla 15. Las regiones genómicas del conjunto selector pueden comprender al menos 2 regiones de las identificadas en la Tabla 15. Las regiones genómicas del conjunto selector pueden comprender al menos 20 regiones de las identificadas en la Tabla 15. Las regiones genómicas del conjunto selector pueden comprender al menos 60 regiones de las identificadas en la Tabla 15. Las regiones genómicas del conjunto selector pueden comprender al menos 100 regiones de las identificadas en la Tabla 15. Las regiones genómicas del conjunto selector pueden comprender al menos 120 regiones de las identificadas en la Tabla 15. Las regiones genómicas del conjunto selector pueden comprender al menos 150 regiones de las identificadas en la Tabla 15.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 15. Al menos aproximadamente el 5 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 15. Al menos aproximadamente el 10 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 15. Al menos aproximadamente el 20 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 15. Al menos aproximadamente el 30 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 15. Al menos aproximadamente el 40 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 15.
El conjunto selector puede comprender una o más regiones genómicas identificadas por la Tabla 16. Las regiones genómicas del conjunto selector pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 16. Las regiones genómicas del conjunto selector pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 16. Las regiones genómicas del conjunto selector pueden comprender al menos 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000, 1100, 1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900, 2000 o 2050 regiones de las identificadas en la Tabla 16. Las regiones genómicas del conjunto selector pueden comprender al menos 2 regiones de las identificadas en la Tabla 16. Las regiones genómicas del conjunto selector pueden comprender al menos 20 regiones de las identificadas en la Tabla 16. Las regiones genómicas del conjunto selector pueden comprender al menos 60 regiones de las identificadas en la Tabla 16. Las regiones genómicas del conjunto selector pueden comprender al menos 100 regiones de las identificadas en la Tabla 16. Las regiones genómicas del conjunto selector pueden comprender al menos 300 regiones de las identificadas en la Tabla 16. Las regiones genómicas del conjunto selector pueden comprender al menos 500 regiones de las identificadas en la Tabla 16. Las regiones genómicas del conjunto selector pueden comprender al menos 1000 regiones de las identificadas en la T abla 16. Las regiones genómicas del conjunto selector pueden comprender al menos 1200 regiones de las identificadas en la Tabla 16. Las regiones genómicas del conjunto selector pueden comprender al menos 1500 regiones de las identificadas en la Tabla 16. Las regiones genómicas del conjunto selector pueden comprender al menos 1700 regiones de las identificadas en la Tabla 16. Las regiones genómicas del conjunto selector pueden comprender al menos 2000 regiones de las identificadas en la Tabla 16.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 16. Al menos aproximadamente el 5 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 16. Al menos aproximadamente el 10 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 16. Al menos aproximadamente el 20 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 16. Al menos aproximadamente el 30 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 16. Al menos aproximadamente el 40 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 16.
El conjunto selector puede comprender una o más regiones genómicas identificadas por la Tabla 17. Las regiones genómicas del conjunto selector pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 17. Las regiones genómicas del conjunto selector pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 17. Las regiones genómicas del conjunto selector pueden comprender al menos 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000, 1010, 1020, 1030, 1040, 1050, 1060, 1070 o 1080 regiones de las identificadas en la Tabla 17. Las regiones genómicas del conjunto selector pueden comprender al menos 2 regiones de las identificadas en la Tabla 17. Las regiones genómicas del conjunto selector pueden comprender al menos 20 regiones de las identificadas en la Tabla 17. Las regiones genómicas del conjunto selector pueden comprender al menos 60 regiones de las identificadas en la Tabla 17. Las regiones genómicas del conjunto selector pueden comprender al menos 100 regiones de las identificadas en la Tabla 17. Las regiones genómicas del conjunto selector pueden comprender al menos 300 regiones de las identificadas en la Tabla 17. Las regiones genómicas del conjunto selector pueden comprender al menos 500 regiones de las identificadas en la Tabla 17. Las regiones genómicas del conjunto selector pueden comprender al menos 1000 regiones de las identificadas en la Tabla 17. Las regiones genómicas del conjunto selector pueden comprender al menos 1050 regiones de las identificadas en la Tabla 17.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 17. Al menos aproximadamente el 5 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 17. Al menos aproximadamente el 10 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 17. Al menos aproximadamente el 20 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 17. Al menos aproximadamente el 30 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 17. Al menos aproximadamente el 40 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 17.
El conjunto selector puede comprender una o más regiones genómicas identificadas por la Tabla 18. Las regiones genómicas del conjunto selector pueden comprender al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más regiones de las identificadas en la Tabla 18. Las regiones genómicas del conjunto selector pueden comprender al menos 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 regiones de las identificadas en la Tabla 18. Las regiones genómicas del conjunto selector pueden comprender al menos 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195, 200, 210, 220, 230, 240, 250, 260, 270, 280, 290, 300, 310, 320, 330, 340, 350, 375, 400, 420, 440, 460, 480, 500, 520, 540 o 555 regiones de las identificadas en la Tabla 18. Las regiones genómicas del conjunto selector pueden comprender al menos 2 regiones de las identificadas en la Tabla 18. Las regiones genómicas del conjunto selector pueden comprender al menos 20 regiones de las identificadas en la Tabla 18. Las regiones genómicas del conjunto selector pueden comprender al menos 60 regiones de las identificadas en la Tabla 18. Las regiones genómicas del conjunto selector pueden comprender al menos 100 regiones de las identificadas en la Tabla 18. Las regiones genómicas del conjunto selector pueden comprender al menos 200 regiones de las identificadas en la Tabla 18. Las regiones genómicas del conjunto selector pueden comprender al menos 300 regiones de las identificadas en la Tabla 18. Las regiones genómicas del conjunto selector pueden comprender al menos 400 regiones de las identificadas en la Tabla 18. Las regiones genómicas del conjunto selector pueden comprender al menos 500 regiones de las identificadas en la Tabla 18.
Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 18. Al menos aproximadamente el 5 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 18. Al menos aproximadamente el 10 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 18. Al menos aproximadamente el 20 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 18. Al menos aproximadamente el 30 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 18. Al menos aproximadamente el 40 % de las regiones genómicas del conjunto selector pueden ser regiones identificadas en la Tabla 18.
Las sondas del conjunto selector pueden ser al menos de aproximadamente 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95 o 100 nucleótidos de longitud. Las sondas del conjunto selector pueden ser de al menos aproximadamente 20 nucleótidos de longitud. Las sondas del conjunto selector pueden ser de al menos aproximadamente 30 nucleótidos de longitud. Las sondas del conjunto selector pueden ser de al menos aproximadamente 40 nucleótidos de longitud. Las sondas del conjunto selector pueden ser de al menos aproximadamente 50 nucleótidos de longitud.
Las sondas selectoras pueden ser de aproximadamente 15 a aproximadamente 250 nucleótidos de longitud. Las sondas del conjunto selector pueden ser de aproximadamente 15 a aproximadamente 200 nucleótidos de longitud. Las sondas del conjunto selector pueden ser de aproximadamente 15 a aproximadamente 170 nucleótidos de longitud. Las sondas del conjunto selector pueden ser de aproximadamente 15 a aproximadamente 150 nucleótidos de longitud. Las sondas del conjunto selector pueden ser de aproximadamente 25 a aproximadamente 200 nucleótidos de longitud. Las sondas del conjunto selector pueden ser de aproximadamente 25 a aproximadamente 150 nucleótidos de longitud. Las sondas del conjunto selector pueden ser de aproximadamente 50 a aproximadamente 150 nucleótidos de longitud. Las sondas del conjunto selector pueden ser de aproximadamente 50 a aproximadamente 125 nucleótidos de longitud.
1, 2, 3, 4, 5, 6, 7, 8, 9, 10 o más sondas de conjuntos selectores pueden corresponder a una región genómica. Dos o más sondas de conjuntos selectores pueden corresponder a una región genómica. Tres o más sondas de conjuntos selectores pueden corresponder a una región genómica. Por tanto, un conjunto de sondas de conjunto selector puede tener la complejidad del conjunto selector a partir del que se obtiene. Las sondas selectoras pueden sintetizarse utilizando métodos convencionales o pueden generarse mediante cualquier otro enfoque de biología molecular adecuado. Las sondas selectoras se pueden hibridar con cfDNA para captura híbrida, como se describe en el presente documento. Las sondas selectoras pueden comprender un resto de unión que permite la captura del híbrido. Se conocen en la técnica diversos restos de unión (por ejemplo, etiquetas) útiles para este propósito, incluyendo, sin limitación, biotina, etiquetas HIS, etiquetas MYC, FITC y similares.
En las Tablas 2 y 6-18 se proporcionan conjuntos selectores ejemplares. El conjunto selector que comprende una o más regiones genómicas identificadas en la Tabla 2 puede ser útil para el carcinoma de pulmón no microcítico (NSCLC). El conjunto selector que comprende una o más regiones genómicas identificadas en la Tabla 6 puede ser útil para el cáncer de mama. El conjunto selector que comprende una o más regiones genómicas identificadas en la Tabla 7 puede ser útil para el cáncer colorrectal. El conjunto selector que comprende una o más regiones genómicas identificadas en la Tabla 8 puede ser útil para el linfoma difuso de células B grandes (DLBCL). El conjunto selector que comprende una o más regiones genómicas identificadas en la Tabla 9 puede ser útil para el carcinoma de ascitis de Ehrlich (EAC). El conjunto selector que comprende una o más regiones genómicas identificadas en la Tabla 10 puede ser útil para el linfoma folicular (FL). El conjunto selector que comprende una o más regiones genómicas identificadas en la Tabla 11 puede ser útil para el carcinoma de células escamosas de cabeza y cuello (HNSC). El conjunto selector que comprende una o más regiones genómicas identificadas en la Tabla 12 puede ser útil para NSCLC. El conjunto selector que comprende una o más regiones genómicas identificadas en la Tabla 13 puede ser útil para NSCLC. El conjunto selector que comprende una o más regiones genómicas identificadas en la Tabla 14 puede ser útil para el cáncer de ovario. El conjunto selector que comprende una o más regiones genómicas identificadas en la Tabla 15 puede ser útil para el cáncer de ovario. El conjunto selector que comprende una o más regiones genómicas identificadas en la Tabla 16 puede ser útil para el cáncer de páncreas. El conjunto selector que comprende una o más regiones genómicas identificadas en la Tabla 17 puede ser útil para el adenocarcinoma de próstata. El conjunto selector que comprende una o más regiones genómicas identificadas en la Tabla 18 puede ser útil para el melanoma cutáneo de la piel. El conjunto selector de cualquiera de las Tablas 2 y 6-18 puede ser útil para carcinomas y subgenéricamente para adenocarcinomas o carcinomas de células escamosas.
Métodos para producir un conjunto selector
En el presente documento se desvelan métodos para producir un conjunto selector. Un objetivo en el diseño de un conjunto selector puede comprender maximizar la fracción de pacientes cubiertos y el número de mutaciones por paciente cubiertas mientras se minimiza el tamaño del selector. La evaluación de todas las combinaciones posibles de regiones genómicas para construir tal conjunto selector puede ser un problema exponencialmente grande (por ejemplo, 2n posibles combinaciones de exones dados n exones), lo que hace crítico el uso de un algoritmo de aproximación. Por tanto, se puede utilizar una estrategia heurística para producir un conjunto selector.
Los conjuntos selectores desvelados en el presente documento pueden diseñarse racionalmente para un límite de detección de ctDNA, coste de secuenciación y/o masa de entrada de ADN determinados. Un conjunto selector de este tipo puede diseñarse utilizando una calculadora de diseño de selectores. Una calculadora de diseño de selectores puede basarse en el siguiente modelo analítico: la probabilidad P de recuperar al menos 1 lectura de un único alelo mutante en plasma para una determinada profundidad de lectura de secuenciación y límite de detección de ctDNA en plasma puede modelarse mediante una distribución binomial. Dado P, la probabilidad de detectar todas las mutaciones tumorales identificadas en plasma puede modelarse mediante una distribución geométrica. Con esta calculadora de diseño, primero se puede estimar cuántos indicadores de tumores se necesitarán para lograr la sensibilidad deseada y luego se puede apuntar a un tamaño de selector que equilibre este número con consideraciones de coste y entrada de masa de ADN. La Figura 5a muestra una representación gráfica de la probabilidad P de detectar ctDNA en plasma para diferentes límites de detección de ctDNA en plasma para CAPP-Seq (línea oscura, gruesa), la secuencia completa del exoma (i y ii) y la secuencia completa del genoma (iii).
El método para producir un conjunto selector puede comprender (a) calcular un índice de recurrencia de una región genómica de una pluralidad de regiones genómicas dividiendo el número de sujetos que tienen una o más mutaciones en la región genómica por la longitud de la región genómica; y (b) producir un conjunto selector que comprende una o más regiones genómicas de la pluralidad de regiones genómicas mediante la selección de regiones genómicas basándose en el índice de recurrencia. Por ejemplo, 10 sujetos pueden contener una o más mutaciones en una región genómica que comprende 100 bases. El índice de recurrencia se podría calcular dividiendo el número de sujetos que contienen mutaciones en dichas una o más regiones genómicas por la longitud de la región genómica. En este ejemplo, el índice de recurrencia para esta región genómica sería de 10 sujetos divididos por 100 bases, lo que equivale a 0,1 sujetos por base.
El método puede comprender además clasificar las regiones genómicas de la pluralidad de regiones genómicas por el índice de recurrencia. La producción del conjunto selector basado en el índice de recurrencia puede comprender la selección de regiones genómicas que tienen un índice de recurrencia en el percentil superior 70, 75, 80, 85, 90 o 95 o mayor. La producción del conjunto selector basado en el índice de recurrencia puede comprender la selección de regiones genómicas que tienen un índice de recurrencia en el percentil superior 90. Por ejemplo, una primera región genómica puede tener un índice de recurrencia en el percentil superior 80 y una segunda región genómica puede tener un índice de recurrencia en el percentil inferior 20. El conjunto selector basado en regiones genómicas con un índice de recurrencia en el percentil superior 75 puede comprender la primera región genómica, pero no la segunda región genómica.
El método puede comprender además clasificar las regiones genómicas por el número de sujetos que tienen una o más mutaciones en la región genómica. La producción del conjunto selector puede comprender además la selección de regiones genómicas en el percentil superior 70, 75, 80, 85, 90 o 95 o un percentil mayor del número de sujetos que tienen una o más mutaciones en la región genómica. La producción del conjunto selector puede comprender además la selección de regiones genómicas en el percentil superior 90 o un percentil mayor del número de sujetos que tienen una o más mutaciones en la región genómica.
La longitud de la región genómica puede estar en kilobases. La longitud de la región genómica puede estar en bases. Para las regiones genómicas que contienen mutaciones somáticas conocidas asociadas con un cáncer, la longitud de la región genómica puede consistir esencialmente en la subsecuencia de la mutación conocida. Para las regiones genómicas que contienen mutaciones somáticas conocidas asociadas con un cáncer, la longitud de la región genómica puede consistir esencialmente en la subsecuencia de la mutación conocida y una o más bases que flanquean la subsecuencia de la mutación conocida. Para las regiones genómicas que contienen mutaciones somáticas conocidas asociadas con un cáncer, la longitud de la región genómica puede consistir esencialmente en la subsecuencia de la mutación conocida y de 1 a 5 bases que flanquean la subsecuencia de la mutación conocida. Para las regiones genómicas que contienen mutaciones somáticas conocidas asociadas con un cáncer, la longitud de la región genómica puede consistir esencialmente en la subsecuencia de la mutación conocida y 5 o menos bases que flanquean la subsecuencia de la mutación conocida. El índice de recurrencia para una región genómica que comprende una mutación somática conocida puede recalcularse basándose en la longitud de la subsecuencia de la mutación conocida o la longitud de la subsecuencia de la mutación conocida con bases adicionales que flanquean la subsecuencia de la mutación conocida. Por ejemplo, una región genómica puede comprender 200 bases y la mutación somática conocida dentro de la región genómica puede comprender 100 bases. El índice de recurrencia se puede calcular dividiendo el número de sujetos que contienen una o más mutaciones en la región genómica dividido por la longitud de la mutación somática con la región genómica (por ejemplo, 100 bases).
En el presente documento se desvela además un método para producir un conjunto selector que comprende (a) identificar, con la ayuda de un procesador informático, una pluralidad de regiones genómicas que comprenden una o más mutaciones mediante el análisis de datos relativos a la pluralidad de regiones genómicas de una población de sujetos que padecen un cáncer; y (b) aplicar un algoritmo a los datos para producir un conjunto selector que comprende dos o más regiones genómicas de la pluralidad de regiones genómicas, en donde el algoritmo se usa para maximizar la mediana del número de mutaciones en las regiones genómicas del conjunto selector en la población de sujetos.
La identificación de la pluralidad de regiones genómicas puede comprender el cálculo de un índice de recurrencia de una o más regiones genómicas de la pluralidad de regiones genómicas. El algoritmo puede aplicarse a los datos relativos a regiones genómicas con un índice de recurrencia en el percentil superior 40, 45, 50, 55, 57, 60, 63 o 65 o superior. El algoritmo puede aplicarse a datos relativos a regiones genómicas que tienen un índice de recurrencia de al menos aproximadamente 15, 20, 25, 30, 35, 40, 45 o 50 o más.
La identificación de la pluralidad de regiones genómicas puede comprender la determinación del número de sujetos que tienen una o más mutaciones en una región genómica. El algoritmo se puede aplicar a los datos relativos a las regiones genómicas en el percentil superior 40, 45, 50, 55, 57, 60, 63 o 65 o mayor del número de sujetos que tienen una o más mutaciones en la región genómica.
El algoritmo puede maximizar la mediana del número de mutaciones mediante la identificación de regiones genómicas que dan como resultado la mayor reducción de sujetos con una mutación en la región genómica. La producción del conjunto selector puede comprender la selección de regiones genómicas que dan como resultado la mayor reducción en sujetos con una mutación en la región genómica.
El algoritmo puede aplicarse a los datos relativos a las regiones genómicas que cumplen un umbral mínimo. El umbral mínimo puede estar relacionado con el índice de recurrencia. Por ejemplo, el algoritmo se puede aplicar a regiones genómicas que tienen un índice de recurrencia en el percentil superior 60. En otro ejemplo, el algoritmo se puede aplicar a regiones genómicas que tienen un índice de recurrencia mayor o igual a 30. Como alternativa o adicionalmente, el umbral mínimo puede estar relacionado con regiones genómicas en el percentil superior 60 del número de sujetos que tienen una o más mutaciones en la región genómica.
El algoritmo se puede aplicar 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 o más veces. El algoritmo se puede aplicar una o más veces. El algoritmo se puede aplicar dos o más veces. El algoritmo se puede aplicar a un primer conjunto de regiones genómicas que cumplen un primer umbral mínimo. Por ejemplo, el algoritmo se puede aplicar a un primer conjunto de regiones genómicas en el percentil superior 60 del índice de recurrencia y el percentil superior 60 del número de sujetos que tienen una o más mutaciones en la región genómica. El algoritmo se puede aplicar a un segundo conjunto de regiones genómicas que cumplen un segundo umbral mínimo. Por ejemplo, el algoritmo se puede aplicar a un segundo conjunto de regiones genómicas que tienen un índice de recurrencia mayor o igual a 20.
La mediana del número de mutaciones en las regiones genómicas de la población de sujetos puede ser de al menos aproximadamente 2, 3, 4, 5, 6, 7, 8, 9, 10 o más mutaciones. La mediana del número de mutaciones en las regiones genómicas de la población de sujetos puede ser de al menos aproximadamente 2, 3 o 4 o más mutaciones.
El algoritmo puede usarse además para maximizar un número de sujetos que contienen una o más mutaciones dentro de las regiones genómicas en el conjunto selector. El algoritmo puede usarse además para maximizar un porcentaje de sujetos de la población que contienen dichas una o más mutaciones dentro de las regiones genómicas en el conjunto selector. El porcentaje de sujetos de la población que contiene dichas una o más mutaciones dentro de las regiones genómicas puede ser al menos aproximadamente el 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 87 %, 90 %, 92 %, 95 % o 97 % o más.
Como alternativa, el método de producción de un conjunto selector puede comprender (a) obtener datos relativos a una pluralidad de regiones genómicas de una población de sujetos que padecen un cáncer; y (b) aplicar un algoritmo a los datos para producir un conjunto selector que comprende dos o más regiones genómicas de la pluralidad de regiones genómicas, en donde el algoritmo se usa para maximizar el número de sujetos que contienen una o más mutaciones dentro de las regiones genómicas en el selector.
El algoritmo puede maximizar el número de sujetos que contienen dichas una o más mutaciones mediante el cálculo de un índice de recurrencia de las regiones genómicas. La producción del conjunto selector puede comprender la selección de una o más regiones genómicas basándose en el índice de recurrencia.
El algoritmo puede maximizar el número de sujetos que contienen dichas una o más mutaciones mediante la identificación de regiones genómicas que comprenden una o más mutaciones encontradas en 2, 3, 4, 5, 6, 7, 8, 9, 10 o más sujetos. El algoritmo puede maximizar el número de sujetos que contienen dichas una o más mutaciones mediante la identificación de regiones genómicas que comprenden una o más mutaciones encontradas en 5 o más sujetos. La producción del conjunto selector puede comprender la selección de una o más regiones genómicas basándose en una frecuencia de la mutación dentro de la región genómica en la población de sujetos.
La producción del conjunto selector puede comprender la adición iterativa de las regiones genómicas al conjunto selector. La producción del conjunto selector puede comprender la selección de una o más regiones genómicas que identifican mutaciones en al menos un nuevo sujeto de la población de sujetos. Por ejemplo, un conjunto selector puede comprender regiones genómicas A, B y C, que contienen mutaciones observadas en los sujetos 1, 2, 3, 4, 5, 6, 7 y 8. La región genómica D puede contener una mutación observada en los sujetos 1-4 y 10. La región genómica E puede contener una mutación observada en los sujetos 1-5. La región genómica D identificó al menos un sujeto adicional (por ejemplo, el sujeto 10) y puede añadirse al conjunto selector, mientras que la región genómica E no identificó un sujeto adicional y no se añade al conjunto selector.
La producción del conjunto selector puede comprender la selección de una o más regiones genómicas basándose en la minimización del solapamiento de sujetos ya identificados por el selector. Por ejemplo, un conjunto selector puede comprender regiones genómicas A, B, C y D, que contienen mutaciones observadas en los sujetos 1, 2, 3, 4, 5, 6, 7, 8, 9 y 10. La región genómica E puede contener una mutación observada en los sujetos 1-5, 11 y 13. La región genómica F puede contener una mutación observada en los sujetos 12 y 15. La región genómica E tenía 5 sujetos en común con el conjunto selector, mientras que la región genómica F no tenía sujetos en común con el conjunto selector. Por tanto, la región genómica F puede añadirse al conjunto selector.
El algoritmo se puede usar para maximizar un porcentaje de sujetos de la población que contiene dichas una o más mutaciones dentro de las regiones genómicas en el selector. El porcentaje de sujetos de la población que contiene dichas una o más mutaciones dentro de las regiones genómicas puede ser al menos aproximadamente el 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 87 %, 90 %, 92 %, 95 % o 97 % o más.
El algoritmo puede usarse además para maximizar la mediana del número de mutaciones en las regiones genómicas en un sujeto de la población de sujetos. La mediana del número de mutaciones en las regiones genómicas en el sujeto puede ser de al menos aproximadamente 2, 3, 4, 5, 6, 7, 8, 9, 10 o más mutaciones. La mediana del número de mutaciones en las regiones genómicas en el sujeto puede ser de al menos aproximadamente 2, 3 o 4 o más mutaciones.
La producción del conjunto selector puede comprender además la adición de regiones genómicas que comprenden una o más mutaciones que se sabe que están asociadas con un cáncer. La producción del conjunto selector puede comprender además la adición de regiones genómicas que comprenden una o más mutaciones que se supone que están asociadas con un cáncer. La producción del conjunto selector puede comprender además la adición de regiones genómicas que comprenden uno o más reordenamientos. La producción del conjunto selector puede comprender además añadir regiones genómicas que comprenden una o más fusiones.
El método puede comprender además identificar una o más regiones genómicas que contienen una o más mutaciones recurrentes en un cáncer. La identificación de estas mutaciones recurrentes puede beneficiarse enormemente de la disponibilidad de bases de datos tales como, por ejemplo, El Atlas del genoma del cáncer (TCGA) y sus subconjuntos. Estas bases de datos pueden servir como punto de partida para identificar las regiones genómicas mutadas de forma recurrente de los conjuntos selectores. Las bases de datos también pueden proporcionar una muestra de mutaciones que existen dentro de un porcentaje dado de sujetos con un cáncer específico.
El método de producción de un conjunto selector puede comprender (a) identificar una pluralidad de regiones genómicas; (b) priorizar la pluralidad de regiones genómicas; y (c) seleccionar una o más regiones genómicas para su inclusión en un conjunto selector. Se puede utilizar la siguiente estrategia de diseño para identificar y priorizar regiones genómicas para su inclusión en un conjunto selector. Tres fases pueden incorporar genes impulsores conocidos y presuntos, así como regiones genómicas que se sabe que participan en fusiones clínicamente procesables, mientras que otras tres fases pueden emplear un enfoque algorítmico para maximizar tanto el número de pacientes cubiertos como las SNV por paciente, utilizando el "índice de recurrencia" (IR) como se describe en el presente documento. La estrategia puede utilizar una base de datos de pacientes inicial para evaluar la utilidad de incluir regiones genómicas en el conjunto selector. Una base de datos típica para este propósito puede incluir información de secuencia de al menos 25, al menos 50, al menos 100, al menos 200, al menos 300 o más tumores individuales. El método para producir un conjunto selector puede comprender una o más de las siguientes fases:
• Fase 1 (Impulsores conocidos). Los genes que se sabe que son impulsores del cáncer de interés se seleccionan en función del patrón de SNV previamente identificado en tumores.
• Fase 2 (Maxim/zar la cobertura). Para maximizar la cobertura, para cada exón con SNV que cubra > 5 pacientes con cáncer en la base de datos de partida, seleccionar el exón con mayor IR que identificó al menos 1 nuevo paciente en comparación con la fase anterior. Entre exones con IR igualmente alto, añadir el exón con solapamiento mínimo entre los pacientes ya capturados por el selector. Repetir hasta que no haya más exones que cumplan estos criterios.
• Fase 3 (IR > 30). Para cada exón restante con un IR > 30 y con SNV que cubren > 3 pacientes en la base de datos relevante, identificar el exón que produce la mayor reducción en pacientes con solo 1 SNV. Para romper los lazos entre exones igualmente óptimos, se eligió el exón con mayor IR. Esto se repitió hasta que ningún exón adicional cumpliera estos criterios.
• Fase 4 (IR > 20). Repetir el procedimiento de la Fase 3, pero usando IR > 20.
• Fase 5 (Impulsores previstos). Añadir todos los exones de genes adicionales que previamente se predijo que albergarían mutaciones impulsoras en el cáncer de interés.
• Fase 6 (Añadir fusiones). Añadir para reordenamientos recurrentes conocidos los intrones más frecuentemente implicados en el acontecimiento de fusión y los exones flanqueantes.
Se debe entender, sin embargo, que la adición de impulsores conocidos, impulsores previstos y fusiones se puede realizar de forma independiente y en cualquier orden.
Un método para producir un conjunto selector puede comprender (a) calcular un índice de recurrencia para una pluralidad de regiones genómicas de una población de sujetos que padecen un cáncer dividiendo el número de sujetos que contienen una o más mutaciones en una región genómica de la pluralidad de regiones genómicas por el tamaño de la región genómica; y (b) clasificar la pluralidad de regiones genómicas basándose en su índice de recurrencia.
Un método para producir un conjunto selector puede comprender (a) calcular un índice de recurrencia para una pluralidad de regiones genómicas de una población de sujetos que padecen un cáncer dividiendo el número de sujetos que contienen una o más mutaciones en una región genómica de la pluralidad de regiones genómicas por el tamaño de la región genómica; y (b) producir un conjunto selector que comprende dos o más regiones genómicas de la pluralidad de regiones genómicas (i) usando el índice de recurrencia para maximizar la cobertura del conjunto selector para la población de sujetos; y/o (ii) usar el índice de recurrencia para maximizar la mediana del número de mutaciones por sujeto en la población de sujetos.
La maximización de la cobertura de sujetos puede comprender el uso de una métrica denominada "índice de recurrencia" (IR). El IR puede referirse al número de sujetos que albergan mutaciones (por ejemplo, SNV/indeles) en una determinada kilobase de secuencia genómica. Esta métrica se puede normalizar aún más por el número de sujetos por estudio para permitir la comparación de diferentes estudios y distintos cánceres. Se utilizó un enfoque similar para producir un conjunto selector para el cáncer de pulmón no microcítico (NSCLC) (véase la Figura 1b). Para un conjunto selector de NSCLC ejemplar, los exones fueron la unidad genómica primaria y no se consideraron las indeles. Una porción de un exón puede contener mutaciones somáticas conocidas. En este caso, el algoritmo solo incluye la subsecuencia de la porción del exón que contiene lesiones conocidas flanqueadas por un búfer definido por el usuario (por defecto, = 1 base). Se puede volver a calcular el IR para cada exón después de este ajuste. El algoritmo puede clasificar las regiones genómicas disminuyendo el IR. El algoritmo puede considerar un subconjunto de las regiones genómicas. Por ejemplo, el algoritmo solo puede considerar las regiones genómicas en el percentil superior P de IR y/o el número de sujetos por exón (P = percentil 90 por defecto, pero es modificable por el usuario). El diseño del selector puede proceder recorriendo iterativamente la lista de regiones genómicas clasificadas, seleccionando cada región genómica que añade cobertura del sujeto adicional con un espacio adicional mínimo. Esto puede continuar hasta que se hayan evaluado todas las regiones genómicas que satisfacen los filtros de percentiles y/o se haya alcanzado un tamaño de selector máximo definido por el usuario.
La producción del conjunto selector puede comprender maximizar la mediana del número de mutaciones por sujeto. La maximización de la mediana del número de mutaciones por sujeto puede comprender el uso de uno o más algoritmos. La maximización de la mediana del número de mutaciones por sujeto puede comprender el uso de uno o más umbrales o filtros para evaluar las regiones genómicas para su inclusión en el conjunto selector. Los umbrales o filtros pueden basarse en el índice de recurrencia. Por ejemplo, el filtro puede ser un filtro de percentiles del índice de recurrencia. Los filtros de percentiles se pueden relajar para permitir la evaluación de regiones genómicas adicionales para su inclusión en el conjunto selector. El filtro de percentiles se puede establecer en (2/3) x P, donde P es un percentil superior de IR. El umbral puede estar definido por el usuario. El umbral puede ser mayor o igual a 2/3. Como alternativa, el umbral es menor o igual a 2/3. P también puede estar definido por el usuario. El algoritmo puede proceder a través de la lista de regiones genómicas clasificadas por IR decreciente, añadiendo iterativamente regiones que aumentan al máximo la mediana del número de mutaciones por sujeto. El proceso puede terminar después de evaluar todas las regiones genómicas que pasan los filtros de percentiles y/o si se alcanza el criterio del tamaño del selector deseado. Este proceso puede repetirse durante una tercera ronda o más si se continúa relajando el umbral del percentil. La maximización de la mediana del número de mutaciones por sujeto puede comprender (i) clasificar dos o más regiones genómicas basándose en su índice de recurrencia; (ii) producir una lista de regiones genómicas que comprenden un subconjunto de las regiones genómicas, donde las regiones genómicas de la lista tienen un índice de recurrencia en el percentil superior 60; y (iii) producir un conjunto selector preliminar añadiendo regiones genómicas al conjunto selector preliminar y calculando la mediana del número de mutaciones por sujeto en el conjunto selector preliminar.
En el presente documento se desvela además un método para producir un conjunto selector que comprende (a) obtener datos relativos a una o más regiones genómicas; (b) aplicar un algoritmo a los datos para determinar en una región genómica: (i) la presencia de una o más mutaciones en la región genómica; (ii) un número de sujetos con mutaciones en esa región genómica; y (iii) un índice de recurrencia (IR), en donde el IR se determina dividiendo el número de sujetos con mutaciones en la región genómica por el tamaño de la región genómica; (c) producir un conjunto selector que comprende una o más regiones genómicas basándose en el índice de recurrencia de dichas una o más regiones genómicas.
El método puede comprender además calcular por segunda vez el índice de recurrencia para una o más regiones genómicas que comprenden mutaciones conocidas. El tamaño de la mutación conocida puede ser menor que el tamaño de la región genómica. El segundo cálculo del índice de recurrencia puede comprender dividir el número de sujetos con mutaciones conocidas en la región genómica por el tamaño de la mutación conocida. Por ejemplo, el tamaño de una región genómica puede ser de 200 pares de bases y el tamaño de la mutación conocida dentro de la región genómica puede ser de 100 pares de bases. El índice de recurrencia para la región genómica se puede determinar dividiendo el número de sujetos con la mutación conocida en la región genómica por el tamaño de la mutación conocida (por ejemplo, 100 pares de bases) en lugar de dividir por el tamaño de la región genómica completa (por ejemplo, 200 pares de bases).
El método puede comprender además clasificar las dos o más regiones genómicas basándose en el índice de recurrencia. La lista de regiones genómicas clasificadas puede comprender un subconjunto de las regiones genómicas clasificadas por el índice de recurrencia. La lista de regiones genómicas clasificadas puede comprender un subconjunto de regiones genómicas que satisfacen uno o más criterios. Dichos uno o más criterios pueden estar basados en el índice de recurrencia. Por ejemplo, la lista de regiones genómicas clasificadas puede comprender un subconjunto de regiones genómicas que tienen un índice de recurrencia en el percentil superior 90. La producción del conjunto selector puede comprender la selección de dichas una o más regiones genómicas basándose en el índice de recurrencia. La producción del conjunto selector puede comprender la selección de dichas una o más regiones genómicas basándose en la clasificación de las dos o más regiones genómicas. Las dos o más regiones genómicas se pueden clasificar con la ayuda de un algoritmo. El algoritmo utilizado para clasificar las dos o más regiones genómicas basándose en la recurrencia puede ser el mismo algoritmo utilizado para determinar el índice de recurrencia de dichas una o más regiones genómicas. El algoritmo puede ser diferente del algoritmo utilizado para determinar el índice de recurrencia.
El método puede comprender además recorrer iterativamente una lista de regiones genómicas clasificadas y seleccionar regiones genómicas que proporcionen una cobertura de sujeto adicional con una adición mínima al tamaño total de las regiones genómicas de un conjunto selector propuesto. Por ejemplo, una primera región genómica puede añadir dos nuevos sujetos al conjunto selector propuesto y el tamaño del conjunto selector propuesto puede aumentar en 10 pares de bases, mientras que una segunda región genómica puede añadir dos nuevos sujetos al conjunto selector propuesto y el tamaño del conjunto selector propuesto puede aumentar en 100 pares de bases. Puede darse preferencia a la primera región genómica con respecto a la segunda región genómica para su inclusión en el conjunto selector propuesto. Se puede recorrer la lista completa de regiones genómicas clasificadas. Como alternativa, se puede recorrer una parte de la lista de regiones genómicas clasificadas. Por ejemplo, el recorrido y la selección de regiones genómicas pueden basarse en un tamaño de selector máximo definido por el usuario. Una vez que se haya alcanzado el tamaño máximo del selector, puede terminarse la etapa de recorrido de la lista de regiones genómicas clasificadas y selección de regiones genómicas. Puede usarse un algoritmo para recorrer la lista de regiones genómicas clasificadas y para seleccionar regiones genómicas para su inclusión en el conjunto selector. El algoritmo puede ser el mismo algoritmo utilizado para determinar el índice de recurrencia. El algoritmo puede ser diferente del algoritmo utilizado para determinar el índice de recurrencia.
El método puede comprender además recorrer iterativamente una lista de regiones genómicas clasificadas y seleccionar regiones genómicas que maximicen la mediana del número de mutaciones por sujeto en la población de sujetos del conjunto selector. la mediana del número de mutaciones por sujeto para un conjunto selector propuesto puede determinarse (a) contando un número de mutaciones N en cada sujeto en todas las regiones genómicas para el conjunto selector propuesto; y (b) aplicar un algoritmo para identificar la mediana del número de mutaciones clasificando a los sujetos por el número de mutaciones. Por ejemplo, un conjunto selector propuesto puede comprender 10 regiones genómicas que comprenden 20 mutaciones en una población de 9 sujetos. Un primer sujeto puede tener 4 mutaciones, un segundo sujeto puede tener 2 mutaciones, un tercer sujeto puede tener 3 mutaciones, un cuarto sujeto puede tener 6 mutaciones, un quinto sujeto puede tener 8 mutaciones, un sexto sujeto puede tener 6 mutaciones, un séptimo sujeto puede tener ocho mutaciones, un octavo sujeto puede tener 4 mutaciones y un noveno sujeto puede tener dos mutaciones. La mediana de {2, 2, 3, 4, 4, 6, 8, 8} es 4. Puede seleccionarse una región genómica para su inclusión en el conjunto selector si la inclusión de la región genómica aumenta la mediana del número de mutaciones por sujeto en la población de sujetos en el conjunto selector. Por ejemplo, una primera región genómica puede contener una mutación presente en dos de los diez sujetos y la segunda región genómica puede contener una mutación presente en tres de los diez sujetos. La segunda región genómica puede seleccionarse para su inclusión en el conjunto selector sobre la primera región genómica porque la adición de la segunda región genómica al conjunto selector daría como resultado un aumento mayor de la mediana del número de mutaciones por sujeto que la adición de la primera región genómica. Se puede recorrer la lista completa de regiones genómicas clasificadas. Como alternativa, se puede recorrer una parte de la lista de regiones genómicas clasificadas. Por ejemplo, el recorrido y la selección de regiones genómicas pueden basarse en un tamaño de selector máximo definido por el usuario. Una vez que se haya alcanzado el tamaño máximo del selector, puede terminarse la etapa de recorrido de la lista de regiones genómicas clasificadas y selección de regiones genómicas.
Los métodos para producir un conjunto selector pueden comprender: (a) obtener información de secuenciación de una muestra de tumor de un sujeto que padece un cáncer; (b) comparar la información de secuenciación de la muestra de tumor con la información de secuenciación de una muestra no tumoral del sujeto para identificar una o más mutaciones específicas de la información de secuenciación de la muestra de tumor; y (c) producir un conjunto selector que comprende una o más regiones genómicas que comprenden dichas una o más mutaciones específicas de la información de secuenciación de la muestra de tumor. El conjunto selector puede comprender información de secuenciación relativa a dichas una o más regiones genómicas. El conjunto selector puede comprender coordenadas genómicas relativas a dichas una o más regiones genómicas. El conjunto selector puede comprender una pluralidad de oligonucleótidos que hibridan selectivamente dichas una o más regiones genómicas. La pluralidad de oligonucleótidos puede biotinilarse. Dichas una o más mutaciones comprenden SNV. Dichas una o más mutaciones comprenden indeles. Dichas una o más mutaciones comprenden reordenamientos. La producción del conjunto selector puede comprender la identificación de las SNV derivadas de tumores basándose en los métodos desvelados en el presente documento. La producción del conjunto selector puede comprender la identificación de los reordenamientos derivados de tumores basándose en los métodos desvelados en el presente documento.
La aplicación de los enfoques descritos en el presente documento para regiones genómicas mutadas en cáncer de pulmón no microcítico puede dar como resultado el conjunto selector que se muestra en la Tabla 2. El conjunto selector creado de acuerdo con los métodos de la presente invención puede identificar regiones genómicas que es muy probable que incluyan mutaciones identificables en secuencias tumorales. Este conjunto selector puede incluir un número total relativamente pequeño de regiones genómicas y, por tanto, una longitud acumulada relativamente corta de regiones genómicas y, sin embargo, puede proporcionar una alta cobertura general de probables mutaciones en una población. Por lo tanto, no es necesario optimizar el conjunto selector paciente por paciente. La longitud acumulada relativamente corta de las regiones genómicas también significa que el análisis de ADN libre de células derivado de cáncer utilizando estas bibliotecas puede ser muy sensible. La longitud acumulada relativamente corta de las regiones genómicas puede permitir la secuenciación de ADN libre de células a gran profundidad.
Los conjuntos selectores que comprenden regiones genómicas mutadas de forma recurrente creadas de acuerdo con los presentes métodos pueden permitir la identificación de mutaciones específicas del paciente y/o mutaciones específicas del tumor dentro de las regiones genómicas en un alto porcentaje de sujetos. De manera específica, en estos conjuntos selectores, al menos una mutación dentro de la pluralidad de regiones genómicas puede estar presente en al menos el 60 % de una población de sujetos con el cáncer específico. Al menos dos mutaciones dentro de la pluralidad de regiones genómicas pueden están presentes en al menos el 60 % de una población de sujetos con el cáncer específico. Al menos tres mutaciones, o incluso más, dentro de la pluralidad de regiones genómicas pueden están presentes en al menos el 60 % de una población de sujetos con el cáncer específico.
Los métodos para crear un conjunto selector, como se desvelan en el presente documento, pueden implementarse mediante un sistema informático programado. Por lo tanto, de acuerdo con otro aspecto, la presente divulgación proporciona sistemas informáticos para crear un conjunto selector (por ejemplo, biblioteca de regiones genómicas mutadas de forma recurrente). Dichos sistemas pueden comprender al menos un procesador y un medio legible por ordenador no transitorio que almacena instrucciones ejecutables por ordenador que, cuando se ejecutan por dicho al menos un procesador, hacen que el sistema informático lleve a cabo los métodos descritos en el presente documento para crear un conjunto selector (por ejemplo, una biblioteca).
Índice de detección de ctDNA
Los métodos, kits y sistemas desvelados en el presente documento pueden comprender un índice de detección de ctDNA o su uso. En general, el índice de detección de ctDNA se basa en un valor p de uno o más tipos de mutaciones presentes en una muestra de un sujeto. El índice de detección de ctDNA puede comprender una integración del contenido de información a través de una pluralidad de mutaciones y clases de mutaciones somáticas. El índice de detección de ctDNA puede ser análogo a una tasa de falsos positivos. El índice de detección de ctDNA puede basarse en un árbol de decisión en el que los puntos de ruptura de fusión tienen prioridad debido a su fondo inexistente y/o en el que se pueden integrar valores p de múltiples clases de mutaciones. Las clases de mutaciones pueden incluir, pero sin limitación, SNV, indeles, variantes del número de copias y reordenamientos.
El índice de detección de ctDNA puede usarse para evaluar el significado estadístico de un conjunto selector que comprende regiones genómicas que comprenden múltiples clases de mutaciones. Por ejemplo, el índice de detección de ctDNA puede usarse para evaluar el significado estadístico de un conjunto selector que comprende regiones genómicas que comprenden SNV e indeles. En otro ejemplo, el índice de detección de ctDNA puede usarse para evaluar el significado estadístico de un conjunto selector que comprende regiones genómicas que comprenden SNV y reordenamientos. En otro ejemplo, el índice de detección de ctDNA puede usarse para evaluar el significado estadístico de un conjunto selector que comprende regiones genómicas que comprenden reordenamientos e indeles. En otro ejemplo, el índice de detección de ctDNA puede usarse para evaluar el significado estadístico de un conjunto selector que comprende regiones genómicas que comprenden SNV, indeles, variantes del número de copias y reordenamientos. El cálculo del índice de detección de ctDNA puede basarse en los tipos (por ejemplo, clases) de mutaciones dentro de la región genómica de un conjunto selector que se detectan en un sujeto. Por ejemplo, un conjunto selector puede comprender regiones genómicas que comprenden SNV, indeles, variantes del número de copias y reordenamientos, sin embargo, los tipos de mutaciones para el selector que se detectan en un sujeto pueden ser SNV e indeles. El índice de detección de ctDNA se puede determinar combinando un valor p de los SNV y un valor p de las indeles. Para combinar el valor p de los SNV y las indeles puede utilizarse cualquier método que sea adecuado para combinar ensayos parciales independientes. La combinación de los valores p de los SNV y las indeles puede basarse en el método de Fisher.
Un método para determinar un índice de detección de ctDNA puede comprender (a) detectar la presencia de una o más mutaciones en una o más muestras de un sujeto, en donde dichas una o más mutaciones están basadas en un conjunto selector que comprende regiones genómicas que comprenden dichas una o más mutaciones; (b) determinar un tipo de mutación de dichas una o más mutaciones presentes en la muestra; y (c) calcular un índice de detección de ctDNA basado en un valor p del tipo de mutación de mutaciones presentes en dichas una o más muestras.
Para los casos en los que un solo tipo de mutación está presente en la muestra del sujeto, el índice de detección de ctDNA se basa en el valor p del tipo único de mutación. El valor p del tipo único de mutación puede estimarse mediante muestreo de Montecarlo. El muestreo de Montecarlo puede utilizar una amplia clase de algoritmos computacionales que se basan en un muestreo aleatorio repetido para obtener un valor p. El índice de detección de ctDNA puede ser equivalente al valor p del tipo único de mutación.
Para los casos en los que se detecta un reordenamiento (por ejemplo, fusión) en una muestra de tumor y una muestra de plasma del sujeto, el índice de detección de ctDNA se basa en el valor p del reordenamiento. El valor p del reordenamiento puede ser 0. Por tanto, el índice de detección de ctDNA es el valor p del reordenamiento, que es 0.
Para los casos en los que se detecta un reordenamiento (por ejemplo, fusión) solo en una muestra de tumor del sujeto y no en una muestra de plasma del sujeto, el índice de detección de ctDNA se basa en el valor p de los otros tipos de mutaciones.
Para los casos en los que (a) se detectan un SNV y una indel en una muestra del sujeto; (b) un valor p del SNV es menor que 0,1 y un valor p de la indel es menor que 0,1; y (c) no se detecta un reordenamiento en una muestra de plasma del sujeto, el índice de detección de ctDNA se calcula basándose en los valores p combinados del SNV y la indel. Para combinar el valor p de los SNV y las indeles puede utilizarse cualquier método que sea adecuado para combinar ensayos parciales independientes. Los valores p del SNV y la indel se pueden combinar de acuerdo con el método de Fisher. Por tanto, el índice de detección de ctDNA es el valor p combinado del SNV y la indel.
Para los casos en los que (a) se detectan un SNV y una indel en una muestra del sujeto; (b) un valor p del SNV no es menor que 0,1 o un valor p de la indel no es menor que 0,1; y (c) no se detecta un reordenamiento en una muestra de plasma del sujeto, el índice de detección de ctDNA se basa en el valor p del SNV. Por tanto, el índice de detección de ctDNA es el valor p del SNV.
Un índice de detección de ctDNA puede ser significativo si el índice de detección de ctDNA es menor o igual a 0,10, 0,09, 0,08, 0,07, 0,06, 0,05, 0,04, 0,03, 0,02 o 0,01. Un índice de detección de ctDNA puede ser significativo si el índice de detección de ctDNA es menor o igual a 0,05. Un índice de detección de ctDNA puede ser significativo si el índice de detección de ctDNA es menor o igual a una tasa de falsos positivos (FPR).
Se puede calcular un índice de detección de ctDNA para un sujeto basándose en su matriz de indicadores (por ejemplo, mutaciones) utilizando las siguientes reglas, ejecutadas en cualquier orden:
(i) para los casos en los que solo está presente un tipo de indicador en el tumor de un paciente, se utiliza el valor p correspondiente (estimado mediante muestreo de Montecarlo).
(ii) Si se detectan indicadores de SNV e indel, y si cada uno tiene independientemente un valor p < 0,1, sus valores p respectivos se combinan utilizando el método de Fisher. De otro modo, dada la priorización de SNV en el diseño del selector, se utiliza el valor p de SNV.
(iii) Si se recupera un punto de ruptura de fusión identificado en una muestra de tumor (por ejemplo, en el que está implicado ROS1, ALK, o RET) en el ADN plasmático del mismo paciente, triunfa sobre todos los demás tipos de mutaciones y se utiliza su valor p (~ 0).
(iv) Si una fusión detectada en el tumor no se encuentra en el plasma correspondiente (posiblemente debido a la ineficiencia de la hibridación), se utiliza el valor p para cualquier tipo o tipos de mutación restantes.
El índice de detección del ctDNA puede considerarse significativo si el índice de detección del ctDNA es < 0,05 (“ tasa de falsos positivos (FPR) < 5 %), que es el umbral que maximiza la sensibilidad y especificidad de CAPP-Seq en los análisis ROC (que se determina por la distancia euclidiana a un clasificador perfecto; por ejemplo, informe de positivos reales (TPR) = 1 y FPR = 0).
El cálculo de un índice de detección de ctDNA puede comprender determinar el significado de los SNV. Para evaluar el significado de los SNV, la estrategia puede integrar fracciones de cfDNA en todos los SNV somáticos, realiza un ajuste de fondo específico de la posición y evalúa el significado estadístico mediante el muestreo de Montecarlo de los alelos de fondo en el selector. Esto permite la cuantificación de niveles bajos de ctDNA con tasas potencialmente altas de abandono alélico. El método para evaluar el significado de los SNV puede utilizar las siguientes etapas:
• ajustar la fracción alélica f para cada uno de n SNV del paciente P para una muestra de cfDNA determinada 9 por la operación f * = máx. {0, f -(e - m)}, donde f es la fracción alélica de partida en cfDNA, e es la tasa de error específica de la posición para el alelo dado en todas las muestras de cfDNA, y p denota la tasa de fondo media de todo el selector;
• comparar con la simulación de Montecarlo la fracción de SNV media ajustada F * (= (£ f *)/n) frente a la distribución nula de los alelos de fondo a través del selector;
• determinar un valor p de SNV para el paciente P como el percentil de F* con respecto a la distribución nula de los alelos de fondo en 9.
El cálculo de un índice de detección de ctDNA puede comprender determinar el significado de los reordenamientos. A la recuperación de una fusión genómica derivada de un tumor (reordenamiento) se le puede asignar un valor p de ~ 0, debido a la muy baja tasa de error.
El cálculo de un índice de detección de ctDNA puede comprender determinar el significado de las indeles. El análisis de inserciones y eliminaciones (indeles) se puede evaluar por separado utilizando las siguientes etapas:
• Por cada indel en el paciente P comparar su fracción en una muestra de cfDNA dada 9 frente a su fracción en cada muestra de cfDNA en una cohorte (excluyendo las muestras de cfDNA del mismo paciente P) con una prueba Z; donde cada cadena de lectura se evalúa opcionalmente por separado y se combina en una única puntuación Z;
• si el paciente P tiene más de 1 indel, todas las puntuaciones Z específicas de indel se combinan en un parámetro estadístico Z final.
Los valores p de los diferentes tipos de mutación pueden integrarse para estimar el significado estadístico (por ejemplo, valor p) de la cuantificación de la carga tumoral. Por tanto, el índice de detección de ctDNA, que integra los valores p de diferentes tipos de mutación, puede utilizarse para estimar el significado estadístico de la cuantificación de la carga tumoral. Para cada muestra, se puede calcular un índice de detección de ctDNA basándose en la integración del valor p de la pluralidad de mutaciones somáticas que se detectan. El índice de detección de ctDNA se puede determinar basándose en los métodos desvelados en el presente documento. Para los casos en los que solo está presente una única mutación somática en una muestra, se puede utilizar el valor p correspondiente. Si un punto de ruptura de fusión identificado en una muestra de tumor se recupera en el cfDNA del mismo paciente, se puede usar el valor p del punto de ruptura de la fusión. Si se detectan mutaciones somáticas de s Nv e indel, y si cada una de ellas tiene independientemente un valor p < 0,1, pueden combinarse sus respectivos valores p y se usa el valor p resultante. Si se determina que el índice de detección de ctDNA es 0,05, entonces el valor p de la cuantificación de la carga tumoral es 0,05. Un índice de detección de ctDNA de < 0,05 puede sugerir que las mutaciones de un sujeto son significativamente detectables en una muestra del sujeto. Un índice de detección de ctDNA que sea menor que la tasa de falsos positivos (FPR) puede sugerir que las mutaciones de un sujeto son significativamente detectables en una muestra del sujeto.
Sensibilidad y especificidad del conjunto selector
El conjunto selector puede elegirse para proporcionar una sensibilidad y/o especificidad deseadas. Como se conoce en la técnica, la sensibilidad relativa y/o la especificidad de un modelo predictivo se puede "ajustar" para favorecer la métrica de selectividad o la métrica de sensibilidad, donde las dos métricas tienen una relación inversa. Tanto la sensibilidad como la especificidad, o una de ellas, pueden ser al menos aproximadamente al menos aproximadamente 0,6, al menos aproximadamente 0,65, al menos aproximadamente 0,7, al menos aproximadamente 0,75, al menos aproximadamente 0,8, al menos aproximadamente 0,85, al menos aproximadamente 0,9 o mayores.
La sensibilidad y la especificidad pueden ser medidas estadísticas del desempeño del conjunto selector para realizar una función. Por ejemplo, la sensibilidad del conjunto selector puede usarse para evaluar el uso del conjunto selector para diagnosticar o pronosticar correctamente un estado o resultado de un cáncer en un sujeto. La sensibilidad del conjunto selector puede medir la proporción de sujetos que se identifican correctamente como afectados por un cáncer. La sensibilidad del conjunto selector también puede medir el uso del conjunto selector para detectar correctamente un cáncer en un sujeto. La sensibilidad del conjunto selector también puede medir el uso del conjunto selector para diagnosticar correctamente un cáncer en un sujeto. La sensibilidad del conjunto selector también puede medir el uso del conjunto selector para pronosticar correctamente un cáncer en un sujeto. La sensibilidad del conjunto selector también puede medir el uso del conjunto selector para identificar correctamente a un sujeto como respondedor a un régimen terapéutico. La sensibilidad puede ser de al menos aproximadamente el 60 %, 61 %, 62 %, 63 %, 64 %, 65 %,
66 %, 67 %, 68 %, 69 %, 70 % o mayor. La sensibilidad puede ser de al menos aproximadamente el 72 %, 75 %,
77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 92 %, 95 %, 97 % o mayor.
La sensibilidad puede variar según el estadio del tumor. La sensibilidad puede ser de al menos aproximadamente el
50 %, al menos aproximadamente el 52 %, al menos aproximadamente el 55 %, al menos aproximadamente el 57 %, al menos aproximadamente el 60 %, al menos aproximadamente el 62 %, al menos aproximadamente el 65 %, al menos aproximadamente el 67 %, al menos aproximadamente el 70 %, al menos aproximadamente el 72 %, al menos aproximadamente el 75 %, al menos aproximadamente el 77 %, al menos aproximadamente el 80 %, al menos aproximadamente el 85 %, al menos aproximadamente el 87 %, al menos aproximadamente el 90 %, al menos aproximadamente el 92 %, al menos aproximadamente el 95 %, al menos aproximadamente el 98 %, al menos aproximadamente el 99 % o más para los tumores en el estadio I. La sensibilidad puede ser de al menos aproximadamente el 50 % para los tumores en el estadio I. La sensibilidad puede ser de al menos aproximadamente el 65 % para los tumores en el estadio I. La sensibilidad puede ser de al menos aproximadamente el 72 % para los tumores en el estadio I. La sensibilidad puede ser de al menos aproximadamente el 75 % para los tumores en el estadio I. La sensibilidad puede ser de al menos aproximadamente el 85 % para los tumores en el estadio I. La sensibilidad puede ser de al menos aproximadamente el 92 % para los tumores en el estadio I.
La sensibilidad puede ser de al menos aproximadamente el 50 %, al menos aproximadamente el 52 %, al menos aproximadamente el 55 %, al menos aproximadamente el 57 %, al menos aproximadamente el 60 %, al menos aproximadamente el 62 %, al menos aproximadamente el 65 %, al menos aproximadamente el 67 %, al menos aproximadamente el 70 %, al menos aproximadamente el 72 %, al menos aproximadamente el 75 %, al menos aproximadamente el 77 %, al menos aproximadamente el 80 %, al menos aproximadamente el 85 %, al menos aproximadamente el 87 %, al menos aproximadamente el 90 %, al menos aproximadamente el 92 %, al menos aproximadamente el 95 %, al menos aproximadamente el 98 %, al menos aproximadamente el 99% o más para los tumores en el estadio II. La sensibilidad puede ser de al menos aproximadamente el 60 % para los tumores en el estadio II. La sensibilidad puede ser de al menos aproximadamente el 75 % para los tumores en el estadio II. La sensibilidad puede ser de al menos aproximadamente el 85 % para los tumores en el estadio II. La sensibilidad puede ser de al menos aproximadamente el 92 % para los tumores en el estadio II.
La sensibilidad puede ser de al menos aproximadamente el 50 %, al menos aproximadamente el 52 %, al menos aproximadamente el 55 %, al menos aproximadamente el 57 %, al menos aproximadamente el 60 %, al menos aproximadamente el 62 %, al menos aproximadamente el 65 %, al menos aproximadamente el 67 %, al menos aproximadamente el 70 %, al menos aproximadamente el 72 %, al menos aproximadamente el 75 %, al menos aproximadamente el 77 %, al menos aproximadamente el 80 %, al menos aproximadamente el 85 %, al menos aproximadamente el 87 %, al menos aproximadamente el 90 %, al menos aproximadamente el 92 %, al menos aproximadamente el 95 %, al menos aproximadamente el 98 %, al menos aproximadamente el 99% o más para los tumores en el estadio III. La sensibilidad puede ser de al menos aproximadamente el 60 % para los tumores en el estadio III. La sensibilidad puede ser de al menos aproximadamente el 75 % para los tumores en el estadio III. La sensibilidad puede ser de al menos aproximadamente el 85 % para los tumores en el estadio III. La sensibilidad puede ser de al menos aproximadamente el 92 % para los tumores en el estadio III.
La sensibilidad puede ser de al menos aproximadamente el 50 %, al menos aproximadamente el 52 %, al menos aproximadamente el 55 %, al menos aproximadamente el 57 %, al menos aproximadamente el 60 %, al menos aproximadamente el 62 %, al menos aproximadamente el 65 %, al menos aproximadamente el 67 aproximadamente el 70 %, al menos aproximadamente el 72 %, al menos aproximadamente el 75 %, al menos aproximadamente el 77 %, al menos aproximadamente el 80 %, al menos aproximadamente el 85 %, al menos aproximadamente el 87 %, al menos aproximadamente el 90 %, al menos aproximadamente el 92 %, al menos aproximadamente el 95 %, al menos aproximadamente el 98 %, al menos aproximadamente el 99% o más para los tumores en el estadio IV. La sensibilidad puede ser de al menos aproximadamente el 60 % para los tumores en el estadio IV. La sensibilidad puede ser de al menos aproximadamente el 75 % para los tumores en el estadio IV. La sensibilidad puede ser de al menos aproximadamente el 85 % para los tumores en el estadio IV. La sensibilidad puede ser de al menos aproximadamente el 92 % para los tumores en el estadio IV.
La sensibilidad puede ser de al menos aproximadamente y puede ser de al menos aproximadamente el 60 %, al menos aproximadamente el 65 %, al menos aproximadamente el 70 %, al menos aproximadamente el 75 aproximadamente el 80 %, al menos aproximadamente el 85 %, al menos aproximadamente el 87 %, al menos aproximadamente el 90 %, al menos aproximadamente el 92 %, al menos aproximadamente el 95 %, al menos aproximadamente el 98 %, al menos aproximadamente el 99% o más con controles sanos.
El valor de AUC también puede variar según el estadio del tumor. El valor de AUC puede ser de al menos aproximadamente 0,50, al menos aproximadamente 0,52, al menos aproximadamente 0,55, al menos aproximadamente 0,57, al menos aproximadamente 0,60, al menos aproximadamente 0,62, al menos aproximadamente 0,65, al menos aproximadamente 0,67, al menos aproximadamente 0,70, al menos aproximadamente 0,72, al menos aproximadamente 0,75, al menos aproximadamente 0,77, al menos aproximadamente 0,80, al menos aproximadamente 0,82, al menos aproximadamente 0,85, al menos aproximadamente 0,87, al menos aproximadamente 0,90, al menos aproximadamente 0,92, al menos aproximadamente 0,95, al menos aproximadamente 0,97 o más para el cáncer en estadio I. El valor de AUC puede ser de al menos aproximadamente 0,50 para el cáncer en estadio I. El valor de AUC puede ser de al menos aproximadamente 0,55 para el cáncer en estadio I. El valor de AUC puede ser de al menos aproximadamente 0,60 para el cáncer en estadio I. El valor de AUC puede ser de al menos aproximadamente 0,70 para el cáncer en estadio I. El valor de AUC puede ser de al menos aproximadamente 0,75 para el cáncer en estadio I. El valor de AUC puede ser de al menos aproximadamente 0,80 para el cáncer en estadio I.
El valor de AUC puede ser de al menos aproximadamente al menos aproximadamente 0,52, al menos aproximadamente 0,55, al menos aproximadamente 0,57, al menos aproximadamente 0,60, al menos aproximadamente 0,62, al menos aproximadamente 0,65, al menos aproximadamente 0,67, al menos aproximadamente 0,70, al menos aproximadamente 0,72, al menos aproximadamente 0,75, al menos aproximadamente 0,77, al menos aproximadamente 0,80, al menos aproximadamente 0,82, al menos aproximadamente 0,85, al menos aproximadamente 0,87, al menos aproximadamente 0,90, al menos aproximadamente 0,92, al menos aproximadamente 0,95, al menos aproximadamente 0,97 o más para el cáncer en estadio II. El valor de AUC puede ser de al menos aproximadamente 0,50 para el cáncer en estadio II. El valor de AUC puede ser de al menos aproximadamente 0,55 para el cáncer en estadio II. El valor de AUC puede ser de al menos aproximadamente 0,60 para el cáncer en estadio II. El valor de AUC puede ser de al menos aproximadamente 0,70 para el cáncer en estadio II. El valor de AUC puede ser de al menos aproximadamente 0,75 para el cáncer en estadio II. El valor de AUC puede ser de al menos aproximadamente 0,80 para el cáncer en estadio Ii. El valor de AUC puede ser de al menos aproximadamente 0,90 para el cáncer en estadio II. El valor de AUC puede ser de al menos aproximadamente 0,95 para el cáncer en estadio II.
El valor de AUC puede ser de al menos aproximadamente al menos aproximadamente 0,52, al menos aproximadamente 0,55, al menos aproximadamente 0,57, al menos aproximadamente 0,60, al menos aproximadamente 0,62, al menos aproximadamente 0,65, al menos aproximadamente 0,67, al menos aproximadamente 0,70, al menos aproximadamente 0,72, al menos aproximadamente 0,75, al menos aproximadamente 0,77, al menos aproximadamente 0,80, al menos aproximadamente 0,82, al menos aproximadamente 0,85, al menos aproximadamente 0,87, al menos aproximadamente 0,90, al menos aproximadamente 0,92, al menos aproximadamente 0,95, al menos aproximadamente 0,97 o más para el cáncer en estadio III. El valor de AUC puede ser de al menos aproximadamente 0,50 para el cáncer en estadio III. El valor de AUC puede ser de al menos aproximadamente 0,55 para el cáncer en estadio III. El valor de AUC puede ser de al menos aproximadamente 0,60 para el cáncer en estadio III. El valor de AUC puede ser de al menos aproximadamente 0,70 para el cáncer en estadio III. El valor de AUC puede ser de al menos aproximadamente 0,75 para el cáncer en estadio III. El valor de AUC puede ser de al menos aproximadamente 0,80 para el cáncer en estadio III. El valor de AUC puede ser de al menos aproximadamente 0,90 para el cáncer en estadio III. El valor de AUC puede ser de al menos aproximadamente 0,95 para el cáncer en estadio III.
El valor de AUC puede ser de al menos aproximadamente al menos aproximadamente 0,52, al menos aproximadamente 0,55, al menos aproximadamente 0,57, al menos aproximadamente 0,60, al menos aproximadamente 0,62, al menos aproximadamente 0,65, al menos aproximadamente 0,67, al menos aproximadamente 0,70, al menos aproximadamente 0,72, al menos aproximadamente 0,75, al menos aproximadamente 0,77, al menos aproximadamente 0,80, al menos aproximadamente 0,82, al menos aproximadamente 0,85, al menos aproximadamente 0,87, al menos aproximadamente 0,90, al menos aproximadamente 0,92, al menos aproximadamente 0,95, al menos aproximadamente 0,97 o más para el cáncer en estadio IV. El valor de AUC puede ser de al menos aproximadamente 0,50 para el cáncer en estadio IV. El valor de AUC puede ser de al menos aproximadamente 0,55 para el cáncer en estadio IV. El valor de AUC puede ser de al menos aproximadamente 0,60 para el cáncer en estadio IV. El valor de AUC puede ser de al menos aproximadamente 0,70 para el cáncer en estadio IV. El valor de AUC puede ser de al menos aproximadamente 0,75 para el cáncer en estadio IV. El valor de AUC puede ser de al menos aproximadamente 0,80 para el cáncer en estadio IV. El valor de AUC puede ser de al menos aproximadamente 0,90 para el cáncer en estadio IV. El valor de AUC puede ser de al menos aproximadamente 0,95 para el cáncer en estadio IV.
Los valores de AUC pueden ser de al menos aproximadamente 0,70, al menos aproximadamente 0,75, al menos aproximadamente 0,80, al menos aproximadamente 0,85, al menos aproximadamente 0,90, al menos aproximadamente 0,95 para controles sanos.
La especificidad del selector puede medir la proporción de sujetos que se identifican correctamente como sujetos que no padecen cáncer. La sensibilidad del conjunto selector también puede medir el uso del conjunto selector para hacer correctamente un diagnóstico de ausencia de cáncer en un sujeto. La especificidad del conjunto selector también puede medir el uso del conjunto selector para identificar correctamente a un sujeto como no respondedor a un régimen terapéutico. La especificidad puede ser de al menos aproximadamente el 60%, 61 %, 62 %, 63 %, 64 %, 65 %, 66 %, 67 %, 68 %, 69 %, 70 % o mayor. La especificidad puede ser de al menos aproximadamente el 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 92 %, 95 %, 97 % o mayor.
El conjunto selector se puede utilizar para detectar, diagnosticar y/o pronosticar un estado o resultado de un cáncer en un sujeto basándose en la detección de una o más mutaciones dentro de una o más regiones genómicas en el conjunto selector en una muestra del sujeto. La sensibilidad y/o especificidad del conjunto selector para detectar, diagnosticar y/o pronosticar el estado o resultado del cáncer en el sujeto puede ajustarse (por ejemplo, ajustarse/modificarse) por el índice de detección de ctDNA. El índice de detección de ctDNA puede usarse para evaluar el significado de las clases de mutaciones detectadas en la muestra del sujeto por el conjunto selector. El índice de detección de ctDNA puede usarse para determinar si la detección de una o más clases de mutaciones por el conjunto selector es significativa. Por ejemplo, el índice de detección de ctDNA puede determinar que las clases de mutaciones detectadas por el conjunto selector en un primer sujeto son estadísticamente significativas, lo que puede tener como resultado un diagnóstico de cáncer en el primer sujeto. El índice de detección del ctDNA puede determinar que las clases de mutaciones detectadas por el conjunto selector en un segundo sujeto no son estadísticamente significativas, lo que puede dar como resultado un diagnóstico de ausencia de cáncer en el segundo sujeto. Como tal, el índice de detección del ctDNA puede afectar al análisis de la especificidad y/o sensibilidad del conjunto selector para detectar, diagnosticar y/o pronosticar el estado o resultado del cáncer en el sujeto.
Identificación de reordenamientos
En el presente documento también se desvelan métodos para identificar reordenamientos. El reordenamiento puede ser un acontecimiento de fusión genómica y/o un punto de ruptura. El método se puede utilizar para el análisis de novo de muestras de cfDNA. Como alternativa, el método se puede utilizar para el análisis de muestras de ADN de línea germinal/tumorales conocidas. El método puede comprender un enfoque heurístico. En general, el método puede comprender (a) obtener un archivo de alineamiento de lecturas pareadas, coordenadas de exones, un genoma de referencia o una combinación de los mismos; y (b) aplicar un algoritmo a la información del archivo de alineamiento para identificar uno o más reordenamientos. El algoritmo puede aplicarse a información relativa a una o más regiones genómicas. El algoritmo puede aplicarse a información que se solapa con una o más regiones genómicas.
El método puede denominarse FACTERA (algoritmo fácil de translocación enumeración y recuperación). Como entrada, FACTERA puede utilizar un archivo de alineamiento de lecturas de extremos pareados, coordenadas de exón y un genoma de referencia. Además, el análisis se puede restringir opcionalmente a lecturas que solapan con regiones genómicas particulares. FACTERA puede procesar la entrada en tres fases secuenciales: identificación de lecturas discordantes, detección de puntos de ruptura en la resolución de pares de bases y validación in silico de fusiones candidatas.
En el presente documento también se desvela un método para identificar reordenamientos que comprende (a) obtener información de secuenciación relativa a una pluralidad de regiones genómicas; (b) producir una lista de regiones genómicas adyacentes a uno o más sitios de reordenamiento candidatos; (c) aplicar un algoritmo para validar los sitios de reordenamiento candidatos, identificándose así reordenamientos.
La información de secuenciación puede comprender un archivo de alineamiento. El archivo de alineamiento puede comprender un archivo de alineamiento de lecturas pareadas (pair-end), coordenadas de exón y un genoma de referencia. La información de secuenciación se puede obtener a partir de una base de datos. La base de datos puede comprender información de secuenciación relativa a una población de sujetos que padecen una enfermedad o afección. La base de datos puede ser una base de datos de farmacogenómica. La información de secuenciación puede obtenerse a partir de una o más muestras de uno o más sujetos.
La producción de la lista de regiones genómicas adyacentes a uno o más sitios candidatos de reordenamiento puede comprender la identificación de pares de lectura discordantes basándose en la información de secuenciación. Un par de lectura discordante puede referirse a una lectura y su pareja, donde el tamaño de la inserción no es igual a (por ejemplo, es mayor o menor que) la distribución esperada del conjunto de datos, o donde la orientación de mapeo de las lecturas es inesperada (por ejemplo, ambas en la misma cadena). La producción de la lista de regiones genómicas adyacentes a dichos uno o más sitios de reordenamiento candidatos puede comprender la clasificación de pares de lectura discordantes basándose en la información de secuenciación.
Pueden introducirse pares de lectura discordantes mediante la preparación de la biblioteca NGS y/o artefactos de secuenciación (por ejemplo, PCR de salto (jumping PCR). Sin embargo, también es probable que flanqueen los puntos de ruptura de los acontecimientos de fusión auténticos. La producción de una lista de regiones genómicas adyacentes a dichos uno o más sitios de reordenamiento candidatos puede comprender además la clasificación de las regiones genómicas. Las regiones genómicas pueden clasificarse en orden decreciente de profundidad de lectura discordante. El método puede comprender además eliminar fragmentos duplicados. La producción de una lista de regiones genómicas adyacentes a dichos uno o más sitios de reordenamiento candidatos puede comprender la selección de regiones genómicas con una profundidad de lectura mínima definida por el usuario. La profundidad de lectura puede ser al menos 2x, 3x, 4x, 5x, 6x, 7x, 8x, 9x, 10x o más. La profundidad de lectura puede ser al menos aproximadamente 2x.
La producción de la lista de regiones genómicas adyacentes a dichos uno o más sitios de fusión candidatos puede comprender el uso de uno o más algoritmos. El algoritmo puede analizar lecturas correctamente pareadas en las que una de las dos lecturas es de "recorte suave", o está truncada. El recorte suave puede hacer referencia al truncamiento de uno o más extremos de las lecturas pareadas. El recorte suave puede truncar dichos uno o más extremos eliminando menos de o igual a 10, 9, 8, 7, 6, 5, 4, 3, 2, 1 bases o pares de bases de las lecturas pareadas. El recorte suave puede comprender la eliminación de al menos una base o un par de bases de las lecturas pareadas. El recorte suave puede comprender la eliminación de al menos una base o un par de bases de un extremo de las lecturas pareadas. El recorte suave puede comprender la eliminación de al menos una base o un par de bases de los dos extremos de las lecturas pareadas. Las lecturas con recorte suave pueden permitir una determinación precisa del punto de ruptura. El punto de ruptura preciso se puede identificar analizando la cadena CIGAR asociada con cada lectura mapeada, que especifica de forma compacta la operación de alineamiento utilizada en cada base (por ejemplo, se mapearon My = y bases contiguas, se omitieron Sx = x bases). El algoritmo puede analizar lecturas con recorte suave con un patrón específico. Por ejemplo, El algoritmo puede analizar lecturas con recorte suave con los siguientes patrones, SxMy o MySx. El número de bases omitidas x puede tener un requisito mínimo. Al establecer un requisito mínimo para el número de bases omitidas x, puede reducirse el impacto de alineamientos de secuencia no específicos. El número de bases omitidas puede ser de al menos 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25 o más. El número de bases omitidas puede ser al menos 16. El número de bases omitidas puede definirse por el usuario. El número de bases contiguas y también se puede definir por uso.
Se puede utilizar un algoritmo para validar sitios de reordenamiento candidatos. El algoritmo puede determinar la frecuencia de lectura para los sitios de reordenamiento candidatos. El algoritmo puede eliminar los sitios de reordenamiento candidatos que no cumplen con una frecuencia mínima de lectura. La frecuencia mínima de lectura puede definirse por el usuario. La frecuencia mínima de lectura puede ser de al menos aproximadamente 2, 3, 4, 5, 6, 7, 8, 9, 10 o más lecturas. La frecuencia mínima de lectura puede ser de al menos 2 lecturas. El algoritmo puede clasificar los sitios de reordenamiento candidatos basándose en la frecuencia de lectura. Un sitio de reordenamiento candidato puede contener múltiples lecturas con recorte suave. El algoritmo puede seleccionar una lectura con recorte suave representativa para un sitio de reordenamiento candidato. La selección de la lectura con recorte suave representativa puede basarse en la selección de una lectura con recorte suave que tenga una longitud más cercana a la mitad de la longitud de lectura. Si la región mapeada de la lectura con recorte suave representativa coincide con la región mapeada de otra lectura con recorte suave del sitio de reordenamiento candidato, el algoritmo puede anotar el sitio de reordenamiento candidato como un acontecimiento de reordenamiento. Si la región mapeada de la lectura con recorte suave representativa coincide con la región mapeada de otra lectura con recorte suave del sitio de reordenamiento candidato, el algoritmo puede identificar el sitio de reordenamiento candidato como un reordenamiento. Si la región mapeada de la lectura con recorte suave representativa coincide con la región mapeada de otra lectura con recorte suave del sitio de reordenamiento candidato, el algoritmo puede anotar el sitio de reordenamiento candidato como un acontecimiento de fusión. La aplicación del algoritmo para validar los reordenamientos candidatos puede comprender la identificación del reordenamiento candidato como un reordenamiento si las dos o más lecturas tienen un alineamiento de secuencia.
La validación de los sitios de reordenamiento candidatos puede comprender además el uso de un algoritmo para evaluar la concordancia entre lecturas. El algoritmo puede evaluar la concordancia entre lecturas dividiendo una primera lectura de secuencia de una secuencia con recorte suave de un sitio de reordenamiento candidato en múltiples subsecuencias posibles de una longitud definida por el usuario k. Una segunda lectura de secuencia de la secuencia con recorte suave se puede dividir en subsecuencias de longitud k. Pueden compararse subsecuencias de tamaño k de la segunda lectura de secuencia con la primera lectura de secuenciación, y se puede determinar la concordancia de las dos lecturas. Por ejemplo, la secuencia con recorte suave de una fusión candidata puede ser de 100 bases y la secuencia con recorte suave puede subdividirse en una longitud definida por el usuario de 10 bases. Las subsecuencias con una longitud de 10 pueden extraerse de la primera lectura y almacenarse. Una segunda lectura puede compararse con la primera lectura seleccionando subsecuencias de 10 bases en la segunda lectura. Las longitudes definidas por el usuario pueden permitir que partes de la segunda lectura se fusionen con las partes con recorte suave (por ejemplo, sin mapeo) de la primera lectura en una secuencia compuesta en la que después se evalúan propiedades de mapeo mejoradas. Validar el reordenamiento candidato puede comprender dividir una primera lectura en subsecuencias de k unidades. Una segunda lectura se puede dividir en k unidades para compararla rápidamente con la primera lectura. Si cualquier k-mero solapa con la primera lectura, se cuentan y se utilizan para evaluar la similitud de secuencia. Las dos lecturas pueden considerarse concordantes si se alcanza un umbral mínimo de coincidencia. El umbral mínimo de coincidencia puede ser un valor definido por el usuario. El umbral mínimo de coincidencia puede ser el 50 % de la longitud más corta de las dos secuencias que se comparan. Por ejemplo, la primera lectura de secuencia puede ser de 100 bases y la segunda lectura de secuencia puede ser de 130 bases. El umbral mínimo de coincidencia puede ser de 50 bases (por ejemplo, 100 bases por 0,50). El umbral mínimo de coincidencia puede ser al menos del 10 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75% u 80% de la longitud más corta de las dos secuencias que se comparan. El algoritmo puede procesar 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1500, 2000 o más supuestos pares de puntos de ruptura para cada par de genes discordantes (o regiones genómicas). El número de supuestos pares de puntos de ruptura que procesa el algoritmo puede definirse por el usuario. Asimismo, para un par de genes, el algoritmo puede comparar lecturas cuyas orientaciones son compatibles con fusiones válidas. Tales lecturas pueden tener secuencias con recorte suave orientadas en direcciones opuestas. Cuando esta condición no se cumple, el algoritmo puede utilizar el complemento inverso de la lectura 1 para el análisis de k-meros.
En algunos casos, las subsecuencias genómicas que flanquean el verdadero punto de ruptura pueden ser casi o completamente idénticas, haciendo que solapen las partes alineadas de las lecturas con recorte suave. Esto puede evitar una determinación inequívoca del punto de ruptura. Como tal, se puede usar un algoritmo para ajustar el punto de ruptura en una lectura (por ejemplo, lectura 2) para que coincida con la otra (por ejemplo, lectura 1). Para una lectura, el algoritmo puede calcular la distancia entre el punto de ruptura y la coordenada de lectura correspondiente a la primera coincidencia de k-meros entre lecturas. Por ejemplo, si x se define como la distancia entre la coordenada del punto de ruptura de la lectura 1 y el índice del primer k-mero coincidente, j, e y se define como la distancia correspondiente para la lectura 2. Posteriormente, la variable de exposición (offset) se estima como la diferencia de distancias (x, y) entre las dos lecturas. Por tanto, para los casos en los que un acontecimiento de fusión no se puede determinar de manera inequívoca basándose en las lecturas de secuencia, se utiliza un algoritmo para determinar un sitio de fusión.
El método puede comprender además la validación in silico de los sitios de reordenamiento candidatos. Un algoritmo puede realizar un realineamiento local de lecturas de los sitios de reordenamiento candidatos frente a una secuencia de reordenamiento de referencia. La secuencia de reordenamiento de referencia puede obtenerse a partir de un genoma de referencia. El alineamiento local puede ser de secuencias que flanquean el sitio de reordenamiento candidato. El alineamiento local puede ser de secuencias a no más de 100, 200, 300, 400, 500, 600, 700, 800, 900 o 1000 o más pares de bases del sitio de reordenamiento candidato. El alineamiento local puede ser de secuencias a no más de 500 pares de bases del sitio de reordenamiento candidato. Puede usarse BLAST para alinear las secuencias. Se puede construir una base de datos BLAST mediante la recopilación de lecturas que se asignan a una secuencia de fusión candidata, incluidas lecturas discordantes y lecturas con recorte suave, así como lecturas no asignadas en el archivo de entrada original. Las lecturas que se asignan a la secuencia de reordenamiento de referencia con una identidad definida por el usuario (por ejemplo, al menos un 95 %) y/o una longitud de las secuencias alineadas es un porcentaje definido por el usuario (por ejemplo, un 90 %) de la longitud de lectura de entrada. Las lecturas que abarcan o flanquean el punto de ruptura pueden contarse. La identidad definida por el usuario puede ser de al menos aproximadamente el 70 %, 75 %, 80 %, 85 %, 90 %, 95 %, 97 % o más. La longitud de las secuencias alineadas puede ser de al menos aproximadamente el 70 %, 75 %, 80 %, 85 %, 90 % o 95 % o más de la longitud de lectura de entrada (por ejemplo, longitud de lectura de la secuencia de reordenamiento candidata). Las redundancias de salida se pueden minimizar eliminando secuencias de fusión dentro de un intervalo de al menos 20 pares de bases o más de una secuencia de fusión con mayor soporte de lectura y con la misma orientación de secuencia (para evitar eliminar fusiones recíprocas).
El método puede comprender además producir una salida relativa a la reordenación. La salida puede comprender uno o más de los siguientes pares de genes, coordenadas genómicas del reordenamiento, la orientación del reordenamiento (por ejemplo, adelante-adelante o adelante-atrás), secuencias genómicas a no más de 50 pb del reordenamiento y estadísticos de profundidad para lecturas que abarcan y flanquean el reordenamiento.
El método puede comprender además enumerar una frecuencia de alelos de fusión. Por ejemplo, la frecuencia de alelos de fusión en el cfDNA secuenciado se puede enumerar como se describe en el presente documento y en el ejemplo 1. La frecuencia de alelos de fusión se puede calcular como a/p, donde a es el número de lecturas que abarcan el punto de ruptura y pes la profundidad total media dentro de una región genómica a una distancia predefinida alrededor del punto de ruptura. Por tanto, la frecuencia de alelos de fusión se puede calcular dividiendo el número de lecturas que abarcan el reordenamiento por la profundidad total media dentro de una región genómica a una distancia predefinida alrededor del punto de ruptura.
El método de identificación de reordenamientos puede aplicarse a datos de secuenciación del genoma completo u otros conjuntos de datos de secuenciación de última generación adecuados. Las regiones genómicas que comprenden los reordenamientos identificados a partir de estos datos pueden usarse para diseñar un conjunto selector.
El método de identificación de reordenamientos puede aplicarse a datos de secuenciación procedentes de un sujeto. El método puede identificar puntos de ruptura específicos del sujeto en el ADN genómico del tumor capturado por un conjunto selector. El método puede usarse para determinar si los puntos de ruptura específicos del sujeto están presentes en la muestra de ADN plasmático correspondiente del sujeto.
Identificación de SNV derivados de tumores
En el presente documento también se desvelan métodos no invasivos para identificar SNV derivados de tumores. Los SNV derivados de tumores pueden identificarse sin conocimiento previo de las variantes somáticas identificadas en una muestra de biopsia tumoral correspondiente. El cfDNA puede analizarse sin comparación con una muestra de ADN tumoral conocida del paciente. La presencia de ctDNA puede utilizar modelos iterativos para (i) el ruido de fondo en ADN de línea germinal pareado, (ii) frecuencias de fondo de resolución de pares de bases en cfDNA a través del conjunto selector y (iii) el error de secuenciación en cfDNA. Estos métodos pueden utilizar las siguientes etapas, que se puede iterar a través del punto de datos para llamar automáticamente s Nv derivados de tumores:
• tomar frecuencias alélicas de una sola muestra de cfDNA y seleccionar datos de alta calidad;
• ensayar si un alelo de cfDNA de entrada dado es significativamente diferente del alelo de línea germinal pareado correspondiente;
• ensamblar una base de datos de frecuencias alélicas de fondo de cfDNA;
• ensayar si un alelo de entrada dado difiere significativamente del fondo de cfDNA en la misma posición, y seleccionar los que tienen una frecuencia de fondo promedio de un umbral predeterminado, por ejemplo, del 5 % o mayor; 2,5 % o mayor, etc.
• distinguir los SNV derivados de tumores del ruido de fondo restante mediante análisis de valores atípicos.
El método no invasivo de identificación de SNV derivados de tumores puede comprender (a) obtener una muestra de un sujeto que padece un cáncer o que se sospecha que padece un cáncer; (b) realizar una reacción de secuenciación en la muestra para producir información de secuenciación; (c) aplicar un algoritmo a la información de secuenciación para producir una lista de alelos tumorales candidatos basada en la información de secuenciación de la etapa (b), en donde un alelo tumoral candidato puede comprender una base no dominante que no es un SNP de línea germinal; y (d) identificar SNV derivadas de tumores basándose en la lista de alelos tumorales candidatos. El alelo tumoral candidato puede referirse a una región genómica que comprende un SNV candidato.
El alelo tumoral candidato puede ser un alelo tumoral candidato de alta calidad. Un alelo de fondo de alta calidad puede referirse a la base no dominante con la mayor abundancia fraccionada, excluyendo los SNP de la línea germinal. La abundancia fraccionada de un alelo tumoral candidato se puede calcular dividiendo el número de lecturas de soporte por una profundidad de secuenciación total en esa posición genómica. Por ejemplo, para una mutación candidata en una primera región genómica, veinte lecturas de secuencia pueden contener una primera secuencia con la mutación candidata y 100 lecturas de secuencia pueden contener una segunda secuencia sin la mutación candidata. El alelo tumoral candidato puede ser la primera secuencia que contiene la mutación candidata. Basándose en este ejemplo, la abundancia fraccionada del alelo tumoral candidato sería 20 dividido por 120, que es -17 %. La producción de la lista de alelos tumorales candidatos puede comprender la clasificación de los alelos tumorales basándose en su abundancia fraccionada. La producción de la lista de alelos tumorales candidatos puede comprender la selección de alelos tumorales con la mayor abundancia fraccionada. La producción de la lista de alelos tumorales candidatos puede comprender la selección de alelos tumorales con una abundancia fraccionada en el percentil superior 70, 75, 80, 85, 87, 90, 92, 95 o 97. Un alelo tumoral candidato puede tener una abundancia fraccionada de menos del 35 %, 30 %, 27 %, 25 %, 20 %, 18 %, 15 %, 13 %, 10 %, 9 %, 8 %, 7 %, 6,5 %, 6 %, 5,5 %, 5 %, 4,5 %, 4 %, 3,5 %, 3 %, 2,5 %, 2 %, 1,75 %, 1,50 %, 1,25% o 1% del total de alelos relativos al alelo tumoral candidato en la muestra del sujeto. Un alelo tumoral candidato puede tener una abundancia fraccionada de menos del 1 %, 0,9 %, 0,8 %, 0,7 %, 0,6 %, 0,5 %, 0,4 %, 0,3 %, 0,2 % o 0,1 % del total de alelos relativos al alelo tumoral candidato en la muestra del sujeto. El alelo tumoral candidato puede tener una abundancia fraccionada de menos del 0,5 % del total de alelos en la muestra del sujeto. La muestra puede comprender muestras pareadas del sujeto. Por tanto, la abundancia fraccionada puede basarse en muestras pareadas del sujeto. Las muestras pareadas pueden comprender una muestra que contiene ácidos nucleicos supuestamente derivados de tumores y una muestra que contiene ácidos nucleicos no derivados de tumores. Por ejemplo, las muestras pareadas pueden comprender una muestra de plasma y una muestra que contiene linfocitos de sangre periférica (PBL) o células mononucleares de sangre periférica (PBMC).
El alelo tumoral candidato puede tener una profundidad de secuenciación mínima. La producción de la lista de alelos tumorales candidatos puede comprender la clasificación de los alelos tumorales basándose en su profundidad de secuenciación. La producción de la lista de alelos tumorales candidatos puede comprender la selección de alelos tumorales que cumplan con una profundidad de secuenciación mínima. La profundidad de secuenciación mínima puede ser de al menos 100x, 200x, 300x, 400x, 500x, 600x, 700x, 800x, 900x, 1000x o más. La profundidad de secuenciación mínima puede ser de al menos 500x. La profundidad de secuenciación mínima puede definirse por el usuario.
El alelo tumoral candidato puede tener un porcentaje de sesgo de cadena. La producción de la lista de alelos tumorales candidatos puede comprender el cálculo del porcentaje de sesgo de cadena de un alelo tumoral. La producción de la lista de alelos tumorales candidatos puede comprender la clasificación de los alelos tumorales basándose en su porcentaje de sesgo de cadena. La producción de la lista de alelos tumorales candidatos puede comprender la selección de alelos tumorales con un porcentaje de sesgo de cadena menor o igual al 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 %, 95 % o 97 %. La producción de la lista de alelos tumorales candidatos puede comprender la selección de alelos tumorales con un porcentaje de sesgo de cadena menor o igual al 90 %. El porcentaje de sesgo de cadena puede definirse por el usuario.
La producción de la lista de alelos tumorales candidatos puede comprender la comparación de la secuencia del alelo tumoral con un alelo tumoral de referencia. El alelo tumoral de referencia puede ser un alelo de la línea germinal. La producción de la lista de alelos tumorales candidatos puede comprender la determinación de si el alelo tumoral candidato es diferente de un alelo tumoral de referencia. La producción de la lista de alelos tumorales candidatos puede comprender la selección de los alelos tumorales que son diferentes del alelo tumoral de referencia.
La determinación de si el alelo tumoral es diferente del alelo tumoral de referencia puede comprender el uso de uno o más análisis estadísticos. Los análisis estadísticos pueden comprender el uso de la corrección de Bonferroni para calcular una probabilidad binomial ajustada por Bonferroni para el alelo tumoral. La probabilidad binomial ajustada por Bonferroni se puede calcular dividiendo un valor de corte del valor p deseado (alfa) por el número de hipótesis probadas. El número de hipótesis probadas se puede calcular multiplicando el número de bases en un selector por el número de posibles cambios de base. La probabilidad binomial ajustada por Bonferroni se puede calcular dividiendo el valor de corte del valor p deseado (alfa) por el número de bases en un selector multiplicado por el número de posibles cambios de base. La probabilidad binomial ajustada por Bonferroni puede usarse para determinar si el alelo tumoral apareció por casualidad. La producción de la lista de alelos tumorales candidatos puede comprender la selección de alelos tumorales basándose en la probabilidad binomial ajustada por Bonferroni. Un alelo tumoral candidato puede tener una probabilidad binomial ajustada por Bonferroni menor o igual a 3 x 10-8, 2,9 x 10-8, 2,8 x 10­ 8, 2,7 x 10-8, 2,6 x 10-8, 2,5 x 10-8, 2,3 x 10-8, 2,2 x 10-8, 2,1 x 10-8, 2,09 x 10-8, 2,08 x 10-8, 2,07 x 10-8, 2,06 x 10-8, 2,05 x 10-8, 2,04 x 10-8, 2,03 x 10-8, 2,02 x 10-8, 2,01 x 10-8 o 2 x 10-8. Un alelo tumoral candidato puede tener una probabilidad binomial ajustada por Bonferroni menor o igual a 2,08 x 10-8.
La determinación de si el alelo tumoral es diferente del alelo tumoral de referencia puede comprender el uso de una distribución binomial. La distribución binomial puede usarse para ensamblar una base de datos de frecuencias de alelos tumorales candidatos. Puede usarse un algoritmo, tal como una prueba Z, para determinar si un alelo tumoral candidato difiere significativamente de un alelo circulante típico en la misma posición. Una diferencia significativa puede referirse a una diferencia que es poco probable que haya aparecido por casualidad. La prueba Z puede aplicarse a la probabilidad binomial ajustada por Bonferroni de los alelos tumorales para producir una puntuación Z de una sola cola ajustada por Bonferroni. La puntuación Z de una sola cola ajustada por Bonferroni puede determinarse utilizando una distribución normal. Un alelo tumoral con una puntuación Z de una sola cola ajustada por Bonferroni mayor o igual a 6, 5,9, 5,8, 5,7, 5,6, 5,5, 5,4, 5,3, 5,2, 5,1 o 5,0 puede considerarse diferente del alelo tumoral de referencia. La producción de la lista de alelos tumorales candidatos puede comprender la selección de alelos tumorales con una puntuación Z de una sola cola ajustada por Bonferroni mayor o igual a 6, 5,9, 5,8, 5,7, 5,6, 5,5, 5,4, 5,3, 5,2, 5,1 o 5,0. La producción de la lista de alelos tumorales candidatos puede comprender la selección de alelos tumorales con una puntuación Z de una sola cola ajustada por Bonferroni superior a 5,6.
Los alelos de tumores candidatos pueden basarse en regiones genómicas de un conjunto selector. La lista de alelos tumorales candidatos puede comprender alelos tumorales candidatos con una frecuencia menor o igual al 10 %, 9 %, 8 %, 7 %, 6,5 %, 6 %, 5,5 %, 5 %, 4,5 %, 4 %, 3,5 % o 3 %. La lista de alelos tumorales candidatos puede comprender alelos tumorales candidatos con una abundancia de menos del 5 %.
La identificación de los SNV derivados de tumores basándose en la lista de alelos tumorales candidatos puede comprender el ensayo de los alelos tumorales candidatos de la lista de alelos tumorales candidatos para detectar errores de secuenciación. El ensayo de los alelos tumorales candidatos para detectar errores de secuenciación puede basarse en la tasa de duplicación del alelo tumoral candidato. La tasa de duplicación puede determinarse comparando el número de lecturas de soporte para un alelo tumoral candidato para datos no deduplicados (por ejemplo, todos los fragmentos que cumplen los criterios de control de calidad) y datos deduplicados (por ejemplo, fragmentos únicos que cumplen los criterios de control de calidad). Los alelos tumorales candidatos pueden clasificarse basándose en su tasa de duplicación. Un SNV derivado de un tumor puede estar en un alelo tumoral candidato con una tasa de duplicación baja.
La identificación de los SNV derivados de tumores puede comprender además el uso de un análisis de valores atípicos. El análisis de valores atípicos se puede utilizar para distinguir SNV derivados de tumores candidatos del ruido de fondo restante. El análisis de valores atípicos puede comprender comparar la raíz cuadrada de la distancia robusta Rd (distancia de Mahalanobis) con la raíz cuadrada de los cuantiles de una distribución chi-cuadrado Cs. Los SNV derivados de tumores se pueden identificar a partir de los valores atípicos en el análisis de valores atípicos.
La información de secuenciación puede pertenecer a regiones que flanquean una o más regiones genómicas de un conjunto selector. La información de secuenciación puede pertenecer a regiones que flanquean las coordenadas genómicas de un conjunto selector. La información de secuenciación puede pertenecer a regiones a no más de 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000 o más pares de bases de una región genómica de un conjunto selector. La información de secuenciación puede pertenecer a regiones a no más de 500 pares de bases de una región genómica de un conjunto selector. La información de secuenciación puede pertenecer a regiones a no más de 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000 o más pares de bases de una coordenada genómica de un conjunto selector. La información de secuenciación puede pertenecer a regiones a no más de 500 pares de bases de una coordenada genómica de un conjunto selector.
Programa informático
Los métodos descritos en el presente documento pueden realizarse mediante un producto de programa informático que comprende una lógica ejecutable por ordenador que se registra en un medio legible por ordenador. Por ejemplo, el programa informático puede ejecutar algunas o todas las siguientes funciones: (i) controlar el aislamiento de ácidos nucleicos a partir de una muestra, (ii) preamplificar ácidos nucleicos a partir de la muestra o (iii) seleccionar, amplificar, secuenciar u ordenar regiones específicas en la muestra, (iv) identificar y cuantificar mutaciones somáticas en una muestra, (v) comparar datos sobre mutaciones somáticas detectadas en la muestra con un umbral predeterminado, (vi) determinar la carga tumoral basada en la presencia de mutaciones somáticas en el cfDNA, y (vii) declarar una evaluación de la carga tumoral, enfermedad residual, respuesta a la terapia o diagnóstico inicial. El programa informático puede calcular un índice de recurrencia. El programa informático puede clasificar las regiones genómicas por el índice de recurrencia. El programa informático puede seleccionar una o más regiones genómicas basándose en el índice de recurrencia. El programa informático puede producir un conjunto selector. El programa informático puede añadir regiones genómicas al conjunto selector. El programa informático puede maximizar la cobertura del sujeto del conjunto selector. El programa informático puede maximizar la mediana del número de mutaciones por sujeto en una población. El programa informático puede calcular un índice de detección de ctDNA. El programa informático puede calcular un valor p de uno o más tipos de mutaciones. El programa informático puede identificar regiones genómicas que comprenden una o más mutaciones presentes en uno o más sujetos que padecen un cáncer. El programa informático puede identificar nuevas mutaciones presentes en uno o más sujetos que padecen un cáncer. El programa informático puede identificar nuevas fusiones presentes en uno o más sujetos que padecen un cáncer.
La lógica ejecutable del ordenador puede funcionar en cualquier ordenador que puede ser cualquiera de una diversidad de tipos de ordenadores de uso general, tales como un ordenador personal, servidor de red, estación de trabajo u otra plataforma informática actual o desarrollada posteriormente. Se describe un producto de programa informático que comprende un medio utilizable por ordenador que tiene almacenada la lógica ejecutable por ordenador (programa de software de ordenador, incluido el código de programa). La lógica ejecutable por ordenador puede ejecutarse por un procesador, provocando que el procesador realice las funciones descritas en el presente documento. Algunas funciones pueden implementarse principalmente en hardware usando, por ejemplo, una máquina de estado de hardware. La implementación de la máquina de estado de hardware para realizar las funciones descritas en el presente documento será evidente para los expertos en las técnicas relevantes.
El programa puede proporcionar un método para evaluar la presencia de células tumorales en un individuo accediendo a datos que reflejen la secuencia del cfDNA seleccionado del individuo, y/o la cuantificación de uno o más ácidos nucleicos del cfDNA en la circulación del individuo. Dichos uno o más ácidos nucleicos del cfDNA en la circulación a cuantificar pueden estar basados en regiones genómicas o coordenadas genómicas proporcionadas por un conjunto selector.
El ordenador que ejecuta la lógica del ordenador de la invención, también puede incluir un dispositivo de entrada digital tal como un escáner. El dispositivo de entrada digital puede proporcionar información sobre un ácido nucleico, por ejemplo, niveles/cantidad de polimorfismos.
La invención puede proporcionar un medio legible por ordenador que comprende un conjunto de instrucciones grabadas en el mismo para hacer que un ordenador realice las etapas de (i) recibir datos de uno o más ácidos nucleicos detectados en una muestra; y (ii) diagnosticar o predecir la carga tumoral, enfermedad residual, respuesta a la terapia, o diagnóstico inicial basado en la cuantificación.
Secuenciación
La genotipificación de ctDNA y/o la detección, identificación y/o cuantificación del ctDNA puede utilizar secuenciación. La secuenciación se puede conseguir utilizando sistemas de alto rendimiento. En algunos casos, la secuenciación de alto rendimiento genera al menos 1.000, al menos 5.000, al menos 10.000, al menos 20.000, al menos 30.000, al menos 40.000, al menos 50.000, al menos 100.000 o al menos 500.000 lecturas de secuencia por hora; siendo cada lectura de al menos 50, al menos 60, al menos 70, al menos 80, al menos 90, al menos 100, al menos 120 o al menos 150 bases por lectura. La secuenciación se puede realizar utilizando ácidos nucleicos descritos en el presente documento, tales como ADN genómico, ADNc derivado de transcritos de ARN o ARN como molde. La secuenciación puede comprender una secuenciación masivamente paralela.
La secuenciación de alto rendimiento puede implicar el uso de tecnología disponible por Helicos BioSciences Corporation (Cambridge, Massachusetts), tal como el método de secuenciación por síntesis de molécula única (SMSS). La secuenciación de alto rendimiento puede implicar el uso de tecnología disponible por 454 Lifesciences, Inc. (Branford, Connecticut), tal como el dispositivo Pico Titer Plate que incluye una placa de fibra óptica que transmite la señal quimioluminiscente generada por la reacción de secuenciación para ser registrada por una cámara CCD en el instrumento. Este uso de fibra óptica permite la detección de un mínimo de 20 millones de pares de bases en 4,5 horas.
La secuenciación de alto rendimiento puede realizarse usando Clonal Single Molecule Array (Solexa, Inc.) o secuenciación por síntesis (SBS) utilizando química de terminador reversible. Estas tecnologías se describen, en parte, en las Patentes de Estados Unidos N.° 6.969.488; 6.897.023; 6.833.246; 6.787.308; y en las Solicitudes de Publicación de Estados Unidos N.° 2004/0106130; 2003/0064398; 2003/0022207; y en Constans, A, The Scientist 2003, 17(13): 36.
La secuenciación de alto rendimiento de ARN o ADN puede tener lugar utilizando AnyDot.chips (Genovoxx, Alemania), lo que permite la supervisión de procesos biológicos (por ejemplo, expresión de miRNA o variabilidad de alelos (detección de SNP). En particular, los chips AnyDot permiten una mejora de la detección de señales de fluorescencia de nucleótidos de 10 a 50 veces. Otros sistemas de secuenciación de alto rendimiento incluyen los descritos en Venter, J., et al. Science 16 de febrero de 2001; Adams, M. et al., Science 24 de marzo de 2000; y M. J, Levene, et al. Science 299:682-686, enero de 2003; así como la Solicitud de Publicación de Estados Unidos N.° 2003/0044781 y 2006/0078937. El crecimiento de la cadena de ácido nucleico y la identificación del análogo de nucleótido añadido puede repetirse de modo que la cadena de ácido nucleico se extienda más y se determine la secuencia del ácido nucleico diana.
Los métodos desvelados en el presente documento pueden comprender realizar una reacción de secuenciación basándose en una o más regiones genómicas de un conjunto selector. El conjunto selector puede comprender una o más regiones genómicas de la Tabla 2. Se puede realizar una reacción de secuenciación en 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 o más regiones genómicas de un conjunto selector basado en la Tabla 2. Se puede realizar una reacción de secuenciación en el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90% o 95% o más de las regiones genómicas a partir de un conjunto selector basado en la Tabla 2.
Se puede realizar una reacción de secuenciación en un subconjunto de regiones genómicas de un conjunto selector. Se puede realizar una reacción de secuenciación en 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 210, 220, 230, 240, 250, 260, 270, 280, 290, 300 o más regiones genómicas de un conjunto selector. Se puede realizar una reacción de secuenciación en 325, 350, 375, 400, 425, 450, 475, 500 o más regiones genómicas de un conjunto selector.
Se puede realizar una reacción de secuenciación en todas las regiones genómicas de un conjunto selector. Como alternativa, se puede realizar una reacción de secuenciación en el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 %, 95% o más de las regiones genómicas de un conjunto selector. Se puede realizar una reacción de secuenciación en al menos el 10% de las regiones genómicas de un conjunto selector. Se puede realizar una reacción de secuenciación en al menos el 30 % de las regiones genómicas de un conjunto selector. Se puede realizar una reacción de secuenciación en al menos el 50 % de las regiones genómicas de un conjunto selector.
Se puede realizar una reacción de secuenciación en menos del 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 %, 95 % de las regiones genómicas de un conjunto selector. Se puede realizar una reacción de secuenciación en menos del 10% de las regiones genómicas de un conjunto selector. Se puede realizar una reacción de secuenciación en menos del 30 % de las regiones genómicas de un conjunto selector. Se puede realizar una reacción de secuenciación en menos del 50 % de las regiones genómicas de un conjunto selector.
Los métodos desvelados en el presente documento pueden comprender obtener información de secuenciación para una o más regiones genómicas a partir de un conjunto selector. Se puede obtener información de secuenciación para 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 o más regiones genómicas a partir de un conjunto selector basado en la Tabla 2. Se puede obtener información de secuenciación para el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90% o 95% o más de las regiones genómicas a partir de un conjunto selector basado en la Tabla 2.
Se puede obtener información de secuenciación para un subconjunto de regiones genómicas a partir de un conjunto selector. Se puede obtener información de secuenciación para 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 210, 220, 230, 240, 250, 260, 270, 280, 290, 300 o más regiones genómicas a partir de un conjunto selector. Se puede obtener información de secuenciación para 325, 350, 375, 400, 425, 450, 475, 500 o más regiones genómicas a partir de un conjunto selector.
Se puede obtener información de secuenciación para todas las regiones genómicas a partir de un conjunto selector. Como alternativa, se puede obtener información de secuenciación para el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90% o 95% o más de las regiones genómicas a partir de un conjunto selector. Se puede obtener información de secuenciación para al menos el 10 % de las regiones genómicas a partir de un conjunto selector. Se puede obtener información de secuenciación para al menos el 30 % de las regiones genómicas a partir de un conjunto selector.
Se puede obtener información de secuenciación para menos del 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90% o 95% de las regiones genómicas a partir de un conjunto selector. Se puede obtener información de secuenciación para menos del 10 % de las regiones genómicas a partir de un conjunto selector. Se puede obtener información de secuenciación para menos del 30 % de las regiones genómicas a partir de un conjunto selector. Se puede obtener información de secuenciación para menos del 50 % de las regiones genómicas a partir de un conjunto selector. Se puede obtener información de secuenciación para menos del 70 % de las regiones genómicas a partir de un conjunto selector.
Amplificación
Los métodos desvelados en el presente documento pueden comprender la amplificación de ADN libre de células (cfDNA) y/o de ADN tumoral circulante (ctDNA). La amplificación puede comprender una amplificación basada en PCR. Como alternativa, la amplificación puede comprender una amplificación no basada en PCR.
La amplificación de cfDNA y/o ctDNA puede comprender el uso de amplificación en microesferas seguida de detección de fibra óptica como se describe en Marguiles et al. "Genome sequencing in microfabricated high-density pricolitre reactors", Nature, doi: 10.1038/nature03959; así como en las Solicitudes de Publicación de Estados Unidos 2002/0012930; 2003/0058629; 2003/0100102; 2003/0148344; 2004/0248161; 2005/0079510; 2005/0124022; y 2006/0078909.
La amplificación del ácido nucleico puede comprender el uso de una o más polimerasas. La polimerasa puede ser una ADN polimerasa. La polimerasa puede ser una ARN polimerasa. La polimerasa puede ser una polimerasa de alta fidelidad. La polimerasa puede ser ADN polimerasa KAPA HiFi. La polimerasa puede ser ADN polimerasa Phusion.
La amplificación puede comprender 20 o menos ciclos de amplificación. La amplificación puede comprender 20, 19, 18, 17, 16, 15, 14, 13, 12, 11, 10 o 9 o menos ciclos de amplificación. La amplificación puede comprender 18 o menos ciclos de amplificación. La amplificación puede comprender 16 o menos ciclos de amplificación. La amplificación puede comprender 15 o menos ciclos de amplificación.
Los métodos, kits y sistemas desvelados en el presente documento pueden comprender una o más muestras o usos de las mismas. Una "muestra" puede referirse a cualquier muestra biológica que se aísle de un sujeto. Una muestra puede incluir, sin limitación, una alícuota de líquido corporal, sangre completa, plaquetas, suero, plasma, glóbulos rojos, glóbulos blancos o leucocitos, células endoteliales, biopsias de tejidos, líquido sinovial, líquido linfático, líquido ascítico y líquido intersticial o extracelular. El término "muestra" también puede abarcar el fluido en los espacios entre las células, incluyendo líquido crevicular gingival, médula ósea, líquido cefalorraquídeo (CSF), saliva, mucosa, esputo, semen, sudor, orina o cualquier otro líquido corporal. "Muestra de sangre" puede hacer referencia a sangre completa o cualquier fracción de la misma, incluidas las células sanguíneas, glóbulos rojos, glóbulos blancos o leucocitos, plaquetas, suero y plasma. La muestra puede proceder de un líquido corporal. La muestra puede ser una muestra de plasma. La muestra puede ser una muestra de suero. La muestra puede ser una muestra de tumor. Las muestras se pueden obtener de un sujeto por medios que incluyen, entre otros, punción venosa, excreción, eyaculación, masaje, biopsia, aspiración con aguja, lavado, raspado, incisión quirúrgica o intervención u otros medios conocidos en la técnica.
Las muestras útiles para los métodos de la invención pueden comprender ADN libre de células (cfDNA), por ejemplo, ADN en una muestra que no está contenida dentro de una célula. Normalmente, dicho ADN puede estar fragmentado y puede tener una longitud promedio de aproximadamente 170 nucleótidos, que puede coincidir con la longitud del a Dn alrededor de un solo nucleosoma. El cfDNA generalmente puede ser una mezcla heterogénea de ADN de células normales y tumorales, y una muestra inicial de cfDNA generalmente no se puede enriquecer en regiones mutadas de forma recurrente del genoma de una célula cancerosa. Los términos ctDNA, ADN tumoral libre de células o ADN "tumoral circulante" pueden usarse para hacer referencia a la fracción de cfDNA en una muestra que procede de un tumor. Un experto en la materia comprenderá que no pueden distinguirse secuencias de la línea germinal entre una fuente de tumor y una fuente de células normales, pero las secuencias que contienen mutaciones somáticas tienen una alta probabilidad de derivar del ADN tumoral. Una muestra puede ser una muestra de ADN de línea germinal de control. Una muestra puede ser una muestra de ADN tumoral conocida. Una muestra puede ser cfDNA obtenido de un individuo sospechoso de tener ctDNA en la muestra.
Los métodos desvelados en el presente documento pueden comprender obtener una o más muestras de un sujeto. Dichas una o más muestras pueden ser una muestra de ácido nucleico tumoral. Como alternativa o adicionalmente, dichas una o más muestras pueden ser una muestra de ácido nucleico genómico. Debe entenderse que la etapa de obtener una muestra de ácido nucleico tumoral y una muestra de ácido nucleico genómico de un sujeto con un cáncer específico puede realizarse en una sola etapa. Como alternativa, la etapa de obtener una muestra de ácido nucleico tumoral y una muestra de ácido nucleico genómico de un sujeto con un cáncer específico puede ocurrir en etapas separadas. Por ejemplo, sería posible obtener una sola muestra de tejido de un paciente, por ejemplo de una muestra de biopsia, que incluyera tanto ácidos nucleicos tumorales como ácidos nucleicos genómicos. También está dentro del alcance de esta etapa la obtención de la muestra de ácido nucleico tumoral y la muestra de ácido nucleico genómico del sujeto en muestras separadas, en tejidos separados o incluso en momentos separados.
La muestra puede comprender ácidos nucleicos. Los ácidos nucleicos pueden ser ácidos nucleicos libres de células. Los ácidos nucleicos pueden ser ácidos nucleicos circulantes. Los ácidos nucleicos pueden proceder de un tumor. Los ácidos nucleicos pueden ser ADN tumoral circulante (ctDNA). Los ácidos nucleicos pueden ser ADN libre de células (cfDNA). Los ácidos nucleicos pueden ser ácidos nucleicos genómicos. Los ácidos nucleicos pueden ser ácidos nucleicos tumorales.
La etapa de obtención de una muestra de ácido nucleico tumoral y una muestra de ácido nucleico genómico de un sujeto con un cáncer específico también puede incluir el proceso de extracción de un fluido biológico o muestra de tejido del sujeto con el cáncer específico. Estas etapas particulares son bien entendidas por los expertos en la técnica médica, particularmente por los que trabajan en las técnicas médicas de laboratorio.
La etapa de obtención de una muestra de ácido nucleico tumoral y una muestra de ácido nucleico genómico de un sujeto con un cáncer específico puede incluir además procedimientos para mejorar el rendimiento o la recuperación de los ácidos nucleicos en la muestra. Por ejemplo, la etapa puede incluir procedimientos de laboratorio para separar los ácidos nucleicos de otros componentes celulares y contaminantes que pueden estar presentes en el fluido biológico 0 en la muestra de tejido. Como se ha indicado, estas etapas pueden mejorar el rendimiento y/o pueden facilitar las reacciones de secuenciación.
También debe entenderse que la etapa de obtención de una muestra de ácido nucleico tumoral y una muestra de ácido nucleico genómico de un sujeto con un cáncer específico puede realizarse por un laboratorio comercial que ni siquiera tiene contacto directo con el sujeto. Por ejemplo, el laboratorio comercial puede obtener las muestras de ácido nucleico de un hospital u otra instalación clínica donde, por ejemplo, se realiza una biopsia u otro procedimiento para obtener tejido de un sujeto. Por tanto, el laboratorio comercial puede llevar a cabo todas las etapas de los métodos divulgados en el presente documento a petición de, o bajo las instrucciones de, la instalación donde se está tratando el sujeto o se le está realizando un diagnóstico.
Se puede seleccionar una muestra de ADN correspondiente a regiones de mutaciones recurrentes, utilizando un conjunto selector como se describe en el presente documento. El proceso de selección puede comprender el siguiente método. El ADN obtenido de fuentes celulares puede fragmentarse para aproximarse al tamaño del cfDNA, por ejemplo, de aproximadamente 50 a aproximadamente 1 κΒ de longitud. Después, el ADN puede desnaturalizarse e hibridar con una población de sondas de conjuntos selectores que comprenden un miembro de unión específico, por ejemplo, biotina, etc. La composición de ADN hibridado se puede aplicar después a un miembro de unión complementario, por ejemplo, avidina, estreptavidina, un anticuerpo específico para una etiqueta, etc., y el ADN no unido se puede retirar por lavado. Después, la población de ADN seleccionada puede liberarse del a Dn no unido mediante lavado.
El ADN capturado después puede secuenciarse mediante cualquier protocolo adecuado. El ADN capturado se amplifica antes de la secuenciación, donde los cebadores de amplificación pueden utilizar cebadores u oligonucleótidos adecuados para secuenciación de alto rendimiento. El producto resultante puede ser un conjunto de secuencias de ADN enriquecidas en secuencias correspondientes a regiones del genoma que tienen mutaciones recurrentes en el cáncer de interés. El análisis restante puede utilizar métodos bioinformáticos, que pueden variar con el tipo de mutación somática, por ejemplo, SNV, SNV, fusión, etc.
En el presente documento también se desvelan métodos para preparar una biblioteca de secuenciación de última generación (NGS). El método puede comprender (a) unir adaptadores a una pluralidad de ácidos nucleicos para producir una pluralidad de ácidos nucleicos modificados con adaptador; y (b) amplificar la pluralidad de ácidos nucleicos modificados con adaptador, produciendo así una biblioteca NGS, en donde la amplificación comprende de 1 a 20 ciclos de amplificación.
Los métodos desvelados en el presente documento pueden comprender unir adaptadores a ácidos nucleicos. La unión de adaptadores a ácidos nucleicos puede comprender el ligamiento de adaptadores a ácidos nucleicos. La unión de adaptadores a ácidos nucleicos puede comprender la hibridación de adaptadores con ácidos nucleicos. La unión de adaptadores a ácidos nucleicos puede comprender la extensión de cebadores.
La pluralidad de ácidos nucleicos puede proceder de una muestra. La unión de los adaptadores a la pluralidad de ácidos nucleicos puede comprender la puesta en contacto de la muestra con los adaptadores.
La unión de los adaptadores a los ácidos nucleicos puede comprender la incubación de los adaptadores y los ácidos nucleicos a una temperatura o intervalo de temperaturas específico. La unión de los adaptadores a los ácidos nucleicos puede comprender la incubación de los adaptadores y los ácidos nucleicos a 20 °C. La unión de los adaptadores a los ácidos nucleicos puede comprender la incubación de los adaptadores y los ácidos nucleicos a menos de 20 °C. La unión de los adaptadores a los ácidos nucleicos puede comprender la incubación de los adaptadores y los ácidos nucleicos a 19 °C, 18 °C, 17 °C, 16 °C o menos. Como alternativa, la unión de los adaptadores a los ácidos nucleicos puede comprender la incubación de los adaptadores y los ácidos nucleicos a temperaturas variables. Por ejemplo, la unión de los adaptadores a los ácidos nucleicos puede comprender ciclos de temperatura. La unión de los adaptadores a los ácidos nucleicos puede comprender la incubación de los ácidos nucleicos y los adaptadores a una primera temperatura durante un primer período de tiempo, seguido de incubación a una o más temperaturas adicionales durante uno o más períodos de tiempo adicionales. Dichas una o más temperaturas adicionales pueden ser mayores que la primera temperatura o la temperatura anterior. Como alternativa o adicionalmente, dichas una o más temperaturas adicionales pueden ser menores que la primera temperatura o la temperatura anterior. Por ejemplo, los ácidos nucleicos y los adaptadores se pueden incubar a 10 °C durante 30 segundos, seguido de incubación a 30 °C durante 30 segundos. El ciclo de temperatura de 10 °C durante 30 segundos y 30 °C durante 30 segundos se puede repetir varias veces. Por ejemplo, la unión de los adaptadores a los ácidos nucleicos mediante ciclos de temperatura puede comprender alternar la temperatura de 10 °C a 30 °C en incrementos de 30 segundos durante un período de tiempo total de 12 a 16 horas.
Los adaptadores y los ácidos nucleicos se pueden incubar a una temperatura o intervalo de temperaturas especificado durante un período de tiempo. Los adaptadores y el ácido nucleico se pueden incubar a una temperatura o intervalo de temperaturas específico durante al menos aproximadamente 15 minutos. Los adaptadores y el ácido nucleico se pueden incubar a una temperatura o intervalo de temperaturas específico durante al menos aproximadamente 30 minutos, 60 minutos, 90 minutos, 120 minutos o más. Los adaptadores y el ácido nucleico se pueden incubar a una temperatura o intervalo de temperaturas específico durante al menos aproximadamente 1 hora, 2 horas, 3 horas, 4 horas, 5 horas, 6 horas, 7 horas, 8 horas, 9 horas, 10 horas, 12 horas, 14 horas, 16 horas o más. Los adaptadores y el ácido nucleico se pueden incubar a una temperatura o intervalo de temperaturas específico durante al menos aproximadamente 16 horas.
Los adaptadores se pueden unir al ácido nucleico incubando los ácidos nucleicos y los adaptadores a una temperatura menor o igual a 20 °C durante al menos aproximadamente 20, 30, 40, 50, 60, 70, 80, 90, 100 o más minutos. Los adaptadores pueden unirse al ácido nucleico incubando los ácidos nucleicos y los adaptadores a una temperatura menor o igual a 20, 19, 18, 17, 16 °C durante al menos aproximadamente 1 hora. Los adaptadores pueden unirse al ácido nucleico incubando los ácidos nucleicos y los adaptadores a una temperatura menor o igual a 18 °C durante al menos aproximadamente 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16 o más horas. Los adaptadores pueden unirse al ácido nucleico incubando los ácidos nucleicos y los adaptadores a una temperatura menor o igual a 20, 19, 18, 17 o 16 °C durante al menos aproximadamente 5 horas. Los adaptadores se pueden unir al ácido nucleico incubando los ácidos nucleicos y los adaptadores a una temperatura menor o igual a 16 °C durante al menos aproximadamente 5 horas.
La unión de los adaptadores a los ácidos nucleicos puede comprender el uso de una o más enzimas. La enzima puede ser una ligasa. La ligasa puede ser una ADN ligasa. La ADN ligasa puede ser una ADN ligasa de T4, ADN ligasa de E. coli, ligasa de mamífero o una combinación de las mismas. La ligasa de mamífero puede ser la ADN ligasa I, la ADN ligasa III o la ADN ligasa IV. La ligasa puede ser una ligasa termoestable.
El adaptador puede comprender una secuencia de unión de cebador universal. El adaptador puede comprender una secuencia de cebador. La secuencia del cebador puede permitir la secuenciación de los ácidos nucleicos modificados con el adaptador. La secuencia del cebador puede permitir la amplificación de los ácidos nucleicos modificados con el adaptador. El adaptador puede comprender un código de barras. El código de barras puede permitir la diferenciación de dos o más moléculas de la misma especie molecular. El código de barras puede permitir la cuantificación de una o más moléculas.
El método puede comprender además poner en contacto la pluralidad de ácidos nucleicos con una pluralidad de microesferas para producir una pluralidad de ácidos nucleicos conjugados con microesferas. La pluralidad de ácidos nucleicos puede ponerse en contacto con la pluralidad de microesferas después de unir los adaptadores a los ácidos nucleicos. Como alternativa o adicionalmente, la pluralidad de ácidos nucleicos puede ponerse en contacto con la pluralidad de microesferas antes de la amplificación de los ácidos nucleicos modificados con adaptador. Como alternativa o adicionalmente, la pluralidad de ácidos nucleicos puede ponerse en contacto con la pluralidad de microesferas después de la amplificación de los ácidos nucleicos modificados con adaptador.
Las microesferas pueden ser microesferas magnéticas. Las microesferas pueden ser microesferas recubiertas. Las microesferas pueden ser microesferas recubiertas de anticuerpos. Las microesferas pueden ser microesferas recubiertas de proteína. Las microesferas pueden estar revestidas con uno o más grupos funcionales. Las microesferas pueden estar recubiertas con uno o más oligonucleótidos.
La amplificación de la pluralidad de ácidos nucleicos modificados con adaptador puede comprender cualquier método conocido en la técnica. Por ejemplo, la amplificación puede comprender una amplificación basada en PCR. Como alternativa, la amplificación puede comprender una amplificación no basada en PCR. La amplificación puede comprender cualquiera de los métodos de amplificación desvelados en el presente documento.
La amplificación de la pluralidad de ácidos nucleicos modificados con adaptador puede comprender la amplificación de un producto o derivado de los ácidos nucleicos modificados con adaptador. Un producto o derivado de los ácidos nucleicos ligados al adaptador puede comprender ácidos nucleicos conjugados con microesferas, ácidos nucleicos enriquecidos, ácidos nucleicos fragmentados, ácidos nucleicos de extremos reparados, ácidos nucleicos con cola de A, ácidos nucleicos con código de barras o una combinación de los mismos.
La amplificación de los ácidos nucleicos modificados con adaptador puede comprender de 1 a 20 ciclos de amplificación. La amplificación de los ácidos nucleicos modificados con adaptador puede comprender de 1 a 18 ciclos de amplificación. La amplificación de los ácidos nucleicos modificados con adaptador puede comprender de 1 a 17 ciclos de amplificación. La amplificación de los ácidos nucleicos modificados con adaptador puede comprender de 1 a 16 ciclos de amplificación. La amplificación de los ácidos nucleicos modificados con adaptador puede comprender de 2 a 20 ciclos de amplificación. La amplificación de los ácidos nucleicos modificados con adaptador puede comprender de 2 a 18 ciclos de amplificación. La amplificación de los ácidos nucleicos modificados con adaptador puede comprender de 2 a 16 ciclos de amplificación. La amplificación de los ácidos nucleicos modificados con adaptador puede comprender de 3 a 20 ciclos de amplificación. La amplificación de los ácidos nucleicos modificados con adaptador puede comprender de 3 a 19 ciclos de amplificación. La amplificación de los ácidos nucleicos modificados con adaptador puede comprender de 3 a 17 ciclos de amplificación. La amplificación de los ácidos nucleicos modificados con adaptador puede comprender de 4 a 20 ciclos de amplificación. La amplificación de los ácidos nucleicos modificados con adaptador puede comprender de 4 a 18 ciclos de amplificación. La amplificación de los ácidos nucleicos modificados con adaptador puede comprender de 4 a 16 ciclos de amplificación. La amplificación de los ácidos nucleicos modificados con adaptador puede comprender de 5 a 20 ciclos de amplificación. La amplificación de los ácidos nucleicos modificados con adaptador puede comprender de 5 a 19 ciclos de amplificación. La amplificación de los ácidos nucleicos modificados con adaptador puede comprender de 5 a 18 ciclos de amplificación. La amplificación de los ácidos nucleicos modificados con adaptador puede comprender de 5 a 17 ciclos de amplificación. La amplificación de los ácidos nucleicos modificados con adaptador puede comprender de 5 a 16 ciclos de amplificación. La amplificación de los ácidos nucleicos modificados con adaptador puede comprender de 5 a 15 ciclos de amplificación.
La amplificación de los ácidos nucleicos modificados con adaptador puede comprender 20, 19, 18, 17, 16, 15, 14, 13, 12, 11, 10, 9, 8, 7, 6, 5, 4, 3 o 2 o menos ciclos de amplificación. La amplificación de los ácidos nucleicos modificados con adaptador puede comprender 20 o menos ciclos de amplificación. La amplificación de los ácidos nucleicos modificados con adaptador puede comprender 18 o menos ciclos de amplificación. La amplificación de los ácidos nucleicos modificados con adaptador puede comprender 16 o menos ciclos de amplificación. La amplificación de los ácidos nucleicos modificados con adaptador puede comprender 15 o menos ciclos de amplificación.
El método puede comprender además la fragmentación de la pluralidad de ácidos nucleicos para producir una pluralidad de ácidos nucleicos fragmentados. La pluralidad de ácidos nucleicos puede fragmentarse antes de unir los adaptadores a la pluralidad de ácidos nucleicos. La pluralidad de ácidos nucleicos puede fragmentarse después de unir los adaptadores a la pluralidad de ácidos nucleicos. La pluralidad de ácidos nucleicos puede fragmentarse antes de la amplificación de los ácidos nucleicos modificados con adaptador. La pluralidad de ácidos nucleicos puede fragmentarse después de la amplificación de los ácidos nucleicos modificados con adaptador. La fragmentación de la pluralidad de ácidos nucleicos puede comprender el uso de una o más enzimas de restricción. La fragmentación de la pluralidad de ácidos nucleicos puede comprender el uso de un sonicador. La fragmentación de la pluralidad de ácidos nucleicos puede comprender el corte de los ácidos nucleicos.
El método puede comprender además realizar una reacción de reparación de extremos en la pluralidad de ácidos nucleicos para producir una pluralidad de ácidos nucleicos de extremos reparados. La reacción de reparación de extremos puede realizarse antes de unir los adaptadores a la pluralidad de ácidos nucleicos. La reacción de reparación de extremos puede realizarse después de unir los adaptadores a la pluralidad de ácidos nucleicos. La reacción de reparación de extremos puede realizarse antes de la amplificación de los ácidos nucleicos modificados con adaptador. La reacción de reparación de extremos puede realizarse después de la amplificación de los ácidos nucleicos modificados con adaptador. La reacción de reparación de extremos puede realizarse antes de la fragmentación de la pluralidad de ácidos nucleicos. La reacción de reparación de extremos puede realizarse después de la fragmentación de la pluralidad de ácidos nucleicos. La realización de la reacción de reparación de extremos puede comprender el uso de una o más enzimas de reparación de extremos.
El método puede comprender además realizar una reacción de adición de cola de A sobre la pluralidad de ácidos nucleicos para producir una pluralidad de ácidos nucleicos con cola de A. La reacción de adición de cola de A puede realizarse antes de unir los adaptadores a la pluralidad de ácidos nucleicos. La reacción de adición de cola de A puede realizarse después de unir los adaptadores a la pluralidad de ácidos nucleicos. La reacción de adición de cola de A puede realizarse antes de la amplificación de los ácidos nucleicos modificados con adaptador. La reacción de adición de cola de A puede realizarse después de la amplificación de los ácidos nucleicos modificados con adaptador. La reacción de adición de cola de A puede realizarse antes de la fragmentación de la pluralidad de ácidos nucleicos. La reacción de adición de cola de A puede realizarse después de la fragmentación de la pluralidad de ácidos nucleicos. La reacción de adición de cola de A puede realizarse antes de la reparación de extremos de la pluralidad de ácidos nucleicos. La reacción de adición de cola de A puede realizarse después de la reparación de extremos de la pluralidad de ácidos nucleicos. La realización de la reacción de adición de cola de A puede comprender el uso de una o más enzimas de adición de cola de A.
El método puede comprender además poner en contacto la pluralidad de ácidos nucleicos con una pluralidad de códigos de barras moleculares para producir una pluralidad de ácidos nucleicos con códigos de barras. La producción de la pluralidad de ácidos nucleicos con códigos de barras puede tener lugar antes de unir los adaptadores a la pluralidad de ácidos nucleicos. La producción de la pluralidad de ácidos nucleicos con códigos de barras puede tener lugar después de unir los adaptadores a la pluralidad de ácidos nucleicos. La producción de la pluralidad de ácidos nucleicos con códigos de barras puede tener lugar antes de la amplificación de los ácidos nucleicos modificados con adaptador. La producción de la pluralidad de ácidos nucleicos con códigos de barras puede tener lugar después de la amplificación de los ácidos nucleicos modificados con adaptador. La producción de la pluralidad de ácidos nucleicos con código de barras puede tener lugar antes de fragmentar la pluralidad de ácidos nucleicos. La producción de la pluralidad de ácidos nucleicos con códigos de barras puede tener lugar después de fragmentar la pluralidad de ácidos nucleicos. La producción de la pluralidad de ácidos nucleicos con códigos de barras puede tener lugar antes de la reparación de extremos de la pluralidad de ácidos nucleicos. La producción de la pluralidad de ácidos nucleicos con códigos de barras puede tener lugar después de la reparación de extremos de la pluralidad de ácidos nucleicos. La producción de la pluralidad de ácidos nucleicos con códigos de barras puede tener lugar antes de la adición de la cola de A de la pluralidad de ácidos nucleicos. La producción de la pluralidad de ácidos nucleicos con códigos de barras puede tener lugar después de la adición de la cola de A de la pluralidad de ácidos nucleicos. El código de barras puede permitir la diferenciación de dos o más moléculas de la misma especie molecular. El código de barras puede permitir la cuantificación de una o más moléculas. El código de barras puede ser un código de barras molecular. El código de barras molecular puede usarse para diferenciar dos o más moléculas de la misma especie molecular. El código de barras molecular puede usarse para diferenciar dos o más moléculas de la misma región genómica. El código de barras puede ser un índice de muestra. El índice de muestra puede usarse para identificar una muestra a partir de la cual se originó la molécula (por ejemplo, ácido nucleico). Por ejemplo, las moléculas de una primera muestra pueden asociarse con un primer índice de muestra, mientras que las moléculas de una segunda muestra pueden asociarse con un segundo índice de muestra. El índice de muestra de dos o más muestras puede ser diferente. Las dos o más muestras pueden proceder del mismo sujeto. Las dos o más muestras pueden proceder de dos o más sujetos. Las dos o más muestras pueden obtenerse en el mismo momento. Como alternativa o adicionalmente, las dos o más muestras se pueden obtener en dos o más momentos.
El método puede comprender además poner en contacto la pluralidad de ácidos nucleicos con una pluralidad de adaptadores de secuenciación para producir una pluralidad de ácidos nucleicos adaptados al secuenciador. La producción de la pluralidad de ácidos nucleicos adaptados al secuenciador puede tener lugar antes de unir los adaptadores a la pluralidad de ácidos nucleicos. La producción de la pluralidad de ácidos nucleicos adaptados al secuenciador puede tener lugar después de unir los adaptadores a la pluralidad de ácidos nucleicos. La producción de la pluralidad de ácidos nucleicos adaptados al secuenciador puede tener lugar antes de la amplificación de los ácidos nucleicos modificados con adaptador. La producción de la pluralidad de ácidos nucleicos adaptados al secuenciador puede tener lugar después de la amplificación de los ácidos nucleicos modificados con adaptador. La producción de la pluralidad de ácidos nucleicos adaptados al secuenciador puede tener lugar antes de fragmentar la pluralidad de ácidos nucleicos. La producción de la pluralidad de ácidos nucleicos adaptados al secuenciador puede tener lugar después de fragmentar la pluralidad de ácidos nucleicos. La producción de la pluralidad de ácidos nucleicos adaptados al secuenciador puede tener lugar antes de la reparación de extremos de la pluralidad de ácidos nucleicos. La producción de la pluralidad de ácidos nucleicos adaptados al secuenciador puede tener lugar después de la reparación de extremos de la pluralidad de ácidos nucleicos. La producción de la pluralidad de ácidos nucleicos adaptados al secuenciador puede tener lugar antes de la adición de la cola de A de la pluralidad de ácidos nucleicos. La producción de la pluralidad de ácidos nucleicos adaptados al secuenciador puede tener lugar después de la adición de la cola de A de la pluralidad de ácidos nucleicos. La producción de la pluralidad de ácidos nucleicos adaptados al secuenciador puede tener lugar antes de producir los ácidos nucleicos con código de barras. La producción de la pluralidad de ácidos nucleicos adaptados al secuenciador puede tener lugar después de producir los ácidos nucleicos con código de barras. El adaptador de secuenciación puede permitir la secuenciación de los ácidos nucleicos.
El método puede comprender además poner en contacto la pluralidad de ácidos nucleicos con una pluralidad de adaptadores de cebadores para producir una pluralidad de ácidos nucleicos adaptados a cebadores. La producción de la pluralidad de ácidos nucleicos adaptados a cebadores puede tener lugar antes de unir los adaptadores a la pluralidad de ácidos nucleicos. La producción de la pluralidad de ácidos nucleicos adaptados a cebadores puede tener lugar después de unir los adaptadores a la pluralidad de ácidos nucleicos. La producción de la pluralidad de ácidos nucleicos adaptados a cebadores puede tener lugar antes de la amplificación de los ácidos nucleicos modificados con adaptador. La producción de la pluralidad de ácidos nucleicos adaptados a cebadores puede tener lugar después de la amplificación de los ácidos nucleicos modificados con adaptador. La producción de la pluralidad de ácidos nucleicos adaptados a cebadores puede tener lugar antes de fragmentar la pluralidad de ácidos nucleicos. La producción de la pluralidad de ácidos nucleicos adaptados a cebadores puede tener lugar después de fragmentar la pluralidad de ácidos nucleicos. La producción de la pluralidad de ácidos nucleicos adaptados a cebadores puede tener lugar antes de la reparación de extremos de la pluralidad de ácidos nucleicos. La producción de la pluralidad de ácidos nucleicos adaptados a cebadores puede tener lugar después de la reparación de extremos de la pluralidad de ácidos nucleicos. La producción de la pluralidad de ácidos nucleicos adaptados a cebadores puede tener lugar antes de la adición de la cola de A de la pluralidad de ácidos nucleicos. La producción de la pluralidad de ácidos nucleicos adaptados a cebadores puede tener lugar después de la adición de la cola de A de la pluralidad de ácidos nucleicos. La producción de la pluralidad de ácidos nucleicos adaptados a cebadores puede tener lugar antes de producir los ácidos nucleicos con código de barras. La producción de la pluralidad de ácidos nucleicos adaptados a cebadores puede tener lugar después de producir los ácidos nucleicos con código de barras. La producción de la pluralidad de ácidos nucleicos adaptados a cebadores puede tener lugar antes de producir los ácidos nucleicos adaptados al secuenciador. La producción de la pluralidad de ácidos nucleicos adaptados a cebadores puede tener lugar después de producir los ácidos nucleicos adaptados al secuenciador. La producción de la pluralidad de ácidos nucleicos adaptados a cebadores puede comprender ligar los adaptadores de cebadores a los ácidos nucleicos. El adaptador de cebador puede permitir la secuenciación de los ácidos nucleicos. El adaptador de cebador puede permitir la amplificación de los ácidos nucleicos.
El método puede comprender además realizar una reacción de hibridación. La reacción de hibridación puede comprender el uso de un soporte sólido. La reacción de hibridación puede comprender hibridar la pluralidad de ácidos nucleicos con el soporte sólido. La reacción de hibridación puede comprender el uso de una pluralidad de microesferas. La reacción de hibridación puede comprender hibridar la pluralidad de ácidos nucleicos con la pluralidad de microesferas. El método puede comprender además realizar una reacción de hibridación después de una reacción enzimática.
La reacción enzimática puede comprender una reacción de ligamiento. La reacción enzimática puede comprender una reacción de fragmentación. La reacción enzimática puede comprender una reacción de reparación de extremos. La reacción enzimática puede comprender una reacción de adición de cola de A. La reacción enzimática puede comprender una reacción de amplificación. El método puede comprender además realizar una reacción de hibridación después de una o más reacciones seleccionadas de un grupo que consiste en una reacción de ligamiento, reacción de fragmentación, reacción de reparación de extremos, reacción de adición de cola de A y reacción de amplificación. El método puede comprender además realizar una reacción de hibridación después de dos o más reacciones seleccionadas de un grupo que consiste en una reacción de ligamiento, reacción de fragmentación, reacción de reparación de extremos, reacción de adición de cola de A y reacción de amplificación. El método puede comprender además realizar una reacción de hibridación después de tres o más reacciones seleccionadas de un grupo que consiste en una reacción de ligamiento, reacción de fragmentación, reacción de reparación de extremos, reacción de adición de cola de A y reacción de amplificación. El método puede comprender además realizar una reacción de hibridación después de cuatro o más reacciones seleccionadas de un grupo que consiste en una reacción de ligamiento, reacción de fragmentación, reacción de reparación de extremos, reacción de adición de cola de A y reacción de amplificación. La reacción de hibridación puede realizarse después de cada reacción seleccionada de un grupo que consiste en reacción de ligamiento, reacción de fragmentación, reacción de reparación de extremos, reacción de adición de cola de A y reacción de amplificación.
Métodos de detección de ácidos nucleicos
En el presente documento se proporcionan métodos para la detección ultrasensible de un ácido nucleico minoritario en una muestra heterogénea. El método puede comprender (a) obtener información de secuencia de una muestra de ADN libre de células (cfDNA) derivada de un sujeto; y (b) usar la información de secuencia derivada de (a) para detectar ácidos nucleicos minoritarios libres de células en la muestra, en donde el método es capaz de detectar un porcentaje de ácidos nucleicos minoritarios libres de células que es menor del 2 % del cfDNA total. El ácido nucleico minoritario puede referirse a un ácido nucleico que se originó a partir de una célula o tejido que es diferente de una célula o tejido normal del sujeto. Por ejemplo, el sujeto puede estar infectado con un patógeno tal como una bacteria y el ácido nucleico minoritario puede ser un ácido nucleico del patógeno. En otro ejemplo, el sujeto es un receptor de una célula, tejido u órgano de un donante y el ácido nucleico minoritario puede ser un ácido nucleico que se originó en la célula, tejido u órgano del donante. En otro ejemplo, el sujeto es un sujeto gestante y el ácido nucleico minoritario puede ser un ácido nucleico procedente de un feto. El método puede comprender usar la información de la secuencia para detectar una o más mutaciones somáticas en el feto. El método puede comprender usar la información de la secuencia para detectar una o más mutaciones post-cigóticas en el feto. Como alternativa, el sujeto puede padecer un cáncer y el ácido nucleico minoritario puede ser un ácido nucleico que se origina en una célula cancerosa.
En el presente documento se proporcionan métodos para la detección ultrasensible de ADN tumoral circulante en una muestra. El método puede denominarse perfilado personalizado de cáncer mediante secuenciación profunda (CAncer Personalized Profiling by Deep Sequencing) (CAPP-Seq). El método puede comprender (a) obtener información de secuencia de una muestra de ADN libre de células (cfDNA) derivada de un sujeto; y (b) usar la información de secuencia derivada de (a) para detectar ADN tumoral libre de células (ctDNA) en la muestra, en donde el método es capaz de detectar un porcentaje de ctDNA que es menor del 2 % del cfDNA total. El CAPP-Seq puede cuantificar con precisión el ADN tumoral libre de células de tumores en estadio temprano y avanzado. El CAPP-Seq puede identificar alelos mutantes hasta un 0,025 % con un límite de detección de < 0,01 %. Los niveles de ADN derivado de tumores a menudo son paralelos a las respuestas clínicas a diversas terapias y CAPP-Seq puede identificar mutaciones accionables. El CAPP-Seq se puede aplicar de forma rutinaria para detectar y supervisar tumores de forma no invasiva, facilitando así la terapia oncológica personalizada.
En el presente documento se desvelan métodos para determinar la cantidad de ADN tumoral circulante (ADNc) en una muestra. El método puede comprender (a) ligar uno o más adaptadores a ADN libre de células (cfDNA) derivado de una muestra de un sujeto para producir uno o más cfDNA ligados al adaptador; (b) realizar la secuenciación en uno o más cfDNA ligados al adaptador, en donde el cfDNA ligado al adaptador que se va a secuenciar se basa en un conjunto selector que comprende una pluralidad de regiones genómicas; y (c) usar un medio legible por ordenador para determinar una cantidad de cfDNA procedente de un tumor basándose en la información de secuenciación obtenida del cfDNA ligado al adaptador. El cfDNA procedente del tumor puede denominarse DNA tumoral libre de células o DNA tumoral circulante (ctDNA). La cantidad de ctDNA puede ser un porcentaje. La determinación de la cantidad de ctDNA puede comprender la determinación de la secuencia de una o más regiones genómicas del conjunto selector. La determinación de la cantidad del ctDNA puede comprender la determinación de una serie de lecturas de secuencia que contienen una secuencia que contiene una mutación correspondiente a una o más mutaciones en dichas una o más regiones genómicas basadas en el conjunto selector. La determinación de la cantidad del ctDNA puede comprender la determinación de una serie de lecturas de secuencia que contienen una secuencia que no contiene una mutación correspondiente a una o más mutaciones en dichas una o más regiones genómicas basadas en el conjunto selector. La determinación de la cantidad de ctDNA puede comprender calcular un porcentaje de lecturas de secuencia que contienen secuencias con una o más mutaciones correspondientes a una o más mutaciones en una o más regiones genómicas basadas en el conjunto selector. Por ejemplo, se puede usar un conjunto selector para obtener información de secuenciación para una primera región genómica. La información de secuencia puede comprender veinte lecturas de secuenciación relativas a la primera región genómica. El análisis de la información de secuenciación puede determinar que dos de las lecturas de secuenciación contienen una mutación correspondiente a una primera mutación en la primera región genómica basada en el conjunto selector y dieciocho de las lecturas de secuenciación no contienen una mutación correspondiente a una mutación en la primera región genómica basada en el conjunto selector. Por tanto, la cantidad del ctDNA puede ser igual al porcentaje de lecturas de secuenciación con la mutación correspondiente a una mutación en la primera región genómica, que sería el 10 % (por ejemplo, 2 lecturas divididas por 20 lecturas por 100 %). Con respecto a la información de secuencia relativa a dos o más regiones genómicas basadas en el conjunto selector, la determinación de la cantidad de ctDNA puede comprender el cálculo de un promedio de los porcentajes de las dos o más regiones genómicas. Por ejemplo, el porcentaje de lecturas de secuenciación que contienen una mutación correspondiente a una primera mutación en una primera región genómica es del 20 % y el porcentaje de lecturas de secuenciación que contienen una mutación correspondiente a una segunda mutación en una segunda región genómica es del 40 %; la cantidad de ctDNA es el promedio de los porcentajes de las dos regiones genómicas, que es el 30 % (por ejemplo, (20 % 40 %) dividido por 2). La cantidad de ctDNA puede convertirse en una masa por valor unitario de volumen multiplicando el porcentaje de ctDNA por la concentración absoluta del total de DNA libre de células por unidad de volumen. Por ejemplo, el porcentaje de ctDNA puede ser del 30 % y la concentración del ADN libre de células puede ser de 10 nanogramos por mililitro (ng/ml); la cantidad de ctDNA puede ser de 3 ng/ml (por ejemplo, 0,30 por 10 ng/ml).
Como alternativa o adicionalmente, la determinación de la cantidad de ctDNA puede comprender el uso de adaptadores que comprenden una secuencia de código de barras. Dos o más adaptadores pueden contener dos o más secuencias de códigos de barras diferentes. La secuencia de código de barras puede ser una secuencia aleatoria. Se puede unir una región genómica a un adaptador que contiene una secuencia de código de barras. Se pueden unir regiones genómicas idénticas a adaptadores que contienen diferentes secuencias de códigos de barras. Se pueden unir regiones genómicas no idénticas a adaptadores que contienen diferentes secuencias de códigos de barras. Las secuencias de códigos de barras se pueden usar para contar varias apariciones de una región genómica. La cantidad de ctDNA puede basarse en el recuento de un número de apariciones de regiones genómicas basadas en el conjunto selector. En lugar de basar la cantidad de ctDNA en el número de lecturas de secuenciación, la cantidad de ctDNA puede basarse en el número de códigos de barras diferentes asociados con una o más regiones genómicas. Por ejemplo, se pueden asociar diez códigos de barras diferentes con secuencias que contienen una mutación correspondiente a una mutación en una primera región genómica basada en el conjunto selector, dando como resultado una cantidad de ctDNA de diez. En el caso de dos o más regiones genómicas, la cantidad de ctDNA puede ser una suma de la cantidad de las dos o más regiones genómicas. Por ejemplo, diez códigos de barras diferentes pueden estar asociados con secuencias que contienen una mutación correspondiente a una mutación en una primera región genómica y veinte códigos de barras diferentes pueden estar asociados con secuencias que contienen una mutación correspondiente a una mutación en una segunda región genómica, dando como resultado una cantidad de ctDNA de 30. La cantidad de ctDNA puede ser un porcentaje del total de DNA libre de células. Por ejemplo, diez códigos de barras diferentes pueden estar asociados con secuencias que contienen una mutación correspondiente a una mutación en una primera región genómica y cuarenta códigos de barras diferentes pueden estar asociados con secuencias que no contienen una mutación correspondiente a una mutación en la primera región genómica, dando como resultado una cantidad de ctDNA del 20 % (por ejemplo, (10 dividido por 50) por 100 %).
En el presente documento se desvelan métodos de enriquecimiento en ADN tumoral circulante de una muestra. El método puede comprender poner en contacto ácidos nucleicos libres de células de una muestra con una pluralidad de oligonucleótidos, en donde la pluralidad de oligonucleótidos hibridan selectivamente con una pluralidad de regiones genómicas que comprenden una pluralidad de mutaciones presentes en > 60 % de una población de sujetos que padecen un cáncer.
Como alternativa, el método puede comprender poner en contacto ácidos nucleicos libres de células de una muestra con un conjunto de oligonucleótidos, en donde el conjunto de oligonucleótidos hibrida selectivamente con una pluralidad de regiones genómicas, en donde (a) > 80 % de los tumores de una población de sujetos con cáncer incluyen una o más mutaciones en las regiones genómicas; (b) la pluralidad de regiones genómicas representa menos de 1,5 Mb del genoma; y (c) el conjunto de oligonucleótidos comprende 5 o más oligonucleótidos diferentes que hibridan selectivamente con la pluralidad de regiones genómicas. Los ácidos nucleicos libres de células pueden ser ADN. Los ácidos nucleicos libres de células pueden ser ARN.
Aplicaciones
Los conjuntos selectores creados de acuerdo con los métodos descritos en el presente documento pueden ser útiles en el análisis de alteraciones genéticas, particularmente en la comparación de secuencias tumorales y genómicas en un paciente con cáncer. Como se muestra en la Figura 2, se puede usar una muestra de biopsia de tejido del paciente para descubrir mutaciones en el tumor mediante la secuenciación de las regiones genómicas de la biblioteca selectora en muestras de ácido nucleico genómico y tumoral y la comparación de los resultados. Los conjuntos selectores pueden diseñarse para identificar mutaciones en tumores de un gran porcentaje de todos los pacientes, por tanto, puede que no sea necesario optimizar la biblioteca para cada paciente.
En algunos métodos de la invención, el análisis de cfDNA para mutaciones somáticas se compara con marcadores tumorales personalizados en un conjunto de datos inicial desarrollado a partir de mutaciones somáticas en una muestra de tumor conocida de un individuo. Para desarrollar tal conjunto de datos, se puede obtener una muestra de células tumorales o ADN tumoral conocido, que se compara con una muestra de la línea germinal. Preferentemente, aunque no necesariamente, una muestra de la línea germinal puede proceder del individuo.
"Analizar" puede incluir determinar un conjunto de valores asociados con una muestra mediante la determinación de una secuencia de ADN, y comparar la secuencia con la secuencia de una muestra o conjunto de muestras del mismo sujeto, de un control, de valores de referencia, etc., tal como se conocen en la técnica. "Analizar" puede incluir realizar un análisis estadístico.
CAPP-seq puede utilizar la selección de híbridos de cfDNA correspondiente a regiones de mutación recurrente para el diagnóstico y supervisión del cáncer en un paciente individual. En tales realizaciones, las sondas del conjunto selector se utilizan para enriquecer, por ejemplo, por selección de híbridos, en el ctDNA que corresponde a las regiones del genoma que tienen más probabilidades de contener mutaciones somáticas específicas del tumor. A continuación, el ctDNA "seleccionado" se amplifica y secuencia para determinar cuáles de las regiones genómicas seleccionadas están mutadas en el tumor individual. Opcionalmente se realiza una comparación inicial con la secuencia de ADN de la línea germinal del individuo y/o una muestra de biopsia de tumor del individuo. Estas mutaciones somáticas proporcionan un medio para distinguir el ctDNA del DNA de la línea germinal y, por lo tanto, proporcionan información útil sobre la presencia y cantidad de células tumorales en el individuo. En la Figura 22 se proporciona un diagrama de flujo para este proceso.
El CAPP-seq puede utilizarse para la detección de cánceres y la genotipificación de tumores sin biopsia, donde se analiza una muestra de ctDNA del paciente sin referencia a una muestra de biopsia. Cuando el CAPP-Seq identifica una mutación en una diana clínicamente procesable de una muestra de ctDNA, los métodos incluyen proporcionar una terapia apropiada para la diana. Tales mutaciones incluyen, sin limitación, reordenamientos y otras mutaciones en las que están implicados oncogenes, tirosina quinasas receptoras, etc.
En el presente documento también se desvela un método para detectar, diagnosticar, pronosticar o seleccionar una terapia para un sujeto con cáncer que comprende: (a) obtener información de secuencia de una muestra de ADN libre de células (cfDNA) derivada del sujeto; y (b) usar la información de secuencia derivada de (a) para detectar ADN no germinal libre de células (cfNG-DNA) en la muestra, en donde el método es capaz de detectar un porcentaje de cfNG-DNA que es menor del 2 % del cfDNA total. El método puede ser capaz de detectar un porcentaje de ctDNA que es inferior al 1,5 % del cfDNA total. El método puede ser capaz de detectar un porcentaje de cfNG-DNA que es inferior al 1 % del cfDNA total. El método puede ser capaz de detectar un porcentaje de cfNG-DNA que es inferior al 0,5 % del cfDNA total. El método puede ser capaz de detectar un porcentaje de cfNG-DNA que es inferior al 0,1 % del cfDNA total. El método puede ser capaz de detectar un porcentaje de cfNG-DNA que es inferior al 0,01 % del cfDNA total. El método puede ser capaz de detectar un porcentaje de cfNG-DNA que es inferior al 0,001 % del cfDNA total. El método puede ser capaz de detectar un porcentaje de cfNG-DNA que es inferior al 0,0001 % del cfDNA total. La muestra puede ser una muestra de plasma o suero. La muestra puede ser una muestra de líquido cefalorraquídeo. En algunos casos, la muestra no es una muestra de líquido de frotis de Papanicolaou. En algunos casos, la muestra es una muestra de líquido quístico. En algunos casos, la muestra es una muestra de líquido pancreático. La información de secuencia puede comprender información relacionada con al menos 10, 20, 30, 40, 100, 200, 300 regiones genómicas. Las regiones genómicas pueden comprender genes, regiones exónicas, regiones intrónicas, regiones no traducidas, regiones no codificantes o una combinación de las mismas. Las regiones genómicas pueden comprender dos o más regiones exónicas, regiones intrónicas y regiones no traducidas. Las regiones genómicas pueden comprender al menos una región exónica y al menos una región intrónica. Al menos el 5 % de las regiones genómicas pueden comprender regiones intrónicas. Al menos aproximadamente el 20 % de las regiones genómicas pueden comprender regiones exónicas. Las regiones genómicas pueden comprender menos de 1,5 megabases (Mb) del genoma. Las regiones genómicas pueden comprender menos de 1 Mb del genoma. Las regiones genómicas pueden comprender menos de 500 kilobases (kb) del genoma. Las regiones genómicas pueden comprender menos de 350 kb del genoma. Las regiones genómicas pueden comprender entre 100 kb y 300 kb del genoma. La información de secuencia puede comprender información relativa a 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20 o más regiones genómicas de un conjunto selector que comprende una pluralidad de regiones genómicas. La información de secuencia puede comprender información relativa a 25, 30, 40, 50, 60, 70, 80, 90, 100 o más regiones genómicas de un conjunto selector que comprende una pluralidad de regiones genómicas. La información de secuencia puede comprender información relativa a una pluralidad de regiones genómicas. La pluralidad de regiones genómicas puede basarse en un conjunto selector que comprende regiones genómicas que comprenden una o más mutaciones presentes en uno o más sujetos de una población de sujetos con cáncer. Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de la pluralidad de regiones genómicas puede estar basada en un conjunto selector que comprende regiones genómicas que comprenden una o más mutaciones presentes en uno o más sujetos de una población de sujetos con cáncer. El tamaño total de las regiones genómicas del conjunto selector puede comprender menos de 1,5 megabases (Mb), 1 Mb, 500 kilobases (kb), 350 kb, 300 kb, 250 kb, 200 kb o 150 kb del genoma. El tamaño total de las regiones genómicas del conjunto selector puede estar entre 100 kb y 300 kb del genoma. El conjunto selector puede comprender 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 100 o más regiones genómicas seleccionadas de la Tabla 2. En algunos casos, el sujeto no padece cáncer de páncreas. La obtención de información de secuencia puede comprender la realización de una secuenciación masivamente paralela. La secuenciación masivamente paralela puede realizarse en un subconjunto de un genoma de cfDNA procedente de la muestra de cfDNA. El subconjunto del genoma puede comprender menos de 1,5 megabases (Mb), 1 Mb, 500 kilobases (kb), 350 kb, 300 kb, 250 kb, 200 kb o 150 kb del genoma. El subconjunto del genoma puede comprender entre 100 kb y 300 kb del genoma. La obtención de información de secuencia puede comprender el uso de códigos de barras de una sola molécula. El uso de códigos de barras de una sola molécula puede comprender adjuntar códigos de barras que comprenden diferentes secuencias a ácidos nucleicos de la muestra de cfDNA. La información de secuencia puede comprender información de secuencia relativa a los códigos de barras. El método puede comprender obtener información de secuenciación de muestras de ADN libres de células a partir de dos o más muestras del sujeto. Las dos o más muestras pueden ser del mismo tipo de muestra. Las dos o más muestras pueden ser dos tipos diferentes de muestra. Las dos o más muestras pueden obtenerse del sujeto en el mismo momento. Las dos o más muestras pueden obtenerse del sujeto en dos o más momentos. El método puede comprender obtener información de secuenciación de muestras de ADN sin células a partir de dos o más sujetos diferentes. Las muestras de dos o más sujetos diferentes pueden indexarse y agruparse antes de obtener la información de secuenciación. El uso de la información de secuencia puede comprender detectar uno o más SNV, indeles, fusiones, puntos de rotura, variantes estructurales, número variable de repeticiones en tándem, regiones hipervariables, minisatélites, repeticiones dinucleotídicas, repeticiones trinucleotídicas, repeticiones tetranucleotídicas, repeticiones de secuencia sencilla, o una combinación de las mismas en regiones seleccionadas del genoma del sujeto. El uso de la información de secuencia puede comprender detectar uno o más SNV, indeles, variantes del número de copias y reordenamientos en regiones seleccionadas del genoma del sujeto. El uso de la información de secuencia puede comprender la detección de dos o más SNV, indeles, variantes del número de copias y reordenamientos en regiones seleccionadas del genoma del sujeto. El uso de la información de secuencia puede comprender detectar al menos un SNV, indel, variante del número de copias y reordenamiento en regiones seleccionadas del genoma del sujeto. En algunos casos, la detección no implica la realización de PCR digital (dPCR). La detección de ADN que no es de la línea germinal libre de células puede comprender la aplicación de un algoritmo a la información de secuencia para determinar una cantidad de una o más regiones genómicas a partir de un conjunto selector. El conjunto selector puede comprender una pluralidad de regiones genómicas que comprenden una o más mutaciones presentes en uno o más sujetos con cáncer de una población de sujetos con cáncer. El conjunto selector puede comprender una pluralidad de regiones genómicas que comprenden una o más mutaciones presentes en al menos aproximadamente el 60 % de los sujetos con cáncer de la población de sujetos con cáncer. El cfNG-DNA puede proceder de un tumor en el sujeto. El método puede comprender además la detección de un cáncer en el sujeto basándose en la detección del cfNG-DNA. El método puede comprender además diagnosticar un cáncer en el sujeto basándose en la detección del cfNG-DNA. El diagnóstico del cáncer puede tener una sensibilidad de al menos aproximadamente el 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 % o 99 %. El diagnóstico del cáncer puede tener una especificidad de al menos aproximadamente el 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 % o 99 %. El método puede comprender además pronosticar un cáncer en el sujeto basándose en la detección del cfNG-DNA. El pronóstico del cáncer puede tener una sensibilidad de al menos aproximadamente el 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 % o 99 %. El pronóstico del cáncer puede tener una especificidad de al menos aproximadamente el 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 % o 99 %. El método puede comprender además determinar un régimen terapéutico para el sujeto basándose en la detección del cfNG-DNA. El método puede comprender además administrar una terapia contra el cáncer al sujeto basándose en la detección del cfNG-DNA. El cfNG-DNA puede proceder de un feto en el sujeto. El método puede comprender además diagnosticar una enfermedad o afección en el feto basándose en la detección del cfNG-DNA. El diagnóstico de la enfermedad o afección en el feto puede tener una sensibilidad de al menos aproximadamente el 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 % o 99 %. El diagnóstico de la enfermedad o afección en el feto puede tener una especificidad de al menos aproximadamente el 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 % o 99 %. El cfNG-DNA puede proceder de un órgano trasplantado, célula o tejido en el sujeto. El método puede comprender además diagnosticar un rechazo de trasplante de órganos en el sujeto basándose en la detección del cfNG-DNA. El diagnóstico del rechazo del trasplante de órganos puede tener una sensibilidad de al menos aproximadamente el 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 % o 99 %. El diagnóstico del rechazo del trasplante de órganos puede tener una especificidad de al menos aproximadamente el 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 % o 99 %. El método puede comprender además pronosticar un riesgo de rechazo de trasplante de órganos en el sujeto basándose en la detección del cfNG-DNA. El pronóstico del riesgo de rechazo de un trasplante de órganos puede tener una sensibilidad de al menos aproximadamente el 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 % o 99 %. El pronóstico del riesgo de rechazo de un trasplante de órganos puede tener una especificidad de al menos aproximadamente el 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 % o 99 %. El método puede comprender además determinar una terapia inmunosupresora para el sujeto basándose en la detección del cfNG-DNA. El método puede comprender además administrar una terapia inmunosupresora al sujeto basándose en la detección del cfNG-DNA.
En el presente documento también se desvelan métodos para detectar, diagnosticar o pronosticar un estado o resultado de un cáncer en un sujeto. El método puede comprender (a) obtener información de secuencia de una muestra de ADN libre de células (cfDNA) derivada del sujeto; (b) usar la información de secuencia derivada de (a) para detectar ADN tumoral libre de células (ctDNA) en la muestra en donde el método es capaz de detectar un porcentaje de ctDNA que es menos del 2 % del cfDNA total. El método puede ser capaz de detectar un porcentaje de ctDNA que es inferior al 1,5 % del cfDNA total. El método puede ser capaz de detectar un porcentaje de ctDNA que es inferior al 1 % del cfDNA total. El método puede ser capaz de detectar un porcentaje de ctDNA que es inferior al 0,5 % del cfDNA total. El método puede ser capaz de detectar un porcentaje de ctDNA que es inferior al 0,1 % del cfDNA total. El método puede ser capaz de detectar un porcentaje de ctDNA que es inferior al 0,01 % del cfDNA total. El método puede ser capaz de detectar un porcentaje de ctDNA que es inferior al 0,001 % del cfDNA total. El método puede ser capaz de detectar un porcentaje de ctDNA que es inferior al 0,0001 % del cfDNA total. La muestra puede ser una muestra de plasma o suero. La muestra puede ser una muestra de líquido cefalorraquídeo. En algunos casos, la muestra no es una muestra de líquido de frotis de Papanicolaou. En algunos casos, la muestra es una muestra de líquido quístico. En algunos casos, la muestra es una muestra de líquido pancreático. La información de secuencia puede comprender información relacionada con al menos 10, 20, 30, 40, 100, 200, 300 regiones genómicas. Las regiones genómicas pueden comprender genes, regiones exónicas, regiones intrónicas, regiones no traducidas, regiones no codificantes o una combinación de las mismas. Las regiones genómicas pueden comprender dos o más regiones exónicas, regiones intrónicas y regiones no traducidas. Las regiones genómicas pueden comprender al menos una región exónica y al menos una región intrónica. Al menos el 5 % de las regiones genómicas pueden comprender regiones intrónicas. Al menos aproximadamente el 20 % de las regiones genómicas pueden comprender regiones exónicas. Las regiones genómicas pueden comprender menos de 1,5 megabases (Mb) del genoma. Las regiones genómicas pueden comprender menos de 1 Mb del genoma. Las regiones genómicas pueden comprender menos de 500 kilobases (kb) del genoma. Las regiones genómicas pueden comprender menos de 350 kb del genoma. Las regiones genómicas pueden comprender entre 100 kb y 300 kb del genoma. La información de secuencia puede comprender información relativa a 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20 o más regiones genómicas de un conjunto selector que comprende una pluralidad de regiones genómicas. La información de secuencia puede comprender información relativa a 25, 30, 40, 50, 60, 70, 80, 90, 100 o más regiones genómicas de un conjunto selector que comprende una pluralidad de regiones genómicas. La información de secuencia puede comprender información relativa a una pluralidad de regiones genómicas. La pluralidad de regiones genómicas puede basarse en un conjunto selector que comprende regiones genómicas que comprenden una o más mutaciones presentes en uno o más sujetos de una población de sujetos con cáncer. Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de la pluralidad de regiones genómicas puede estar basada en un conjunto selector que comprende regiones genómicas que comprenden una o más mutaciones presentes en uno o más sujetos de una población de sujetos con cáncer. El tamaño total de las regiones genómicas del conjunto selector puede comprender menos de 1,5 megabases (Mb), 1 Mb, 500 kilobases (kb), 350 kb, 300 kb, 250 kb, 200 kb o 150 kb del genoma. El tamaño total de las regiones genómicas del conjunto selector puede estar entre 100 kb y 300 kb del genoma. El conjunto selector puede comprender 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 100 o más regiones genómicas seleccionadas de la Tabla 2. En algunos casos, el sujeto no padece cáncer de páncreas. La obtención de información de secuencia puede comprender la realización de una secuenciación masivamente paralela. La secuenciación masivamente paralela puede realizarse en un subconjunto de un genoma de cfDNA procedente de la muestra de cfDNA. El subconjunto del genoma puede comprender menos de 1,5 megabases (Mb), 1 Mb, 500 kilobases (kb), 350 kb, 300 kb, 250 kb, 200 kb o 150 kb del genoma. El subconjunto del genoma puede comprender entre 100 kb y 300 kb del genoma. La obtención de información de secuencia puede comprender el uso de códigos de barras de una sola molécula. El uso de códigos de barras de una sola molécula puede comprender adjuntar códigos de barras que comprenden diferentes secuencias a ácidos nucleicos de la muestra de cfDNA. La información de secuencia puede comprender información de secuencia relativa a los códigos de barras. El método puede comprender obtener información de secuenciación de muestras de ADN libres de células a partir de dos o más muestras del sujeto. Las dos o más muestras pueden ser del mismo tipo de muestra. Las dos o más muestras pueden ser dos tipos diferentes de muestra. Las dos o más muestras pueden obtenerse del sujeto en el mismo momento. Las dos o más muestras pueden obtenerse del sujeto en dos o más momentos. El método puede comprender obtener información de secuenciación de muestras de ADN sin células a partir de dos o más sujetos diferentes. Las muestras de dos o más sujetos diferentes pueden indexarse y agruparse antes de obtener la información de secuenciación. El uso de la información de secuencia puede comprender detectar uno o más SNV, indeles, fusiones, puntos de rotura, variantes estructurales, número variable de repeticiones en tándem, regiones hipervariables, minisatélites, repeticiones dinucleotídicas, repeticiones trinucleotídicas, repeticiones tetranucleotídicas, repeticiones de secuencia sencilla, o una combinación de las mismas en regiones seleccionadas del genoma del sujeto. El uso de la información de secuencia puede comprender detectar uno o más SNV, indeles, variantes del número de copias y reordenamientos en regiones seleccionadas del genoma del sujeto. El uso de la información de secuencia puede comprender la detección de dos o más SNV, indeles, variantes del número de copias y reordenamientos en regiones seleccionadas del genoma del sujeto. El uso de la información de secuencia puede comprender detectar al menos un SNV, indel, variante del número de copias y reordenamiento en regiones seleccionadas del genoma del sujeto. En algunos casos, la detección no implica la realización de PCR digital (dPCR). La detección de ctDNA puede comprender la aplicación de un algoritmo a la información de secuencia para determinar una cantidad de una o más regiones genómicas a partir de un conjunto selector. El conjunto selector puede comprender una pluralidad de regiones genómicas que comprenden una o más mutaciones presentes en uno o más sujetos con cáncer de una población de sujetos con cáncer. El conjunto selector puede comprender una pluralidad de regiones genómicas que comprenden una o más mutaciones presentes en al menos aproximadamente el 60 % de los sujetos con cáncer de la población de sujetos con cáncer. El ctDNA puede proceder de un tumor en el sujeto. El método puede comprender además la detección de un cáncer en el sujeto basándose en la detección del ctDNA. El método puede comprender además diagnosticar un cáncer en el sujeto basándose en la detección del ctDNA. El diagnóstico del cáncer puede tener una sensibilidad de al menos aproximadamente el 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 % o 99 %. El diagnóstico del cáncer puede tener una especificidad de al menos aproximadamente el 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 % o 99 %. El método puede comprender además pronosticar un cáncer en el sujeto basándose en la detección del ctDNA. El pronóstico del cáncer puede tener una sensibilidad de al menos aproximadamente el 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 % o 99 %. El pronóstico del cáncer puede tener una especificidad de al menos aproximadamente el 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 % o 99 %. El método puede comprender además determinar un régimen terapéutico para el sujeto basándose en la detección del ctDNA. El método puede comprender además administrar una terapia contra el cáncer al sujeto basándose en la detección del ctDNA.
Además, en el presente documento se desvelan métodos para diagnosticar un estado o resultado de un cáncer en un sujeto. El método puede comprender (a) obtener información de secuencia de ADN genómico libre de células derivado de una muestra de un sujeto, en donde la información de secuencia deriva de regiones genómicas que están mutadas en al menos el 80 % de una población de sujetos afectados por un cáncer; y (b) diagnosticar un cáncer seleccionado de un grupo que consiste en cáncer de pulmón, cáncer de mama, cáncer colorrectal y cáncer de próstata en el sujeto basándose en la información de secuencia, en donde el método tiene una sensibilidad del 80 %. Las regiones que están mutadas pueden comprender un tamaño total de menos de 1,5 Mb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 1 Mb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 500 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 350 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total entre 100 kb y 300 kb del genoma. La información de secuencia puede proceder de 2 o más regiones. La secuencia puede proceder de 10 o más regiones. La secuencia puede proceder de 50 o más regiones. La población de sujetos afectados por el cáncer puede ser sujetos de una o más bases de datos. Dichas una o más bases de datos pueden comprender el Atlas del Genoma del Cáncer (TCGA). La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 60 % de la población de sujetos afectados por el cáncer. La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 70 % de la población de sujetos afectados por el cáncer. La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 80 % de la población de sujetos afectados por el cáncer. La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 90 % de la población de sujetos afectados por el cáncer. La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 95 % de la población de sujetos afectados por el cáncer. La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 99 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que están mutadas en al menos el 85 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que están mutadas en al menos el 90 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que están mutadas en al menos el 95 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que están mutadas en al menos el 99 % de la población de sujetos afectados por el cáncer. La obtención de la información de secuencia puede comprender la secuenciación de regiones no codificantes. Las regiones no codificantes pueden comprender uno o más lncRNA, snoRNA, siRNA, miRNA, piRNA, tiRNA, PASR, TASR, aTASR, TSSa-RNA, snRNA, RE-RNA, uaRNA, x-ncRNA, hY RNA, usRNA, snaR, vtRNA, T-UCR, pseudogenes, GRC-RNA, aRNA, PALR, PROMPT, LSINCT, o una combinación de los mismos. la obtención de la información de secuencia puede comprender la secuenciación de regiones codificantes de proteínas. Las regiones codificantes de proteínas pueden comprender uno o más exones, intrones, regiones no traducidas o una combinación de los mismos. En algunos casos, al menos una de las regiones no comprende KRAS o EGFR. En algunos casos, al menos dos de las regiones no comprenden KRAS y EGFR. En algunos casos, al menos una de las regiones no comprende KRAS, EGFR, p53, PIK3CA, BRAF, EZH2 o BRCA1. En algunos casos, al menos dos de las regiones no comprenden KRAS, EGFR, p53, PIK3CA, BRAF, EZH2 o BRCA1. En algunos casos, al menos tres de las regiones no comprenden KRAS, EGFR, p53, PIK3CA, BRAF, EZH2 o BRCA1. En algunos casos, al menos cuatro de las regiones no comprenden KRAS, EGFR, p53, PIK3CA, BRAF, EZH2 o BRCA1. El método puede comprender además detectar mutaciones en las regiones basándose en la información de secuenciación. El diagnóstico del cáncer puede basarse en la detección de mutaciones. La detección de al menos 3 mutaciones puede ser indicativa del cáncer. La detección de una o más mutaciones en tres o más regiones puede ser indicativa del cáncer. El cáncer de mama puede ser un cáncer BRCA1. El método puede tener una sensibilidad de al menos el 85 %, 87 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 % o 99 %. El método puede tener una especificidad de al menos el 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 % o 99 %. El método puede comprender además proporcionar un informe generado por ordenador que comprende el diagnóstico del cáncer.
Además, en el presente documento se desvelan métodos para pronosticar un estado o resultado de un cáncer en un sujeto. El método puede comprender (a) obtener información de secuencia de ADN genómico libre de células derivado de una muestra de un sujeto, en donde la información de secuencia deriva de regiones genómicas que están mutadas en al menos el 80 % de una población de sujetos afectados por una afección; y (b) determinar un pronóstico de una afección en el sujeto basándose en la información de secuencia. Las regiones que están mutadas pueden comprender un tamaño total de menos de 1,5 Mb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 1 Mb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 500 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 350 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total entre 100 kb y 300 kb del genoma. La información de secuencia puede proceder de 2 o más regiones. La secuencia puede proceder de 10 o más regiones. La secuencia puede proceder de 50 o más regiones. La población de sujetos afectados por la afección puede ser sujetos de una o más bases de datos. Dichas una o más bases de datos pueden comprender el Atlas del Genoma del Cáncer (TCGA). La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 60 % de la población de sujetos afectados por la afección. La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 70 % de la población de sujetos afectados por la afección. La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 80 % de la población de sujetos afectados por la afección. La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 90 % de la población de sujetos afectados por la afección. La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 95 % de la población de sujetos afectados por la afección. La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 99 % de la población de sujetos afectados por la afección. La información de secuencia puede proceder de regiones que están mutadas en al menos el 85 % de la población de sujetos afectados por la afección. La información de secuencia puede proceder de regiones que están mutadas en al menos el 90 % de la población de sujetos afectados por la afección. La información de secuencia puede proceder de regiones que están mutadas en al menos el 95 % de la población de sujetos afectados por la afección. La información de secuencia puede proceder de regiones que están mutadas en al menos el 99 % de la población de sujetos afectados por la afección. La obtención de la información de secuencia puede comprender la secuenciación de regiones no codificantes. Las regiones no codificantes pueden comprender uno o más lncRNA, snoRNA, siRNA, miRNA, piRNA, tiRNA, PASR, TASR, aTASR, TSSa-RNA, snRNA, RE-RNA, uaRNA, x-ncRNA, hY RNA, usRNA, snaR, vtRNA, T-UCR, pseudogenes, GRC-RNA, aRNA, PALR, PROMPT, LSINCT, o una combinación de los mismos. la obtención de la información de secuencia puede comprender la secuenciación de regiones codificantes de proteínas. Las regiones codificantes de proteínas pueden comprender uno o más exones, intrones, regiones no traducidas o una combinación de los mismos. En algunos casos, al menos una de las regiones no comprende KRAS o EGFR. En algunos casos, al menos dos de las regiones no comprenden KRAS y EGFR. En algunos casos, al menos una de las regiones no comprende KRAS, EGFR, p53, PIK3CA, BRAF, EZH2 o BRCA1. En algunos casos, al menos dos de las regiones no comprenden KRAS, EGFR, p53, PIK3CA, BRAF, EZH2 o BRCA1. En algunos casos, al menos tres de las regiones no comprenden KRAS, EGFR, p53, PIK3CA, BRAF, EZH2 o BRCA1. En algunos casos, al menos cuatro de las regiones no comprenden KRAS, EGFR, p53, PIK3CA, BRAF, EZH2 o BRCA1. El método puede comprender además detectar mutaciones en las regiones basándose en la información de secuenciación. El pronóstico de la afección puede basarse en la detección de las mutaciones. La detección de al menos 3 mutaciones puede ser indicativa de un resultado de la afección. La detección de una o más mutaciones en tres o más regiones puede ser indicativa de un resultado de la afección. La afección puede ser un cáncer. El cáncer puede ser un tumor sólido. El tumor sólido puede ser cáncer de pulmón no microcítico (NSCLC). El cáncer puede ser un cáncer de mama. El cáncer de mama puede ser un cáncer BRCA1. El cáncer puede ser un cáncer de pulmón, cáncer colorrectal, cáncer de próstata, cáncer de ovario, cáncer esofágico, cáncer de mama, linfoma o leucemia. El método puede tener una sensibilidad de al menos el 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 % o 99 %. El método puede tener una especificidad de al menos el 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 % o 99 %. El método puede comprender además proporcionar un informe generado por ordenador que comprende el pronóstico de la afección.
En el presente documento se desvelan métodos para detectar al menos el 50% del cáncer en estadio I con una especificidad superior al 90%. El método puede comprender (a) realizar la secuenciación en ADN libre de células derivado de una muestra, en donde el ADN libre de células a secuenciar está basado en un conjunto selector que comprende una pluralidad de regiones genómicas; (b) utilizar un medio legible por ordenador para determinar una cantidad de ADN libre de células basándose en la información de secuenciación del ADN libre de células; y (c) detectar un cáncer en estadio I en la muestra basándose en la cantidad del ADN libre de células. La determinación de la cantidad del ADN libre de células puede comprender la determinación de cantidades absolutas de ADN libre de células. La cantidad del ADN libre de células puede determinarse contando las lecturas de secuenciación pertenecientes al ADN libre de células. La cantidad del ADN libre de células puede determinarse mediante PCR cuantitativa. La cantidad de ADN libre de células puede determinarse mediante un código de barras molecular del ADN libre de células (cfDNA). La generación del código de barras molecular del cfDNA puede comprender unir códigos de barras a uno o más extremos del cfDNA. El código de barras puede comprender una secuencia aleatoria. Dos o más códigos de barras pueden comprender dos o más secuencias aleatorias diferentes. El código de barras puede comprender una secuencia adaptadora. Dos o más códigos de barras pueden comprender la misma secuencia de adaptador. El código de barras puede comprender una secuencia de cebador. Dos o más códigos de barras pueden comprender la misma secuencia de cebador. La secuencia del cebador puede ser una secuencia del cebador de PCR. La secuencia del cebador puede ser un cebador de secuenciación. La unión de los códigos de barras a uno o más extremos del ctDNA puede comprender el ligamiento de los códigos de barras a uno o más extremos del ctDNA. La secuenciación puede comprender una secuenciación masivamente paralela. El conjunto selector puede comprender 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95 o 100 o más regiones genómicas de la Tabla 2. Al menos el 20 %, 30 %, 35 %, 40 %, 455, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % o más de las regiones genómicas en el conjunto selector están basadas en regiones genómicas de la Tabla 2. La pluralidad de regiones genómicas puede comprender una o más mutaciones presentes en al menos el 60 %, 62 %, 65 %, 67 %, 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 92 %, 95 %, 97 % o 99% o más de una población de sujetos que padecen el cáncer. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede comprender menos de 1,5 megabases (Mb), 1 Mb, 500 kilobases (kb), 350 kb, 300 kb, 250 kb, 200 kb o 150 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 100 kb y 300 kb de un genoma. El método puede tener una sensibilidad de al menos el 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 92 %, 95 %, 97 % o 99 % o más. El método puede detectar al menos el 52 %, 55 %, 57 %, 60 %, 62 %, 65 %, 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 92 %, 95 %, 97 % o más del cáncer en estadio I.
En el presente documento se desvelan métodos para detectar al menos el 60 % del cáncer en estadio II con una especificidad superior al 90% que comprenden (a) realizar la secuenciación en ADN libre de células derivado de una muestra, en donde el ADN libre de células a secuenciar está basado en un conjunto selector que comprende una pluralidad de regiones genómicas; (b) utilizar un medio legible por ordenador para determinar una cantidad de ADN libre de células basándose en la información de secuenciación del ADN libre de células; y (c) detectar un cáncer en estadio II en la muestra basándose en la cantidad de ADN libre de células. La determinación de la cantidad del ADN libre de células puede comprender la determinación de cantidades absolutas de ADN libre de células. La cantidad del ADN libre de células puede determinarse contando las lecturas de secuenciación pertenecientes al ADN libre de células. La cantidad del ADN libre de células puede determinarse mediante PCR cuantitativa. La cantidad de ADN libre de células puede determinarse mediante un código de barras molecular del ADN libre de células (cfDNA). La generación del código de barras molecular del cfDNA puede comprender unir códigos de barras a uno o más extremos del cfDNA. El código de barras puede comprender una secuencia aleatoria. Dos o más códigos de barras pueden comprender dos o más secuencias aleatorias diferentes. El código de barras puede comprender una secuencia adaptadora. Dos o más códigos de barras pueden comprender la misma secuencia de adaptador. El código de barras puede comprender una secuencia de cebador. Dos o más códigos de barras pueden comprender la misma secuencia de cebador. La secuencia del cebador puede ser una secuencia del cebador de PCR. La secuencia del cebador puede ser un cebador de secuenciación. La unión de los códigos de barras a uno o más extremos del ctDNA puede comprender el ligamiento de los códigos de barras a uno o más extremos del ctDNA. La secuenciación puede comprender una secuenciación masivamente paralela. El conjunto selector puede comprender 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95 o 100 o más regiones genómicas de la Tabla 2. Al menos el 20 %, 30 %, 35 %, 40 %, 455, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % o más de las regiones genómicas en el conjunto selector pueden estar basadas en las regiones genómicas de la Tabla 2. La pluralidad de regiones genómicas puede comprender una o más mutaciones presentes en al menos el 60 %, 62 %, 65 %, 67 %, 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 92 %, 95 %, 97 % o 99% o más de una población de sujetos que padecen el cáncer. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede comprender menos de 1,5 megabases (Mb), 1 Mb, 500 kilobases (kb), 350 kb, 300 kb, 250 kb, 200 kb o 150 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 100 kb y 300 kb de un genoma. El método puede tener una sensibilidad de al menos el 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 92 %, 95 %, 97 % o 99 % o más. El método puede detectar al menos el 60 %, 62 %, 65 %, 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 92 %, 95 %, 97 % o más del cáncer en estadio II.
En el presente documento se desvelan métodos para detectar al menos el 60 % del cáncer en estadio III con una especificidad superior al 90% que comprenden (a) realizar la secuenciación en ADN libre de células derivado de una muestra, en donde el ADN libre de células a secuenciar está basado en un conjunto selector que comprende una pluralidad de regiones genómicas; (b) utilizar un medio legible por ordenador para determinar una cantidad de ADN libre de células basándose en la información de secuenciación del ADN libre de células; y (c) detectar un cáncer en estadio III en la muestra basándose en la cantidad de ADN libre de células. La determinación de la cantidad del ADN libre de células puede comprender la determinación de cantidades absolutas de ADN libre de células. La cantidad del ADN libre de células puede determinarse contando las lecturas de secuenciación pertenecientes al ADN libre de células. La cantidad del ADN libre de células puede determinarse mediante PCR cuantitativa. La cantidad de ADN libre de células puede determinarse mediante un código de barras molecular del ADN libre de células (cfDNA). La generación del código de barras molecular del cfDNA puede comprender unir códigos de barras a uno o más extremos del cfDNA. El código de barras puede comprender una secuencia aleatoria. Dos o más códigos de barras pueden comprender dos o más secuencias aleatorias diferentes. El código de barras puede comprender una secuencia adaptadora. Dos o más códigos de barras pueden comprender la misma secuencia de adaptador. El código de barras puede comprender una secuencia de cebador. Dos o más códigos de barras pueden comprender la misma secuencia de cebador. La secuencia del cebador puede ser una secuencia del cebador de PCR. La secuencia del cebador puede ser un cebador de secuenciación. La unión de los códigos de barras a uno o más extremos del ctDNA puede comprender el ligamiento de los códigos de barras a uno o más extremos del ctDNA. La secuenciación puede comprender una secuenciación masivamente paralela. El conjunto selector puede comprender 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95 o 100 o más regiones genómicas de la Tabla 2. Al menos el 20 %, 30 %, 35 %, 40 %, 455, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % o más de las regiones genómicas en el conjunto selector pueden estar basadas en las regiones genómicas de la Tabla 2. La pluralidad de regiones genómicas puede comprender una o más mutaciones presentes en al menos el 60 %, 62 %, 65 %, 67 %, 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 92 %, 95 %, 97 % o 99% o más de una población de sujetos que padecen el cáncer. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede comprender menos de 1,5 megabases (Mb), 1 Mb, 500 kilobases (kb), 350 kb, 300 kb, 250 kb, 200 kb o 150 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 100 kb y 300 kb de un genoma. El método puede tener una sensibilidad de al menos el 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 92 %, 95 %, 97 % o 99 % o más. El método puede detectar al menos el 60 %, 62 %, 65 %, 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 92 %, 95 %, 97 % o más del cáncer en estadio III.
En el presente documento se desvelan métodos para detectar al menos el 60 % del cáncer en estadio IV con una especificidad superior al 90% que comprenden (a) realizar la secuenciación en ADN libre de células derivado de una muestra, en donde el ADN libre de células a secuenciar está basado en un conjunto selector que comprende una pluralidad de regiones genómicas; (b) utilizar un medio legible por ordenador para determinar una cantidad de ADN libre de células basándose en la información de secuenciación del ADN libre de células; y (c) detectar un cáncer en estadio IV en la muestra basándose en la cantidad de ADN libre de células. La determinación de la cantidad del ADN libre de células puede comprender la determinación de cantidades absolutas de ADN libre de células. La cantidad del ADN libre de células puede determinarse contando las lecturas de secuenciación pertenecientes al ADN libre de células. La cantidad del ADN libre de células puede determinarse mediante PCR cuantitativa. La cantidad de ADN libre de células puede determinarse mediante un código de barras molecular del ADN libre de células (cfDNA). La generación del código de barras molecular del cfDNA puede comprender unir códigos de barras a uno o más extremos del cfDNA. El código de barras puede comprender una secuencia aleatoria. Dos o más códigos de barras pueden comprender dos o más secuencias aleatorias diferentes. El código de barras puede comprender una secuencia adaptadora. Dos o más códigos de barras pueden comprender la misma secuencia de adaptador. El código de barras puede comprender una secuencia de cebador. Dos o más códigos de barras pueden comprender la misma secuencia de cebador. La secuencia del cebador puede ser una secuencia del cebador de PCR. La secuencia del cebador puede ser un cebador de secuenciación. La unión de los códigos de barras a uno o más extremos del ctDNA puede comprender el ligamiento de los códigos de barras a uno o más extremos del ctDNA. La secuenciación puede comprender una secuenciación masivamente paralela. El conjunto selector puede comprender 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95 o 100 o más regiones genómicas de la Tabla 2. Al menos el 20 %, 30 %, 35 %, 40 %, 455, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % o más de las regiones genómicas en el conjunto selector pueden estar basadas en las regiones genómicas de la Tabla 2. La pluralidad de regiones genómicas puede comprender una o más mutaciones presentes en al menos el 60 %, 62 %, 65 %, 67 %, 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 92 %, 95 %, 97 % o 99% o más de una población de sujetos que padecen el cáncer. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede comprender menos de 1,5 megabases (Mb), 1 Mb, 500 kilobases (kb), 350 kb, 300 kb, 250 kb, 200 kb o 150 kb de un genoma. El tamaño total de la pluralidad de regiones genómicas del conjunto selector puede estar entre 100 kb y 300 kb de un genoma. El método puede tener una sensibilidad de al menos el 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 92 %, 95 %, 97% o 99% o más. El método puede detectar al menos el 60%, 62 %, 65 %, 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 92 %, 95 %, 97 % o más del cáncer en estadio IV.
En el presente documento también se desvelan métodos para seleccionar una terapia para un sujeto que padece un cáncer. El método puede comprender (a) obtener información de secuencia de una muestra de ADN libre de células (cfDNA) derivada del sujeto; (b) usar la información de secuencia derivada de (a) para detectar ADN tumoral libre de células (ctDNA) en la muestra; y (c) determinar una terapia para el sujeto basada en la detección del ctDNA, en donde el método es capaz de detectar un porcentaje de ctDNA que es menor del 2 % del cfDNA total. El método puede ser capaz de detectar un porcentaje de ctDNA que es inferior al 1,5 % del cfDNA total. El método puede ser capaz de detectar un porcentaje de ctDNA que es inferior al 1 % del cfDNA total. El método puede ser capaz de detectar un porcentaje de ctDNA que es inferior al 0,5 % del cfDNA total. El método puede ser capaz de detectar un porcentaje de ctDNA que es inferior al 0,1 % del cfDNA total. El método puede ser capaz de detectar un porcentaje de ctDNA que es inferior al 0,01 % del cfDNA total. El método puede ser capaz de detectar un porcentaje de ctDNA que es inferior al 0,001 % del cfDNA total. El método puede ser capaz de detectar un porcentaje de ctDNA que es inferior al 0,0001 % del cfDNA total. La muestra puede ser una muestra de plasma o suero. La muestra puede ser una muestra de líquido cefalorraquídeo. En algunos casos, la muestra no es una muestra de líquido de frotis de Papanicolaou. En algunos casos, la muestra es una muestra de líquido quístico. En algunos casos, la muestra es una muestra de líquido pancreático. La información de secuencia puede comprender información relacionada con al menos 10, 20, 30, 40, 100, 200, 300 regiones genómicas. Las regiones genómicas pueden comprender genes, regiones exónicas, regiones intrónicas, regiones no traducidas, regiones no codificantes o una combinación de las mismas. Las regiones genómicas pueden comprender dos o más regiones exónicas, regiones intrónicas y regiones no traducidas. Las regiones genómicas pueden comprender al menos una región exónica y al menos una región intrónica. Al menos el 5 % de las regiones genómicas pueden comprender regiones intrónicas. Al menos aproximadamente el 20 % de las regiones genómicas pueden comprender regiones exónicas. Las regiones genómicas pueden comprender menos de 1,5 megabases (Mb) del genoma. Las regiones genómicas pueden comprender menos de 1 Mb del genoma. Las regiones genómicas pueden comprender menos de 500 kilobases (kb) del genoma. Las regiones genómicas pueden comprender menos de 350 kb del genoma. Las regiones genómicas pueden comprender entre 100 kb y 300 kb del genoma. La información de secuencia puede comprender información relativa a 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20 o más regiones genómicas de un conjunto selector que comprende una pluralidad de regiones genómicas. La información de secuencia puede comprender información relativa a 25, 30, 40, 50, 60, 70, 80, 90, 100 o más regiones genómicas de un conjunto selector que comprende una pluralidad de regiones genómicas. La información de secuencia puede comprender información relativa a una pluralidad de regiones genómicas. La pluralidad de regiones genómicas puede basarse en un conjunto selector que comprende regiones genómicas que comprenden una o más mutaciones presentes en uno o más sujetos de una población de sujetos con cáncer. Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de la pluralidad de regiones genómicas puede estar basada en un conjunto selector que comprende regiones genómicas que comprenden una o más mutaciones presentes en uno o más sujetos de una población de sujetos con cáncer. El tamaño total de las regiones genómicas del conjunto selector puede comprender menos de 1,5 megabases (Mb), 1 Mb, 500 kilobases (kb), 350 kb, 300 kb, 250 kb, 200 kb o 150 kb del genoma. El tamaño total de las regiones genómicas del conjunto selector puede estar entre 100 kb y 300 kb del genoma. El conjunto selector puede comprender 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 100 o más regiones genómicas seleccionadas de la Tabla 2. En algunos casos, el sujeto no padece cáncer de páncreas. La obtención de información de secuencia puede comprender la realización de una secuenciación masivamente paralela. La secuenciación masivamente paralela puede realizarse en un subconjunto de un genoma de cfDNA procedente de la muestra de cfDNA. El subconjunto del genoma puede comprender menos de 1,5 megabases (Mb), 1 Mb, 500 kilobases (kb), 350 kb, 300 kb, 250 kb, 200 kb o 150 kb del genoma. El subconjunto del genoma puede comprender entre 100 kb y 300 kb del genoma. La obtención de información de secuencia puede comprender el uso de códigos de barras de una sola molécula. El uso de códigos de barras de una sola molécula puede comprender adjuntar códigos de barras que comprenden diferentes secuencias a ácidos nucleicos de la muestra de cfDNA. La información de secuencia puede comprender información de secuencia relativa a los códigos de barras. El método puede comprender obtener información de secuenciación de muestras de ADN libres de células a partir de dos o más muestras del sujeto. Las dos o más muestras pueden ser del mismo tipo de muestra. Las dos o más muestras pueden ser dos tipos diferentes de muestra. Las dos o más muestras pueden obtenerse del sujeto en el mismo momento. Las dos o más muestras pueden obtenerse del sujeto en dos o más momentos. El método puede comprender obtener información de secuenciación de muestras de ADN sin células a partir de dos o más sujetos diferentes. Las muestras de dos o más sujetos diferentes pueden indexarse y agruparse antes de obtener la información de secuenciación. El uso de la información de secuencia puede comprender detectar uno o más SNV, indeles, fusiones, puntos de rotura, variantes estructurales, número variable de repeticiones en tándem, regiones hipervariables, minisatélites, repeticiones dinucleotídicas, repeticiones trinucleotídicas, repeticiones tetranucleotídicas, repeticiones de secuencia sencilla, o una combinación de las mismas en regiones seleccionadas del genoma del sujeto. El uso de la información de secuencia puede comprender detectar uno o más SNV, indeles, variantes del número de copias y reordenamientos en regiones seleccionadas del genoma del sujeto. El uso de la información de secuencia puede comprender la detección de dos o más SNV, indeles, variantes del número de copias y reordenamientos en regiones seleccionadas del genoma del sujeto. El uso de la información de secuencia puede comprender detectar al menos un SNV, indel, variante del número de copias y reordenamiento en regiones seleccionadas del genoma del sujeto. En algunos casos, la detección no implica la realización de PCR digital (dPCR). La detección de ctDNA puede comprender la aplicación de un algoritmo a la información de secuencia para determinar una cantidad de una o más regiones genómicas a partir de un conjunto selector. El conjunto selector puede comprender una pluralidad de regiones genómicas que comprenden una o más mutaciones presentes en uno o más sujetos con cáncer de una población de sujetos con cáncer. El conjunto selector puede comprender una pluralidad de regiones genómicas que comprenden una o más mutaciones presentes en al menos aproximadamente el 60 % de los sujetos con cáncer de la población de sujetos con cáncer. El ctDNA puede proceder de un tumor en el sujeto. La determinación de la terapia puede comprender la administración de una terapia al sujeto. La determinación de la terapia puede comprender la modificación de un régimen terapéutico. La modificación del régimen terapéutico puede comprender la terminación de un régimen terapéutico. La modificación del régimen terapéutico puede comprender el ajuste de una dosificación de la terapia. La modificación del régimen terapéutico puede comprender el ajuste de la frecuencia de la terapia. El régimen terapéutico puede modificarse basándose en un cambio en la cantidad de ctDNA. La dosificación de la terapia puede aumentarse en respuesta a un aumento en la cantidad del ctDNA. La dosificación de la terapia puede reducirse en respuesta a una disminución en la cantidad del ctDNA. La frecuencia de la terapia puede incrementarse en respuesta a un aumento en la cantidad del ctDNA. La frecuencia de la terapia puede disminuirse en respuesta a una disminución en la cantidad de ctDNA.
Como alternativa, el método puede comprender (a) obtener información de secuencia de ADN genómico libre de células derivado de una muestra de un sujeto, en donde la información de secuencia deriva de regiones genómicas que están mutadas en al menos el 80 % de una población de sujetos afectados por una afección; y (b) determinar un régimen terapéutico de una afección en el sujeto basándose en la información de la secuencia. Las regiones que están mutadas pueden comprender un tamaño total de menos de 1,5 Mb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 1 Mb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 500 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total de menos de 350 kb del genoma. Las regiones que están mutadas pueden comprender un tamaño total entre 100 kb y 300 kb del genoma. La información de secuencia puede proceder de 2 o más regiones. La secuencia puede proceder de 10 o más regiones. La secuencia puede proceder de 50 o más regiones. La población de sujetos afectados por la afección puede ser sujetos de una o más bases de datos. Dichas una o más bases de datos pueden comprender el Atlas del Genoma del Cáncer (TCGA). La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 60 % de la población de sujetos afectados por la afección. La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 70 % de la población de sujetos afectados por la afección. La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 80 % de la población de sujetos afectados por la afección. La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 90 % de la población de sujetos afectados por la afección. La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 95 % de la población de sujetos afectados por la afección. La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 99 % de la población de sujetos afectados por la afección. La información de secuencia puede proceder de regiones que están mutadas en al menos el 85 % de la población de sujetos afectados por la afección. La información de secuencia puede proceder de regiones que están mutadas en al menos el 90 % de la población de sujetos afectados por la afección. La información de secuencia puede proceder de regiones que están mutadas en al menos el 95 % de la población de sujetos afectados por la afección. La información de secuencia puede proceder de regiones que están mutadas en al menos el 99 % de la población de sujetos afectados por la afección. La obtención de la información de secuencia puede comprender la secuenciación de regiones no codificantes. Las regiones no codificantes pueden comprender uno o más lncRNA, snoRNA, siRNA, miRNA, piRNA, tiRNA, PASR, TASR, aTASR, TSSa-RNA, snRNA, RE-RNA, uaRNA, x-ncRNA, hY RNA, usRNA, snaR, vtRNA, T-UCR, pseudogenes, GRC-RNA, aRNA, PALR, PROMPT, LSINCT, o una combinación de los mismos. la obtención de la información de secuencia puede comprender la secuenciación de regiones codificantes de proteínas. Las regiones codificantes de proteínas pueden comprender uno o más exones, intrones, regiones no traducidas o una combinación de los mismos. En algunos casos, al menos una de las regiones no comprende KRAS o EGFR. En algunos casos, al menos dos de las regiones no comprenden KRAS y EGFR. En algunos casos, al menos una de las regiones no comprende KRAS, EGFR, p53, PIK3CA, BRAF, EZH2 o BRCA1. En algunos casos, al menos dos de las regiones no comprenden KRAS, EGFR, p53, PIK3CA, BRAF, EZH2 o BRCA1. En algunos casos, al menos tres de las regiones no comprenden KRAS, EGFR, p53, PIK3CA, BRAF, EZH2 o BRCA1. En algunos casos, al menos cuatro de las regiones no comprenden KRAS, EGFR, p53, PIK3CA, BRAF, EZH2 o BRCA1. El método puede comprender además detectar mutaciones en las regiones basándose en la información de secuenciación. La determinación del régimen terapéutico puede basarse en la detección de mutaciones. La afección puede ser un cáncer. El cáncer puede ser un tumor sólido. El tumor sólido puede ser cáncer de pulmón no microcítico (NSCLC). El cáncer puede ser un cáncer de mama. El cáncer de mama puede ser un cáncer BRCA1. El cáncer puede ser un cáncer de pulmón, cáncer colorrectal, cáncer de próstata, cáncer de ovario, cáncer esofágico, cáncer de mama, linfoma o leucemia.
En el presente documento también se desvelan métodos para el diagnóstico, pronóstico o determinación de un régimen terapéutico para un sujeto afectado o susceptible de tener un cáncer. El método puede comprender (a) obtener información de secuencia para regiones seleccionadas de ADN genómico a partir de una muestra de ADN libre de células del sujeto; (b) usar la información de secuencia para determinar la presencia o ausencia de una o más mutaciones en las regiones seleccionadas, en donde al menos el 70 % de una población de sujetos afectados por el cáncer tiene una o más mutaciones en las regiones; y (c) proporcionar un informe con un diagnóstico, pronóstico o régimen de tratamiento para el sujeto, basado en la presencia o ausencia de dichas una o más mutaciones. Las regiones seleccionadas pueden comprender un tamaño total de menos de 1,5 Mb del genoma. Las regiones seleccionadas pueden comprender un tamaño total de menos de 1 Mb del genoma. Las regiones seleccionadas pueden comprender un tamaño total de menos de 500 kb del genoma. Las regiones seleccionadas mutadas pueden comprender un tamaño total de menos de 350 kb del genoma. Las regiones seleccionadas pueden comprender un tamaño total entre 100 kb y 300 kb del genoma. La información de secuencia puede proceder de 2 o más regiones seleccionadas. La secuencia puede proceder de 10 o más regiones seleccionadas. La secuencia puede proceder de 50 o más regiones seleccionadas. La población de sujetos afectados por el cáncer puede ser sujetos de una o más bases de datos. Dichas una o más bases de datos pueden comprender el Atlas del Genoma del Cáncer (TCGA). La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 60 % de la población de sujetos afectados por el cáncer. La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 70 % de la población de sujetos afectados por el cáncer. La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 80 % de la población de sujetos afectados por el cáncer. La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 90 % de la población de sujetos afectados por el cáncer. La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 95 % de la población de sujetos afectados por el cáncer. La información de secuencia puede comprender información relativa a al menos una mutación que puede estar presente en al menos aproximadamente el 99 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que están mutadas en al menos el 85 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que están mutadas en al menos el 90 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que están mutadas en al menos el 95 % de la población de sujetos afectados por el cáncer. La información de secuencia puede proceder de regiones que están mutadas en al menos el 99 % de la población de sujetos afectados por el cáncer. La obtención de la información de secuencia puede comprender la secuenciación de regiones no codificantes. Las regiones no codificantes pueden comprender uno o más lncRNA, snoRNA, siRNA, miRNA, piRNA, tiRNA, PASR, TASR, aTASR, TSSa-RNA, snRNA, RE-RNA, uaRNA, x-ncRNA, hY RNA, usRNA, snaR, vtRNA, T-UCR, pseudogenes, GRC-RNA, aRNA, PALR, PROMPT, LSINCT, o una combinación de los mismos. la obtención de la información de secuencia puede comprender la secuenciación de regiones codificantes de proteínas. Las regiones codificantes de proteínas pueden comprender uno o más exones, intrones, regiones no traducidas o una combinación de los mismos. En algunos casos, al menos una de las regiones no comprende KRAS o EGFR. En algunos casos, al menos dos de las regiones no comprenden KRAS y EGFR. En algunos casos, al menos una de las regiones no comprende KRAS, EGFR, p53, PIK3CA, BRAF, EZH2 o BRCA1. En algunos casos, al menos dos de las regiones no comprenden KRAS, EGFR, p53, PIK3CA, BRAF, EZH2 o BRCA1. En algunos casos, al menos tres de las regiones no comprenden KRAS, Eg Fr , p53, PIK3CA, BRAF, EZH2 o BRCA1. En algunos casos, al menos cuatro de las regiones no comprenden KRAS, EGFR, p53, PIK3CA, BRAF, EZH2 o BRCA1. La detección de al menos 3 mutaciones puede ser indicativa de un resultado del cáncer. La detección de una o más mutaciones en tres o más regiones puede ser indicativa de un resultado del cáncer. El cáncer puede ser cáncer de pulmón no microcítico (NSCLC). El cáncer puede ser un cáncer de mama. El cáncer de mama puede ser un cáncer BRCA1. El cáncer puede ser un cáncer de pulmón, cáncer colorrectal, cáncer de próstata, cáncer de ovario, cáncer esofágico, cáncer de mama, linfoma o leucemia. El método de diagnóstico o pronóstico del cáncer tiene una sensibilidad de al menos el 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 % o 99 %. El método de diagnóstico o pronóstico del cáncer tiene una especificidad de al menos el 70 %, 72 %, 75 %, 77 %, 80 %, 82 %, 85 %, 87 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 % o 99 %. El método puede comprender además administrar un fármaco terapéutico al sujeto. El método puede comprender además modificar un régimen terapéutico. La modificación del régimen terapéutico puede comprender terminar el régimen terapéutico. La modificación del régimen terapéutico puede comprender aumentar la dosis o la frecuencia del régimen terapéutico. La modificación del régimen terapéutico puede comprender disminuir la dosis o la frecuencia del régimen terapéutico. La modificación del régimen terapéutico puede comprender iniciar el régimen terapéutico.
En algunas realizaciones, el método comprende además seleccionar un régimen terapéutico basándose en el análisis. En una realización, el método comprende además determinar un curso de tratamiento para el sujeto basándose en el análisis. La presencia de células tumorales en un individuo, incluyendo una estimación de la carga tumoral, puede proporcionar información para guiar la toma de decisiones clínicas, tanto en términos de institución y escalada de la terapia como en la selección del agente terapéutico al que es más probable que el paciente muestre una respuesta sólida.
La información obtenida por CAPP-seq se puede utilizar para (a) determinar el tipo y nivel de intervención terapéutica justificada (por ejemplo, terapia más agresiva frente a menos agresiva, monoterapia frente a terapia combinada, tipo de terapia combinada), y (b) optimizar la selección de agentes terapéuticos. Con este enfoque, los regímenes terapéuticos se pueden individualizar y adaptar de acuerdo con los datos de especificidad obtenidos en diferentes momentos durante el curso del tratamiento, proporcionando así un régimen que es individualmente apropiado. Además, se pueden obtener muestras de pacientes en cualquier momento durante el proceso de tratamiento para su análisis.
El régimen terapéutico puede seleccionarse basándose en la situación específica del paciente. Cuando se utiliza CAPP-seq como diagnóstico inicial, una muestra que tiene un hallazgo positivo para la presencia de ctDNA puede indicar la necesidad de pruebas de diagnóstico adicionales para confirmar la presencia de un tumor y/o el inicio de la terapia citorreductora, por ejemplo, administración de fármacos quimioterapéuticos, administración de radioterapia y/o extirpación quirúrgica de tejido tumoral.
En el presente documento también se desvelan métodos para evaluar la carga tumoral en un sujeto. El método puede comprender (a) obtener información de secuencia sobre ácidos nucleicos libres de células derivados de una muestra del sujeto; (b) utilizar un medio legible por ordenador para determinar las cantidades de ADN tumoral circulante (ctDNA) en la muestra; (c) evaluar la carga tumoral basándose en las cantidades de ctDNA; y (d) notificar la carga tumoral al sujeto o a un representante del sujeto. La determinación de cantidades de ctDNA puede comprender la determinación de cantidades absolutas de ctDNA. La determinación de cantidades de ctDNA puede comprender la determinación de cantidades relativas de ctDNA. La determinación de las cantidades de ctDNA puede realizarse contando las lecturas de secuencia pertenecientes al ctDNA. La determinación de las cantidades de ctDNA se puede realizar mediante PCR cuantitativa. La determinación de las cantidades de ctDNA se puede realizar mediante PCR digital. La determinación de las cantidades de ctDNA puede realizarse mediante la generación de un código de barras molecular del ctDNA. La generación del código de barras molecular del ctDNA puede comprender unir códigos de barras uno o más extremos del ctDNA. El código de barras puede comprender una secuencia aleatoria. Dos o más códigos de barras pueden comprender dos o más secuencias aleatorias diferentes. El código de barras puede comprender una secuencia adaptadora. Dos o más códigos de barras pueden comprender la misma secuencia de adaptador. El código de barras puede comprender una secuencia de cebador. Dos o más códigos de barras pueden comprender la misma secuencia de cebador. La secuencia del cebador puede ser una secuencia del cebador de PCR. La secuencia del cebador puede ser un cebador de secuenciación. La unión de los códigos de barras a uno o más extremos del ctDNA puede comprender el ligamiento de los códigos de barras a uno o más extremos del ctDNA. La información de secuencia puede comprender información relacionada con una o más regiones genómicas. La información de secuencia puede comprender información relacionada con al menos 10, 20, 30, 40, 100, 200, 300 regiones genómicas. Las regiones genómicas pueden comprender genes, regiones exónicas, regiones intrónicas, regiones no traducidas, regiones no codificantes o una combinación de las mismas. Las regiones genómicas pueden comprender dos o más regiones exónicas, regiones intrónicas y regiones no traducidas. Las regiones genómicas pueden comprender al menos una región exónica y al menos una región intrónica. Al menos el 5 % de las regiones genómicas pueden comprender regiones intrónicas. Al menos aproximadamente el 20 % de las regiones genómicas pueden comprender regiones exónicas. Las regiones genómicas pueden comprender menos de 1,5 megabases (Mb) del genoma. Las regiones genómicas pueden comprender menos de 1 Mb del genoma. Las regiones genómicas pueden comprender menos de 500 kilobases (kb) del genoma. Las regiones genómicas pueden comprender menos de 350 kb del genoma. Las regiones genómicas pueden comprender entre 100 kb y 300 kb del genoma. La información de secuencia puede comprender información relativa a 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20 o más regiones genómicas de un conjunto selector que comprende una pluralidad de regiones genómicas. La información de secuencia puede comprender información relativa a 25, 30, 40, 50, 60, 70, 80, 90, 100 o más regiones genómicas de un conjunto selector que comprende una pluralidad de regiones genómicas. La información de secuencia puede comprender información relativa a una pluralidad de regiones genómicas. La pluralidad de regiones genómicas puede basarse en un conjunto selector que comprende regiones genómicas que comprenden una o más mutaciones presentes en uno o más sujetos de una población de sujetos con cáncer. Al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de la pluralidad de regiones genómicas puede estar basada en un conjunto selector que comprende regiones genómicas que comprenden una o más mutaciones presentes en uno o más sujetos de una población de sujetos con cáncer. El tamaño total de las regiones genómicas del conjunto selector puede comprender menos de 1,5 megabases (Mb), 1 Mb, 500 kilobases (kb), 350 kb, 300 kb, 250 kb, 200 kb o 150 kb del genoma. El tamaño total de las regiones genómicas del conjunto selector puede estar entre 100 kb y 300 kb del genoma. El conjunto selector puede comprender 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 100 o más regiones genómicas seleccionadas de la Tabla 2. La obtención de información de secuencia puede comprender la realización de una secuenciación masivamente paralela. Puede realizarse una secuenciación masivamente paralela en un subconjunto de un genoma de los ácidos nucleicos libres de células de la muestra. El subconjunto del genoma puede comprender menos de 1,5 megabases (Mb), 1 Mb, 500 kilobases (kb), 350 kb, 300 kb, 250 kb, 200 kb o 150 kb del genoma. El subconjunto del genoma puede comprender entre 100 kb y 300 kb del genoma. El método puede comprender obtener información de secuenciación de muestras de ADN libres de células a partir de dos o más muestras del sujeto. Las dos o más muestras son del mismo tipo de muestra. Las dos o más muestras son dos tipos diferentes de muestra. Las dos o más muestras se obtienen del sujeto en el mismo momento. Las dos o más muestras se obtienen del sujeto en dos o más momentos. La determinación de las cantidades de ctDNA puede comprender la detección de uno o más SNV, indeles, fusiones, puntos de rotura, variantes estructurales, número variable de repeticiones en tándem, regiones hipervariables, minisatélites, repeticiones dinucleotídicas, repeticiones trinucleotídicas, repeticiones tetranucleotídicas, repeticiones de secuencia sencilla, o una combinación de las mismas en regiones seleccionadas del genoma del sujeto. La determinación de las cantidades de ctDNA puede comprender la detección de uno o más SNV, indeles, variantes del número de copias y reordenamientos en regiones seleccionadas del genoma del sujeto. La determinación de las cantidades de ctDNA puede comprender la detección de dos o más SNV, indeles, variantes del número de copias y reordenamientos en regiones seleccionadas del genoma del sujeto. La determinación de las cantidades de ctDNA puede comprender la detección de al menos un SNV, indel, variante del número de copias y reordenamiento en regiones seleccionadas del genoma del sujeto. La determinación de las cantidades de ctDNA no implica la realización de PCR digital (dPCR). La determinación de las cantidades de ctDNA puede comprender la aplicación de un algoritmo a la información de secuencia para determinar una cantidad de una o más regiones genómicas a partir de un conjunto selector. El conjunto selector puede comprender una pluralidad de regiones genómicas que comprenden una o más mutaciones presentes en uno o más sujetos con cáncer de una población de sujetos con cáncer. El conjunto selector puede comprender una pluralidad de regiones genómicas que comprenden una o más mutaciones presentes en al menos aproximadamente el 60 % de los sujetos con cáncer de la población de sujetos con cáncer. El representante del sujeto puede ser un proveedor de atención médica. El proveedor de atención médica puede ser una enfermera, médico, técnico médico o personal del hospital. El representante del sujeto puede ser un miembro de la familia del sujeto. El representante del sujeto puede ser un tutor legal del sujeto.
En el presente documento también se desvelan métodos para determinar el estado patológico de un cáncer en un sujeto. El método puede comprender (a) obtener una cantidad de ADN tumoral circulante (ctDNA) en una muestra del sujeto; (b) obtener un volumen de un tumor en el sujeto; y (c) determinar el estado patológico de un cáncer en el sujeto basándose en la relación entre la cantidad de ctDNA y el volumen del tumor. Una relación alta de ctDNA con respecto al volumen puede ser indicativa de una enfermedad radiográficamente oculta. Una relación baja de ctDNA con respecto al volumen puede ser indicativa de un estado no maligno. La obtención del volumen del tumor puede comprender la obtención de una imagen del tumor. La obtención del volumen del tumor puede comprender la obtención de una exploración CT del tumor. La obtención de la cantidad de ctDNA puede comprender p Cr digital. La obtención de la cantidad de ctDNA puede comprender la obtención de información de secuenciación sobre el ctDNA. La información de secuenciación puede comprender información relacionada con una o más regiones genómicas basada en un conjunto selector. La obtención de la cantidad de ctDNA puede comprender la hibridación del ctDNA a una matriz. La matriz puede comprender una pluralidad de sondas para la hibridación selectiva de una o más regiones genómicas basada en un conjunto selector. El conjunto selector puede comprender una o más regiones genómicas de la Tabla 2. El conjunto selector puede comprender una o más regiones genómicas que comprenden una o más mutaciones, en donde dichas una o más mutaciones están presentes en una población de sujetos que padecen un cáncer. El conjunto selector puede comprender una pluralidad de regiones genómicas que comprenden una pluralidad de mutaciones, en donde la pluralidad de mutaciones está presente en al menos el 60 % de una población de sujetos que padecen un cáncer.
El contenido de ctDNA en una muestra de sangre de un individuo, o de un derivado sanguíneo, puede determinarse en uno o más puntos de tiempo, opcionalmente junto con un régimen terapéutico. La presencia del ctDNA se correlaciona con la carga tumoral y es útil para supervisar la respuesta a la terapia, supervisar la enfermedad residual, supervisar la presencia de metástasis, supervisar la carga tumoral total, y similares. Aunque no sea necesario, para algunos métodos, el CAPP-Seq se puede realizar junto con métodos de imágenes tumorales, por ejemplo, exploraciones PET/CT y similares. Cuando se utiliza CAPP-seq para estimar la carga tumoral o la enfermedad residual, el aumento de la presencia de células tumorales con el tiempo indica la necesidad de aumentar la terapia mediante el aumento de la dosis, selección de agente, etc. De forma correspondiente, cuando el CAPP-seq no muestra evidencia de enfermedad residual, se puede retirar al paciente de la terapia o administrarle una dosis más baja.
El CAPP-seq también se puede utilizar en ensayos clínicos para nuevos fármacos, para determinar la eficacia del tratamiento para un cáncer de interés, donde una disminución en la carga tumoral es indicativa de eficacia y una mayor carga tumoral es indicativa de falta de eficacia.
El cáncer de interés puede ser específico de un cáncer, por ejemplo, carcinoma no microcítico, carcinoma uterino endometrioide, etc.; o puede ser genérico para una clase de cánceres, por ejemplo, cánceres epiteliales (carcinomas); sarcomas; linfomas; melanomas; gliomas; teratomas; etc.; o subgénero, por ejemplo, adenocarcinoma; carcinoma de células escamosas; y similares.
El término "diagnóstico" puede referirse a la identificación de un estado molecular o patológico, enfermedad o afección, tal como la identificación de un subtipo molecular de cáncer de mama, cáncer de próstata u otro tipo de cáncer.
El término "pronóstico" puede referirse a la predicción de la probabilidad de muerte o progresión atribuible al cáncer, que incluye la recurrencia, propagación metastásica y resistencia a fármacos, de una enfermedad neoplásica, tal como el cáncer de ovario. El término "predicción" puede referirse al acto de predecir o estimar, basándose en la observación, experiencia o razonamiento científico. En un ejemplo, un médico puede predecir la probabilidad de que un paciente sobreviva, después de la extirpación quirúrgica de un tumor primario y/o quimioterapia durante un cierto período de tiempo sin recurrencia del cáncer.
Los términos "tratamiento", "tratar", y similares, pueden referirse a la administración de un agente o a la realización de un procedimiento, con el fin de obtener un efecto. El efecto puede ser profiláctico en lo referente a prevenir completa o parcialmente una enfermedad o un síntoma de la misma y/o puede ser terapéutico en lo referente a una cura parcial o completa para una enfermedad y/o síntomas de la enfermedad. "Tratamiento", como se usa en el presente documento, puede incluir el tratamiento de un tumor en un mamífero, particularmente en un ser humano, e incluye: (a) prevenir la enfermedad o un síntoma de una enfermedad de que aparezca en un sujeto que puede estar predispuesto a la enfermedad pero que aún no ha sido diagnosticado por tenerla (por ejemplo, incluyendo enfermedades que pueden asociarse con o estar causadas por una enfermedad primaria; (b) inhibir la enfermedad, por ejemplo, detener su desarrollo; y (c) aliviar la enfermedad, por ejemplo, provocar la regresión de la enfermedad.
Definiciones
A lo largo de la divulgación se utilizan varios términos utilizados convencionalmente en el campo del cultivo celular. Con el fin de proporcionar una comprensión clara y coherente de la memoria descriptiva y las reivindicaciones, y el alcance que se dará a dichos términos, se proporcionan las siguientes definiciones.
Debe entenderse que la presente invención no se limita a la metodología particular, protocolos, líneas celulares, especies o géneros animales, y reactivos descritos, ya que estos pueden variar. También debe entenderse que la terminología utilizada en el presente documento tiene la finalidad única de describir realizaciones particulares y no pretende limitar el alcance de la presente invención, que estará limitado únicamente por las reivindicaciones adjuntas.
Tal como se usa en el presente documento, las formas singulares "un", "uno/a" y "el/la" incluyen referencias en plural a menos que el contexto indique claramente lo contrario. Por tanto, por ejemplo, la referencia a "una célula" puede incluir una pluralidad de dichas células y la referencia al "cultivo" incluye la referencia a uno o más cultivos y equivalentes de los mismos conocidos por los expertos en la materia, y así sucesivamente. Todos los términos técnicos y científicos usados en el presente documento tienen el mismo significado que el que entiende normalmente un experto habitual en la materia a la que pertenece la presente invención, a menos que se indique claramente lo contrario.
"Medir" o "medición" en el contexto de las presentes enseñanzas puede referirse a la determinación de la presencia, ausencia, cuantía, cantidad o cantidad eficaz de una sustancia en una muestra clínica o derivada del sujeto, incluyendo la presencia, ausencia o niveles de concentración de dichas sustancias y/o la evaluación de los valores o categorización de los parámetros clínicos de un sujeto con respecto a un control.
A menos que resulte evidente de otro modo por el contexto, todos los elementos, etapas o características de la invención se pueden utilizar en cualquier combinación con otros elementos, etapas o características.
Pueden encontrarse métodos generales de bioquímica molecular y celular en libros de texto estándar tales como Molecular Cloning: A Laboratory Manual, 3a Ed. (Sambrook et al., Harbor Laboratory Press 2001); Short Protocols in Molecular Biology, 4a Ed. (Ausubel et al. eds., John Wiley & Sons 1999); Protein Methods (Bollag et al., John Wiley & Sons 1996); Nonviral Vectors for Gene Therapy (Wagner et al. eds., Academic Press 1999); Viral Vectors (Kaplift & Loewy eds., Academic Press 1995); Immunology Methods Manual (I. Lefkovits ed., Academic Press 1997); y Cell and Tissue Culture: Laboratory Procedures in Biotechnology (Doyle & Griffiths, John Wiley & Sons 1998). Los reactivos, vectores de clonación y kits para la manipulación genética a los que se hace referencia en esta divulgación pueden estar disponibles en proveedores comerciales tales como BioRad, Stratagene, Invitrogen, Sigma-Aldrich y ClonTech.
La invención se ha descrito en términos de realizaciones particulares encontradas o propuestas por el autor de la presente invención para que comprenda modos preferidos para la puesta en práctica de la invención. Los expertos en la materia apreciarán que, en vista de la presente divulgación, podrán realizarse numerosas modificaciones y cambios en las realizaciones particulares ilustradas sin alejarse del alcance de la invención. Debido a consideraciones de equivalencia funcional biológica, pueden hacerse cambios en la estructura proteica sin afectar a la acción biológica en términos de tipo o cantidad. Se pretende que todas estas modificaciones estén incluidas dentro del alcance de las reivindicaciones adjuntas.
Los términos "sujeto", "individuo" y "paciente" se usan indistintamente en el presente documento y pueden referirse a un mamífero que se está evaluando para su tratamiento y/o en tratamiento. En una realización, el mamífero es un ser humano. Los términos "sujeto", "individuo" y "paciente" pueden abarcar, sin limitación, individuos con cáncer o sospechosos de tener cáncer. Los sujetos pueden ser humanos, pero también incluyen otros mamíferos, particularmente los mamíferos útiles como modelos de laboratorio para enfermedades humanas, por ejemplo, un ratón, rata, etc. También se incluyen mamíferos tales como animales domésticos y otras especies de canes, felinos y similares.
Los términos "cáncer", "neoplasia" y "tumor" se usan indistintamente en el presente documento y pueden referirse a células que presentan un crecimiento no regulado, autónomo, de manera que presentan un fenotipo de crecimiento aberrante caracterizado por una pérdida significativa de control de la proliferación celular. Las células de interés para la detección, análisis o tratamiento en la presente solicitud pueden incluir, pero sin limitación, células precancerosas (por ejemplo, benignas), malignas, pre-metastásicas, metastásicas y no metastásicas. Se conocen cánceres de prácticamente todos los tejidos. La frase "carga de cáncer" puede referirse a la cantidad de células cancerosas o al volumen de cáncer en un sujeto. Por consiguiente, reducir la carga del cáncer puede referirse a reducir el número de células cancerosas o el volumen de cáncer en un sujeto. La expresión "célula cancerosa", como se usa en el presente documento, puede referirse a cualquier célula que sea una célula cancerosa o que se derive de una célula cancerosa, por ejemplo, clon de una célula cancerosa. Los expertos en la materia conocen muchos tipos de cánceres, entre los que se incluyen tumores sólidos tales como carcinomas, sarcomas, glioblastomas, melanomas, linfomas, mielomas, etc., y cánceres circulantes tales como leucemias. Los ejemplos de cáncer incluyen, pero sin limitación, cáncer de ovario, cáncer de mama, cáncer de colon, cáncer de pulmón, cáncer de próstata, cáncer hepatocelular, cáncer gástrico, cáncer de páncreas, cáncer de cuello de útero, cáncer de ovario, cáncer de hígado, cáncer de vejiga, cáncer del tracto urinario, cáncer de tiroides, cáncer renal, carcinoma, melanoma, cáncer de cabeza y cuello y cáncer de cerebro.
La "patología" del cáncer puede incluir, pero sin limitación, todos los fenómenos que comprometen el bienestar del paciente. Esto incluye, sin limitación, un crecimiento celular anormal o incontrolable, metástasis, interferencia con el funcionamiento normal de las células vecinas, liberación de citocinas u otros productos secretores a niveles anormales, supresión o agravamiento de la respuesta inflamatoria o inmunológica, neoplasia, premalignidad, malignidad, invasión de tejidos u órganos circundantes o distantes, tales como ganglios linfáticos, etc.
Como se usan en el presente documento, las expresiones "recurrencia del cáncer" y "recurrencia del tumor", y variantes gramaticales de las mismas, pueden referirse a un mayor crecimiento de células neoplásicas o cancerosas después del diagnóstico de cáncer. En particular, la recurrencia puede ocurrir cuando se produce un mayor crecimiento de células cancerosas en el tejido canceroso. La "diseminación del tumor", de manera similar, se puede producir cuando las células de un tumor se diseminan hacia el interior de tejidos y órganos locales o distantes; por tanto, la diseminación del tumor puede abarcar la metástasis del tumor. La "invasión del tumor" puede producirse cuando el crecimiento del tumor se disemina localmente para comprometer la función de los tejidos involucrados por compresión, destrucción y/o prevención de la función normal de los órganos.
Como se usa en el presente documento, el término "metástasis" puede referirse al crecimiento de un tumor canceroso en un órgano o parte del cuerpo, que no está directamente conectado al órgano del tumor canceroso original. La metástasis puede incluir micrometástasis, que es la presencia de una cantidad indetectable de células cancerosas en un órgano o parte del cuerpo que no está directamente conectada al órgano del tumor canceroso original. La metástasis también se puede definir como varias etapas de un proceso, tales como la salida de las células cancerosas del sitio del tumor original y la migración y/o invasión de las células cancerosas a otras partes del cuerpo.
Como se usan en el presente documento, ADN, ARN, ácidos nucleicos, nucleótidos, oligonucleótidos y polinucleótidos pueden usarse indistintamente. A menos que se indique específicamente lo contrario, el término ADN abarca cualquier tipo de ácido nucleico (por ejemplo, ADN, ARN, híbridos de ADN/ARN y análogos de los mismos). En los casos en los que se usa ARN en los métodos desvelados en el presente documento, los métodos pueden comprender además la transcripción inversa del ARN para producir un ADN complementario (ADNc) o una copia de ADN.
La presente invención se ha descrito en términos de realizaciones particulares encontradas o propuestas por el autor de la presente invención para que comprenda modos preferidos para la puesta en práctica de la invención. Los expertos en la materia apreciarán que, a la luz de la presente divulgación, pueden hacerse numerosas modificaciones y cambios en las realizaciones particulares ejemplificadas sin alejarse del alcance pretendido de la invención. Por ejemplo, debido a la redundancia de codones, se pueden realizar cambios en la secuencia de ADN subyacente sin afectar a la secuencia de proteínas. En otro ejemplo, debido a similitudes en el ADN y el ARN, los métodos, composiciones y sistemas pueden ser igualmente aplicables a todos los tipos de ácidos nucleicos (por ejemplo, ADN, ARN, híbridos de ADN/ARN y análogos de los mismos). Asimismo, debido a consideraciones de equivalencia funcional biológica, pueden hacerse cambios en la estructura proteica sin afectar a la acción biológica en términos de tipo o cantidad.
Los siguientes ejemplos se exponen a fin de proporcionar a los expertos habituales en la materia una divulgación y descripción completa de cómo producir y usar la presente invención y no pretenden limitar el alcance de lo que los inventores consideran su invención y tampoco pretenden representar que los experimentos presentados a continuación sean todos o los únicos experimentos llevados a cabo. Se han realizado esfuerzos para garantizar la precisión con respecto a los números utilizados (por ejemplo, cantidades, temperatura, etc.) pero deben tenerse en cuenta algunos errores y desviaciones experimentales. A menos que se indique lo contrario, las partes son partes en peso, el peso molecular es el peso molecular promedio ponderal, la temperatura está en grados centígrados y la presión es atmosférica o cercana a la atmosférica.
Ejemplos
EJEMPLO 1: Un método ultrasensible para cuantificar el ADN tumoral circulante con una amplia cobertura de pacientes
El ADN tumoral circulante (ctDNA) representa un biomarcador prometedor para la detección no invasiva de la carga de la enfermedad y la supervisión de la recurrencia. Sin embargo, los métodos de detección de ctDNA existentes están limitados por la sensibilidad, un enfoque en un pequeño número de mutaciones y/o la necesidad de optimización específica del paciente. Para abordar estas deficiencias, se desarrolló el perfilado personalizado de cáncer mediante secuenciación profunda (CAPP-Seq) (CAPP-Seq), un método económico y altamente sensible para cuantificar el ctDNA en plasma en casi todos los pacientes. Los presentes solicitantes implementaron CAPP-Seq para el cáncer de pulmón no microcítico (NSCLC) con un diseño que identificaba mutaciones en >95 % de los tumores, detectando simultáneamente mutaciones puntuales, inserciones/deleciones, variantes del número de copias y reordenamientos. Una vez conocidos los perfiles de mutación tumoral, se detectaron ctDNA en el 100 % de las muestras de plasma previas al tratamiento de NSCLC en estadios II-IV y en el 50 % de las muestras de NSCLC en estadio I, con una especificidad del 95% para fracciones de alelos mutantes de hasta ~ 0,02 %. Las cantidades absolutas de ctDNA se correlacionaron significativamente con el volumen del tumor. Adicionalmente, los niveles de ctDNA en muestras posteriores al tratamiento ayudaron a distinguir entre la enfermedad residual y los cambios de imagen relacionados con el tratamiento y proporcionaron una evaluación de la respuesta más temprana que los enfoques radiográficos. Por último, se exploró la utilidad de este método para la genotipificación de tumores sin biopsia y la detección del cáncer. El CAPP-Seq se puede aplicar clínicamente de forma rutinaria para detectar y supervisar diversas malignidades, facilitando así la terapia oncológica personalizada. Aquí se demuestra el desempeño técnico y se explora la utilidad clínica de CAPP-Seq en pacientes con NSCLC en estadio temprano y avanzado.
Diseño de un selector de CAPP-Seq para NSCLC. Para la implementación inicial de CAPP-Seq los presentes solicitantes se enfocaron en NSCLC, aunque su enfoque se puede utilizar para cualquier cáncer para el que se hayan identificado mutaciones recurrentes. Se empleó un enfoque multifásico para diseñar un selector específico de NSCLC, con el objetivo de identificar regiones genómicas mutadas recurrentemente en esta enfermedad (Fig. 1 b, Tabla 1 ). Se comenzó por incluir exones que cubrían mutaciones recurrentes en genes impulsores potenciales de la base de datos del Catálogo de mutaciones somáticas en el cáncer (COSMIC), así como de otras fuentes (por ejemplo, KRAS, EGFR, TP53). A continuación, utilizando datos de secuenciación del exoma completo (WES) de 407 pacientes con NSCLC perfilados por el Atlas del genoma del cáncer (TCGA), se aplicó un algoritmo iterativo para maximizar el número de mutaciones de cambio de sentido por paciente y minimizar el tamaño del selector. El presente enfoque se basó en un índice de recurrencia que identificó mutaciones impulsoras conocidas, así como genes no caracterizados que con frecuencia están mutados y, por lo tanto, es probable que estén implicados en la patogénesis del NSCLC (Fig. 7 y Tabla 2).
Aproximadamente el 8 % de los NSCLC albergan reordenamientos clínicamente procesables que involucran a las tirosina quinasas receptoras, ALK, ROS1 y RET. Estas aberraciones estructurales, que son clínicamente procesables porque son objetivos de inhibidores farmacológicos, tienden a aparecer desproporcionadamente en pacientes más jóvenes con una historia de tabaquismo significativamente menor y cuyos tumores albergan menos alteraciones somáticas que la mayoría de los otros pacientes con NSCLC. Para utilizar la naturaleza personalizada y una menor tasa de detección falsa inherente a las secuencias de unión únicas de reordenamientos estructurales, se incluyeron los intrones y exones que abarcaban puntos de ruptura de fusión recurrentes en estos genes en la fase de diseño final (Fig. 1b). Para detectar fusiones en el ADN del plasma y del tumor, se desarrolló un algoritmo de mapeo de puntos de ruptura llamado FACTERA (Fig. 8). La aplicación de FACTERA a los datos de secuenciación de última generación (NGS) de 2 líneas celulares de NSCLC que se sabía que albergaban fusiones con puntos de ruptura previamente no caracterizados identificó fácilmente los puntos de ruptura en la resolución de nucleótidos y estos se confirmaron de forma independiente en ambos casos (Fig. 9).
En conjunto, el diseño del selector de NSCLC se dirige a 521 exones y 13 intrones de 139 genes mutados de forma recurrente, cubriendo en total ~ 125 kb (Fig. 1b). Dentro de esta pequeña diana (0,004 % del genoma humano), el selector identifica una mediana de 4 mutaciones puntuales y cubre el 96 % de los pacientes con adenocarcinoma de pulmón o carcinoma de células escamosas. Para validar el número de mutaciones cubiertas por tumor, se examinó la región selectora en los datos de WES de una cohorte independiente de 183 pacientes con adenocarcinoma de pulmón. El selector cubrió el 88 % de los pacientes con una mediana de 4 SNV por paciente, validando así nuestro algoritmo de diseño de selector (P < 1,0 x 10-6; Fig. 1c). En comparación con el muestreo aleatorio del exoma, las regiones establecidas como diana del selector de NSCLC capturaron ~ 4 veces más mutaciones por paciente (en la mediana, Fig. 1 c). Debido a las similitudes en la maquinaria oncogénica clave entre los cánceres, el selector de NSCLC funciona favorablemente en otros carcinomas. De hecho, el selector capturó con éxito el 99 % de los carcinomas uterinos de colon, el 98 % de los carcinomas de recto y el 97 % de los carcinomas uterinos endometrioides, con una mediana de 12, 7 y 3 mutaciones por paciente, respectivamente (Fig. 1d). Esto demuestra el valor de apuntar a cientos de regiones genómicas mutadas de forma recurrente y muestra que se puede diseñar un solo selector para cubrir simultáneamente mutaciones recurrentes para múltiples malignidades.
Optim/zación metodológica y evaluación del desempeño. Se realizó una secuenciación profunda con el selector de NSCLC para lograr una cobertura de ~ 10.000x (eliminación previa a la duplicación, ~ 10-12 muestras por carril) y se perfiló un total de 90 muestras, incluidas 2 líneas celulares de NSCLC, 17 biopsias de tumores primarios y muestras de leucocitos de sangre periférica (PBL) compatibles y 40 muestras de plasma de 18 sujetos humanos, incluidos 5 adultos sanos y 13 pacientes con NSCLC antes y después de diversas terapias contra el cáncer (Tablas 3, 20 y 21). Para evaluar y optimizar el desempeño del selector, se aplicó primero a cfDNA purificado de plasma de control sano, observando una captura eficiente y uniforme de ADN genómico (Tablas 3, 20 y 21). Los fragmentos de cfDNA secuenciados tenían una longitud media de ~ 170 pb (Fig. 2a), que se corresponde estrechamente con la longitud del ADN contenido en un cromatosoma. Para optimizar la preparación de la biblioteca a partir de pequeñas cantidades de cfDNA, se exploró una diversidad de modificaciones en las etapas de ligamiento y amplificación posterior al ligamiento, incluida la temperatura, tiempo de incubación, ADN polimerasa y purificación por PCR. El protocolo optimizado aumentó la eficiencia de recuperación en > 300 % y disminuyó el sesgo para las bibliotecas construidas a partir de tan solo 4 ng de cfDNA (Figs. 10, 11 y 12). Por consiguiente, las fluctuaciones en la profundidad de secuenciación fueron mínimas (Fig. 2b, c).
El límite de detección de CAPP-Seq se ve afectado por (i) el número de entrada y la tasa de recuperación de las moléculas de cfDNA, (ii) la contaminación cruzada de muestra, (iii) el posible sesgo alélico en el reactivo de captura y (iv) los errores de PCR o de secuenciación (por ejemplo, fondo "técnico"). Se examinó cada uno de estos elementos a su vez para comprender mejor su impacto potencial en la sensibilidad de CAPP-Seq. En primer lugar, mediante la comparación del número de moléculas de ADN de entrada por muestra con estimaciones de la complejidad de la biblioteca (Fig. 13a), se calculó una tasa de recuperación de moléculas de cfDNA de > 49 % (Tablas 3, 20 y 21). Esto estaba de acuerdo con las eficiencias de recuperación de moléculas calculadas usando los rendimientos de masa después de la PCR (Fig. 13b). En segundo lugar, mediante el análisis de SNP homocigotos específicos del paciente en todas las muestras, se encontró una contaminación cruzada de ~ 0,06 % en cfDNA multiplexado (Fig. 14). Aunque es demasiado baja para afectar a la detección de ctDNA en la mayoría de las aplicaciones, se excluyó cualquier SNV derivado del tumor de un análisis adicional si se encontraba como un SNP de la línea germinal en otro paciente perfilado. Para analizar un posible sesgo de captura, a continuación se evaluó el sesgo alélico en SNP heterocigotos (polimorfismo de un solo nucleótido) dentro de muestras de pacientes con PBL (linfocitos de sangre periférica). Se observó una fracción de alelos heterocigotos mediana del 51 % (Fig. 15), lo que indica un sesgo mínimo hacia la captura de alelos de referencia. Por último, se analizó la distribución de alelos no de referencia en el selector para las 40 muestras de cfDNA, excluyendo los SNV derivados de tumores y los SNP de la línea germinal (Fig. 2d). Se encontraron tasas medias y medianas de fondos técnicos del 0,006 % y 0,0003 %, respectivamente (Fig. 2d), ambos considerablemente más bajos que en los métodos basados en NGS previamente informados para el análisis de ctDNA.
Además del fondo técnico, el cfDNA mutante podría estar presente en ausencia de cáncer debido a las contribuciones de células preneoplásicas de diversos tejidos, y tal fondo "biológico" puede afectar a la sensibilidad. Se propuso la hipótesis de que el fondo biológico, en caso de estar presente, sería particularmente alto para posiciones con mutación recurrente en genes impulsores de cáncer conocidos y, por lo tanto, se analizaron las tasas de mutación de 107 SNV asociados con cáncer seleccionados en las 40 muestras de plasma, excluyendo mutaciones somáticas encontradas en el tumor de un paciente. Aunque la mediana de la abundancia fraccionada fue comparable al fondo del selector global (~ 0 %), la media fue marginalmente más alta en ~ 0,01 % (Fig. 2e). Sorprendentemente, se detectó una mutación (TP53 R175H) con una mediana de frecuencia de ~ 0,18 % en todas las muestras de cfDNA, incluyendo pacientes y sujetos sanos (Fig. 2f). Como este alelo está significativamente por encima del fondo global (P < 0,01; Fig. 2f), se propuso la hipótesis de que refleja un fondo biológico verdadero y, por lo tanto, lo excluimos como indicador potencial. Para abordar el fondo de manera más general, también se normalizaron las diferencias específicas de alelo en la tasa de fondo cuando se evaluó la importancia de la detección de ctDNA. Como resultado, se observó que el fondo biológico no es un factor significativo para la cuantificación del ctDNA en límites de detección por encima de ~ 0,01 %.
A continuación, se comparó empíricamente el límite de detección de frecuencia de alelos y la linealidad del CAPP-Seq mediante la adición de concentraciones definidas de ADN genómico fragmentado de una línea celular de NSCLC en cfDNA de un individuo sano (Fig. 2g) o en ADN genómico de una segunda línea de NSCLC (Fig. 16a). Las entradas definidas de ADN de NSCLC se detectaron con precisión en abundancias fraccionadas entre el 0,025 % y el 10 % con alta linealidad (R2 > 0,994). Los análisis de la influencia del número de indicadores de SNP en las métricas de error mostraron solo mejoras marginales por encima de un umbral de 4 indicadores (Fig. 2h, i, Fig. 16b,c), equivalentes a la mediana del número de SNV por tumor de NSCLC identificado por el selector. También se probó si los puntos de ruptura de fusión, indeles y CNV podrían servir como indicadores lineales y se descubrió que la abundancia fraccionada de estos tipos de mutación se correlacionaba altamente con las concentraciones esperadas (R2 > 0,97; Fig. 16d).
Identificación de mutaciones somáticas en pacientes con NSCLC. Habiendo diseñado, optimizado y evaluado el desempeño técnico de CAPP-Seq, se aplicó al descubrimiento de mutaciones somáticas en tumores recogidos de un grupo diverso de 17 pacientes con NSCLC (Tabla 1 y Tabla 19). Para probar la utilidad de CAPP-Seq para identificar reordenamientos estructurales, que se observan con más frecuencia en tumores de no fumadores, se incluyeron 6 pacientes con fusiones confirmadas clínicamente. Estas translocaciones sirvieron como controles positivos, junto con SNV en otros tumores previamente identificados mediante ensayos clínicos (Tabla 19). Las muestras tumorales incluyeron muestras quirúrgicas o de biopsia fijadas con formalina y líquido pleural que contenía células malignas. A una profundidad de secuenciación media de ~ 5.000x (eliminación de duplicados previos) en muestras de tumores y líneas germinales pareadas (Tablas 3, 20 y 21), se detectó el 100 % de las fusiones y SNV previamente identificados (7 y 8, respectivamente) y se descubrieron muchas variantes somáticas adicionales (Tabla 1 y Tabla 19). Asimismo, se caracterizaron genes asociados y puntos de ruptura de resolución de pares de bases para cada uno de los 8 reordenamientos (Fig. 17). Los tumores que contenían fusiones eran casi exclusivamente de pacientes que no habían fumado nunca y, como cabía esperar, contenían menos SNV que los que carecían de fusiones (Fig. 18). Excluyendo a los pacientes con fusiones (< 10 % de la cohorte de diseño del TCGA), se identificó una mediana de 6 SNV (3 mutaciones de cambio de sentido) por paciente (Tabla 1), de acuerdo con las predicciones de la etapa de diseño de nuestro selector (Fig. 1b-c).
Sensibilidad y especificidad. A continuación, se evaluó la sensibilidad y especificidad de CAPP-Seq para la supervisión de enfermedades y la detección mínima de enfermedades residuales, usando muestras de plasma de 5 controles sanos y 35 muestras seriadas recogidas de 13 pacientes con NSCLC, de los que todos menos uno tenían muestras disponibles antes y después del tratamiento (Tabla 1; Tabla 5). Se utilizó CAPP-Seq para medir la carga tumoral en toda la cuadrícula de muestras de cfDNA de plasma (13 conjuntos específicos de pacientes de indicadores somáticos en 40 muestras de plasma, o 520 pares), con un enfoque que integra el contenido de información en múltiples instancias y clases de mutaciones somáticas para aumentar la sensibilidad y la especificidad. Usando el análisis ROC, se logró una sensibilidad y especificidad máximas del 85 % y el 95 % (AUC = 0,95), respectivamente, para todos los tumores tratados previamente y controles sanos. La sensibilidad entre los tumores en estadio I fue del 50 % y entre los pacientes en estadio II-IV fue del 100 % con una especificidad del 96 % (Fig. 3a, b). Asimismo, cuando se consideraron muestras tanto previas como posteriores al tratamiento en un análisis ROC, el CAPP-Seq exhibió un desempeño robusto, con valores de AUC de 0,89 para todos los estadios y de 0,91 para los estadios II-IV (P < 0,0001; Fig. 19). Adicionalmente, mediante el ajuste del índice de detección de ctDNA, se pudo aumentar la especificidad hasta en un 98 % sin dejar de capturar 2/3 de todas las muestras positivas para cáncer y 3/4 de las muestras positivas para cáncer en estadios II-IV (Fig. 20). Esto indica que nuestro enfoque podría ajustarse para ofrecer una sensibilidad y especificidad deseadas en función de la aplicación en cuestión y que CAPP-Seq puede lograr una evaluación robusta de la carga tumoral en pacientes con NSCLc .
Supervisión de la carga tumoral de NSCLC en muestras de plasma. A continuación, los presentes inventores se preguntaron si los niveles significativamente detectables de ctDNA se correlacionan con el volumen tumoral medido radiográficamente y la respuesta clínica a la terapia. Las fracciones de ADN derivado de tumores detectadas en plasma por SNV y/o indicadores de indeles variaron de ~ 0,02 % a 3,2 % (Tabla 1), con una mediana de ~ 0,1% en las muestras previas al tratamiento. Asimismo, los niveles absolutos de ctDNA en el plasma previo al tratamiento se correlacionaron significativamente con el volumen del tumor medido por tomografía computarizada (TC) y tomografía por emisión de positrones (PET). (R2 = 0,89, P = 0,0002; Fig. 3c).
Para determinar si las concentraciones de ctDNA reflejan la carga de enfermedad en muestras longitudinales, se analizó el cfDNA en plasma de tres pacientes con alta carga de enfermedad que se sometieron a varias rondas de terapia para el NSCLC metastásico, incluyendo cirugía, radioterapia, quimioterapia e inhibidores de la tirosina quinasa (Fig. 4a-c). Como en las muestras previas al tratamiento, los niveles de ctDNA estuvieron altamente correlacionados con los volúmenes tumorales durante la terapia (R2 = 0,95 para P15; R2 = 0,85 para P9). En un paciente que no había fumado nunca (P6), se detectaron 3 SNV y una fusión KIF5B-ALK, y ambos tipos de mutación fueron detectables simultáneamente en el cfDNA plasmático y se comportaron de manera comparable en respuesta a la terapia con Crizotinib (Fig. 4c). En los 3 pacientes, este comportamiento se observó si el tipo de mutación medido era una colección de SNV y una indel (P15, Fig. 4a), múltiples fusiones (P9, Fig. 4b), o SNV y una fusión (P6, Fig. 4c), validando la utilidad de diversas lesiones somáticas derivadas de tumores. Cabe destacar que, en un paciente (P9) se identificaron tanto una fusión EML4-ALK clásica como dos fusiones previamente no notificadas que implican ROS1: FYN-ROS1 y ROS1-MKX (Fig. 17). Todas las fusiones se confirmaron mediante amplificación por qPCR de ADN genómico y se recuperaron de forma independiente en muestras de plasma (Tabla 5). Aunque no se conoce la función potencial de estas nuevas fusiones ROS1, hasta donde sabemos, esta es la primera observación de fusiones ROS1 y ALK en el mismo paciente con NSCLC.
El selector de NSCLC se diseñó para detectar múltiples SNV por tumor y, si están presentes, más de 1 tipo de mutación por tumor. En el tumor de un paciente (P5), este diseño nos permitió identificar un clon dominante con una mutación de EGFR activadora, así como un subclón con una mutación "gatekeeper" de EGFR T790M. La relación entre los clones fue idéntica en una biopsia de tumor y en el plasma muestreado simultáneamente (Fig. 4d), lo que demuestra que al detectar múltiples indicadores por tumor, el método de los presentes inventores es útil para detectar y cuantificar subclones clínicamente relevantes.
Habiendo validado el desempeño de CAPP-Seq en pacientes en estadio avanzado, después se examinaron otros escenarios clínicos en los que los biomarcadores de ctDNA podrían ser útiles. Los pacientes con NSCLC en estadio II-IN que se someten a una radioterapia definitiva con intención curativa a menudo tienen exploraciones de vigilancia CT y/o PET/CT que son difíciles de interpretar debido a cambios inflamatorios y fibróticos inducidos por la radiación en el pulmón y los tejidos circundantes. Estos pueden retrasar el diagnóstico de recurrencia o dar lugar a biopsias innecesarias y ocasionar ansiedad en el paciente. Para comparar los resultados de la cuantificación del ctDNA con las imágenes de vigilancia de rutina, se analizó el cfDNA en plasma antes y después de la radioterapia en 2 pacientes. Para el paciente P13, que fue tratado con radioterapia sola para NSCLC en estadio IIB, las imágenes de seguimiento mostraron una gran masa que se consideró que representaba una enfermedad residual. Sin embargo, el ctDNA en el mismo momento era indetectable (Fig. 4e) y el paciente seguía estando libre de la enfermedad 22 meses después, lo que confirma el resultado del ctDNA. El segundo paciente (P14) se trató con quimiorradioterapia concurrente para el NSCLC en estadio IIIB y las imágenes de seguimiento revelaron una respuesta casi completa en el tórax (Fig. 4f). Sin embargo, la concentración de ctDNA aumentó ligeramente en comparación con la situación previa al tratamiento, lo que sugería la progresión de la enfermedad microscópica oculta. De hecho, la progresión se detectó clínicamente 7 meses después y el paciente finalmente sucumbió al NSCLC. Estos datos destacan el uso del análisis de cfDNA como una modalidad complementaria a los estudios de imagen y como un método para el diagnóstico precoz de la recurrencia.
Posteriormente, los presentes inventores se preguntaron si el bajo límite de detección de CAPP-Seq permitiría la supervisión de la respuesta al tratamiento en el NSCLC en estadio temprano. Aproximadamente el 60-70 % de los NSCLC en estadio I se pueden curar con cirugía o radioterapia ablativa estereotáctica (SABR). Los pacientes P1 (Fig. 4g) y P16 (Fig. 4h) se sometieron a cirugía y SABR, respectivamente, para NSCLC en estadio IB. Se detectó cfDNA derivado de tumor en el plasma previo al tratamiento de P1, pero no a los 3 o 32 meses después de la cirugía, lo que sugiere que este paciente estaba libre de la enfermedad y probablemente curado. Para el paciente P16, la exploración PET-CT de vigilancia inicial después de SABR mostró una masa residual que se interpretó como que representaba un tumor residual o una inflamación posterior a la radioterapia. No se detectó evidencia de enfermedad residual por ctDNA, confirmando esto último, y el paciente permaneció libre de enfermedad en el último seguimiento 21 meses después de la terapia. Considerados en conjunto, estos resultados demuestran la utilidad de CAPP-Seq como ensayo clínico no invasivo para medir la carga tumoral en NSCLC en estadio temprano y avanzado y para supervisar el ctDNA durante distintos tipos de terapia.
Genotipificación de tumores no invasivos y detección de cáncer. Por último, se exploró si el análisis CAPP-Seq de cfDNA podría usarse para la genotipificación de tumores no invasivos y la detección de cáncer (por ejemplo, sin conocimiento previo de mutaciones tumorales). Los presentes inventores ignoraron completamente las mutaciones presentes en el tumor de cada paciente y aplicaron un método estadístico novedoso para probar la presencia de ADN de cáncer en cada muestra de plasma de la cohorte de los presentes inventores (Fig. 21). Este método identificó alelos mutantes en todas las muestras de plasma que contenían ctDNA por encima de abundancias fraccionadas del 0,4 %, sin falsos positivos (Fig. 4i). Por tanto, este enfoque tiene utilidad para la genotipificación de tumores no invasivos en pacientes localmente avanzados o metastásicos. Dado que ~ 95 % de los nódulos identificados en pacientes con alto riesgo de desarrollar NSCLC por TC de dosis baja son falsos positivos, CAPP-Seq también puede servir como una prueba de detección no invasiva complementaria.
En este estudio, los presentes inventores presentaron CAPP-Seq como un nuevo método para la cuantificación del ctDNA. Las características clave de nuestro enfoque incluyen alta sensibilidad y especificidad, cobertura de casi todos los pacientes con NSCLC, falta de optimización específica del paciente y bajo coste. Mediante la incorporación de métodos de bioinformática y construcción de bibliotecas optimizadas, CAPP-Seq consigue la tasa de error de fondo más baja y el límite de detección más bajo de cualquier método basado en NGS utilizado para el análisis de ctDNA hasta la fecha. Nuestro enfoque también reduce el impacto potencial del ruido estocástico y la variabilidad biológica (por ejemplo, mutaciones cercanas al límite de detección o evolución del tumor subclonal) en la cuantificación de la carga tumoral al integrar el contenido de información en múltiples casos y clases de mutaciones somáticas. Estas características facilitaron la detección de enfermedad residual mínima y el primer informe de cuantificación de ctDNA de tumores de NSCLC en estadio I mediante secuenciación profunda. Aunque los presentes inventores se centraron en el NSCLC, su método puede aplicarse a cualquier malignidad para la que se disponga de datos de mutaciones recurrentes.
En muchos pacientes, los niveles de ctDNA son considerablemente más bajos que los umbrales de detección de los métodos basados en secuenciación descritos anteriormente. Por ejemplo, la concentración de ctDNA previa al tratamiento es < 0,5 % en la mayoría de los pacientes con carcinomas pulmonares y colorrectales (y probablemente otros), y < 0,1 % en la mayoría de los pacientes en estadio temprano y muchos de los que están en estadio avanzado. Después de la terapia, las concentraciones de ctDNA suelen caer, lo que hace que los métodos altamente sensibles, tales como CAPP-Seq, sean aún más críticos. Recientemente, se implementaron métodos de secuenciación profunda basados en amplicones para detectar hasta 6 genes mutados de forma recurrente por ensayo. Estos enfoques están limitados por el número y los tipos de mutaciones que se pueden interrogar simultáneamente, y el límite de detección de alelos notificado de ~ 2 % en plasma impide la detección de ctDNA en la mayoría de los pacientes con NSCLC. Varios estudios han informado de la aplicación de la secuenciación del genoma o del exoma completo al cfDNA para el análisis de CNV (variante del número de copias) y SNV (variante de un solo nucleótido) somáticas. La sensibilidad de la detección de SNV con estos enfoques está significativamente limitada por el coste de secuenciación, e incluso con una profundidad de secuenciación 10 veces mayor que la que se usó para CAPP-Seq, sería insuficiente para detectar ctDNA en la mayoría de los pacientes con NSCLC (Fig. 5a). Asimismo, la cuantificación de CNV en plasma a través de WGS tiene un límite de detección notificado de ~ 1 %, limitando este enfoque a pacientes con alta carga tumoral.
Son deseables aumentos adicionales en el umbral de detección. Los enfoques para lograr estos aumentos incluyen el uso de estrategias de códigos de barras que suprimen los errores de PCR resultantes de la preparación de la biblioteca, aumentar la cantidad de plasma utilizado para el análisis de ctDNA por encima del promedio de ~ 1,5 ml utilizado en este estudio, mejorar aún más la eficacia del ligamiento y captura durante la preparación de la biblioteca, y aumentar el tamaño del selector para aumentar el número de mutaciones específicas de tumor por paciente. Una segunda limitación es el potencial de captura ineficaz de fusiones, lo que podría dar lugar a una infraestimación de la carga tumoral (por ejemplo, P9). Sin embargo, este sesgo se puede abordar analíticamente cuando están presentes otros tipos de indicadores (por ejemplo, P6; Tabla 4). Por último, aunque se descubrió que CAPP-Seq podía cuantificar las CNV, el diseño de selector actual no prioriza estos tipos de aberraciones. Para supervisar varios tipos de cánceres puede ser útil añadir cobertura para ciertas CNV.
En resumen, la captura híbrida dirigida y la secuenciación de alto rendimiento de cfDNA permite una detección altamente sensible y no invasiva de ctDNA en pacientes con cáncer, a bajo coste. El CAPP-Seq se puede aplicar clínicamente de forma rutinaria para acelerar la detección personalizada, terapia y supervisión del cáncer. El CAPP-Seq es valioso en una diversidad de situaciones clínicas, entre las que se incluyen la evaluación del ADN del cáncer en líquidos biológicos alternativos y muestras con bajo contenido de células cancerosas.
Selección de pacientes. Entre abril de 2010 y junio de 2012, se inscribieron en un estudio aprobado por la Junta de Revisión Institucional de la Universidad de Stanford pacientes sometidos a tratamiento para NSCLC recién diagnosticado o recurrente y proporcionaron su consentimiento informado. Los pacientes inscritos no habían recibido transfusiones de sangre en los 3 meses previos a la extracción de sangre. Las características de los pacientes se encuentran en las Tablas 3, 20 y 21. Todos los tratamientos y exámenes radiográficos se realizaron como parte de la atención clínica estándar. Las mediciones volumétricas de la carga tumoral se basaron en el tumor visible en la CT y se calcularon de acuerdo con la fórmula elipsoide: (longitud/2) * (anchuraA2).
Recolección y procesamiento de muestras. Se recogió sangre periférica de los pacientes en tubos Vacutainer (BD) con EDTA. Las muestras de sangre se procesaron dentro de las 3 horas posteriores a la recolección. El plasma se separó por centrifugación a 2.500 xg durante 10 min, se transfirió a tubos de microcentrífuga y se centrifugó a 16.000 xg durante 10 min para eliminar los restos celulares. El sedimento celular de la centrifugación inicial se usó para el aislamiento de ADN genómico de la línea germinal de PBL (leucocitos de sangre periférica) con el kit DNeasy Blood & Tissue (Qiagen). Se aisló ADN tumoral emparejado de muestras de FFPE o del sedimento celular de derrames pleurales. El ADN genómico se cuantificó mediante el kit de ensayo Quant-iT PicoGreen dsDNA Assay (Invitrogen).
Purificación y cuantificación de ADN libre de células. Se aisló ADN libre de células (cfDNA) de 1 a 5 ml de plasma con el kit de ácido nucleico circulante QlAamp (Qiagen). La concentración de cfDNA purificado se determinó mediante PCR cuantitativa (qPCR) usando un amplicón de 81 pb en el cromosoma 1 y una serie de diluciones de DNA genómico humano masculino intacto (Promega) como curva estándar. Se utilizó Power SYBR Green para la qPCR en una máquina de PCR en tiempo real HT7900 (Applied Biosystems), utilizando parámetros de ciclos térmicos de PCR estándar.
Construcción de la biblioteca NGS Illumina. Se prepararon bibliotecas NGS Illumina indexadas a partir de cfDNA y ADN genómico de línea celular, de línea germinal y de tumor cortado. Para cfDNA del paciente, se utilizaron 7-32 ng de ADN para la construcción de la biblioteca sin fragmentación adicional. Para el ADN genómico de línea celular, de línea germinal y de tumor, se cortó ADN de 69-1000 ng antes de la construcción de la biblioteca con un instrumento Covaris S2 utilizando la configuración recomendada para fragmentos de 200 pb. Véanse los detalles en la Tabla 2.
Las bibliotecas NGS se construyeron utilizando el kit de preparación de bibliotecas KAPA (Kapa Biosystems) empleando una ADN polimerasa que posee una fuerte actividad exonucleasa (o corrección de pruebas) 3'-5' y que muestra la tasa de error más baja publicada (por ejemplo, la máxima fidelidad) de todas las ADN polimerasas de la familia B. El protocolo del fabricante se modificó para incorporar etapas enzimáticas y de limpieza con microesferas utilizando microesferas Agencourt AMPure XP (Beckman-Coulter). El ligamiento se realizó durante 16 horas a 16 °C usando un exceso molar de 100 veces de adaptadores indexados TruSeq de Illumina. La selección del tamaño de una sola etapa se realizó añadiendo 40 μl (0,8X) de tampón PEG para enriquecer los fragmentos de ADN ligados. Después se amplificaron los fragmentos ligados utilizando oligonucleótidos de cadena principal Illumina 500 nM y 4-9 ciclos de PCR, dependiendo de la masa de ADN de entrada. La pureza y concentración de la biblioteca se evaluaron mediante un espectrofotómetro (NanoDrop 2000) y qPCR (KAPA Biosystems), respectivamente. La longitud del fragmento se determinó en un bioanalizador 2100 utilizando el kit DNA 1000 (Agilent).
Diseño de biblioteca para selección de híbridos. La selección de híbridos se realizó con una biblioteca personalizada SeqCap EZ Choice (Roche NimbleGen). Esta biblioteca se diseñó a través del portal NimbleDesign (v1.2.R1) utilizando la construcción del genoma HG19 NCBI Build 37.1/GRCh37 y estableciendo un valor de 1 para el parámetro Maximum Close Matches. Las regiones genómicas de entrada se seleccionaron de acuerdo con los genes y exones mutados con mayor frecuencia en el NSCLC. Estas regiones se identificaron a partir de la base de datos COSMIC, TCGA y otras fuentes publicadas. Las coordenadas finales del selector se proporcionan en la Tabla 1.
Selección de híbridos y secuenciación de alto rendimiento. Se utilizó NimbleGen SeqCap EZ Choice de acuerdo con el protocolo del fabricante con modificaciones. Se incluyeron entre 9 y 12 bibliotecas Illumina indexadas en una única reacción de captura. Después de la selección de híbridos, los fragmentos de ADN capturados se amplificaron con 12 a 14 ciclos de PCR usando KAPA HiFi Hot Start Ready Mix 1X y oligonucleótidos de cadena principal Illumina 2 μM en 4 a 6 reacciones separadas de 50 pl. A continuación, las reacciones se combinaron y procesaron con el kit de purificación de PCR QIAquick (Qiagen). Las bibliotecas multiplexadas se secuenciaron utilizando 2 rondas de extremos pareados de 100 pb en un Illumina HiSeq 2000.
Mapeo y control de calidad de datos NGS. Se asignaron lecturas de extremos pareados al genoma de referencia de hg 19 con BWA 0.6.2 (parámetros por defecto) y se clasificaron/indexaron con SAMtools. El control de calidad se evaluó mediante un script de Perl personalizado para recopilar una diversidad de estadísticos, entre los que se incluyen las características de mapeo, calidad de lectura y tasa de cumplimiento del objetivo del selector (por ejemplo, número de lecturas únicas que se cruzan con el espacio del selector dividido por todas las lecturas alineadas), generados respectivamente por SAMtools flagstat, FastQC y coverageBed de BEDTools, modificados para contar cada lectura como máximo una vez. Se generaron automáticamente gráficos de la distribución de la longitud de los fragmentos y la profundidad/cobertura de la secuencia para la evaluación visual del control de calidad. Para mitigar el impacto de los errores de secuenciación, los análisis que no incluían fusiones se restringieron a lecturas pareadas correctamente, y solo se analizaron más a fondo las bases con una puntuación de calidad Phred > 30 (< 0,1 % de probabilidad de un error de secuenciación).
Análisis de los umbrales de detección por CAPP-Seq. Se realizaron dos series de diluciones para evaluar la linealidad y precisión de CAPP-Seq para cuantificar cfDNA derivado de tumores. En un experimento, se añadió ADN genómico cortado de una línea celular de NSCLC (HCC78) en cfDNA de un individuo sano, mientras que en un segundo experimento, se añadió ADN genómico cortado de una línea celular de NSCLC (NCI-H3122) en ADN genómico cortado de una segunda línea de NSCLC (HCC78). Se utilizó un total de 32 ng de ADN para la construcción de la biblioteca. Tras el mapeo y el control de calidad, se identificaron indicadores homocigotos como alelos únicos para cada muestra con una profundidad de secuenciación de al menos 20x y una fracción alélica > 80 %. Se identificaron catorce de estos indicadores entre el ADN genómico de HCC78 y el cfDNA plasmático (Fig. 2 g-h), mientras que se encontraron 24 indicadores entre el ADN genómico de NCI-H3122 y HCC78 (Fig. 16).
Análisis estadístico. El selector de NSCLC se validó in silico utilizando una cohorte independiente de adenocarcinomas de pulmón (Fig. 1c). Para evaluar el significado estadístico, se analizó la misma cohorte usando 10.000 selectores aleatorios muestreados del exoma, cada uno con una distribución de tamaño idéntica al selector de NSCLC CAPP-Seq. El desempeño de los selectores aleatorios tuvo una distribución normal y los valores p se calcularon de acuerdo con esto. Debe tenerse en cuenta que en este análisis se consideraron todas las lesiones somáticas identificadas.
Para evaluar el impacto del número de indicadores en las estimaciones de la carga tumoral, se realizó un muestreo de Montecarlo (1000x), variando el número de indicadores disponibles {1,2,...,n máx.} en dos experimentos de adición (Fig. 2 g-i; Fig. 13b-d).
Para evaluar el significado de las estimaciones de la carga tumoral en el cfDNA plasmático, se compararon las frecuencias de SNV específicas del paciente con la distribución nula de los alelos de fondo de todo el selector. Las indeles se analizaron por separado usando tasas de fondo específicas de mutación y el estadístico Z. Los puntos de ruptura de fusión se consideraron significativos cuando estaban presentes con soporte de lectura > 0 debido a su tasa de detección falsa ultrabaja. Los valores p de distintos tipos de indicadores se integraron en un solo índice de detección de ctDNA, y esto se consideró significativo si la métrica era < 0,05 (“ FPR < 5 %), el umbral que maximizaba la sensibilidad y la especificidad de CAPP-Seq en los análisis ROC (determinado por la distancia euclidiana a un clasificador perfecto; por ejemplo, TPR = 1 y FPR = 0; Fig. 3, Fig. 4, Tabla 1, Tabla 4).
En relación con la Figura 5, la probabilidad P de recuperar al menos 2 lecturas de un solo alelo mutante en plasma para una profundidad y un límite de detección dados se modeló mediante una distribución binomial. Dado P, la probabilidad de detectar todas las mutaciones tumorales identificadas en plasma (por ejemplo, mediana de 4 para CAPP-Seq) se modeló mediante una distribución geométrica. Las estimaciones de la Figura 5a se basan en 250 millones de lecturas de 100 pb por carril (por ejemplo, utilizando una plataforma Illumina HiSeq 2000). Asimismo, se asumió una tasa de cumplimiento del objetivo del 60 % para CAPP-Seq y WES (Fig. 5).
Métodos de biología molecular
Líneas celulares. Las líneas celulares de adenocarcinoma de pulmón NCI-H3122 y HCC78 se obtuvieron de ATCC y DSMZ, respectivamente, y se cultivaron en RPMI 1640 con L-glutamina (Gibco) complementada con suero bovino fetal al 10 % (Gembio) y cóctel de penicilina/estreptomicina al 1 %. Las células se mantuvieron en crecimiento en fase semilogarítmica en una incubadora a 37 °C con 5 % de CO2. El ADN genómico se purificó a partir de células recién recolectadas con el kit DNeasy Blood & Tissue (Qiagen).
Procesamiento del líquido pleural y citometría de flujo y clasificación celular. Se recogieron células de líquido pleural de pacientes P9 y P6 mediante centrifugación a 300 xg durante 5 min a 4 °C y se lavaron en tampón de tinción FACS (HBSS suero de ternera inactivado por calor al 2 % [HICS]). Los glóbulos rojos se lisaron con tampón de lisis ACK (Invitrogen) y los grumos se eliminaron pasándolos a través de un filtro de nailon de 100 μm. Las células filtradas se centrifugaron y se resuspendieron en tampón de tinción. Mientras estaba en hielo, la suspensión celular se bloqueó durante 20 min con 10 μg/ml de IgG de rata y después se tiñó durante 20 min con EpCAM anti-humano de ratón conjugado con APC (BioLegend, clon 9C4), anti-CD45 humano de ratón conjugado con PerCP-Cy5.5 (eBioscience, clon 2D1) y anti-CD31 humano de ratón conjugado con PerCP-eFluor710 (eBioscience, clon WM59). Después de la tinción, las células se lavaron y se resuspendieron con tampón de tinción que contenía 1 μg/ml de DAPI, se analizaron y se clasificaron con un clasificador de células FACSAria II (BD Biosciences). Los dobletes celulares y las células positivas a DAPI se excluyeron del análisis y clasificación. Las células CD31 CD45'EpCAM+ se clasificaron en tampón de tinción, se centrifugaron y se congelaron instantáneamente en nitrógeno líquido. El ADN se aisló con el kit QIAamp DNA Micro (Qiagen).
Optim/zación de la preparación de la biblioteca NGS a partir de cfDNA de baja entrada. Los protocolos para la construcción de bibliotecas Illumina se compararon por etapas con el objetivo de (1) optimizar la eficiencia del ligamiento del adaptador, (2) reducir el número necesario de ciclos de PCR después del ligamiento del adaptador, (3) preservar la distribución de tamaños natural de los fragmentos de cfDNA, y (4) minimizar la variabilidad en la profundidad de la cobertura de secuenciación en todas las regiones genómicas capturadas. La optimización inicial se realizó con el juego de reactivos de preparación de bibliotecas de ADN NEBNext para Illumina (New England BioLabs), que incluye reactivos para la reparación de extremos de los fragmentos de cfDNA, la adición de cola de A, el ligamiento del adaptador y la amplificación de fragmentos ligados con Phusion High-Fidelity PCR Master Mix. La entrada fue 4 ng de cfDNA (obtenido del plasma del mismo voluntario sano) para todas las condiciones. La abundancia alélica relativa en las bibliotecas construidas se evaluó mediante qPCR de 4 loci genómicos (Roche NimbleGen: NSC-0237, NSC-0247, NSC-0268 y NSC-0272) y se comparó por el método 2'ñCt.
Los ligamientos se realizaron a 20 °C durante 15 min (según el protocolo del fabricante), a 16 °C durante 16 horas, o con ciclos de temperatura durante 16 horas como se ha descrito anteriormente. Los volúmenes de ligamiento se variaron desde el estándar (50 μl) hasta 10 μl mientras se mantenía una concentración constante de ADN ligasa, fragmentos de cfDNA y adaptadores de Illumina. Las optimizaciones posteriores incorporaron el ligamiento a 16 °C durante 16 horas en volúmenes de reacción de 50 μl.
A continuación, se compararon los procedimientos estándar de procesamiento de microesferas SPRI, en los que se añaden nuevas microesferas de AMPure XP después de cada reacción enzimática y el ADN se eluye de las microesferas para la siguiente reacción, con las modificaciones del protocolo con microesferas descritas anteriormente3. Se compararon 2 concentraciones de adaptadores Illumina en la reacción de ligamiento: 12 nM (exceso molar de 10 veces con respecto a los fragmentos de ADNc) y 120 nM (exceso molar de 100 veces).
Usando los procedimientos de preparación de bibliotecas optimizados, a continuación se comparó el juego de reactivos de preparación de bibliotecas de ADN NEBNext (con ADN polimerasa Phusion) con el kit de preparación de bibliotecas KAPA (con ADN polimerasa KAPA HiFi). El kit de preparación de la bibliotecas KAPA con las modificaciones de los presentes inventores también se comparó con el sistema de biblioteca NuGEN SP Ovation Ultralow con automatización en la estación de trabajo Mondrian SP.
Evaluación de las modificaciones de la preparación de la biblioteca en el desempeño de CAPP-Seq. Se realizó CAPP-Seq en 32 ng de cfDNA usando procedimientos de preparación de bibliotecas estándar con el kit NEBNext, o con procedimientos optimizados usando el kit NEBNext o el kit de preparación de bibliotecas KAPA. En paralelo, se realizó CAPP-Seq en 4 ng y 128 ng de cfDNA utilizando el kit KAPA con los procedimientos optimizados de los presentes inventores. Se construyeron bibliotecas indexadas y la selección de híbridos se realizó en multiplex. Las bibliotecas multiplexadas posteriores a la captura se amplificaron con cebadores de cadena principal de Illumina durante 14 ciclos de PCR y después se secuenciaron en un carril de 100 pb de extremos pareados de un Illumina HiSeq 2000.
También se evaluó CAPP-Seq en entrada ultrabaja después de la amplificación del genoma completo (WGA). Se usó el kit de amplificación de ADN SeqPlex (Sigma-Aldrich), que emplea PCR de cebador oligonucleotídico degenerado. En resumen, se amplificó 1 ng de cfDNA con supervisión en tiempo real con SYBR Green I (Sigma-Aldrich) en una máquina de PCR en tiempo real HT7900 (Applied Biosystems). La amplificación se terminó después de 17 ciclos produciendo 2,8 |jg de ADN. La etapa de eliminación del cebador produjo ~ 600 ng de ADN, y esta cantidad total se usó para la preparación de la biblioteca usando el kit NEBNext con procedimientos optimizados como se describe en el presente documento.
Validación de variantes detectadas por CAPP-Seq. Todos los reordenamientos estructurales y un subconjunto de SNV tumorales detectados por CAPP-Seq fueron confirmados independientemente por qPCR y/o secuenciación de Sanger de fragmentos amplificados. Para HCC78, se amplificó un fragmento de 120 pb que contenía el punto de ruptura SLC34A2-ROS1 a partir de ADN genómico utilizando los cebadores: 5'-AGAc Gg GAGAAAATAGCACC-3' y 5'-ACCAAGGGTTGCAGAAATCC-3'. Para NCI-H3122, se amplificó un fragmento de 143 pb que contenía el punto de ruptura EML4-ALK utilizando los cebadores: 5'-GAGATGGAGTTT CACT CTT GTT GC-3' y 5'-GAACCTTTCCATCATACTTAGAAATAC-3'. Se utilizaron 5 ng de ADN genómico como molde con oligos 250 nM y Phusion PCR Master Mix 1X (NEB) en reacciones de 50 jl. Los productos se resolvieron en gel de agarosa al 2,5% y se eliminaron las bandas del tamaño esperado. Los fragmentos de ADN amplificados se purificaron utilizando el kit de extracción de gel Qiaquick (Qiagen) y se sometieron a secuenciación de Sanger (Elim Biopharm). Para P9, los puntos de corte del ADN genómico se confirmaron mediante qPCR utilizando los cebadores: 5'-TCCATGGAAGCCAGAAC-3' y 5'-AT GCTAAGAT GTGTCT GT CA-3' para EML4-ALK; 5'-CCTTAACACAGATGGCTCTTGAT GC-3' y 5'-TCCTCTTTCCACCTTGGCTTTCC-3' para ROS1-MKX; y 5'-GGTTCAGAACTACCAATAACAAG-3' y 5'-ACCTGATGTGTGACCTGATTGATG-3' para FYN-ROS1. Para la qPCR, se utilizaron 10 ng de ADN genómico preamplificado como molde con oligonucleótidos 250 nM y Power SyberGreen Master Mix 1X en reacciones de 10 j l realizadas por triplicado en una máquina de PCR en tiempo real HT7900 (Applied Biosystems). Se utilizaron parámetros de ciclos térmicos de PCR estándar. La amplificación de amplicones que abarcaban los 3 puntos de ruptura detectados en P9 se confirmó en el ADN genómico del tumor así como en el cfDNA plasmático, y se utilizó ADN genómico de PBL como control negativo.
CAPP-Seq confirmó mutaciones tumorales somáticas (SNV y reordenamientos) que se detectaron mediante ensayos clínicos como parte de la atención clínica estándar (Tablas 3, 20 y 21). Se realizaron ensayos clínicos de mutación en tejidos incluidos en parafina fijados con formalina. Los SNV se detectaron mediante el ensayo SNaPshot4. Los reordenamientos se detectaron mediante hibridación in situ con fluorescencia (FISH) usando sondas de separación dirigidas al locus ALK (Abbott) o al locus ROS1 (Cytocell).
Métodos bioinformáticos y estadísticos
Métricas de umbral de detección de CAPP-Seq. Fondo de nivel de base del selector. Se evaluó la distribución de fondo de nivel de base del selector de NSCLC (Fig. 2d) utilizando las 40 muestras de cfDNA plasmático recolectadas a partir de individuos con NSCLC y de individuos sanos analizados en este trabajo (Tabla 2). De manera específica, para cada base de fondo en posiciones de selector con una profundidad de secuenciación total > 500x, se calculó la media con valores atípicos corregidos de todas las muestras de cfDNA. Aunque se probaron métodos de detección de valores atípicos especializados, tales como el método iterativo de Grubbs y ROUT, los análisis empíricos de los presentes inventores indicaron que la simple eliminación de los valores mínimo y máximo funcionaba mejor. Es importante indicar que, para restringir el análisis de los presentes inventores a bases de fondo, cada muestra de paciente se filtró previamente para eliminar las llamadas por línea germinal, pérdida de heterocigosidad (LOH) y/o variante somática realizadas por VarScan 26 (valor p somático = 0,01; de lo contrario, parámetros por defecto).
Significado de los SNV como indicadores. Para evaluar el significado de los SNV derivados de tumores en plasma, se implementó una estrategia que integra fracciones de cfDNA en todos los SNV somáticos, realiza un ajuste de fondo específico de la posición y evalúa el significado estadístico mediante el muestreo de Montecarlo de los alelos de fondo en el selector. Se observó que este enfoque difiere fundamentalmente de los métodos anteriores, donde las mutaciones son interrogadas individualmente. A diferencia de estos métodos, la estrategia de los presentes inventores amortigua el impacto del ruido estocástico y las variables biológicas (por ejemplo, mutaciones cercanas al límite de detección o evolución del tumor) en la cuantificación de la carga tumoral, permitiendo una evaluación estadística más robusta. En particular, esto permite que CAPP-Seq cuantifique niveles bajos de ctDNA con tasas potencialmente altas de abandono alélico.
Para una muestra de cfDNA plasmático determinada 9 se comenzó ajustando la fracción alélica F para cada uno de n SNV del paciente P para minimizar la influencia del fondo técnico/biológico del selector en las estimaciones de significado. De manera específica, para cada alelo, se realizó la siguiente operación sencilla, F = máx.{0, f -(e - j)}, donde f es la fracción alélica de partida en el cfDNA plasmático, e es la tasa de error específica de la posición para el alelo dado en todas las muestras de cfDNA (véase anteriormente), y p denota la tasa de fondo media de todo el selector (= 0,006 % en este estudio, véase la sección B1.1 y la Fig. 2d). En efecto, este ajuste empuja la media de todos los n SNV más cercanos a la media del selector global g, mitigando el impacto de confusión del fondo técnico/biológico. Usando la simulación de Montecarlo, se comparó la fracción de SNV media ajustada F* (= (X f *)/n) frente a la distribución nula de los alelos de fondo a través del selector. De manera específica, para cada una de i iteraciones (= 10.000 en este trabajo), se muestrean al azar n alelos de fondo a partir de 9, después de lo cual se ajustan sus fracciones usando la fórmula anterior y se promedian. Un valor p de SNV para el paciente P se determina como el percentil de F* con respecto a la distribución nula de los alelos de fondo en 9. Por lo tanto, a un panel de SNV del paciente P se le asignaría un valor p de detección de 0,04 si F* se clasifica en el percentil 96 de alelos de fondo ajustados en 9. Se observó que el ajuste de fondo siempre mejoraba la especificidad de CAPP-Seq en los análisis ROC de los presentes inventores.
Significado de las indeles como indicadores. Se implementó un enfoque basado en estadísticos de población para evaluar el significado de las indeles por separado de los SNV. Para cada indel en el paciente P, se utilizó la prueba Z para comparar su fracción en una muestra de cfDNA plasmático dada 9 frente a su fracción en cada muestra de cfDNA en la cohorte de los presentes inventores (excluyendo las muestras de cfDNA del mismo paciente P). Para aumentar la robustez estadística, cada cadena de lectura (orientación positiva o negativa) se evalúa por separado, produciendo dos puntuaciones Z para cada indel. Estas se combinan en una sola puntuación Z mediante el método de Stouffer, un enfoque no ponderado para el estadístico Z integrativo. Por último, si el paciente P tiene más de 1 indel, todas las puntuaciones de Z específicas de indel se combinan mediante el método de Stouffer en un estadístico Z final, que se convierte trivialmente en un valor p.
Significado de las fusiones como indicadores. Dada la tasa extremadamente baja de falsos positivos asociada con la detección del mismo punto de ruptura de fusión de NSCLC en bibliotecas independientes, a la recuperación de una fusión genómica derivada de tumor en cfDNA plasmático por CAPP-Seq se le asignó (arbitrariamente) un valor p de -0.
Integración de distintos tipos de mutaciones para estimar el significado de la cuantificación de la carga tumoral. Para cada paciente, se calculó un índice de detección de ctDNA (similar a una tasa de falsos positivos) basado en la integración del valor p a partir de su matriz de indicadores (Tabla 1 y Tabla 19). Para los casos en los que solo está presente un tipo de indicador en el tumor de un paciente, se utiliza el valor p correspondiente. Si se detectan indicadores de SNV e indeles, y si cada uno independientemente tiene un valor p < 0,1, se combinan sus respectivos valores p mediante el método de Fisher (Fisher, 1925) y se utiliza el valor p resultante. De otro modo, dada la priorización de SNV en el diseño del selector, se utiliza el valor p de SNV. Si se recupera un punto de ruptura de fusión identificado en una muestra de tumor (por ejemplo, en el que está implicado ROS1, ALK, o RET) en el cfDNA plasmático del mismo paciente, triunfa sobre todos los demás tipos de mutaciones y se utiliza su valor p (~ 0). Si una fusión detectada en el tumor no se encuentra en el plasma correspondiente (posiblemente debido a la ineficiencia de la hibridación; véase la sección C4), se utiliza el valor p para cualquier tipo o tipos de mutación restantes. Es importante indicar que, a medida que se procesan nuevos pacientes, se verifican los tipos de indicadores en toda la base de datos de muestras en crecimiento para mejorar la especificidad (descrita en la sección B 1.6, a continuación) e identificar posibles señales de alerta.
Corrección de indel/fusión para evaluación de sensibilidad y especificidad. En relación con la Figura 3, después de calcular un índice de detección de ctDNA para cada conjunto de indicadores en todas las muestras de cfDNA utilizando los métodos descritos en el presente documento, se aplicó una etapa adicional para aumentar la especificidad. Concretamente, para explotar el fondo técnico menor de las indeles y puntos de ruptura de fusión en comparación con los SNV, se aplicó una "corrección de indel/fusión". De manera específica, si los indicadores de indel/fusión encontrados en el tumor del paciente X podían detectarse únicamente en el cfDNA plasmático del paciente X (por ejemplo, sin detectarse en ninguna otra muestra de cfDNA de control o de paciente), entonces, el índice de detección de ctDNA correspondiente al paciente X se establecía en 1 (por ejemplo, ctDNA no detectable) en cada muestra de cfDNA no emparejada. En otras palabras, los indicadores del paciente X no se considerarían un falso positivo en otro paciente. Aunque todavía no hemos encontrado dos pacientes con el mismo o los mismos indicadores de indel/fusión, si esto ocurriera, la corrección no se aplicaría de un paciente a otro.
Para realizar esta corrección con enmascaramiento, como se muestra en la Figura 3 (paneles a y b), se identificaron SNP de la línea germinal en cada muestra de cfDNA y PBL, y se asignó cada muestra de cfDNA al par tumor/normal con la mayor concordancia de SNP (después de eliminar el enmascaramiento, se observó que todas las muestras de cfDNA coincidían correctamente con sus pares de tumor/normal correspondientes). Como se muestra en la Figura 19, esta corrección aumentó de forma consistente la especificidad de CAPP-Seq. Los SNP de la línea germinal se identificaron utilizando VarScan 2, con un umbral de valor p de 0,01, cobertura de secuencia mínima de 100x, una puntuación de calidad promedio mínima de 30 (Phred) y otros parámetros por defecto.
Análisis de sensibilidad y especificidad. Se probó el desempeño de CAPP-Seq con un diseño ciego al enmascarar toda la información de identificación del paciente, incluido el estadio de la enfermedad, momento de cfDNA, tratamiento, etc. Después se probaron las métricas de detección de los presentes inventores descritas en el presente documento para determinar correctamente la carga tumoral en toda la cuadrícula de muestras de cfDNA plasmático no identificadas (13 conjuntos específicos de pacientes de indicadores somáticos en 40 muestras de plasma o 520 pares). Para calcular la sensibilidad y la especificidad, los presentes inventores se "desenmascararon" y agruparon las muestras de pacientes en las categorías positiva para el cáncer (por ejemplo, el cáncer estaba presente en el cuerpo del paciente), negativa para el cáncer (por ejemplo, el paciente se había curado) o desconocida para el cáncer (por ejemplo, datos insuficientes para determinar la clasificación verdadera). Se consideraron todos los puntos temporales de los pacientes con evidencia radiográfica de recurrencia y todos los pacientes en estadio IV como positivos para cáncer, independientemente de la evaluación clínica en el momento en cuestión. El momento posterior al tratamiento del paciente 13 (P13; NSCLC en estadio IIB) se consideró desconocido para el cáncer debido al estado "Sin evidencia de enfermedad (NED)" en el último seguimiento, casi 2 años después de su tratamiento (Fig. 4e). El paciente 2 (P2; NSCLC en estadio IIIB), se clasificó como NED después de resecciones quirúrgicas completas y también se consideró desconocido para el cáncer. Todas las muestras de pacientes con NSCLC en estadio I posteriores al tratamiento se consideraron de forma conservadora "desconocidas para el cáncer" en lugar de verdaderas negativas debido al seguimiento limitado.
Análisis de la complejidad de la biblioteca
Estimación de la complejidad de la biblioteca. Se estimó el número de equivalentes de genoma haploide por biblioteca utilizando 330 equivalentes de genoma por 1 ng de ADN de entrada (Tabla 2), y se calculó la "recuperación de molécula" general como la profundidad media después de la eliminación de duplicados dividida por el menor de (i) la profundidad media antes eliminación de duplicados y (ii) el número estimado de equivalentes de genoma haploide. Se estimó que la recuperación de moléculas a una profundidad de secuenciación determinada era del 38 % para cfDNA, del 37 % para ADN tumoral y del 48 % para PBL (masa de entrada de ADN más alta entre todas las muestras).
A diferencia del ADN genómico, el cfDNA plasmático está naturalmente fragmentado y tiene una distribución de tamaño altamente estereotipada relacionada con el espaciamiento de nucleosomas, con una longitud mediana de ~ 170 pb y una dispersión muy baja (Fig. 2a, Tablas 3, 20 y 21). Como tal, se planteó la hipótesis de que las moléculas de entrada independientes con coordenadas de inicio/finalización idénticas pueden inflar la tasa de duplicación de cfDNA, lo que lleva a una tasa de recuperación de moléculas infraestimada.
Se probó esta hipótesis analizando SNP de línea germinal heterocigotos, con el razonamiento de que los fragmentos de ADN (por ejemplo, lecturas de extremos pareados) con coordenadas de inicio/final idénticas y que difieren en una sola variante de la línea germinal definida a priori es más probable que representan moléculas iniciales independientes que artefactos técnicos (por ejemplo, duplicados de PCR). Se identificaron SNP heterocigotos en las noventa muestras (Tabla 2) usando VarScan 2 (como se describe en el presente documento) y se filtraron para las variantes con una frecuencia alélica entre el 40 % y el 60 % que están presentes en el subconjunto de SNP comunes de dbSNP (versión 137.0). Para cada SNP común heterocigoto, A/B, se contaron todos los fragmentos con coordenadas de inicio/final únicas que soportan A, B o AB. Entre las moléculas con un SNP A/B dado, hay una probabilidad del 50 % de juntar A y B cuando se muestrean al azar dos moléculas (AB o BA), y hay una probabilidad combinada del 50 % de obtener AA o BB. Dado que el número de posiciones iniciales/finales únicas para AB (denominado N) representa al menos el doble de moléculas (>2N), y se pueden asumir que faltan moléculas combinadas >2N en las coordenadas de inicio/final únicas que soportan A o B, el límite inferior en la complejidad total de la biblioteca faltante se determina por la fórmula, 3N/S, donde S denota la suma de coordenadas únicas de inicio/final que cubren A, B y AB. A través de los SNP en cada muestra de entrada, se calculó un promedio del 30 % de complejidad de biblioteca faltante en muestras de cfDNA, y del 4 % y 6 % de complejidad de biblioteca faltante en ADN genómico de tumor y PBL, respectivamente (Fig.
13a). Las tasas de recuperación de moléculas ajustadas para la pérdida estimada de complejidad se proporcionan en la Tabla 2, e indican una recuperación media de moléculas de al menos el 49 % en cfDNA, el 37 % en a Dn genómico tumoral (principalmente FFPE) y el 51 % en ADN genómico de PBL.
Tasa de duplicación. Las herramientas de deduplicación comunes, tales como SAMtools rmdup y las herramientas Picard MarkDuplicates (http://picard.sourceforge.net), identifican y/o colapsan lecturas basándose en las coordenadas de secuencia y la calidad, no en la composición de la secuencia. Esto puede ocasionar la eliminación de lecturas derivadas de tumores (que representan moléculas distintas) que casualmente comparten coordenadas de secuencia con lecturas de la línea germinal. Esto es particularmente problemático para el cfDNA ya que para una gran fracción de moléculas hay otras moléculas únicas con el mismo inicio y final (véase anteriormente). Para abordar este problema, se desarrolló un script de Perl personalizado que ignora las bases con baja calidad (aquí, Phred Q < 30) y colapsa solo los fragmentos (pares de lectura) con un 100 % de identidad de secuencia que también comparten coordenadas genómicas. Las lecturas posteriores al duplicado resultantes se proporcionan junto con los datos no deduplicados correspondientes en las Tablas 2 y 4, que cubren respectivamente los estadísticos de secuenciación y los resultados de la supervisión de cfDNA.
Complejidad de la biblioteca medida mediante PCR y entrada de masa. Como estimación separada de la complejidad de la biblioteca, para cada biblioteca NGS Illumina construida a partir de cfDNA, se calculó la fracción del rendimiento esperado de la biblioteca a partir del rendimiento real y el rendimiento esperado (ideal) (Fig. 13b). El rendimiento real de la biblioteca se determinó a partir de la molaridad y el volumen de las bibliotecas construidas (antes de la selección de híbridos). El rendimiento esperado de la biblioteca se calculó a partir de la masa de cfDNA utilizada para la preparación de la biblioteca y el número de ciclos de PCR realizados, con el supuesto de que el ligamiento tuvo una eficiencia del 100 % y la PCR tuvo una eficiencia del 95 % en cada ciclo. Se observó una eficiencia de PCR del 95 % a partir de la qPCR realizada en diluciones en serie de bibliotecas de Illumina TruSeq (promedio de R2> 0,999 de 4 experimentos independientes).
Diseño de selector de CAPP-Seq. La mayoría de los cánceres humanos son relativamente heterogéneos en cuanto a mutaciones somáticas en genes individuales. De manera específica, en la mayoría de los tumores humanos, las alteraciones somáticas recurrentes de genes individuales representan una minoría de pacientes, y solo una minoría de tipos de tumores se pueden definir utilizando un pequeño número de mutaciones recurrentes (<5-10) en posiciones predefinidas. Por lo tanto, el diseño del selector es vital para el método de CAPP-Seq porque (1) dicta qué mutaciones se pueden detectar con alta probabilidad para un paciente con un cáncer dado, y (2) el tamaño del selector (en kb) afecta directamente al coste y la profundidad de la cobertura de la secuencia. Por ejemplo, las bibliotecas de selección de híbridos disponibles en los kits de captura de exomas completos actuales varían de 51 a 71 Mb, proporcionando un enriquecimiento teórico máximo de -40 a 60 veces frente a la secuenciación del genoma completo. El grado de enriquecimiento potencial es inversamente proporcional al tamaño del selector, de modo que para un selector de -100 kb, debería conseguirse un enriquecimiento > 10.000 veces.
Se empleó una estrategia de diseño de seis fases para identificar y priorizar las regiones genómicas para el selector de NSCLC de CAPP-Seq como se detalla a continuación. Se utilizaron tres fases para incorporar genes impulsores de NSCLC conocidos y sospechosos, así como regiones genómicas que se sabe que participan en fusiones clínicamente procesables (fases 1, 5, 6), mientras que otras tres fases emplearon un enfoque algorítmico para maximizar tanto el número de pacientes cubiertos como los SNV por paciente (fases 2-4). Este último se basó en una métrica que los presentes inventores denominaron "índice de recurrencia" (IR), definido para este ejemplo como el número de pacientes con NSCLC con SNV que existen dentro de una determinada kilobase de secuencia exónica (por ejemplo, n.° de pacientes con mutaciones/longitud del exón en kb). Por tanto, el IR sirve para medir la frecuencia de recurrencia a nivel del paciente a nivel del exón, mientras que simultáneamente se normaliza para el tamaño del gen/exón. Como fuente de datos de mutaciones somáticas genotipificados de manera uniforme en una gran cohorte de pacientes, en las fases 2-4, se analizaron los SNV no silentes identificados en los datos de secuenciación del exoma completo de TCGA de 178 pacientes en el conjunto de datos de carcinoma de células escamosas de pulmón (SCC) y de 229 pacientes en los conjuntos de datos de adenocarcinoma de pulmón (LUAD) (la fecha de consulta de TCGA fue el 13 de marzo de 2012). Se seleccionaron umbrales para cada métrica (por ejemplo, IR y pacientes por exón) para el enriquecimiento estadístico de impulsores conocidos/sospechosos en los datos de SCC y LUAD (Fig. 7). Las coordenadas del exón de RefSeq (hg19) se obtuvieron a través del navegador de tablas UCSC (la fecha de consulta fue el 11 de abril de 2012).
Se utilizó el siguiente algoritmo para diseñar el selector de CAPP-Seq (las descripciones entre paréntesis coinciden con las fases de diseño indicadas en la Fig. 1b).
• Fase 1 (Impulsores conocidos)
Los genes seminales iniciales se eligieron basándose en su frecuencia de mutación en NSCLC. El análisis de COSMIC (v57) identificó genes impulsores conocidos que mutan de forma recurrente en >9 % de NSCLC (denominador > 500 casos). Se seleccionaron exones específicos de estos genes basándose en el patrón de SNV previamente identificado en NSCLC. La lista seminal también incluía exones únicos de genes con mutaciones recurrentes que aparecían con baja frecuencia pero tenían una fuerte evidencia de ser mutaciones impulsoras, tales como el exón 15 de BRAF, que alberga mutaciones V600E en <2 % de los NSCLC.
• Fase 2 (Cobertura máx.)
Para cada exón con SNV que cubriera >5 pacientes en LUAD y SCC, se seleccionó el exón con mayor IR que identificaba al menos 1 nuevo paciente en comparación con la fase anterior. Entre exones con IR igualmente alto, se añadió el exón con solapamiento mínimo entre los pacientes ya capturados por el selector. Esto se repitió hasta que ningún exón adicional cumpliera estos criterios.
• Fase 3 (IR > 30)
Para cada exón restante con un IR > 30 y con SNV que cubrían > 3 pacientes en la base de datos relevante, se identificó el exón que producía la mayor reducción en pacientes con solo 1 SNV. Para romper los lazos entre exones igualmente óptimos, se eligió el exón con mayor IR. Esto se repitió hasta que ningún exón adicional cumpliera estos criterios.
• Fase 4 (IR > 20)
El mismo procedimiento que la fase 3, pero usando IR > 20.
• Fase 5 (Impulsores predichos)
Se incluyeron todos los exones de genes adicionales que previamente se había predicho que albergarían mutaciones impulsoras en NSCLC.
• Fase 6 (Adición de fusiones)
Para reordenamientos recurrentes en NSCLC en los que están implicadas las tirosina quinasas receptoras ALK, ROS1 y RET, se incluyeron los intrones más frecuentemente implicados en el acontecimiento de fusión y los exones flanqueantes.
En la Tabla 1 se proporcionan todos los exones incluidos en el selector, junto con sus correspondientes símbolos de gen y coordenadas genómicas según HUGO, así como los estadísticos de pacientes para NSCLC y una diversidad de otros cánceres, organizados por fase de diseño del selector.
Pipeline computacional de CAPP-Seq
Descubrimiento de mutaciones: SNV/indeles. Para la detección de SNV somáticas y acontecimientos de inserción/deleción, se empleó VarScan 2 (valor p somático = 0,01, frecuencia mínima de variante = 5 %, filtro de cadena = verdadero y, de lo contrario, parámetros por defecto). Se retuvieron las llamadas de variantes somáticas (SNV o indel) presentes con una frecuencia alélica mutante inferior al 0,5% en la muestra normal pareada (PBL), pero en una posición con al menos 1000x de profundidad total en PBL y 100x de profundidad en el tumor, y con al menos 1x de profundidad de lectura en cada cadena (Tablas 3, 20 y 21). Aunque el selector se diseñó para capturar predominantemente exones, en la práctica, también captura contenido de secuencia limitado que flanquea cada región establecida como diana. Por ejemplo, este fenómeno es la base para la (hasta ahora) recuperación uniformemente exitosa por CAPP-Seq de compañeros de fusión (que no están incluidos en el selector) para genes de quinasa tales como ALK y ROS1 reorganizados de forma recurrente en el NSCLC. Como tal, también se consideraron las llamadas variantes detectadas dentro de los 500 pb de las coordenadas del selector definido. Estas llamadas se eliminaron si estaban presentes en regiones de repetición no codificantes, ya que las repeticiones pueden confundir la precisión del mapeo. Las coordenadas de la secuencia de repetición se obtuvieron utilizando la pista RepeatMasker en el navegador de tablas UCSC (hg19). Como había una baja, pero medible, tasa de contaminación cruzada de ~ 0. 0,6 % en muestras de cfDNA multiplexadas, (Fig. 14) también se excluyó cualquier SNV encontrad como SNP de la línea germinal en muestras del mismo carril. Además, se excluyeron SNV en el percentil superior 99,9 del fondo del selector global (> 0,27 % de la tasa de fondo de toda la muestra; véanse la Fig. 2d y la sección B1.1 anterior). Por último, se excluyó cualquier SNV que no estuviera presente a una profundidad de al menos 500x en al menos 1 muestra de cfDNA. La anotación de variante se descargó automáticamente del servidor web SeattleSeq Annotation 137. Los detalles completos de todos los SNV e indeles identificados se proporcionan en las Tablas 3, 20 y 21. Cabe destacar que, todos los umbrales de profundidad se refieren a lecturas de eliminación previas a la duplicación.
Descubrimiento de mutaciones: Fusiones. Para una enumeración de novo práctica y robusta de acontecimientos de fusión genómica y puntos de ruptura a partir de datos de secuenciación de última generación de extremos pareados, se desarrolló un enfoque heurístico novedoso, denominado FACTERA (algoritmo fácil de translocación enumeración y recuperación). FACTERA tiene dependencias externas mínimas, trabaja directamente en un archivo de alineamiento .bam preexistente y produce una salida fácilmente interpretable. Las etapas principales del algoritmo se resumen a continuación y se complementan con un esquema gráfico para ilustrar los elementos clave del proceso de identificación del punto de ruptura (Fig. 8). FACTERA está codificado en Perl y está disponible gratuitamente bajo pedido.
Como entrada, FACTERA requiere un archivo de alineamiento .bam de lecturas de extremos pareados producidas por BWA, coordenadas del exón en formato .bed (por ejemplo, coordenadas hg19 RefSeq) y un genoma de referencia de 0,2 bits para permitir la recuperación rápida de secuencias (por ejemplo, hg19). Además, el análisis se puede restringir opcionalmente a lecturas que solapan con regiones genómicas particulares (archivo .bed), tales como el selector CAPP-Seq utilizado en este trabajo.
FACTERA procesa la entrada en tres fases secuenciales: identificación de lecturas discordantes, detección de puntos de ruptura en la resolución de pares de bases y validación in silico de fusiones candidatas. Cada fase se describe en detalle a continuación.
Identificación de lecturas discordantes. Para reducir iterativamente el espacio de secuencia para la identificación de fusión de genes, FACTERA, como otros algoritmos (por ejemplo, BreakDancer), identifica y clasifica pares de lectura discordantes. Tales lecturas indican un acontecimiento de fusión cercano, ya que se asignan a diferentes cromosomas o están separadas por un tamaño de inserto inesperadamente grande (por ejemplo, longitud total del fragmento), según lo determinado por el algoritmo de mapeo BWA. La bandera bit a bit que acompaña a cada lectura alineada codifica una diversidad de características de mapeo (por ejemplo, pareado incorrectamente, sin mapear, orientación incorrecta, etc.) y se aprovecha para filtrar rápidamente la entrada en busca de pares discordantes. Posteriormente se identifica el exón más cercano de cada lectura discordante y se utiliza para agrupar pares discordantes en distintos grupos gen-gen, produciendo una lista de regiones genómicas R adyacentes a los sitios de fusión candidatos. Para cada gen miembro de un par de genes discordantes, la región genómica Ri se define tomando el mínimo de todas las coordenadas de lectura/exón 3' en el grupo, y el máximo de todas las coordenadas de lectura/exón 5' en el grupo. Estas regiones se utilizan para priorizar la búsqueda de puntos de ruptura en la siguiente fase (Fig. 8a).
Detección de puntos de ruptura en resolución de pares de bases. Pueden introducirse pares de lectura discordantes mediante la preparación de la biblioteca NGS y/o artefactos de secuenciación (por ejemplo, PCR de salto (jumping PCR). Sin embargo, también es probable que flanqueen los puntos de ruptura de los acontecimientos de fusión auténticos. Como tal, todos los pares de genes discordantes identificados en la fase anterior se clasifican en orden decreciente de profundidad de lectura discordante (los fragmentos duplicados se eliminan para corregir un posible sesgo de PCR), y las regiones genómicas con una profundidad de al menos 2x (por defecto) se evalúan más a fondo para determinar posibles puntos de ruptura. Dentro de cada región, FACTERA analiza todas las lecturas pareadas correctamente en las que una de las dos lecturas tiene un "recorte suave", o está truncada (véase la Fig. 8a). Las lecturas con recorte suave permiten una determinación precisa del punto de ruptura y se identifican fácilmente analizando la cadena CIGAR asociada con cada lectura mapeada, que especifica de forma compacta la operación de alineamiento utilizada en cada base (por ejemplo, se mapearon My = y bases contiguas, se omitieron SX = x bases). Para simplificar esta etapa, solo se consideran las lecturas con recorte suave con los dos patrones siguientes, SxMy y MySx, y se requiere que el número de bases omitidas x sea al menos 16 (<1 en 4.3B por azar) para reducir el impacto de alineamientos de secuencia no específicos.
Para validar los posibles puntos de ruptura genómicos, definidos como los bordes de las lecturas con recorte suave, FACTERA ejecuta la siguiente rutina, representada en la Fig. 8. Para cada par de genes discordantes (por ejemplo, Genes w y v en la Fig. 8a), se tabulan todos los puntos de ruptura candidatos y se determina el soporte (por ejemplo, frecuencia de lectura) para cada uno. Los puntos de ruptura soportados por menos de 2 lecturas (por defecto) se excluyen del análisis posterior. Comenzando con los dos puntos de ruptura con el mayor soporte, FACTERA selecciona una lectura con recorte suave representativa para cada punto de ruptura, de modo que la longitud de la secuencia recortada sea la que más se acerque a la mitad de la longitud de lectura (Fig. 8b). Si la región mapeada de una lectura coincide con la región con recorte suave de la otra, FACTERA registra un supuesto acontecimiento de fusión. Para evaluar la concordancia entre lecturas (por ejemplo, véanse las lecturas 1 y 2 en la Fig. 8c), FACTERA emplea el siguiente algoritmo. La región mapeada de lectura 1 se analiza en todas las subsecuencias posibles de longitud k (por ejemplo, k-meros) usando una ventana deslizante (k = 10, por defecto). Cada k-mero, junto con su índice de secuencia más bajo en lectura 1, se almacena en una estructura de datos de Tabla hash, que permite evaluar el número de miembros k-meros en tiempo constante (Fig. 8c, panel izquierdo). Posteriormente, la secuencia con recorte suave de lectura 2 se analiza en subsecuencias de longitud k, y la Tabla hash se interroga para encontrar kmeros coincidentes (Fig. 8c, panel derecho). Si se alcanza un umbral mínimo de coincidencia (= 0,5 x la longitud mínima de las dos subsecuencias comparadas), entonces las dos lecturas se consideran concordantes. FACTERA procesará como máximo 1000 (por defecto) supuestos pares de punto de ruptura para cada par de genes discordantes. Asimismo, para cada par de genes, FACTERA solo comparará lecturas cuyas orientaciones sean compatibles con fusiones válidas. Dichas lecturas tienen secuencias con recorte suave orientadas en direcciones opuestas (Fig. 8d, panel superior). Cuando esta condición no se cumple, FACTERA usa el complemento inverso de la lectura 1 para el análisis de k-meros (Fig. 8d, panel inferior).
En algunos casos, las subsecuencias genómicas que flanquean el verdadero punto de ruptura pueden ser casi o completamente idénticas, haciendo que solapen las partes alineadas de las lecturas con recorte suave. Desafortunadamente, esto impide una determinación inequívoca del punto de ruptura. Como tal, FACTERA incorpora un algoritmo simple para ajustar arbitrariamente el punto de ruptura en una lectura (por ejemplo, lectura 2) para que coincida con la otra (por ejemplo, lectura 1). Dependiendo de la orientación de lectura, hay dos formas en que esto puede ocurrir, ambas ilustradas en la Fig. 8e. Para cada lectura, FACTERA calcula la distancia entre el punto de ruptura y la coordenada de lectura correspondiente a la primera coincidencia de k-meros entre lecturas. Por ejemplo, como se ilustra de forma anecdótica en la Fig.8e, x se define como la distancia entre la coordenada del punto de ruptura de la lectura 1 y el índice del primer k-mero coincidente, j, mientras y denota la distancia correspondiente para la lectura 2. La variable de exposición (offset) se estima como la diferencia de distancias (x, y) entre las dos lecturas (véase la Fig. 8e).
Validación in silico de fusiones candidatas. Para confirmar cada punto de ruptura candidato en silico, FACTERA realiza una realineamiento local de lecturas frente a una secuencia de fusión de molde (± 500 pb alrededor del supuesto punto de ruptura) extraída del genoma de referencia de 0,2 bits. Actualmente se emplea BLAST para este propósito, aunque podría sustituirse por BLAT u otros alineadores rápidos. Una base de datos BLAST se construye recopilando todas las lecturas que se asignan a cada secuencia de fusión candidata, incluidas lecturas discordantes y lecturas con recorte suave, así como todas las lecturas no asignadas en el archivo .bam de entrada original. Se retienen todas las lecturas que se asignan a un candidato de fusión dado con al menos un 95 % de identidad y una longitud mínima del 90 % de la longitud de la lectura de entrada (por defecto) y se cuentan las lecturas que abarcan o flanquean el punto de ruptura. Como etapa final, las redundancias de salida se minimizan eliminando las secuencias de fusión dentro de un intervalo de 20 pb de cualquier secuencia de fusión con mayor soporte de lectura y con la misma orientación de secuencia (para evitar eliminar fusiones recíprocas).
FACTERA produce un archivo de texto de salida simple, que incluye para cada secuencia de fusión, el par de genes, las coordenadas de la secuencia cromosómica del punto de ruptura, la orientación de la fusión (por ejemplo, adelanteadelante o adelante-atrás), las secuencias genómicas a no más de 50 pb del punto de ruptura y los estadísticos de profundidad para las lecturas que abarcan y flanquean el punto de ruptura. En las Tablas 3, 20 y 21 se proporcionan fusiones identificadas en los pacientes analizados en este trabajo.
Validación experimental de FACTERA. Para evaluar experimentalmente el desempeño de FACTERA, se generaron datos NGS a partir de dos líneas celulares de NSCLC, HCC78 (lecturas de extremos pareados de 21,5 M x 100 pb) y NCI-H3122 (lecturas de extremos pareados de 19,4 M x 100 pb), cada una de las cuales tiene un reordenamiento conocido (ROS1 y ALK, respectivamente) con un punto de ruptura que, según el conocimiento de los presentes inventores, no se ha publicado previamente. FACTERA reveló fácilmente la evidencia de una translocación SLC34A2-ROS1 recíproca en la primera y una fusión EML4-ALK en la última. Los puntos de ruptura precisos predichos por FACTERA se validaron experimentalmente mediante amplificación por PCR y secuenciación de Sanger (Fig. 9; véase también Validación de variantes detectadas por CAPP-Seq). Es importante indicar que, FACTERA completó cada ejecución en un tiempo práctico (~ 90 segundos), usando solo un único hilo en un chip Intel Xeon E5690 hexa-core de 3.4 GHz. Estos resultados iniciales ilustran la utilidad de FACTERA como parte del pipeline de análisis de CAPP-Seq.
Descubrimiento de fusión con molde. Se implementó una opción dirigida por el usuario para "buscar" fusiones dentro de los genes candidatos esperados. FACTERA podría pasar por alto una fusión si los criterios de detección de fusión empleados por FACTERA no se cumplieran por completo, tal como, si se identificaran lecturas discordantes, pero no lecturas con recorte suave, y esto es muy probable que ocurra cuando la frecuencia de los alelos de fusión en el tumor es extremadamente baja. Como entrada, el método se proporciona con secuencias de genes de fusión candidatos como "cebos". Todas las lecturas no asignadas y con recorte suave en el archivo .bam de entrada se alinean posteriormente con estos moldes (usando blastn) para identificar las lecturas que tienen suficiente similitud con ambas (para cada lectura, 95 % de identidad, valor e < 1,0e-5, y al menos el 30 % de la longitud de lectura debe asignarse al molde, por defecto). Estas lecturas se envían al usuario como una lista para su análisis manual.
Se probó este enfoque simple en una muestra de tumor de baja pureza que albergaba una fusión ALK por FISH, pero no FACTERA (por ejemplo, caso P9). Usando moldes para ALK y su compañero común de fusión, ELM4, se identificaron 4 lecturas que se asignaron a ambos, en una región con una profundidad total de ~ 1900x. La frecuencia alélica estimada del 0,21 % es sorprendentemente similar a la pureza tumoral del 0,22 % medida por FACS (Fig. 17), lo que confirma la utilidad del método de descubrimiento de fusión con molde. Posteriormente se redujeron las poblaciones inmunitarias CD45 con FACS y se resecuenció el tumor de este paciente. En la muestra de tumor enriquecida, FACTERA identificó la fusión EML4-ALK, junto con dos nuevas fusiones de ROS1 (Fig. 4b, Tablas 3, 20 y 21 ).
Recuperación de mutaciones: SNV/indeles. Usando un script de Perl personalizado, Los alelos indicadores previamente identificados se interseccionaron con un archivo mpileup de SAMtools generado para cada muestra de cfDNA plasmático, y se calcularon el número y la frecuencia de las lecturas de soporte para cada alelo indicador. Solo se consideraron los indicadores en lecturas correctamente pareadas en posiciones con una profundidad total de al menos 500x (eliminación previa a la duplicación) (Tabla 4).
Recuperación de mutaciones: Fusiones. Para la enumeración de la frecuencia de fusión en ADN plasmático secuenciado, FACTERA ejecuta la última etapa de la fase de descubrimiento (por ejemplo, validación in silico de fusiones candidatas, arriba) utilizando el conjunto de moldes de fusión previamente identificados. La frecuencia de alelos de fusión se calcula como a/p, dónde a es el número de lecturas que abarcan el punto de ruptura, y p es la profundidad total media dentro de una región genómica ± 5 pb alrededor del punto de ruptura. Con respecto al selector de NSCLC descrito en este trabajo, el último cálculo siempre se realizó en el gen único contenido en la biblioteca de selectores de NSCLC. Si los dos genes de fusión están establecidos como diana dentro de una biblioteca de selectores, la profundidad total se estima tomando la profundidad media calculada para ambos genes.
Cabe destacar que, en algunos casos, se observaron frecuencias de alelos de fusión más bajas de lo que cabría esperar para alelos heterocigotos (por ejemplo, véanse las fusiones de líneas celulares en las Tablas 3, 20 y 21). Esto se vio en líneas celulares, en un experimento empírico de adición y en muestras de plasma y tumor de un paciente (por ejemplo, P6), y podría ser el resultado de una "reducción" ineficaz de fusiones cuyos compañeros no están representadas en el selector. Independientemente, las fusiones son indicadores útiles que prácticamente no poseen señal de fondo y muestran un comportamiento lineal sobre concentraciones definidas en un experimento de adición (Fig. 16d). Asimismo, las frecuencias alélicas en plasma se ajustan fácilmente para tales ineficiencias dividiendo la frecuencia medida en plasma por la frecuencia correspondiente en el tumor. En los casos en los que el tejido tumoral secuenciado es impuro, el contenido tumoral se puede estimar utilizando las frecuencias de SNV (o indeles) como marco de referencia, lo que permite que la fracción de fusión se normalice en consecuencia (Tabla 4).
Detección de cfDNA en plasma sin conocimiento del ADN tumoral. Se ideó el siguiente algoritmo estadístico como una etapa inicial hacia la genotipificación de tumores no invasivos y la detección de cánceres con CAPP-Seq. El método identifica SNV candidatos utilizando modelos iterativos de (i) ruido de fondo en ADN de la línea germinal pareado (en este trabajo, PBL), (ii) frecuencias de fondo de resolución de pares de bases en el cfDNA plasmático a través del selector, y (iii) error de secuenciación en cfDNA. En la Fig. 21 se proporcionan ejemplos. El algoritmo funciona en cuatro etapas principales, detalladas más adelante.
Como entrada, el algoritmo toma las frecuencias alélicas de una sola muestra de cfDNA plasmático y analiza alelos de fondo de alta calidad, definidos en una primera etapa para cada posición genómica como la base no dominante con mayor abundancia fraccionada. Solo se analizan alelos con una profundidad de al menos 500x y un sesgo de cadena < 90 % (conservador, por defecto). Para mantener la coherencia con la llamada de variante, se permitió que el enfoque de detección interrogara a las regiones de selección dentro de 500 pb de las coordenadas definidas, expandiendo el espacio de secuencia efectivo de -125 kb a -600 kb.
En segundo lugar, la distribución binomial se usa para probar si un alelo de cfDNA de entrada dado es significativamente diferente del alelo correspondiente de la línea germinal pareada (Fig. 21a-b). Aquí, la probabilidad de éxito se considera la frecuencia del alelo de fondo en los PBL, y el número de ensayos es la profundidad correspondiente del alelo en el cfDNA plasmático. Para evitar contribuciones de alelos en células tumorales circulantes raras que podrían contaminar los PBL, ya no se consideran los alelos de entrada con una abundancia fraccionada superior al 0,5 % en PBL pareados (por defecto) o una probabilidad binomial ajustada por Bonferroni superior a 2,08 x 10-8 (alfa de 0,05/[~600 kb * 4 alelos por posición]).
En tercer lugar, se ensambla una base de datos de frecuencias de alelos de fondo de cfDNA. En este caso, se utilizaron muestras analizadas en el presente estudio (por ejemplo, muestras de NSCLC antes del tratamiento y 1 muestra de un voluntario sano), con la excepción de que la muestra de entrada se deja fuera para evitar sesgos. Basándose en el supuesto de que todas las fracciones de alelos de fondo siguen una distribución normal, se emplea una prueba Z para probar si un alelo de entrada dado difiere significativamente del fondo típico de cfDNA en la misma posición (Fig. 21a-b). Se evalúan todos los alelos dentro del selector, y dejan de considerarse los que tienen una frecuencia de fondo promedio del 5 % o más (por defecto) o una puntuación Z de una sola cola ajustada por Bonferroni <5,6 (alfa de 0,05, ajustado como se ha indicado anteriormente).
Por último, se prueban los alelos candidatos para detectar posibles errores de secuenciación restantes. Esta etapa aprovecha la observación de que las variantes no tumorales (por ejemplo, "errores") en el cfDNA plasmático tienden a tener una tasa de duplicación más alta que variantes auténticas detectables en el tumor del paciente (datos no mostrados). Como tal, se compara el número de lecturas de soporte para cada alelo de entrada entre los datos no deduplicados (todos los fragmentos que cumplen con los criterios de control de calidad (QC)) y los datos deduplicados (solo los fragmentos únicos que cumplen los criterios de control de calidad). A continuación, se utiliza un análisis de valores atípicos para distinguir las SNV derivadas de tumores candidatos del ruido de fondo restante (Fig. 21a-c). De manera específica, para revelar una tendencia atípica en los datos, se compara la raíz cuadrada de la distancia robusta Rd (distancia de Mahalanobis) con la raíz cuadrada de los cuantiles de una distribución chi-cuadrado Cs. Esta transformación revela una separación natural entre los verdaderos SNV y los falsos positivos en pacientes con cáncer (Fig.21a, c) y, notablemente, revela una ausencia de estructura atípica en muestras de pacientes que carecen de SNV derivadas de tumores (Fig. 21b, c). Para llamar automáticamente a SNV sin conocimiento previo, el enfoque de exploración itera a través de puntos de datos al disminuir Rb y recalcular el coeficiente de correlación de Pearson Rho entre Rd y Cs para los puntos 1 a i, dónde Rdi es la Rd máxima actual. El algoritmo informa iterativamente los valores atípicos (por ejemplo, SNV candidatos) hasta que termina cuando Rho >0,85.
Ejemplo 2: Diseño de un conjunto selector personalizado
En determinadas circunstancias, es probable que la supervisión de la carga tumoral en un paciente que se sabe que tiene cáncer no sea práctico si se utiliza una estrategia existente que aplica el conocimiento de una cohorte de pacientes con el mismo tipo de tumor, para capturar selectivamente regiones genómicas que están mutadas de forma recurrente en ese tipo de tumor usando CAPP-Seq. Estas situaciones incluyen, pero sin limitación, casos en los que (1) el tumor es de histología primaria desconocida (por ejemplo, CUP); (2) se conoce la histología, pero es demasiado rara como para tener un número suficiente de pacientes con ese tipo de tumor previamente perfilado para definir el paisaje genético somático del tumor del paciente promedio (por ejemplo, el subtipo de sarcoma de tejido blando); (3) se conoce la histología, pero el número promedio/mediano de lesiones somáticas recurrentes en ese tipo de tumor es demasiado bajos para alcanzar los niveles de sensibilidad deseados (por ejemplo, tumores pediátricos, etc.); o (4) la histología es conocida y el número promedio/mediano de lesiones somáticas recurrentes es razonable, pero la carga promedio de volumen tumoral es tan pequeña que se puede lograr una sensibilidad adicional usando más mutaciones por tumor (por ejemplo, estadios tempranos de melanoma maligno). En estos casos, es probable que una estrategia personalizada para la supervisión de la carga tumoral supere estos obstáculos para la supervisión de la enfermedad.
En este caso, el (los) tumor(es) de un paciente que se sabe que tiene cáncer se genotipifican mediante el perfilado del genoma del tumor, exoma o región establecida como diana que se espera que esté enriquecida con aberraciones somáticas. El genotipo del cáncer puede compararse con un genotipo de la línea germinal del mismo paciente. Posteriormente se catalogan las lesiones resultantes y se utilizan para construir un selector personalizado adaptado que comprende un conjunto de oligonucleótidos biotinilados para la captura selectiva por afinidad de híbridos de las correspondientes moléculas de ADN tumoral circulante (ctDNA). Se aislaría el ADN libre de células que circula en la sangre o los fluidos corporales y que alberga tales moléculas de ctDNA y se usaría para construir bibliotecas genómicas de escopeta que incluyan el ligamiento de etiquetas moleculares ("códigos de barras") que distinguen tales secuencias de otras, permitiendo la supresión de errores falsos introducidos durante la amplificación de cfDNA utilizando ADN polimerasas termoestables como parte de la reacción en cadena de la polimerasa. A continuación, se aplicaría el selector personalizado para la captura de los fragmentos de interés, secuenciados y analizados de la misma manera que el flujo de trabajo de CAPP-Seq existente, que permite el rastreo y la cuantificación de las mutaciones descubiertas originalmente en el tumor primario dentro del cfDNA correspondiente. Como alternativa a la captura de híbridos basada en afinidad de ctDNNcfDNA, podrían interrogarse por p Cr amplicones específicos de la región correspondiente, con tales fragmentos indexados selectivamente usando códigos de barras moleculares que, de manera similar, permiten la distinción de errores de secuenciación introducidos durante la PCR.
Ejemplo 3. Uso de un conjunto selector para diagnosticar un cáncer
Se obtiene una muestra de plasma de una mujer con un bulto anormal en la mama. Se extrae ADN libre de células (cfDNA) de la muestra de plasma. Se realiza una reacción de reparación de extremos en el cfDNA mezclando los componentes en un tubo de microcentrífuga estéril (u otro recipiente estéril adecuado) de la siguiente manera:
Figure imgf000124_0001
La mezcla de reacción de reparación de extremos se incuba en un termociclador durante 30 minutos a 20 °C.
La limpieza del cfDNA con extremos reparados se realiza añadiendo 160 |jl (1,6X) de microesferas AMPure XP resuspendidas a la mezcla de reacción de reparación de extremos. Las microesferas AMPure se mezclan con la solución en un mezclador vorticial o pipeteando hacia arriba y hacia abajo (por ejemplo, 10 veces o más). La reacción se incuba durante 5 minutos a temperatura ambiente. La reacción se coloca en un soporte magnético para separar las microesferas del sobrenadante. Una vez que la solución es transparente (aproximadamente 5 minutos), se retira y se desecha el sobrenadante. Las microesferas se lavan dos veces añadiendo a la reacción 200 j l de etanol al 80% recién preparado mientras están en el soporte magnético. Para cada lavado, la solución de etanol se añade a temperatura ambiente durante 30 segundos. El sobrenadante se elimina y se desecha. Las microesferas se secan al aire durante 10 minutos mientras la reacción está en el soporte magnético. El cfDNA se eluye de las microesferas añadiendo 40 j l de agua estéril y agitando con vórtice o pipeteando el agua hacia arriba y hacia abajo. La reacción se vuelve a colocar en el soporte magnético. Una vez que la solución es transparente, se transfieren 32 j l del sobrenadante a un recipiente estéril (por ejemplo, tubo de microcentrífuga) limpio.
La adición de cola de dA del cfDNA con extremos reparados se realiza mezclando los siguientes componentes en el tubo de microcentrífuga estéril de la siguiente manera:
Figure imgf000124_0003
La reacción de adición de cola de dA se incuba en un termociclador durante 30 minutos a 37 °C.
La limpieza del cfDNA con cola de dA se realiza añadiendo 90 j l (1,8X) de microesferas AMPure XP resuspendidas a la mezcla de reacción de adición de cola de dA. Las microesferas AMPure se mezclan con la solución en un mezclador vorticial o pipeteando hacia arriba y hacia abajo (por ejemplo, 10 veces o más). La reacción se incuba durante 5 minutos a temperatura ambiente. La reacción se coloca en un soporte magnético para separar las microesferas del sobrenadante. Una vez que la solución es transparente (aproximadamente 5 minutos), se retira y se desecha el sobrenadante. Las microesferas se lavan dos veces añadiendo a la reacción 200 j l de etanol al 80% recién preparado mientras están en el soporte magnético. Para cada lavado, la solución de etanol se añade a temperatura ambiente durante 30 segundos. El sobrenadante se elimina y se desecha. Las microesferas se secan al aire durante 10 minutos mientras la reacción está en el soporte magnético. El cfDNA se eluye de las microesferas añadiendo 15 j l de agua estéril y agitando con vórtice o pipeteando el agua hacia arriba y hacia abajo. La reacción se vuelve a colocar en el soporte magnético. Una vez que la solución es transparente, se transfieren 10 j l del sobrenadante a un recipiente estéril (por ejemplo, tubo de microcentrífuga) limpio.
El ligamiento del adaptador del cfDNA con cola de dA se realiza mezclando los siguientes componentes en el tubo de microcentrífuga estéril de la siguiente manera:
Figure imgf000124_0002
La reacción de ligamiento del adaptador se incuba a 16 °C durante 16 horas. La reacción de ligamiento del adaptador se termina añadiendo 3 j l de mezcla de enzimas USER™ pipeteando hacia arriba y hacia abajo e incubando a 37 °C.
La limpieza del cfDNA ligado al adaptador se realiza añadiendo 90 j l (1,8X) de microesferas AMPure XP resuspendidas a la mezcla de reacción de ligamiento de adaptador. Las microesferas AMPure se mezclan con la solución en un mezclador vorticial o pipeteando hacia arriba y hacia abajo (por ejemplo, 10 veces o más). La reacción se incuba durante 5 minutos a temperatura ambiente. La reacción se coloca en un soporte magnético para separar las microesferas del sobrenadante. Una vez que la solución es transparente (aproximadamente 5 minutos), se retira y se desecha el sobrenadante. Las microesferas se lavan dos veces añadiendo a la reacción 200 μl de etanol al 80% recién preparado mientras están en el soporte magnético. Para cada lavado, la solución de etanol se añade a temperatura ambiente durante 30 segundos. El sobrenadante se elimina y se desecha. Las microesferas se secan al aire durante 10 minutos mientras la reacción está en el soporte magnético. El cfDNA se eluye de las microesferas añadiendo 105 μl de agua estéril y agitando con vórtice o pipeteando el agua hacia arriba y hacia abajo. La reacción se vuelve a colocar en el soporte magnético. Una vez que la solución es transparente, Se transfieren 100 μl del sobrenadante a un recipiente estéril (por ejemplo, tubo de microcentrífuga) limpio.
Se realiza una amplificación por PCR universal en el cfDNA ligado al adaptador utilizando cebadores dirigidos a los adaptadores. La amplificación por PCR se realiza utilizando 14 ciclos de amplificación. Se usan sondas del conjunto selector para capturar selectivamente un subconjunto de los productos amplificados del cfDNA ligado al adaptador. Se realizan reacciones de secuenciación sobre los productos amplificados capturados. El cfDNA amplificado capturado se secuencia en un carril de 100 pb de extremos pareados de un Illumina HiSeq 2000.
La información de secuenciación se analiza detectando mutaciones en una o más regiones genómicas basándose en un conjunto selector. El conjunto selector contiene información relativa a las mutaciones que aparecen en una o más regiones genómicas, en donde las mutaciones están presentes en al menos aproximadamente el 70 % de una población de sujetos que padecen un cáncer de mama. Para determinar el significado estadístico de las mutaciones detectadas en la muestra, se calculan los valores p para las diferentes clases de mutaciones. Se usa un índice de detección de ctDNA para evaluar el significado estadístico de detectar dos o más clases de mutaciones.
El informe de las mutaciones detectadas en la muestra y el significado estadístico de la detección de las mutaciones se proporciona a un médico. Basándose en la detección de al menos tres mutaciones en tres regiones genómicas, el médico diagnostica un cáncer de mama en el sujeto.
Ejemplo 4. Uso de un conjunto selector para determinar el estado o resultado de un cáncer
Se purifica ADN libre de células (cfDNA) a partir de una muestra de un sujeto al que se le ha diagnosticado cáncer de próstata. Se realiza una reacción de reparación de extremos en el cfDNA mezclando los componentes en un tubo de microcentrífuga estéril (u otro recipiente estéril adecuado) de la siguiente manera:
Figure imgf000125_0001
La mezcla de reacción de reparación de extremos se incuba en un termociclador durante 30 minutos a 20 °C.
La limpieza del cfDNA con extremos reparados se realiza añadiendo 160 μl (1,6X) de microesferas AMPure XP resuspendidas a la mezcla de reacción de reparación de extremos. Las microesferas AMPure se mezclan con la solución en un mezclador vorticial o pipeteando hacia arriba y hacia abajo (por ejemplo, 10 veces o más). La reacción se coloca en un soporte magnético y se incuba a temperatura ambiente durante 15 minutos o hasta que la solución es transparente. Después de que la solución es transparente, el sobrenadante se elimina y se desecha. Las microesferas se lavan dos veces añadiendo a la reacción 200 pl de etanol al 80% recién preparado mientras están en el soporte magnético. Para cada lavado, la solución de etanol se añade a temperatura ambiente durante 30 segundos. El sobrenadante se elimina y se desecha.
Las microesferas se secan al aire durante 15 minutos mientras la reacción está en el soporte magnético. El cfDNA se eluye de las microesferas resuspendiendo las microesferas a fondo en 32,5 μl de tampón de elución e incubando a temperatura ambiente durante 2 minutos. La reacción se vuelve a colocar en el soporte magnético a temperatura ambiente durante 15 minutos o hasta que la solución sea transparente. Se transfieren 30 μl del sobrenadante a un recipiente estéril (por ejemplo, tubo de microcentrífuga) limpio.
La adición de cola de dA del cfDNA con extremos reparados se realiza mezclando los siguientes componentes en el tubo de microcentrífuga estéril de la siguiente manera:
Figure imgf000125_0002
continuación
Figure imgf000126_0001
La reacción de adición de cola de dA se incuba en un termociclador durante 30 minutos a 30 °C.
La limpieza del cfDNA con cola de dA se realiza añadiendo 90 |jl (1,8X) de microesferas AMPure XP resuspendidas a la mezcla de reacción de adición de cola de dA. Las microesferas AMPure se mezclan con la solución en un mezclador vorticial o pipeteando hacia arriba y hacia abajo (por ejemplo, 10 veces o más). La reacción se coloca en un soporte magnético y se incuba a temperatura ambiente durante 15 minutos o hasta que la reacción es transparente. Una vez que la solución es transparente (aproximadamente 5 minutos), se retira y se desecha el sobrenadante. Las microesferas se lavan dos veces añadiendo a la reacción 200 j l de etanol al 80% recién preparado mientras están en el soporte magnético. Para cada lavado, la solución de etanol se añade a temperatura ambiente durante 30 segundos. El sobrenadante se elimina y se desecha. Las microesferas se secan al aire durante 15 minutos mientras la reacción está en el soporte magnético. El cfDNA se eluye de las microesferas resuspendiendo las microesferas a fondo en 32,5 j l de tampón de elución e incubando a temperatura ambiente durante 2 minutos. La reacción se vuelve a colocar en el soporte magnético durante 15 minutos a temperatura ambiente o hasta que la solución sea transparente. Se transfieren 30 j l del sobrenadante a un recipiente estéril (por ejemplo, tubo de microcentrífuga) limpio.
El ligamiento del adaptador del cfDNA con cola de dA se realiza mezclando los siguientes componentes en el tubo de microcentrífuga estéril de la siguiente manera:
Figure imgf000126_0002
La reacción de ligamiento del adaptador se incuba a 16 °C durante 16 horas.
La limpieza del cfDNA ligado al adaptador se realiza añadiendo 50 j l de microesferas AMPure XP resuspendidas a la mezcla de reacción de ligamiento de adaptador. Las microesferas AMPure se mezclan con la solución en un mezclador vorticial o pipeteando hacia arriba y hacia abajo (por ejemplo, 10 veces o más). La reacción se coloca en un soporte magnético y se incuba a temperatura ambiente durante 15 minutos o hasta que la solución es transparente. Después de que la solución es transparente, el sobrenadante se elimina y se desecha. Las microesferas se lavan dos veces añadiendo a la reacción 200 j l de etanol al 80% recién preparado mientras están en el soporte magnético. Para cada lavado, la solución de etanol se añade a temperatura ambiente durante 30 segundos. El sobrenadante se elimina y se desecha. Las microesferas se secan al aire durante 15 minutos mientras la reacción está en el soporte magnético. Las microesferas se resuspenden en 52,5 j l de tampón de elución. La reacción se vuelve a colocar en el soporte magnético y se incuba a temperatura ambiente durante 15 minutos o hasta que la solución sea transparente. Se transfieren 50 j l del sobrenadante a un recipiente estéril (por ejemplo, tubo de microcentrífuga) limpio.
Se realiza una segunda limpieza del cfDNA ligado al adaptador añadiendo 50 j l de microesferas de AMPure XP resuspendidas a la mezcla de reacción de ligamiento de adaptador. Las microesferas AMPure se mezclan con la solución en un mezclador vorticial o pipeteando hacia arriba y hacia abajo (por ejemplo, 10 veces o más). La reacción se coloca en un soporte magnético y se incuba a temperatura ambiente durante 15 minutos o hasta que la solución es transparente. Después de que la solución es transparente, el sobrenadante se elimina y se desecha. Las microesferas se lavan dos veces añadiendo a la reacción 200 j l de etanol al 80% recién preparado mientras están en el soporte magnético. Para cada lavado, la solución de etanol se añade a temperatura ambiente durante 30 segundos. El sobrenadante se elimina y se desecha. Las microesferas se secan al aire durante 15 minutos mientras la reacción está en el soporte magnético. Las microesferas se resuspenden en 32,5 j l de tampón de elución y se incuban a temperatura ambiente durante 2 minutos. La reacción se vuelve a colocar en el soporte magnético y se incuba a temperatura ambiente durante 15 minutos o hasta que la solución sea transparente. Se transfieren 30 j l del sobrenadante a un recipiente estéril (por ejemplo, tubo de microcentrífuga) limpio.
Se realiza una amplificación por PCR universal en el cfDNA ligado al adaptador utilizando cebadores dirigidos a los adaptadores. La amplificación por PCR se realiza utilizando 16 ciclos de amplificación. Se usan sondas del conjunto selector para capturar selectivamente un subconjunto del cfDNA ligado al adaptador amplificado. El cfDNA amplificado se secuencia en un carril de 100 pb de extremos pareados de un Illumina HiSeq 2000.
La información de secuenciación se analiza detectando mutaciones en una o más regiones genómicas basándose en un conjunto selector. El conjunto selector contiene información relativa a las mutaciones que aparecen en una o más regiones genómicas, en donde las mutaciones están presentes en al menos aproximadamente el 70 % de una población de sujetos que padecen un cáncer de mama. Se determina la cantidad de ADN tumoral circulante (ctDNA) en función de las lecturas de secuenciación.
Se proporciona a un médico un informe que comprende la cantidad de ctDNA. Basándose en la cantidad de ctDNA, el médico proporciona un pronóstico del cáncer de próstata en el sujeto.
Ejemplo 5. Uso de un conjunto selector para determinar un régimen terapéutico para el tratamiento de un cáncer
Se purifica ADN libre de células (cfDNA) a partir de una muestra de un sujeto al que se le ha diagnosticado cáncer de tiroides. Se realiza una reacción de reparación de extremos en el cfDNA mezclando los componentes en un tubo de microcentrífuga estéril (u otro recipiente estéril adecuado) de la siguiente manera:
Figure imgf000127_0001
La mezcla de reacción de reparación de extremos se incuba en un termociclador durante 30 minutos a 20 °C.
La limpieza del cfDNA con extremos reparados se realiza añadiendo 160 μl (1,6X) de microesferas AMPure XP resuspendidas a la mezcla de reacción de reparación de extremos. Las microesferas AMPure se mezclan con la solución en un mezclador vorticial o pipeteando hacia arriba y hacia abajo (por ejemplo, 10 veces o más). La reacción se coloca en un soporte magnético y se incuba a temperatura ambiente durante 15 minutos o hasta que la solución es transparente. Después de que la solución es transparente, el sobrenadante se elimina y se desecha. Las microesferas se lavan dos veces añadiendo a la reacción 200 pl de etanol al 80% recién preparado mientras están en el soporte magnético. Para cada lavado, la solución de etanol se añade a temperatura ambiente durante 30 segundos. El sobrenadante se elimina y se desecha. Las microesferas se secan al aire durante 15 minutos mientras la reacción está en el soporte magnético. El cfDNA se eluye de las microesferas resuspendiendo las microesferas a fondo en 32,5 μl de tampón de elución e incubando a temperatura ambiente durante 2 minutos. La reacción se vuelve a colocar en el soporte magnético a temperatura ambiente durante 15 minutos o hasta que la solución sea transparente. Se transfieren 30 μl del sobrenadante a un recipiente estéril (por ejemplo, tubo de microcentrífuga) limpio.
La adición de cola de dA del cfDNA con extremos reparados se realiza mezclando los siguientes componentes en el tubo de microcentrífuga estéril de la siguiente manera:
Figure imgf000127_0002
La reacción de adición de cola de dA se incuba en un termociclador durante 30 minutos a 30 °C.
La limpieza del cfDNA con cola de dA se realiza añadiendo 90 μl (1,8X) de microesferas AMPure XP resuspendidas a la mezcla de reacción de adición de cola de dA. Las microesferas AMPure se mezclan con la solución en un mezclador vorticial o pipeteando hacia arriba y hacia abajo (por ejemplo, 10 veces o más). La reacción se coloca en un soporte magnético y se incuba a temperatura ambiente durante 15 minutos o hasta que la reacción es transparente. Una vez que la solución es transparente (aproximadamente 5 minutos), se retira y se desecha el sobrenadante. Las microesferas se lavan dos veces añadiendo a la reacción 200 pl de etanol al 80% recién preparado mientras están en el soporte magnético. Para cada lavado, la solución de etanol se añade a temperatura ambiente durante 30 segundos. El sobrenadante se elimina y se desecha. Las microesferas se secan al aire durante 15 minutos mientras la reacción está en el soporte magnético. El cfDNA se eluye de las microesferas resuspendiendo las microesferas a fondo en 32,5 μl de tampón de elución e incubando a temperatura ambiente durante 2 minutos. La reacción se vuelve a colocar en el soporte magnético durante 15 minutos a temperatura ambiente o hasta que la solución sea transparente. Se transfieren 30 μl del sobrenadante a un recipiente estéril (por ejemplo, tubo de microcentrífuga) limpio.
El ligamiento del adaptador del cfDNA con cola de dA se realiza mezclando los siguientes componentes en el tubo de microcentrífuga estéril de la siguiente manera:
Figure imgf000127_0003
La reacción de ligamiento del adaptador se incuba a 16 °C durante 16 horas. La concentración del adaptador aumenta a lo largo del periodo de incubación. El adaptador es un adaptador en forma de Y. La cadena 5' de la porción dividida de la forma de Y contiene un código de barras molecular y un índice de muestra. La porción de doble cadena del adaptador en forma de Y contiene una secuencia universal. La secuencia universal se utiliza para la secuenciación y el enriquecimiento por PCR.
La limpieza del cfDNA ligado al adaptador se realiza añadiendo 50 μl de microesferas AMPure XP resuspendidas a la mezcla de reacción de ligamiento de adaptador. Las microesferas AMPure se mezclan con la solución en un mezclador vorticial o pipeteando hacia arriba y hacia abajo (por ejemplo, 10 veces o más). La reacción se coloca en un soporte magnético y se incuba a temperatura ambiente durante 5 minutos o hasta que la solución es transparente. Después de que la solución es transparente, el sobrenadante se elimina y se desecha. Las microesferas se lavan dos veces añadiendo a la reacción 200 μl de etanol al 80% recién preparado mientras están en el soporte magnético. Para cada lavado, la solución de etanol se añade a temperatura ambiente durante 30 segundos. El sobrenadante se elimina y se desecha. Las microesferas se secan al aire durante 15 minutos mientras la reacción está en el soporte magnético. Las microesferas se resuspenden en 52,5 μl de tampón de elución. La reacción se vuelve a colocar en el soporte magnético y se incuba a temperatura ambiente durante 5 minutos o hasta que la solución sea transparente. Se transfieren 50 μl del sobrenadante a un recipiente estéril (por ejemplo, tubo de microcentrífuga) limpio.
Se realiza una segunda limpieza del cfDNA ligado al adaptador añadiendo 50 μl de microesferas de AMPure XP resuspendidas a la mezcla de reacción de ligamiento de adaptador. Las microesferas AMPure se mezclan con la solución en un mezclador vorticial o pipeteando hacia arriba y hacia abajo (por ejemplo, 10 veces o más). La reacción se coloca en un soporte magnético y se incuba a temperatura ambiente durante 5 minutos o hasta que la solución es transparente. Después de que la solución es transparente, el sobrenadante se elimina y se desecha. Las microesferas se lavan dos veces añadiendo a la reacción 200 μl de etanol al 80% recién preparado mientras están en el soporte magnético. Para cada lavado, la solución de etanol se añade a temperatura ambiente durante 30 segundos. El sobrenadante se elimina y se desecha. Las microesferas se secan al aire durante 10 minutos mientras la reacción está en el soporte magnético. Las microesferas se resuspenden en 105 μl de tampón de elución y se incuban a temperatura ambiente durante 2 minutos. La reacción se vuelve a colocar en el soporte magnético y se incuba a temperatura ambiente hasta que la solución sea transparente. Se transfieren 100 μl del sobrenadante a un recipiente estéril (por ejemplo, tubo de microcentrífuga) limpio.
La selección del tamaño basándose en las microesferas del cfDNA ligado al adaptador se realiza añadiendo 80 μl de microesferas AMPure XP al cfDNA ligado al adaptador. La reacción se mezcla agitando la reacción con vórtice o pipeteando la solución hacia arriba y hacia abajo al menos 10 veces. La reacción se incuba a temperatura ambiente durante 5 minutos. La reacción se coloca en un soporte magnético durante 5 minutos o hasta que la solución sea transparente. Una vez que la solución es transparente, el sobrenadante se transfiere a un tubo nuevo. Se añaden 20 μl de microesferas AMPure XP al sobrenadante (se agita con vórtice o se pipetea hacia arriba y hacia abajo para mezclar) y se incuban a temperatura ambiente durante 5 minutos. La reacción se coloca en el soporte magnético durante 5 minutos o hasta que la solución sea transparente. Una vez que la solución es transparente, el sobrenadante se elimina y se desecha. Mientras están en el soporte magnético, las microesferas se lavan dos veces usando 200 μl de etanol al 80% recién preparado. Los lavados con etanol se incuban a temperatura ambiente durante 30 segundos y se retiran y desechan. Las microesferas se secan al aire a temperatura ambiente durante 10 minutos. El cfDNA se eluye de las microesferas resuspendiendo las microesferas en 25 μl de agua estéril o tampón TE 0,1X. La reacción se vuelve a colocar en el soporte magnético. Una vez que la solución es transparente, se transfieren 20 μl del sobrenadante a un nuevo tubo de microcentrífuga.
El enriquecimiento por PCR del cfDNA ligado al adaptador se realiza mezclando los siguientes componentes:
Figure imgf000128_0001
El enriquecimiento por PCR se realiza utilizando las condiciones de ciclo de 1 ciclo a 98 °C durante 30 segundos, 17 ciclos de 98 °C durante 10 segundos, 65 °C durante 30 segundos y 72 °C durante 30 segundos, seguido de 1 ciclo de 72 °C durante 5 minutos y mantenimiento a 4 °C.
La limpieza del cfDNA enriquecido por PCR se realiza añadiendo 50 μl (1X) de microesferas AMPure XP resuspendidas a la mezcla de reacción de cfDNA enriquecida por PCR. Las microesferas AMPure se mezclan con la solución en un mezclador vorticial o pipeteando hacia arriba y hacia abajo (por ejemplo, 10 veces o más). La reacción se coloca en un soporte magnético y se incuba a temperatura ambiente durante 5 minutos o hasta que la solución es transparente. Después de que la solución es transparente, el sobrenadante se elimina y se desecha. Las microesferas se lavan dos veces añadiendo a la reacción 200 |jl de etanol al 80% recién preparado mientras están en el soporte magnético. Para cada lavado, la solución de etanol se añade a temperatura ambiente durante 30 segundos. El sobrenadante se elimina y se desecha. Las microesferas se secan al aire durante 10 minutos mientras la reacción está en el soporte magnético. Las microesferas se resuspenden en 30 j l de TE 0,1X. La reacción se vuelve a colocar en el soporte magnético y se incuba a temperatura ambiente hasta que la solución sea transparente. Se transfieren 25 j l del sobrenadante a un recipiente estéril (por ejemplo, tubo de microcentrífuga) limpio. El cfDNA enriquecido se diluye 20 veces con la adición de agua libre de nucleasas.
El cfDNA enriquecido se hibrida con una matriz que comprende sondas de conjunto selector. La cantidad de ADN tumoral circulante (ctDNA) se determina usando hibridación basada en matrices. Se obtiene una imagen de la matriz y se calcula la cantidad de ctDNA basándose en las señales de intensidad en la matriz.
Se proporciona al médico el informe que comprende la cantidad de ctDNA, las mutaciones encontradas y una lista de terapias contra el cáncer. Basándose en la cantidad de ctDNA, los tipos de mutaciones encontradas y la lista de terapias contra el cáncer, el médico proporciona un régimen terapéutico para el tratamiento del cáncer de tiroides en el sujeto.
Figure imgf000130_0001
Figure imgf000131_0001
continuación
Figure imgf000132_0001
continuación
Figure imgf000133_0001
continuación
Figure imgf000134_0001
continuación
Figure imgf000135_0001
continuación
Figure imgf000136_0001
continuación
Figure imgf000137_0001
continuación
Figure imgf000138_0001
continuación
Figure imgf000139_0001
continuación
Figure imgf000140_0001
continuación
Figure imgf000141_0002
Figure imgf000141_0001
continuación
Figure imgf000142_0001
continuación
Figure imgf000143_0001
continuación
Figure imgf000144_0001
Figure imgf000144_0002
Figure imgf000145_0001
Figure imgf000146_0001
Figure imgf000147_0001
Figure imgf000148_0001
Figure imgf000149_0001
Figure imgf000150_0001
Figure imgf000151_0001
Figure imgf000152_0001
Figure imgf000153_0001
Figure imgf000154_0001
Figure imgf000155_0001
Figure imgf000156_0001
Figure imgf000157_0001
Figure imgf000158_0001
Figure imgf000159_0001
Figure imgf000160_0001
Figure imgf000161_0001
Figure imgf000162_0001
Figure imgf000163_0001
Figure imgf000164_0001
Figure imgf000165_0001
Figure imgf000166_0001
continuación
Figure imgf000167_0001
continuación
Figure imgf000168_0001
continuación
Figure imgf000169_0001
continuación
Figure imgf000170_0001
continuación
Figure imgf000171_0001
continuación
Figure imgf000172_0001
continuación
Figure imgf000173_0001
continuación
Figure imgf000174_0001
continuación
Figure imgf000175_0001
continuación
Figure imgf000176_0001
continuación
Figure imgf000177_0001
continuación
Figure imgf000178_0001
continuación
Figure imgf000179_0001
continuación
Figure imgf000180_0001
continuación
Figure imgf000181_0002
Figure imgf000181_0001
continuación
Figure imgf000182_0001
continuación
Figure imgf000183_0001
continuación
Figure imgf000184_0001
continuación
Figure imgf000185_0001
continuación
Figure imgf000186_0001
continuación
Figure imgf000187_0001
continuación
Figure imgf000188_0001
continuación
Figure imgf000189_0001
continuación
Figure imgf000190_0002
Figure imgf000190_0001
continuación
Figure imgf000191_0001
continuación
Figure imgf000192_0001
continuación
Figure imgf000193_0001
continuación
Figure imgf000194_0001
continuación
Figure imgf000195_0001
continuación
Figure imgf000196_0001
continuación
Figure imgf000197_0001
continuación
Figure imgf000198_0001
continuación
Figure imgf000199_0001
continuación
Figure imgf000200_0001
continuación
Figure imgf000201_0001
continuación
Figure imgf000202_0001
continuación
Figure imgf000203_0001
continuación
Figure imgf000204_0001
continuación
Figure imgf000205_0001
continuación
Figure imgf000206_0001
continuación
Figure imgf000207_0001
continuación
Figure imgf000208_0001
continuación
Figure imgf000209_0002
Figure imgf000209_0001
continuación
Figure imgf000210_0001
continuación
Figure imgf000211_0001
continuación
Figure imgf000212_0001
continuación
Figure imgf000213_0001
continuación
Figure imgf000214_0001
continuación
Figure imgf000215_0001
continuación
Figure imgf000216_0001
continuación
Figure imgf000217_0001
continuación
Figure imgf000218_0001
continuación
Figure imgf000219_0001
continuación
Figure imgf000220_0001
continuación
Figure imgf000221_0001
continuación
Figure imgf000222_0001
continuación
Figure imgf000223_0001
continuación
Figure imgf000224_0001
continuación
Figure imgf000225_0001
continuación
Figure imgf000226_0001
continuación
Figure imgf000227_0001
continuación
Figure imgf000228_0001
continuación
Figure imgf000229_0001
continuación
Figure imgf000230_0001
continuación
Figure imgf000231_0001
continuación
Figure imgf000232_0001
continuación
Figure imgf000233_0001
continuación
Figure imgf000234_0001
continuación
Figure imgf000235_0001
continuación
Figure imgf000236_0001
continuación
Figure imgf000237_0001
continuación
Figure imgf000238_0001
Figure imgf000239_0001
continuación
Figure imgf000240_0001
continuación
Figure imgf000241_0001
continuación
Figure imgf000242_0001
continuación
Figure imgf000243_0001
continuación
Figure imgf000244_0001
continuación
Figure imgf000245_0002
Figure imgf000245_0001
continuación
Figure imgf000246_0001
continuación
Figure imgf000247_0001
continuación
Figure imgf000248_0001
continuación
Figure imgf000249_0001
continuación
Figure imgf000250_0001
continuación
Figure imgf000251_0001
continuación
Figure imgf000252_0001
continuación
Figure imgf000253_0002
Figure imgf000253_0001
continuación
Figure imgf000254_0001
continuación
Figure imgf000255_0001
continuación
Figure imgf000256_0001
continuación
Figure imgf000257_0001
continuación
Figure imgf000258_0001
continuación
Figure imgf000259_0001
continuación
Figure imgf000260_0001
continuación
Figure imgf000261_0001
continuación
Figure imgf000262_0001
continuación
Figure imgf000263_0001
Figure imgf000263_0002
continuación
Figure imgf000264_0001
continuación
Figure imgf000265_0001
continuación
Figure imgf000266_0001
continuación
Figure imgf000267_0001
continuación
Figure imgf000268_0001
continuación
Figure imgf000269_0001
continuación
Figure imgf000270_0001
continuación
Figure imgf000271_0001
continuación
Figure imgf000272_0001
continuación
Figure imgf000273_0001
continuación
Figure imgf000274_0001
continuación
Figure imgf000275_0001
continuación
Figure imgf000276_0001
continuación
Figure imgf000277_0001
continuación
Figure imgf000278_0001
continuación
Figure imgf000279_0001
continuación
Figure imgf000280_0001
continuación
Figure imgf000281_0001
continuación
Figure imgf000282_0001
continuación
Figure imgf000283_0001
continuación
Figure imgf000284_0001
continuación
Figure imgf000285_0001
continuación
Figure imgf000286_0001
continuación
Figure imgf000287_0001
continuación
Figure imgf000288_0001
continuación
Figure imgf000289_0001
Figure imgf000289_0002
continuación
Figure imgf000290_0001
continuación
Figure imgf000291_0001
continuación
Figure imgf000292_0001
continuación
Figure imgf000293_0001
continuación
Figure imgf000294_0001
continuación
Figure imgf000295_0001
continuación
Figure imgf000296_0001
continuación
Figure imgf000297_0001
continuación
Figure imgf000298_0001
continuación
Figure imgf000299_0001
continuación
Figure imgf000300_0001
continuación
Figure imgf000301_0001
continuación
Figure imgf000302_0001
continuación
Figure imgf000303_0001
continuación
Figure imgf000304_0001
continuación
Figure imgf000305_0001
continuación
Figure imgf000306_0001
continuación
Figure imgf000307_0001
continuación
Figure imgf000308_0001
continuación
Figure imgf000309_0001
continuación
Figure imgf000310_0001
continuación
Figure imgf000311_0001
continuación
Figure imgf000312_0002
Figure imgf000312_0001
continuación
Figure imgf000313_0001
continuación
Figure imgf000314_0001
continuación
Figure imgf000315_0001
Figure imgf000316_0001
continuación
Figure imgf000317_0001
continuación
Figure imgf000318_0001
continuación
Figure imgf000319_0001
continuación
Figure imgf000320_0001
continuación
Figure imgf000321_0001
continuación
Figure imgf000322_0001
continuación
Figure imgf000323_0001
continuación
Figure imgf000324_0001
continuación
Figure imgf000325_0001
continuación
Figure imgf000326_0001
continuación
Figure imgf000327_0001
continuación
Figure imgf000328_0001
continuación
Figure imgf000329_0001
continuación
Figure imgf000330_0001
continuación
Figure imgf000331_0001
continuación
Figure imgf000332_0001
continuación
Figure imgf000333_0001
continuación
Figure imgf000334_0001
continuación
Figure imgf000335_0001
continuación
Figure imgf000336_0001
continuación
Figure imgf000337_0001
continuación
Figure imgf000338_0001
continuación
Figure imgf000339_0001
continuación
Figure imgf000340_0001
continuación
Figure imgf000341_0001
continuación
Figure imgf000342_0001
continuación
Figure imgf000343_0001
continuación
Figure imgf000344_0001
continuación
Figure imgf000345_0001
continuación
Figure imgf000346_0001
continuación
Figure imgf000347_0001
continuación
Figure imgf000348_0001
continuación
Figure imgf000349_0001
continuación
Figure imgf000350_0001
continuación
Figure imgf000351_0001
continuación
Figure imgf000352_0001
continuación
Figure imgf000353_0001
continuación
Figure imgf000354_0001
Figure imgf000354_0002
continuación
Figure imgf000355_0001
continuación
Figure imgf000356_0001
continuación
Figure imgf000357_0001
continuación
Figure imgf000358_0001
continuación
Figure imgf000359_0001
continuación
Figure imgf000360_0001
continuación
Figure imgf000361_0001
continuación
Figure imgf000362_0001
continuación
Figure imgf000363_0001
continuación
Figure imgf000364_0001
continuación
Figure imgf000365_0001
continuación
Figure imgf000366_0001
continuación
Figure imgf000367_0001
continuación
Figure imgf000368_0001
continuación
Figure imgf000369_0001
continuación
Figure imgf000370_0001
continuación
Figure imgf000371_0001
continuación
Figure imgf000372_0001
continuación
Figure imgf000373_0001
continuación
Figure imgf000374_0001
Figure imgf000374_0002
continuación
Figure imgf000375_0001
continuación
Figure imgf000376_0001
continuación
Figure imgf000377_0001
continuación
Figure imgf000378_0001
continuación
Figure imgf000379_0001
continuación
Figure imgf000380_0001
continuación
Figure imgf000381_0001
continuación
Figure imgf000382_0001
continuación
Figure imgf000383_0001
continuación
Figure imgf000384_0001
Figure imgf000385_0001
Figure imgf000386_0001
Figure imgf000387_0001
Figure imgf000388_0001
Figure imgf000389_0001
Figure imgf000390_0001
Figure imgf000391_0001
Figure imgf000392_0001
Figure imgf000393_0001
Figure imgf000394_0001
Figure imgf000395_0001
Figure imgf000396_0001
Aunque se han proporcionado ejemplos específicos, la descripción anterior es ilustrativa y no restrictiva.

Claims (13)

REIVINDICACIONES
1. Un método para el diagnóstico y la supervisión del cáncer en un paciente, comprendiendo el método:
utilizar una muestra de ácido nucleico libre de células obtenida del paciente;
utilizar un conjunto selector para enriquecer ADN libre de células que corresponde a las regiones del genoma que es más probable que contengan mutaciones somáticas específicas de tumor; en donde
el enriquecimiento es por hibridación de los ácidos nucleicos con una pluralidad de oligonucleótidos que hibridan selectivamente con dichas regiones del genoma;
amplificar y secuenciar el ADN libre de células seleccionado para determinar cuáles de las regiones genómicas seleccionadas están mutadas en el tumor;
comparar opcionalmente la secuencia del ADN libre de células seleccionado con la secuencia de ADN de la línea germinal del individuo para distinguir mutaciones somáticas presentes en el tumor; y
detectar la mutación específica de tumor en la muestra de ácido nucleico libre de células, en donde el conjunto selector comprende regiones genómicas que comprenden una o más mutaciones presentes en uno o más sujetos de una población de sujetos con cáncer.
2. El método de la reivindicación 1, que comprende además notificar al paciente los resultados de la detección de la presencia de un tumor.
3. El método de la reivindicación 1 o de la reivindicación 2, en donde las regiones genómicas comprenden dos o más de regiones exónicas, regiones intrónicas y regiones no traducidas.
4. El método de cualquiera de las reivindicaciones 1-3, en donde la secuenciación utiliza adaptadores que comprenden códigos de barras moleculares.
5. El método de cualquiera de las reivindicaciones 1-4, que comprende además seleccionar una terapia para un cáncer en el sujeto basándose en la detección de la mutación específica del tumor en el cfDNA.
6. El método de cualquiera de las reivindicaciones 1-5, en donde la pluralidad de oligonucleótidos se diseña utilizando un conjunto selector.
7. El método de la reivindicación 6, en donde la pluralidad de oligonucleótidos está presente en una matriz.
8. El método de la reivindicación 6, en donde la pluralidad de oligonucleótidos diseñados utilizando un conjunto selector se utiliza para la amplificación de cfDNA correspondiente a una región genómica.
9. El método de la reivindicación 6, en donde el conjunto selector comprende una pluralidad de regiones genómicas que comprenden una o más mutaciones presentes en una población de sujetos que padecen un cáncer.
10. El método de cualquiera de las reivindicaciones 6-9, en donde el conjunto selector se define por el método que comprende:
(a) identificar regiones de ADN genómico mutadas de forma recurrente del cáncer seleccionado; y
(b) priorizar regiones utilizando uno o más de los siguientes criterios (i) un índice de recurrencia (IR) para la región o regiones genómicas, en donde el IR es el número de pacientes o tumores únicos con mutaciones somáticas por longitud de una región genómica; y (ii) un número mínimo de pacientes o tumores únicos con mutaciones en una longitud de región genómica.
11. El método de cualquiera de las reivindicaciones 6-9, en donde el conjunto selector se define por el método que comprende:
(a) obtener datos pertenecientes a una o más regiones genómicas;
(b) aplicar un algoritmo a los datos para determinar en una región genómica: (i) la presencia de una o más mutaciones en la región genómica; (ii) un número de sujetos con mutaciones en esa región genómica; y (iii) un índice de recurrencia (IR), en donde el IR se determina dividiendo el número de sujetos con mutaciones en la región genómica por el tamaño de la región genómica; y
(c) producir un conjunto selector que comprende una o más regiones genómicas basándose en el índice de recurrencia de la una o más regiones genómicas.
12. El método de cualquiera de las reivindicaciones 6-9, en donde el conjunto selector se define por el método que comprende:
(a) obtener información de secuenciación de una muestra de tumor de un sujeto que padece un cáncer;
(b) comparar la información de secuenciación de la muestra de tumor con la información de secuenciación de una muestra no tumoral del sujeto para identificar una o más mutaciones específicas de la información de secuenciación de la muestra de tumor; y
(c) producir un conjunto selector que comprende una o más regiones genómicas que comprenden dichas una o más mutaciones específicas de la información de secuenciación de la muestra de tumor.
13. El método de una cualquiera de las reivindicaciones 6-12, en donde el conjunto selector selecciona un promedio de al menos cuatro variantes de un solo nucleótido específicas de tumor por paciente.
ES20191562T 2013-03-15 2014-03-12 Identificación y uso de marcadores tumorales de ácido nucleico circulante Active ES2946689T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US201361798925P 2013-03-15 2013-03-15

Publications (1)

Publication Number Publication Date
ES2946689T3 true ES2946689T3 (es) 2023-07-24

Family

ID=51580891

Family Applications (2)

Application Number Title Priority Date Filing Date
ES20191562T Active ES2946689T3 (es) 2013-03-15 2014-03-12 Identificación y uso de marcadores tumorales de ácido nucleico circulante
ES18186617T Active ES2831148T3 (es) 2013-03-15 2014-03-12 Identificación y uso de marcadores tumorales de ácido nucleico circulante

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES18186617T Active ES2831148T3 (es) 2013-03-15 2014-03-12 Identificación y uso de marcadores tumorales de ácido nucleico circulante

Country Status (5)

Country Link
US (3) US20160032396A1 (es)
EP (4) EP2971152B1 (es)
CN (2) CN113337604A (es)
ES (2) ES2946689T3 (es)
WO (1) WO2014151117A1 (es)

Families Citing this family (216)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10083273B2 (en) 2005-07-29 2018-09-25 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US11111544B2 (en) 2005-07-29 2021-09-07 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US11111543B2 (en) 2005-07-29 2021-09-07 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US10081839B2 (en) 2005-07-29 2018-09-25 Natera, Inc System and method for cleaning noisy genetic data and determining chromosome copy number
US9424392B2 (en) 2005-11-26 2016-08-23 Natera, Inc. System and method for cleaning noisy genetic data from target individuals using genetic data from genetically related individuals
RS53350B (en) 2008-09-22 2014-10-31 Array Biopharma, Inc. SUBSTITUTED COMPOUNDS OF IMIDASO [1,2-B] PYRIDASINE AS INK KINASE INHIBITORS
EP3372605B1 (en) 2008-10-22 2021-11-03 Array Biopharma, Inc. Substituted pyrazolo[1,5-a]pyrimidine compounds as trk kinase inhibitors
US9085798B2 (en) 2009-04-30 2015-07-21 Prognosys Biosciences, Inc. Nucleic acid constructs and methods of use
AR077468A1 (es) 2009-07-09 2011-08-31 Array Biopharma Inc Compuestos de pirazolo (1,5 -a) pirimidina sustituidos como inhibidores de trk- quinasa
ES2640776T3 (es) 2009-09-30 2017-11-06 Natera, Inc. Métodos para denominar de forma no invasiva ploidía prenatal
ES2555106T3 (es) 2010-04-05 2015-12-29 Prognosys Biosciences, Inc. Ensayos biológicos codificados espacialmente
US10787701B2 (en) 2010-04-05 2020-09-29 Prognosys Biosciences, Inc. Spatially encoded biological assays
US9677118B2 (en) 2014-04-21 2017-06-13 Natera, Inc. Methods for simultaneous amplification of target loci
US11939634B2 (en) 2010-05-18 2024-03-26 Natera, Inc. Methods for simultaneous amplification of target loci
US11322224B2 (en) 2010-05-18 2022-05-03 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US11408031B2 (en) 2010-05-18 2022-08-09 Natera, Inc. Methods for non-invasive prenatal paternity testing
US11339429B2 (en) 2010-05-18 2022-05-24 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US20190010543A1 (en) 2010-05-18 2019-01-10 Natera, Inc. Methods for simultaneous amplification of target loci
CA2798758C (en) 2010-05-18 2019-05-07 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US10316362B2 (en) 2010-05-18 2019-06-11 Natera, Inc. Methods for simultaneous amplification of target loci
US11326208B2 (en) 2010-05-18 2022-05-10 Natera, Inc. Methods for nested PCR amplification of cell-free DNA
US11332785B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US11332793B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for simultaneous amplification of target loci
PL3205654T3 (pl) 2010-05-20 2019-08-30 Array Biopharma, Inc. Związki makrocykliczne jako inhibitory kinazy TRK
CN103608466B (zh) 2010-12-22 2020-09-18 纳特拉公司 非侵入性产前亲子鉴定方法
KR20230141927A (ko) 2010-12-30 2023-10-10 파운데이션 메디신 인코포레이티드 종양 샘플의 다유전자 분석의 최적화
AU2011358564B9 (en) 2011-02-09 2017-07-13 Natera, Inc Methods for non-invasive prenatal ploidy calling
US9260753B2 (en) 2011-03-24 2016-02-16 President And Fellows Of Harvard College Single cell nucleic acid detection and analysis
GB201106254D0 (en) 2011-04-13 2011-05-25 Frisen Jonas Method and product
US9892230B2 (en) 2012-03-08 2018-02-13 The Chinese University Of Hong Kong Size-based analysis of fetal or tumor DNA fraction in plasma
EP2893040B1 (en) 2012-09-04 2019-01-02 Guardant Health, Inc. Methods to detect rare mutations and copy number variation
US11913065B2 (en) 2012-09-04 2024-02-27 Guardent Health, Inc. Systems and methods to detect rare mutations and copy number variation
US20160040229A1 (en) 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
US10876152B2 (en) 2012-09-04 2020-12-29 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
US9128861B2 (en) 2013-01-17 2015-09-08 Personalis, Inc. Methods and systems for genetic analysis
WO2014210225A1 (en) 2013-06-25 2014-12-31 Prognosys Biosciences, Inc. Methods and systems for determining spatial patterns of biological targets in a sample
KR102291045B1 (ko) 2013-08-05 2021-08-19 트위스트 바이오사이언스 코포레이션 드 노보 합성된 유전자 라이브러리
EP3965111A1 (en) 2013-08-30 2022-03-09 Personalis, Inc. Methods and systems for genomic analysis
US10577655B2 (en) 2013-09-27 2020-03-03 Natera, Inc. Cell free DNA diagnostic testing standards
US10262755B2 (en) 2014-04-21 2019-04-16 Natera, Inc. Detecting cancer mutations and aneuploidy in chromosomal segments
GB2535066A (en) 2013-10-03 2016-08-10 Personalis Inc Methods for analyzing genotypes
KR102379877B1 (ko) 2013-12-11 2022-03-30 아큐라젠 홀딩스 리미티드 희귀 서열 변이를 검출하기 위한 조성물 및 방법
US11286519B2 (en) 2013-12-11 2022-03-29 Accuragen Holdings Limited Methods and compositions for enrichment of amplification products
US11859246B2 (en) 2013-12-11 2024-01-02 Accuragen Holdings Limited Methods and compositions for enrichment of amplification products
CN111534580A (zh) 2013-12-28 2020-08-14 夸登特健康公司 用于检测遗传变异的方法和系统
RU2717641C2 (ru) 2014-04-21 2020-03-24 Натера, Инк. Обнаружение мутаций и плоидности в хромосомных сегментах
CN107075730A (zh) * 2014-09-12 2017-08-18 利兰·斯坦福青年大学托管委员会 循环核酸的鉴定及用途
EP4026913A1 (en) 2014-10-30 2022-07-13 Personalis, Inc. Methods for using mosaicism in nucleic acids sampled distal to their origin
UA123044C2 (uk) 2014-11-16 2021-02-10 Ерей Біофарма Інк. КРИСТАЛІЧНА ФОРМА (S)-N-(5-((R)-2-(2,5-ДИФТОРФЕНІЛ)-ПІРОЛІДИН-1-ІЛ)-ПІРАЗОЛО[1,5-a]ПІРИМІДИН-3-ІЛ)-3-ГІДРОКСИПІРОЛІДИН-1-КАРБОКСАМІД ГІДРОСУЛЬФАТУ
US11959141B2 (en) 2014-12-05 2024-04-16 Foundation Medicine, Inc. Multigene analysis of tumor samples
CN107075564A (zh) * 2014-12-10 2017-08-18 深圳华大基因研究院 确定肿瘤核酸浓度的方法和装置
ES2923602T3 (es) * 2014-12-31 2022-09-28 Guardant Health Inc Detección y tratamiento de enfermedades que muestran heterogeneidad celular de enfermedad y sistemas y métodos para comunicar los resultados de las pruebas
US10364467B2 (en) 2015-01-13 2019-07-30 The Chinese University Of Hong Kong Using size and number aberrations in plasma DNA for detecting cancer
CA2975852A1 (en) 2015-02-04 2016-08-11 Twist Bioscience Corporation Methods and devices for de novo oligonucleic acid assembly
EP3271472A1 (en) 2015-03-19 2018-01-24 3M Innovative Properties Company Devices, methods, kits, and systems for detecting microorganism strains or target cellular analytes in a fluid sample
EP3901281B1 (en) 2015-04-10 2022-11-23 Spatial Transcriptomics AB Spatially distinguished, multiplex nucleic acid analysis of biological specimens
WO2016172377A1 (en) 2015-04-21 2016-10-27 Twist Bioscience Corporation Devices and methods for oligonucleic acid library synthesis
US10844428B2 (en) * 2015-04-28 2020-11-24 Illumina, Inc. Error suppression in sequenced DNA fragments using redundant reads with unique molecular indices (UMIS)
US11479812B2 (en) 2015-05-11 2022-10-25 Natera, Inc. Methods and compositions for determining ploidy
BR112017024747A2 (pt) 2015-05-18 2018-11-13 Karius Inc composições e métodos para enriquecer populações de ácidos nucleicos
CN108138230B (zh) * 2015-07-21 2023-03-10 夸登特健康公司 用于捕获融合基因的锁核酸
KR20180050411A (ko) 2015-09-18 2018-05-14 트위스트 바이오사이언스 코포레이션 올리고핵산 변이체 라이브러리 및 그의 합성
CN113604546A (zh) 2015-09-22 2021-11-05 特韦斯特生物科学公司 用于核酸合成的柔性基底
CN108474040B (zh) * 2015-10-09 2023-05-16 夸登特健康公司 使用无细胞dna的基于群体的治疗推荐
EP3359693A4 (en) 2015-10-09 2019-03-06 Accuragen Holdings Limited METHODS AND COMPOSITIONS FOR ENRICHMENT OF AMPLIFICATION PRODUCTS
ES2796501T3 (es) * 2015-10-10 2020-11-27 Guardant Health Inc Métodos y aplicaciones de la detección de fusión de genes en el análisis de ADN sin células
EP3368039A1 (en) 2015-10-26 2018-09-05 The Regents of The University of Colorado, A Body Corporate Point mutations in trk inhibitor-resistant cancer and methods relating to the same
EP3368687B1 (en) * 2015-10-27 2021-09-29 The Broad Institute, Inc. Compositions and methods for targeting cancer-specific sequence variations
WO2017075784A1 (zh) * 2015-11-05 2017-05-11 深圳华大基因研究院 肺腺癌生物标记物及其应用
KR20180113973A (ko) 2015-11-11 2018-10-17 레졸루션 바이오사이언스, 인크. Dna 라이브러리의 고효율 작제
WO2017087774A1 (en) * 2015-11-18 2017-05-26 Thrive Bioscience, Inc. Instrument resource scheduling
WO2017095632A1 (en) 2015-11-30 2017-06-08 Mayo Foundation For Medical Education And Research Heatr1 as a marker for chemoresistance
WO2017095487A1 (en) * 2015-12-01 2017-06-08 Seracare Life Sciences, Inc. Multiplex cellular reference materials
WO2017095958A1 (en) 2015-12-01 2017-06-08 Twist Bioscience Corporation Functionalized surfaces and preparation thereof
JP2018537128A (ja) * 2015-12-03 2018-12-20 アルフレッド ヘルス 骨髄腫の治療または進行のモニタリング
SG11201805119QA (en) 2015-12-17 2018-07-30 Guardant Health Inc Methods to determine tumor gene copy number by analysis of cell-free dna
US10982286B2 (en) 2016-01-22 2021-04-20 Mayo Foundation For Medical Education And Research Algorithmic approach for determining the plasma genome abnormality PGA and the urine genome abnormality UGA scores based on cell free cfDNA copy number variations in plasma and urine
CN105543380B (zh) * 2016-01-27 2019-03-15 北京诺禾致源科技股份有限公司 一种检测基因融合的方法及装置
CN109196121B (zh) 2016-02-29 2022-01-04 基因泰克公司 用于癌症的治疗和诊断方法
EP3423828A4 (en) * 2016-02-29 2019-11-13 Foundation Medicine, Inc. METHODS AND SYSTEMS FOR EVALUATING THE MUTATIONAL CHARGE OF A TUMOR
EP3423488A4 (en) 2016-02-29 2019-11-06 Foundation Medicine, Inc. METHOD FOR THE TREATMENT OF CANCER
US11514289B1 (en) * 2016-03-09 2022-11-29 Freenome Holdings, Inc. Generating machine learning models using genetic data
WO2017161175A1 (en) * 2016-03-16 2017-09-21 Dana-Farber Cancer Institute, Inc. Methods for genome characterization
EP3433373B1 (en) * 2016-03-22 2022-01-12 Myriad Women's Health, Inc. Combinatorial dna screening
BR112018070304A2 (pt) 2016-04-04 2019-01-29 Loxo Oncology Inc formulações líquidas de (s)-n-(5-((r)-2-(2,5-difluorofenil)-pirrolidin-1-il)-pirazolo[1,5-a]pirimidin-3-il)-3-hidroxipirrolidina-1-carboxamida
US10045991B2 (en) 2016-04-04 2018-08-14 Loxo Oncology, Inc. Methods of treating pediatric cancers
WO2017177207A1 (en) * 2016-04-07 2017-10-12 Bostongene, Llc Construction and methods of use of a therapeutic cancer vaccine library comprising fusion-specific vaccines
WO2017181146A1 (en) 2016-04-14 2017-10-19 Guardant Health, Inc. Methods for early detection of cancer
US11384382B2 (en) 2016-04-14 2022-07-12 Guardant Health, Inc. Methods of attaching adapters to sample nucleic acids
BR112018070903A2 (pt) * 2016-04-15 2019-01-29 Natera Inc métodos para detecção de câncer de pulmão
CN109511265B (zh) 2016-05-16 2023-07-14 安可济控股有限公司 通过链鉴定改进测序的方法
CN106367490A (zh) * 2016-05-17 2017-02-01 程澎 利用循环dna对癌症患者的肿瘤细胞数目的监测方法
BR112018073504A2 (pt) 2016-05-18 2019-03-26 Array Biopharma, Inc. processo para preparar (s)-n-(5-((r)-2-(2,5-difluorofenil)pirrolidin-1-il)-pirazol[1,5-a]pirimidin-3-il)-3-hidroxipirrolidina-1-carboxamida e sais da mesma
US11299783B2 (en) 2016-05-27 2022-04-12 Personalis, Inc. Methods and systems for genetic analysis
CN105950739A (zh) * 2016-05-30 2016-09-21 哈尔滨医科大学 用于人乳腺癌循环肿瘤dna检测的探针及其用途
CN109312406A (zh) 2016-06-01 2019-02-05 豪夫迈·罗氏有限公司 预测肺癌患者中对alk抑制剂疗法的响应的间变性淋巴瘤激酶中的新型突变
EP3485033B1 (en) 2016-07-12 2022-09-28 Qiagen Sciences, LLC Single end duplex dna sequencing
AU2017295717B2 (en) 2016-07-15 2021-06-24 The Regents Of The University Of California Methods of producing nucleic acid libraries
CA3031231A1 (en) * 2016-08-08 2018-02-15 Karius, Inc. Reduction of signal from contaminant nucleic acids
SG11201901296TA (en) 2016-08-15 2019-03-28 Accuragen Holdings Ltd Compositions and methods for detecting rare sequence variants
WO2018038772A1 (en) 2016-08-22 2018-03-01 Twist Bioscience Corporation De novo synthesized nucleic acid libraries
JP7217224B2 (ja) 2016-08-25 2023-02-02 レゾリューション バイオサイエンス, インコーポレイテッド Dna試料中のゲノムコピー変化の検出方法
CN106282356B (zh) * 2016-08-30 2019-11-26 天津诺禾医学检验所有限公司 一种基于扩增子二代测序点突变检测的方法及装置
CN106355045B (zh) * 2016-08-30 2019-03-15 天津诺禾致源生物信息科技有限公司 一种基于扩增子二代测序小片段插入缺失检测的方法及装置
WO2018046748A1 (en) * 2016-09-12 2018-03-15 Roche Diagnostics Gmbh Methods and compositions for purifying double stranded nucleic acids
KR102217487B1 (ko) 2016-09-21 2021-02-23 트위스트 바이오사이언스 코포레이션 핵산 기반 데이터 저장
CN106367512A (zh) * 2016-09-22 2017-02-01 上海序康医疗科技有限公司 一种鉴定样本中肿瘤负荷的方法和系统
CA3126055A1 (en) 2016-09-30 2018-04-05 Guardant Health, Inc. Methods for multi-resolution analysis of cell-free nucleic acids
US9850523B1 (en) 2016-09-30 2017-12-26 Guardant Health, Inc. Methods for multi-resolution analysis of cell-free nucleic acids
US11485996B2 (en) 2016-10-04 2022-11-01 Natera, Inc. Methods for characterizing copy number variation using proximity-litigation sequencing
CN110418851A (zh) 2016-10-06 2019-11-05 基因泰克公司 癌症的治疗和诊断方法
US11667951B2 (en) 2016-10-24 2023-06-06 Geneinfosec, Inc. Concealing information present within nucleic acids
JOP20190092A1 (ar) 2016-10-26 2019-04-25 Array Biopharma Inc عملية لتحضير مركبات بيرازولو[1، 5-a]بيريميدين وأملاح منها
CN108473975A (zh) * 2016-11-17 2018-08-31 领星生物科技(上海)有限公司 检测肿瘤发展的系统和方法
CN110382752A (zh) 2016-11-18 2019-10-25 特韦斯特生物科学公司 具有受控化学计量的多核苷酸文库及其合成
AU2017366813B2 (en) * 2016-11-30 2023-04-20 Exosome Diagnostics, Inc. Methods and compositions to detect mutations in plasma using exosomal RNA and cell free DNA from non-small cell lung cancer patients
CN106755350A (zh) * 2016-12-02 2017-05-31 苏州首度基因科技有限责任公司 cfDNA文库qPCR定量标准品的制备方法
US10011870B2 (en) 2016-12-07 2018-07-03 Natera, Inc. Compositions and methods for identifying nucleic acid molecules
EA201991262A1 (ru) 2016-12-16 2020-04-07 Твист Байосайенс Корпорейшн Библиотеки вариантов иммунологического синапса и их синтез
EP3562961A4 (en) * 2016-12-28 2021-01-06 Quest Diagnostics Investments LLC COMPOSITIONS AND METHODS OF DETECTION OF CIRCULATING TUMOR DNA
CN106701956A (zh) * 2017-01-11 2017-05-24 上海思路迪生物医学科技有限公司 ctDNA的数字化深度测序技术
CN106544341A (zh) * 2017-01-17 2017-03-29 上海亿康医学检验所有限公司 高效检测样本中的ctDNA的方法
SG11201906428SA (en) 2017-01-18 2019-08-27 Illumina Inc Methods and systems for generation and error-correction of unique molecular index sets with heterogeneous molecular lengths
US11352662B2 (en) 2017-01-20 2022-06-07 Sequenom, Inc. Sequence adapter manufacture and use
WO2018144782A1 (en) * 2017-02-01 2018-08-09 The Translational Genomics Research Institute Methods of detecting somatic and germline variants in impure tumors
EP3580360A1 (en) 2017-02-07 2019-12-18 H. Hoffnabb-La Roche Ag Non-invasive test to predict response to therapy in colorectal cancer patients
WO2018146033A1 (en) * 2017-02-07 2018-08-16 F. Hoffmann-La Roche Ag Non-invasive test to predict recurrence of colorectal cancer
US10907211B1 (en) 2017-02-16 2021-02-02 Quantgene Inc. Methods and compositions for detecting cancer biomarkers in bodily fluids
EP3585889A1 (en) 2017-02-21 2020-01-01 Natera, Inc. Compositions, methods, and kits for isolating nucleic acids
CN106834275A (zh) * 2017-02-22 2017-06-13 天津诺禾医学检验所有限公司 ctDNA超低频突变检测文库的构建方法、试剂盒及文库检测数据的分析方法
CA3054303A1 (en) 2017-02-22 2018-08-30 Twist Bioscience Corporation Nucleic acid based data storage
CA3056388A1 (en) 2017-03-15 2018-09-20 Twist Bioscience Corporation Variant libraries of the immunological synapse and synthesis thereof
JOP20190213A1 (ar) 2017-03-16 2019-09-16 Array Biopharma Inc مركبات حلقية ضخمة كمثبطات لكيناز ros1
CN106978486A (zh) * 2017-03-24 2017-07-25 刘长胜 无细胞dna作为癌症免疫药物疗效评价的分子靶标及其应用
CN108315323A (zh) * 2017-03-31 2018-07-24 索真(北京)医学科技有限公司 尿液ctDNA中PIK3CA基因突变位点的检测
CN108315322A (zh) * 2017-03-31 2018-07-24 索真(北京)医学科技有限公司 尿液ctDNA中EGFR基因突变位点的检测
US11342047B2 (en) * 2017-04-21 2022-05-24 Illumina, Inc. Using cell-free DNA fragment size to detect tumor-associated variant
US11408887B2 (en) 2017-05-22 2022-08-09 The National Institute for Biotechnology in the Negev Ltd. Biomarkers for diagnosis of lung cancer
KR102145417B1 (ko) * 2017-05-24 2020-08-19 지니너스 주식회사 무세포 핵산으로부터 수득된 서열 분석 데이터에 대한 배경 대립인자의 빈도 분포를 생성하는 방법 및 이를 이용하여 무세포 핵산으로부터 변이를 검출하는 방법
KR20240013290A (ko) 2017-06-12 2024-01-30 트위스트 바이오사이언스 코포레이션 심리스 핵산 어셈블리를 위한 방법
WO2018231864A1 (en) 2017-06-12 2018-12-20 Twist Bioscience Corporation Methods for seamless nucleic acid assembly
CN111492245A (zh) 2017-07-21 2020-08-04 基因泰克公司 癌症的治疗和诊断方法
GB2581620A (en) 2017-09-11 2020-08-26 Twist Bioscience Corp GPCR binding proteins and synthesis thereof
US20200263170A1 (en) * 2017-09-14 2020-08-20 Grail, Inc. Methods for preparing a sequencing library from single-stranded dna
EP3682035A4 (en) * 2017-09-15 2021-09-29 The Regents of the University of California DETECTION OF SOMATIC MONONUCLEOTID VARIANTS FROM ACELLULAR NUCLEIC ACID WITH APPLICATION TO MINIMUM RESIDUAL DISEASE SURVEILLANCE
US11447818B2 (en) 2017-09-15 2022-09-20 Illumina, Inc. Universal short adapters with variable length non-random unique molecular identifiers
CN111213209A (zh) 2017-10-12 2020-05-29 南托米克斯有限责任公司 根据生物体液的评估用癌症评分和反应预测
CN111565834B (zh) 2017-10-20 2022-08-26 特韦斯特生物科学公司 用于多核苷酸合成的加热的纳米孔
WO2019090156A1 (en) * 2017-11-03 2019-05-09 Guardant Health, Inc. Normalizing tumor mutation burden
AU2018365883A1 (en) 2017-11-07 2020-05-14 Nanthealth Labs, Inc. Targeted cell free nucleic acid analysis
CN107944223B (zh) * 2017-11-10 2019-12-31 深圳裕策生物科技有限公司 基于二代测序的点突变检测过滤方法、装置和存储介质
EP3735459A4 (en) 2018-01-04 2021-10-06 Twist Bioscience Corporation DNA-BASED DIGITAL INFORMATION STORAGE
EP3737774A1 (en) 2018-01-12 2020-11-18 Claret Bioscience, LLC Methods and compositions for analyzing nucleic acid
WO2019158460A1 (en) * 2018-02-13 2019-08-22 F. Hoffmann-La Roche Ag Method of predicting response to therapy by assessing tumor genetic heterogeneity
JP2021520004A (ja) * 2018-02-27 2021-08-12 コーネル・ユニバーシティーCornell University 残存病変の検出システム及び方法
JP2021516962A (ja) * 2018-03-06 2021-07-15 キャンサー・リサーチ・テクノロジー・リミテッドCancer Research Technology Limited バリアント検出の改善
CN110241209B (zh) * 2018-03-09 2022-11-29 浙江品级基因科技有限公司 一种引物、试剂盒及用途
US11203782B2 (en) 2018-03-29 2021-12-21 Accuragen Holdings Limited Compositions and methods comprising asymmetric barcoding
CA3100739A1 (en) 2018-05-18 2019-11-21 Twist Bioscience Corporation Polynucleotides, reagents, and methods for nucleic acid hybridization
US11814750B2 (en) 2018-05-31 2023-11-14 Personalis, Inc. Compositions, methods and systems for processing or analyzing multi-species nucleic acid samples
US10801064B2 (en) 2018-05-31 2020-10-13 Personalis, Inc. Compositions, methods and systems for processing or analyzing multi-species nucleic acid samples
US11629345B2 (en) 2018-06-06 2023-04-18 The Regents Of The University Of California Methods of producing nucleic acid libraries and compositions and kits for practicing same
CN109001456B (zh) * 2018-06-11 2021-07-06 南通大学 Ush1g基因在制备抗胃癌药物及其诊断试剂盒中的应用
US20200149097A1 (en) * 2018-06-11 2020-05-14 Foundation Medicine, Inc. Compositions and methods for evaluating genomic alterations
US11525159B2 (en) 2018-07-03 2022-12-13 Natera, Inc. Methods for detection of donor-derived cell-free DNA
SG11202100344WA (en) * 2018-07-23 2021-02-25 Guardant Health Inc Methods and systems for adjusting tumor mutational burden by tumor fraction and coverage
BR112021002189A2 (pt) 2018-08-08 2021-05-04 Inivata Ltd. método de sequenciamento que usa pcr multiplex de replicação variável
WO2020049485A1 (en) * 2018-09-05 2020-03-12 Inivata Ltd. Method of treating a cancer patient without the need for a tissue biopsy
CA3111887A1 (en) * 2018-09-27 2020-04-02 Grail, Inc. Methylation markers and targeted methylation probe panel
EP3861435A1 (en) * 2018-10-04 2021-08-11 Juneau Biosciences, L.L.C. Endometriosis-associated genetic markers predict responsiveness to leuprolide acetate
JP2022509535A (ja) * 2018-10-30 2022-01-20 モレキュラー ステソスコープ, インコーポレイテッド 無細胞rnaライブラリー調製
CN111118610A (zh) * 2018-10-31 2020-05-08 深圳华大基因股份有限公司 用于基因突变高深度测序的基因芯片及其制备方法和应用
WO2020120675A1 (en) * 2018-12-12 2020-06-18 F. Hoffmann-La Roche Ag Monitoring mutations using prior knowledge of variants
CN113286883A (zh) 2018-12-18 2021-08-20 格里尔公司 使用rna分析以检测疾病的方法
CN109712671B (zh) * 2018-12-20 2020-06-26 北京优迅医学检验实验室有限公司 基于ctDNA的基因检测装置、存储介质及计算机系统
CN111383713B (zh) * 2018-12-29 2023-08-01 北京安诺优达医学检验实验室有限公司 ctDNA检测分析装置及方法
EP3918089A1 (en) 2019-01-31 2021-12-08 Guardant Health, Inc. Compositions and methods for isolating cell-free dna
CN113728116A (zh) * 2019-02-22 2021-11-30 安可济控股有限公司 用于早期癌症检测的方法和组合物
EP3930753A4 (en) 2019-02-26 2023-03-29 Twist Bioscience Corporation NUCLEIC ACID VARIANT BANKS FOR THE GLP1 RECEPTOR
KR20210144698A (ko) 2019-02-26 2021-11-30 트위스트 바이오사이언스 코포레이션 항체 최적화를 위한 변이 핵산 라이브러리
CA3125647A1 (en) * 2019-03-13 2020-09-17 Grail, Inc. Systems and methods for enriching for cancer-derived fragments using fragment size
CN109943637A (zh) * 2019-04-12 2019-06-28 福建医科大学孟超肝胆医院(福州市传染病医院) 一种基于循环肿瘤dna突变检测的肝癌诊断及预后评估系统
US20220325268A1 (en) 2019-05-14 2022-10-13 Roche Sequencing Solutions, Inc Devices and methods for sample analysis
CA3139535A1 (en) * 2019-05-17 2020-11-26 Ultima Genomics, Inc. Methods and systems for detecting residual disease
US11939636B2 (en) 2019-05-31 2024-03-26 Guardant Health, Inc. Methods and systems for improving patient monitoring after surgery
KR20220013349A (ko) * 2019-06-03 2022-02-04 일루미나, 인코포레이티드 검출 한계 기반 품질 제어 메트릭
CN110379460B (zh) * 2019-06-14 2023-06-20 西安电子科技大学 一种基于多组学数据的癌症分型信息处理方法
CN114729342A (zh) 2019-06-21 2022-07-08 特韦斯特生物科学公司 基于条形码的核酸序列装配
CN114599801A (zh) * 2019-09-08 2022-06-07 托莱多大学 用于测试肺癌风险的试剂盒和方法
GB202318607D0 (en) 2019-11-06 2024-01-17 Univ Leland Stanford Junior Methods and systems for analyzing nucleic acid molecules
EP3826024A1 (en) * 2019-11-19 2021-05-26 Koninklijke Philips N.V. Apparatus for diagnostic image acquisition determination
US20230028058A1 (en) * 2019-12-16 2023-01-26 Ohio State Innovation Foundation Next-generation sequencing diagnostic platform and related methods
CN111172281B (zh) * 2019-12-31 2023-10-20 广州达安基因股份有限公司 非小细胞肺癌多重基因突变检测试剂盒及方法
EP4087942A4 (en) * 2020-01-08 2024-01-24 Univ Hong Kong Chinese TYPES OF BITERMINAL DNA FRAGMENTS IN CELL SAMPLES AND THEIR USES
US11211147B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing
US11211144B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Methods and systems for refining copy number variation in a liquid biopsy assay
US11475981B2 (en) 2020-02-18 2022-10-18 Tempus Labs, Inc. Methods and systems for dynamic variant thresholding in a liquid biopsy assay
WO2021202917A1 (en) * 2020-04-01 2021-10-07 The Board Of Trustees Of The Leland Stanford Junior University A noninvasive multiparameter approach for early identification of therapeutic benefit from immune checkpoint inhibition for lung cancer
JP7464750B2 (ja) 2020-04-17 2024-04-09 エフ. ホフマン-ラ ロシュ アーゲー 尿試料分析のためのデバイスおよび方法
CA3177706A1 (en) * 2020-05-12 2021-11-18 Maximilian Diehn System and method for gene expression and tissue of origin inference from cell-free dna
WO2021247568A1 (en) 2020-06-02 2021-12-09 10X Genomics, Inc. Spatial trancriptomics for antigen-receptors
EP4025692A2 (en) 2020-06-02 2022-07-13 10X Genomics, Inc. Nucleic acid library methods
EP4162074B1 (en) 2020-06-08 2024-04-24 10X Genomics, Inc. Methods of determining a surgical margin and methods of use thereof
CN112037859B (zh) * 2020-09-02 2023-12-19 迈杰转化医学研究(苏州)有限公司 一种微卫星不稳定性的分析方法和分析装置
CN112086129B (zh) * 2020-09-23 2021-04-06 深圳吉因加医学检验实验室 预测肿瘤组织cfDNA的方法及系统
CN112176066B (zh) * 2020-10-30 2022-07-01 中国科学院合肥物质科学研究院 一种宫颈病变早期筛查和诊断的分子标志物及其应用
IL303827A (en) * 2020-12-18 2023-08-01 Medicover Biotech Ltd Methods for classifying a sample into relevant clinical categories
CN113151460B (zh) * 2021-01-29 2022-10-18 复旦大学附属中山医院 一种识别肺腺癌肿瘤细胞的基因标志物及其应用
US11783912B2 (en) 2021-05-05 2023-10-10 The Board Of Trustees Of The Leland Stanford Junior University Methods and systems for analyzing nucleic acid molecules
EP4095267A1 (en) * 2021-05-26 2022-11-30 Siemens Healthcare GmbH Method and system for determining efficacy of cancer therapy
WO2022262569A1 (zh) * 2021-06-18 2022-12-22 广州燃石医学检验所有限公司 一种用于区分体细胞突变和种系突变的方法
WO2023058100A1 (ja) * 2021-10-04 2023-04-13 国立大学法人 東京大学 構造多型の検出方法、プライマーセット及びプライマーセットの設計方法
WO2023183751A1 (en) * 2022-03-23 2023-09-28 Foundation Medicine, Inc. Characterization of tumor heterogeneity as a prognostic biomarker
CN114752672B (zh) * 2022-04-02 2024-02-20 广州医科大学附属肿瘤医院 基于循环游离DNA突变进行滤泡性淋巴瘤预后评估的检测panel、试剂盒及应用
CN116052768A (zh) * 2022-10-08 2023-05-02 南京世和基因生物技术股份有限公司 恶性肺结节筛查基因标志物、筛查模型的构建方法和检测装置
CN117025766A (zh) * 2023-07-07 2023-11-10 银丰基因科技有限公司 一种人类alk-e13;a20融合基因检测用dna标准品及其制备方法、应用

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6287850B1 (en) 1995-06-07 2001-09-11 Affymetrix, Inc. Bioarray chip reaction apparatus and its manufacture
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
US20030022207A1 (en) 1998-10-16 2003-01-30 Solexa, Ltd. Arrayed polynucleotides and their use in genome analysis
US6787308B2 (en) 1998-07-30 2004-09-07 Solexa Ltd. Arrayed biomolecules and their use in sequencing
US7056661B2 (en) 1999-05-19 2006-06-06 Cornell Research Foundation, Inc. Method for sequencing nucleic acid molecules
US7244559B2 (en) 1999-09-16 2007-07-17 454 Life Sciences Corporation Method of sequencing a nucleic acid
US7211390B2 (en) 1999-09-16 2007-05-01 454 Life Sciences Corporation Method of sequencing a nucleic acid
AU7537200A (en) 1999-09-29 2001-04-30 Solexa Ltd. Polynucleotide sequencing
GB0002389D0 (en) 2000-02-02 2000-03-22 Solexa Ltd Molecular arrays
WO2002027029A2 (en) 2000-09-27 2002-04-04 Lynx Therapeutics, Inc. Method for determining relative abundance of nucleic acid sequences
JP2003101204A (ja) 2001-09-25 2003-04-04 Nec Kansai Ltd 配線基板及び配線基板の製造方法並びに電子部品
US6902921B2 (en) 2001-10-30 2005-06-07 454 Corporation Sulfurylase-luciferase fusion proteins and thermostable sulfurylase
US20050124022A1 (en) 2001-10-30 2005-06-09 Maithreyan Srinivasan Novel sulfurylase-luciferase fusion proteins and thermostable sulfurylase
EP2159285B1 (en) 2003-01-29 2012-09-26 454 Life Sciences Corporation Methods of amplifying and sequencing nucleic acids
EP2532745B1 (en) 2003-07-05 2015-09-09 The Johns Hopkins University Method and Compositions for Detection and Enumeration of Genetic Variations
US9109256B2 (en) 2004-10-27 2015-08-18 Esoterix Genetic Laboratories, Llc Method for monitoring disease progression or recurrence
EP2245198A1 (en) 2008-02-04 2010-11-03 Massachusetts Institute of Technology Selection of nucleic acids by solution hybridization to oligonucleotide baits
US20100041048A1 (en) 2008-07-31 2010-02-18 The Johns Hopkins University Circulating Mutant DNA to Assess Tumor Dynamics
EP4328589A2 (en) * 2009-01-07 2024-02-28 Myriad Genetics, Inc. Cancer biomarkers
CA3132169A1 (en) 2009-06-05 2010-12-09 Myriad Genetics, Inc. Methods of detecting cancer comprising screening for mutations in the apc, egfr, kras, pten and tp53 genes
US10388403B2 (en) 2010-01-19 2019-08-20 Verinata Health, Inc. Analyzing copy number variation in the detection of cancer
US20120237928A1 (en) 2010-10-26 2012-09-20 Verinata Health, Inc. Method for determining copy number variations
US20120010085A1 (en) 2010-01-19 2012-01-12 Rava Richard P Methods for determining fraction of fetal nucleic acids in maternal samples
US20130210645A1 (en) 2010-02-18 2013-08-15 The Johns Hopkins University Personalized tumor biomarkers
KR102040307B1 (ko) * 2010-11-30 2019-11-27 더 차이니즈 유니버시티 오브 홍콩 암과 연관된 유전적 또는 분자적 이상들의 검출
CN103608466B (zh) * 2010-12-22 2020-09-18 纳特拉公司 非侵入性产前亲子鉴定方法
EP3078752B1 (en) 2011-04-12 2018-08-01 Verinata Health, Inc Resolving genome fractions using polymorphism counts
US20130024127A1 (en) 2011-07-19 2013-01-24 John Stuelpnagel Determination of source contributions using binomial probability calculations
US11261494B2 (en) 2012-06-21 2022-03-01 The Chinese University Of Hong Kong Method of measuring a fractional concentration of tumor DNA
US20140066317A1 (en) 2012-09-04 2014-03-06 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation

Also Published As

Publication number Publication date
EP3421613B1 (en) 2020-08-19
US20160032396A1 (en) 2016-02-04
US20220195530A1 (en) 2022-06-23
EP3421613A1 (en) 2019-01-02
WO2014151117A1 (en) 2014-09-25
ES2831148T3 (es) 2021-06-07
US20140296081A1 (en) 2014-10-02
CN105518151B (zh) 2021-05-25
EP2971152A4 (en) 2016-12-21
EP4253558A1 (en) 2023-10-04
EP2971152B1 (en) 2018-08-01
CN113337604A (zh) 2021-09-03
EP3795696B1 (en) 2023-04-26
CN105518151A (zh) 2016-04-20
EP3795696A1 (en) 2021-03-24
EP2971152A1 (en) 2016-01-20

Similar Documents

Publication Publication Date Title
ES2946689T3 (es) Identificación y uso de marcadores tumorales de ácido nucleico circulante
US20210363597A1 (en) Identification and use of circulating nucleic acids
US20230141527A1 (en) Methods for attaching adapters to sample nucleic acids
Newman et al. Integrated digital error suppression for improved detection of circulating tumor DNA
Newman et al. An ultrasensitive method for quantitating circulating tumor DNA with broad patient coverage
ES2698531T3 (es) Un método para detectar una variante genética
KR102028375B1 (ko) 희귀 돌연변이 및 카피수 변이를 검출하기 위한 시스템 및 방법
US11384382B2 (en) Methods of attaching adapters to sample nucleic acids
JP2020010700A (ja) エピジェネティックドメインの安定性の全般的な損失を通して癌を検出する方法およびその組成物
TW202012638A (zh) 用於癌症及贅瘤之評估的組合物及方法
US20190371432A1 (en) Methods and systems for detecting insertions and deletions
BR112019013391A2 (pt) Adaptador de ácido nucleico, e, método para detecção de uma mutação em uma molécula de dna circulante tumoral (ctdna) de fita dupla.
Javanmardi Genomic instability and genetic heterogeneity in neuroblastoma
Javanmardi Genomic instability and genetic heterogeneity in neuroblastoma tumours