ES2967443T3 - Procedimientos de perfilado de fragmentoma de ácidos nucleicos sin células - Google Patents

Procedimientos de perfilado de fragmentoma de ácidos nucleicos sin células Download PDF

Info

Publication number
ES2967443T3
ES2967443T3 ES17824931T ES17824931T ES2967443T3 ES 2967443 T3 ES2967443 T3 ES 2967443T3 ES 17824931 T ES17824931 T ES 17824931T ES 17824931 T ES17824931 T ES 17824931T ES 2967443 T3 ES2967443 T3 ES 2967443T3
Authority
ES
Spain
Prior art keywords
fragments
multiparametric
tumor
genome
dna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES17824931T
Other languages
English (en)
Inventor
Diana Abdueva
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guardant Health Inc
Original Assignee
Guardant Health Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guardant Health Inc filed Critical Guardant Health Inc
Application granted granted Critical
Publication of ES2967443T3 publication Critical patent/ES2967443T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Wood Science & Technology (AREA)
  • Oncology (AREA)
  • Microbiology (AREA)
  • Hospice & Palliative Care (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)

Abstract

La presente divulgación contempla diversos usos del ADN libre de células. Los métodos proporcionados en el presente documento pueden usar información de secuencia a macroescala y de manera global, con o sin información de variante somática, para evaluar un perfil de fragmentoma que puede ser representativo de un tejido de origen, enfermedad, progresión, etc. método para determinar la presencia o ausencia de una aberración genética en fragmentos de ácido desoxirribonucleico (ADN) a partir de ADN libre de células obtenido de un sujeto, comprendiendo el método: (a) construir una distribución multiparamétrica de los fragmentos de ADN sobre una pluralidad de bases posiciones en un genoma; y (b) sin tener en cuenta una identidad de base de cada posición de base en un primer locus, usar la distribución multiparamétrica para determinar la presencia o ausencia de la aberración genética en el primer locus del sujeto. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Procedimientos de perfilado de fragmentoma de ácidos nucleicos sin células
ANTECEDENTES
[0001] Los procedimientos actuales de ensayos de diagnóstico de cáncer de ácidos nucleicos libres de células (p. ej., ADN o ARN) se centran en la detección de variantes somáticas relacionadas con tumores, incluidas variantes de un solo nucleótido (SNV, por sus siglas en inglés), variaciones del número de copias (CNV, por sus siglas en inglés), fusiones e indeles (es decir, inserciones o eliminaciones), que son todos objetivos principales para la biopsia líquida. Cada vez hay más pruebas de que se pueden identificar y medir nuevos tipos de variantes estructurales que surgen como consecuencia del posicionamiento nucleosomal para obtener información relevante para el tumor que, cuando se combina con la llamada de mutaciones somáticas, puede producir una evaluación mucho más completa del estado del tumor que la disponible. desde cualquiera de los dos enfoques por sí solos. Al analizar un patrón subyacente no aleatorio de distribución de fragmentos de ácido nucleico que se ve afectado por la organización de la cromatina, este conjunto de nuevas variantes estructurales se puede observar en muestras independientemente de las variantes somáticas y, de hecho, incluso en muestras donde no se detectan variantes somáticas.
El documento WO 2016/015058 describe "Métodos para determinar tejidos y/o tipos de células que dan lugar a ADN libre de células, y métodos para identificar una enfermedad o trastorno utilizando los mismos".
RESUMEN
[0002] El posicionamiento de los nucleosomas es un mecanismo clave que contribuye al control epigenético de la expresión génica, es altamente específico de tejido y es indicativo de varios estados fenotípicos. La presente divulgación describe métodos, sistemas y composiciones para realizar perfiles de nucleosomas utilizando ácidos nucleicos libres de células (por ejemplo, ADNlc). Esto se puede usar para identificar nuevos genes impulsores, determinar la variación del número de copias (CNV), identificar mutaciones somáticas y variaciones estructurales como fusiones e indeles, así como identificar regiones que se pueden usar en un ensayo multiplexado para detectar cualquiera de las variaciones anteriores.
[0003] La presente divulgación proporciona diversos usos de ácidos nucleicos libres de células (por ejemplo, ADN o ARN). Dichos usos incluyen detectar, monitorear y determinar el tratamiento para un sujeto que tiene o se sospecha que tiene una condición de salud, tal como una enfermedad (por ejemplo, cáncer). Los métodos proporcionados en el presente documento pueden usar información de secuencia a macroescala y de manera global, con o sin información de variante somática, para evaluar un perfil de fragmentoma que puede ser representativo de un tejido de origen, enfermedad, progresión, etc.
[0004] La invención se expone en las reivindicaciones adjuntas. La invención proporciona un método implementado por computadora para analizar fragmentos de ácido desoxirribonucleico (ADNlc) libres de células derivados de un sujeto, comprendiendo el método: (a) someter los fragmentos de ADNlc a preparación de biblioteca y secuenciación de alto rendimiento para generar información de secuencia representativa de ADNlc fragmentos del sujeto, que comprende: (i) marcar los fragmentos de ADNlc con etiquetas moleculares únicas o no únicas; (ii) amplificar los fragmentos de ADNlc marcados; y (iii) seguimiento de las secuencias de progenie mediante seguimiento de la etiqueta; (b) alinear la información de secuenciación con una secuencia de referencia; (c) realizar un análisis multiparamétrico de la información de la secuencia alineada, generando así un modelo multiparamétrico representativo de los fragmentos de ADNlc, en el que el modelo multiparamétrico comprende dos o más parámetros seleccionados de parámetros que son indicativos de (i) una longitud de la fragmentos de ADNlc que se alinean con cada una de una pluralidad de posiciones de bases en un genoma, (ii) un número de fragmentos de ADNlc que se alinean con cada una de una pluralidad de posiciones de bases en un genoma, y (iii) un número de fragmentos de ADNlc que comenzar o terminar en cada una de una pluralidad de posiciones base en un genoma; y (d) realizar, con la computadora, análisis estadístico con un clasificador entrenado para clasificar el modelo multiparamétrico como asociado con uno o más perfiles de ocupación nucleosomal que representan cohortes distintas, en donde al menos uno de los perfiles de ocupación nucleosomal está asociado con uno o más evaluaciones seleccionadas del grupo que consiste en: indicación de tumor, detección temprana de cáncer, tipo de tumor, gravedad del tumor, agresividad del tumor, resistencia del tumor al tratamiento, clonalidad del tumor, farmacología del tumor, progresión del tumor y puntuación de desregulación plasmática.
[0005] En algunas formas de realización, el análisis estadístico comprende proporcionar uno o más mapas de partición del genoma que enumeran intervalos genómicos relevantes representativos de genes de interés para análisis adicionales. En algunas formas de realización, el análisis estadístico comprende además seleccionar un conjunto de una o más regiones genómicas localizadas en función de los mapas de partición del genoma. En algunas formas de realización, el análisis estadístico comprende además analizar una o más regiones genómicas localizadas en el conjunto para obtener un conjunto de una o más alteraciones del mapa nucleosomal. En algunas formas de realización, el análisis estadístico comprende uno o más de: reconocimiento de patrones, aprendizaje profundo y aprendizaje no supervisado. En algunas formas de realización, los mapas de partición del genoma se construyen: (a) proporcionando poblaciones de ADN libre de células de dos o más sujetos en una cohorte; (b) realizar un análisis multiparamétrico de cada una de las poblaciones de ADN libre de células para generar un modelo multiparamétrico para cada una de las muestras; y (c) analizar los modelos multiparamétricos para identificar una o más regiones genómicas localizadas. En algunas formas de realización, al menos una de las alteraciones del mapa nucleosomal está asociada con una mutación conductora, en donde la mutación conductora se elige del grupo que consiste en: una variante somática, una variante de la línea germinal y una metilación del ADN. En algunas formas de realización, al menos una de las alteraciones del mapa nucleosomal se usa para clasificar el modelo multiparamétrico como asociado con uno o más perfiles de ocupación nucleosomal que representan cohortes distintas.
[0006]En algunas formas de realización, al menos una de las regiones genómicas localizadas es una región corta de ADN que varía de aproximadamente 2 a aproximadamente 200 pares de bases, en donde la región contiene un patrón de variación estructural significativa. En algunas formas de realización, al menos una de las regiones genómicas localizadas es una región corta de ADN que varía de aproximadamente 2 a aproximadamente 200 pares de bases, en donde la región contiene un grupo de variación estructural significativa. En algunas formas de realización, la variación estructural es una variación en el posicionamiento nucleosomal seleccionado del grupo que consiste en: una inserción, una eliminación, una translocación, un reordenamiento genético, un estado de metilación, un microsatélite, una variación del número de copias, una variación estructural relacionada con el número de copias. variación, o cualquier otra variación que indique diferenciación. En algunas formas de realización, el grupo es una región de punto crítico dentro de una región genómica localizada, en donde la región de punto crítico contiene una o más fluctuaciones o picos significativos. En algunas formas de realización, al menos una de las regiones genómicas localizadas es una región corta de ADN que varía de aproximadamente 2 a aproximadamente 200 pares de bases, en donde la región contiene un patrón de inestabilidad significativa. En algunas formas de realización, el análisis de una o más regiones genómicas localizadas comprende detectar una o más desviaciones entre el modelo multiparamétrico representativo de los fragmentos de ADN libres de células y uno o más modelos multiparamétricos de referencia seleccionados de: (i) uno o más modelos multiparamétricos de referencia seleccionados de: (i) uno o más modelos multiparamétricos de referencia seleccionados de: modelos multiparamétricos asociados con una o más cohortes de controles sanos, y (ii) uno o más modelos multiparamétricos de referencia enfermos asociados con una o más cohortes de sujetos enfermos.
[0007]En algunas formas de realización, el método comprende además la selección de un conjunto de variaciones estructurales, en donde la selección de una variación estructural es función de uno o más de:
(i) uno o más modelos multiparamétricos de referencia saludables; (ii) eficiencia de una o más sondas dirigidas a la variación estructural; y (iii) información previa sobre partes del genoma donde una frecuencia esperada de variaciones estructurales es mayor que la frecuencia promedio esperada de variaciones estructurales en todo el genoma.
[0008]En algunas formas de realización, una evaluación de la clonalidad del tumor se determina a partir de la observación de la heterogeneidad en la alteración del mapa nucleosomal entre fragmentos de ADN libres de células en una muestra. En algunas formas de realización, se determina una evaluación de las contribuciones relativas de cada uno de dos o más clones.
[0009]En algunas formas de realización, el método comprende además determinar una puntuación de enfermedad de una enfermedad, en donde la puntuación de enfermedad se determina como una función de uno o más de: (i) uno o más perfiles de ocupación nucleosomal asociados con la enfermedad; (ii) uno o más modelos multiparamétricos de referencia saludables asociados con una cohorte que no padece la enfermedad; y (iii) uno o más modelos multiparamétricos de referencia de enfermos asociados con una cohorte que tiene la enfermedad.
[0010]La presente divulgación describe un método para generar un clasificador para determinar la probabilidad de que un sujeto pertenezca a una o más clases de importancia, comprendiendo el método:
a) proporcionar un conjunto de entrenamiento que comprende, para cada una de las una o más clases de importancia clínica, muestras biológicas de cada uno de una pluralidad de sujetos de una especie que pertenece a la clase de importancia clínica y de cada uno de una pluralidad de sujetos de la especie que no pertenece a la clase de importancia clínica, b) secuenciar moléculas de ácido desoxirribonucleico (ADNlc) libres de células de las muestras biológicas para producir una pluralidad de secuencias de ácido desoxirribonucleico (ADN); c) para cada muestra biológica, mapear la pluralidad de secuencias de ADN en cada una de una o más regiones genómicas en un genoma de referencia de la especie, comprendiendo cada región genómica una pluralidad de loci genéticos; d) preparar, para cada muestra, un conjunto de datos que comprende, para cada uno de una pluralidad de loci genéticos, valores que indican una medida cuantitativa de al menos una característica seleccionada de: (i) secuencias de ADN que se mapean en el locus genético, [11] ADN secuencias que comienzan en el locus, y (iii) secuencias de ADN que terminan en el locus genético, para producir un conjunto de entrenamiento; y e) entrenar un sistema de aprendizaje automático basado en computadora en el conjunto de entrenamiento, generando así un clasificador para determinar la probabilidad de que el sujeto pertenezca a una o más clases de importancia clínica. La medida cuantitativa puede comprender una distribución de tamaño de secuencias de ADN que tienen las características seleccionadas.
[0011]En el presente documento se describe un método para determinar un estado biológico anormal en un sujeto que comprende: a) secuenciar moléculas de ADN libre de una muestra biológica del sujeto para producir secuencias de a DN; b) mapear las secuencias de ADN en cada una de una o más regiones genómicas en un genoma de referencia de una especie del sujeto, comprendiendo cada región genómica una pluralidad de loci genéticos; c) preparar un conjunto de datos que comprende, para cada uno de una pluralidad de loci genéticos, valores que indican una medida cuantitativa de al menos una característica seleccionada de: (i) secuencias de ADN que se mapean en el locus genético, (ii) secuencias de ADN que comienzan en el locus y (iii) secuencias de ADN que terminan en el locus genético; y d) basándose en el conjunto de datos, determinar la probabilidad del estado biológico anormal. El método puede comprender además administrar una intervención terapéutica para tratar el estado biológico anormal. Por tanto, un método para administrar una intervención terapéutica para tratar un estado biológico anormal puede comprender determinar un estado biológico anormal en un sujeto, como se describe en el presente documento, seguido de la administración de la intervención terapéutica.
[0012]La medida cuantitativa puede comprender una distribución de tamaño de secuencias de ADN que tienen las características seleccionadas. La distribución de tamaños puede comprender valores que indican un número de fragmentos con protección dinucleosomal y/o fragmentos con protección mononucleosomal. La medida cuantitativa puede comprender además una relación de distribución de tamaño de secuencias de ADN que tienen las características seleccionadas. El conjunto de datos puede comprender además valores que indiquen, para una pluralidad de loci genéticos, la ubicación en un intrón o exón.
[0013]En el presente documento se describe un medio legible por computadora que comprende código ejecutable por máquina que, cuando se ejecuta mediante uno o más procesadores de computadora, implementa un método para generar una probabilidad de una clase de estado anormal de un conjunto de datos basado en un conjunto de datos de entrada, comprendiendo el método, para cada una pluralidad de loci genéticos, valores que indican una medida cuantitativa de uno o más características derivadas del perfilado de fragmentomas y seleccionadas entre: (i) secuencias de ADN que se asignan al locus genético, (ii) secuencias de ADN que comienzan en el locus y (iii) secuencias de ADN que terminan en el locus genético.
[0014]En el presente documento se describe un método que comprende administrar a un sujeto con un estado biológico anormal, cuyo sujeto se caracteriza por tener un perfil de fragmentoma indicativo del estado biológico anormal, una cantidad eficaz de tratamiento diseñado para tratar el estado biológico anormal.
[0015]En el presente documento se describe un producto farmacéutico que es eficaz para tratar un estado biológico anormal, para su uso en un método que comprende administrar el producto farmacéutico a un sujeto con el estado biológico anormal o que se sospecha que tiene el estado biológico anormal, cuyo sujeto se caracteriza por tener un perfil de fragmentoma. indicativo del estado biológico anormal.
[0016]En el presente documento se describe un producto farmacéutico que es eficaz para tratar un estado biológico anormal, para su uso en la fabricación de un medicamento para tratar a un sujeto con el estado biológico anormal o que se sospecha que tiene el estado biológico anormal, cuyo sujeto se caracteriza por tener un perfil de fragmentoma indicativo del estado biológico anormal.
[0017]En el presente documento se describe un método que comprende: proporcionar datos de entrenamiento de una pluralidad de sujetos de entrenamiento (por ejemplo, al menos 50 sujetos de entrenamiento), incluyendo una pluralidad de sujetos de una primera clase y una pluralidad de sujetos de una segunda clase, y en donde los datos de entrenamiento incluyen, a partir de una muestra de entrenamiento de cada sujeto de entrenamiento, una distribución multiparamétrica de moléculas de ADNlc que se asignan a uno o más loci genómicos seleccionados; y entrenar un algoritmo de aprendizaje automático para desarrollar un modelo de clasificación que, basándose en datos de prueba de una muestra de prueba de un sujeto de prueba, incluida la distribución multiparamétrica de moléculas de ADNlc que se asignan a los loci genómicos seleccionados, clasifica al sujeto si tiene cáncer o no tiene cáncer. El modelo de clasificación puede ser un modelo probabilístico.
[0018]Las clases primera y segunda pueden seleccionarse entre: tener un cáncer y no tener cáncer, responder a una terapia y no responder a una terapia y una primera etapa de cáncer y una segunda etapa de cáncer. La distribución multiparamétrica puede incluir el tamaño de la molécula, la posición inicial de la molécula y/o la posición final de la molécula. Los loci genómicos seleccionados pueden incluir al menos una distancia de dinucleosoma a través de cada uno de una pluralidad de oncogenes, por ejemplo, genes de interés de laTabla 1.
[0019]En el presente documento se describe un método que comprende: proporcionar datos de prueba de una muestra de prueba de un sujeto de prueba, incluida una distribución multiparamétrica de moléculas de ADNlc que se mapean en uno o más loci genómicos seleccionados; y usar un modelo de clasificación basado en computadora basado en datos de entrenamiento de una pluralidad de sujetos de entrenamiento, incluyendo una pluralidad de sujetos de una primera clase y una pluralidad de sujetos de una segunda clase, y en donde los datos de entrenamiento incluyen, de una muestra de entrenamiento de cada sujeto de entrenamiento, una distribución multiparamétrica de moléculas de ADNlc que se asignan a uno o más loci genómicos seleccionados, clasificando al sujeto de prueba como perteneciente a la primera o segunda clase. El modelo de clasificación puede seleccionarse para que tenga un valor predictivo positivo de al menos el 90 %, al menos el 95 %, al menos el 98 %, al menos el 99 % o al menos el 99,8 %.
[0020]En el presente documento se describe un método que comprende: clasificar a un sujeto como si tuviera cáncer usando un método de clasificación como se describe en el presente documento y administrar un tratamiento terapéutico al sujeto así clasificado. En el presente documento se describe un método que comprende: administrar a un sujeto clasificado con cáncer mediante un método como se describe en el presente documento, un tratamiento terapéutico para tratar el cáncer.
[0021]Aspectos y ventajas adicionales de la presente divulgación resultarán fácilmente evidentes para los expertos en esta técnica a partir de la siguiente descripción detallada, en la que solo se muestran y describen formas de realización ilustrativas de la presente divulgación. Como se comprenderá, la presente divulgación es capaz de otras formas de realización diferentes, y sus diversos detalles son susceptibles de modificaciones en varios aspectos obvios, todo ello sin apartarse de la divulgación. En consecuencia, los dibujos y la descripción deben considerarse de naturaleza ilustrativa y no restrictivas.
BREVE DESCRIPCIÓN DE LOS DIBUJOS
[0022]Las características novedosas de la divulgación se exponen con particularidad en las reivindicaciones adjuntas. Se obtendrá una mejor comprensión de las características y ventajas de la presente divulgación haciendo referencia a la siguiente descripción detallada que establece formas de realización ilustrativas, en las que se utilizan los principios de la divulgación, y los dibujos adjuntos (también "Figura" y "FIG." en el presente), de los cuales:
FIG. 1Ailustra un ejemplo de señal de fragmentoma con uno o más componentes.
FIG. 1Bilustra un ejemplo de señal de fragmentoma con uno o más componentes, cada componente afectado por un factor de eliminación.
FIG. 1Cilustra la variación en los sitios de inicio de la transcripción (TSS) según lo indicado por la presencia de complejo dinucleosomal en muestras malignas (cáncer de pulmón en etapa tardía) versus muestras normales.
FIG. 1Dilustra la resolución limitada de la densidad inicial de fragmentos univariados en la misma región.FIG. 1Eilustra una distribución de longitud de fragmentos de ADN libre de células (ADNlc) observada en muestras clínicas.
FIG. 2ilustra un ejemplo de un gráfico térmico de fragmentos de ADNlc a lo largo de la longitud del fragmento y la posición genómica, es decir, un análisis multiparamétrico tridimensional.
FIGS. 3A-3Dilustran ejemplos de 4 mapas de calor multiparamétricos transformados que muestran una métrica de desregulación del plasma para tres ubicaciones genómicas diferentes (dos de PIK3CA y una de EGFR).FIG. 3Amuestra un mapa de calor correspondiente a una ubicación genómica de PIK3CA 12238 con valores de cobertura de inicio de fragmento de 10 pb (par de bases) normalizado por exón (eje x) que varían de aproximadamente 0 a aproximadamente 0,10 y valores de tamaño de fragmento de 10 pb mediano centrado (ej y) que oscilan desde aproximadamente 148 pb hasta aproximadamente 172 pb.
FIG. 3Bmuestra un mapa de calor correspondiente a una ubicación genómica de PIK3CA 12238 con valores de cobertura de inicio de fragmento de 10 pb normalizados por exón (eje x) que varían de aproximadamente 0,014 a aproximadamente 0,035 y valores de tamaño de fragmento de 10 pb mediano centrado (eje y) que oscilan entre aproximadamente 150 pb y aproximadamente 185 pb.
FIG. 3Cmuestra un mapa de calor correspondiente a una ubicación genómica de PIK3CA 12663 con valores de cobertura de inicio de fragmento de 10 pb normalizados por exón (eje x) que varían de aproximadamente 0,028 a aproximadamente 0,075 y valores de tamaño de fragmento de 10 pb mediano centrado (eje y) que varían desde aproximadamente 155 pb hasta aproximadamente 185 pb.
FIG. 3Dmuestra un mapa de calor correspondiente a una ubicación genómica de EGFR 16101 con valores de cobertura de inicio de fragmento de 10 pb normalizados por exón (eje x) que varían de aproximadamente 0,01 a aproximadamente 0,061 y valores de tamaño de fragmento de 10 pb mediano centrado (eje y) que varían desde aproximadamente 145 pb hasta aproximadamente 186 pb. Cada muestra clínica se indica mediante un círculo de color sólido de la siguiente manera: los controles sanos se muestran en verde oscuro y los sujetos con cáncer se muestran con un color que va desde azul, cian, amarillo, naranja y rojo (correspondiente a la fracción máxima de alelo mutante (max FAM) valores de 0,1 % a 93 %, respectivamente. En la práctica, un círculo de color azul puede corresponder al extremo del espectro con el valor mínimo o más bajo (p. ej., rango de valores máximos de MAP en toda la cohorte de sujetos con cáncer), mientras que un círculo de color rojo puede corresponder al extremo con el valor máximo o más alto del espectro (por ejemplo, rango de valores máximos de FAM en toda la cohorte de sujetos con cáncer).
FIG. 4incluye una muestra de una puntuación de desregulación plasmática que varía según la posición a lo largo de un fragmento del genoma en una muestra clínica determinada (panel inferior). El panel superior muestra una lista de genes relevantes analizados y cualquier alteración (SNV o CNV) encontrada en esos genes.
FIG. 5muestra un gráfico de calor generado por agrupación no supervisada de puntuaciones de desregulación plasmática en múltiples regiones genómicas en 5.000 muestras, cada una de un paciente diferente con carcinoma de pulmón de células no pequeñas (NSCLC). El eje Y refleja cada una de las 5.000 muestras de pacientes. El eje X refleja un panel de ubicaciones genómicas analizadas. El color refleja la puntuación de desregulación del plasma para cada ubicación genómica de cada muestra.
FIG. 6muestra un mapa de calor generado en una pequeña gama de ubicaciones genómicas, por ejemplo, el gen KRAS. En este caso, una puntuación de desregulación plasmática tiene una resolución de 10 pb, por ejemplo, se calcula cada 10 pb. El eje Y proporciona información de 2000 muestras clínicas. El eje X proporciona la puntuación de desregulación plasmática en todo el gen KRAS con una resolución de 10 pb.
FIG. 7ilustra un ejemplo de una enzima que puede cortar ADN bicatenario entre pares de bases: nucleasa microcócica.
FIG. 8ilustra un aspecto de un modelo multiparamétrico, en particular gráficos de la frecuencia de fragmentos en cada posición genómica dentro de un rango del genoma.
FIG. 9ilustra un aspecto de un modelo multiparamétrico, en particular gráficos de la frecuencia de fragmentos en cada posición genómica dentro de un rango del genoma.
FIG. 10ilustra dos aspectos de un modelo multiparamétrico, en particular gráficos de los recuentos normalizados de moléculas y el tamaño de fragmento normalizado (es decir, longitud) en cada posición genómica dentro de un rango del genoma.
FIG. 11ilustra dos aspectos de un modelo multiparamétrico, en particular gráficos de los recuentos normalizados de moléculas y el tamaño de fragmento normalizado (es decir, longitud) en cada posición genómica dentro de un rango del genoma.
FIG. 12ilustra tres aspectos de un modelo multiparamétrico, en particular los recuentos normalizados de moléculas, el tamaño de fragmento normalizado (es decir, longitud) y el porcentaje de dobles cadenas normalizadas en cada posición genómica dentro de un rango del genoma.
FIG. 13ilustra un aspecto de un modelo multiparamétrico, en particular los recuentos de lectura (eje y) en cada posición genómica (eje x) dentro de un rango del genoma.
FIG. 14ilustra un ejemplo de una transformación matemática que se puede realizar como parte del análisis multiparamétrico para generar un modelo multiparamétrico.
FIG. 15ilustra un ejemplo de dos modelos multiparamétricos de dos sujetos diferentes en una región determinada de un genoma.
FIG. 16ilustra un ejemplo de dos modelos multiparamétricos de dos sujetos diferentes en una región determinada de un genoma.
FIG. 17ilustra un ejemplo de dos modelos multiparamétricos de dos sujetos diferentes en una región determinada de un genoma.
FIG. 18ilustra un ejemplo de organización nucleosomal versus posición genómica en una región determinada de un genoma.
FIG. 19ilustra un ejemplo de organización nucleosomal versus posición genómica en una región determinada de un genoma.
FIG. 20ilustra un ejemplo del proceso para determinar el Número de Copia (NC) absoluto.
FIGS. 21Ay21Bilustran un ejemplo del uso del perfil de fragmentomas para inferir la activación de genes amplificados en el número de copias mediante secuenciación completa de ADN plasmático.
FIG. 21Amuestra un gráfico de la relación de recuento de dinucleosomas a mononucleosomas normalizada en ERBB2 en 2.076 muestras clínicas.
FIG. 21Bmuestra una parte ampliada del gráfico de laFIG. 21A.
FIG. 22muestra un sistema informático que está programado o configurado de otro modo para implementar los métodos proporcionados en el presente documento.
FIG. 23muestra un patrón de fragmentación de resolución de un solo nucleosoma (por ejemplo, a partir del perfil de fragmentoma o análisis "fragmentómico") entre tipos de tumores.
FIG. 24muestra un ejemplo de características derivadas del perfil de fragmentoma ("fragmentómica") de una cohorte que comprende 768 pacientes con adenocarcinoma de pulmón en etapa tardía.
FIG. 25muestra un ejemplo de un modelo de mezcla de componentes K que se puede usar para la detección de anomalías usando señales de fragmentomas.
FIG. 26Amuestra un ejemplo de envolturas elípticas que se ajustan a un modelo de mezcla normal bivariado para identificar señales anómalas de fragmentomas de ADNlc.
FIG. 26Bmuestra un ejemplo de distribuciones de puntuaciones de desregulación generadas por análisis de fragmentomas de muestras de ADNlc en 5 cohortes diferentes (cáncer colorrectal postoperatorio, cáncer colorrectal preoperatorio, cáncer de pulmón postoperatorio, cáncer de pulmón preoperatorio y normal).
FIG. 27Ailustra un ejemplo de un modelo multiparamétrico que comprende el tamaño del fragmento (por ejemplo, la longitud del fragmento) y la posición genómica de un sujeto en una región de un genoma asociado con el gen TP53, exón n° 7.
FIG. 27Bmuestra mapas de calor de densidad de posición inicial de fragmento (eje x) y longitud de fragmento (eje y) 2D de una región promotora de ERBB2 en cuatro cohortes agregadas de cáncer de mama en etapa tardía de 20 muestras (como se muestra de arriba a abajo): (i) una cohorte que comprende una carga de mutación baja y un número de copias (NC) de ERBB2 casi diploide, (ii) una cohorte que comprende una carga de mutación alta y un número de copias (NC) de ERBB2 casi diploide, (iii) una cohorte que comprende una carga de mutación baja y un número de copias (NC) de ERBB2 alto número de copias (NC) (por ejemplo, mayor que aproximadamente 4), y (iv) una cohorte que comprende una alta carga de mutación y un alto número de copias (NC) de ERBB2 (por ejemplo, mayor que aproximadamente 4).
FIG. 27Cmuestra mapas de calor de densidad de posición inicial de fragmento (eje x) y longitud de fragmento (eje y) 2D de una región potenciadora de ERBB2 en cuatro cohortes agregadas de cáncer de mama en etapa tardía de 20 muestras (como se muestra de arriba a abajo): (i) una cohorte que comprende una carga de mutación baja y un número de copias (NC) de ERBB2 casi diploide, (ii) una cohorte que comprende una carga de mutación alta y un número de copias (NC) de ERBB2 casi diploide, (iii) una cohorte que comprende una carga de mutación baja y un número de copias (NC) de ERBB2 alto número de copias (NC) (por ejemplo, mayor que aproximadamente 4), y (iv) una cohorte que comprende una alta carga de mutación y un alto número de copias (NC) de ERBB2 (por ejemplo, mayor que aproximadamente 4).
FIG. 28Amuestra mapas de calor de densidad de posición de inicio de fragmento 2D alineados (eje x) y longitud de fragmento (eje y) (como se muestra de arriba a abajo): (i) un mapa de calor de una región potenciadora de ERBB2 (arriba a la derecha), generado a partir de una sola muestra (de un sujeto positivo para ERBB2), (ii) un mapa de calor de cohorte agregado generado a partir de una pluralidad de controles sanos, y (iii) un mapa de calor de cohorte agregado generado a partir de una pluralidad de sujetos con NC de ERBB2 alto y carga de mutación baja. Además, se muestra un gráfico de cobertura de recuentos de mononucleosomas y dinucleosomas (p. ej., número de fragmentos contados en la muestra de prueba que comienzan en esa posición genómica) en 4 regiones genómicas diferentes (p. ej., correspondientes a los genes TP53, NF1, ERBB2 y BRCA1).
FIG. 28Bmuestra mapas de calor de densidad de posición de inicio de fragmento 2D alineados (eje x) y longitud de fragmento (eje y) (como se muestra de arriba a abajo): (i) un mapa de calor de una región potenciadora de ERBB2 (arriba a la derecha), generado a partir de una sola muestra (de un sujeto negativo para ERBB2), (ii) un mapa de calor de cohorte agregado generado a partir de una pluralidad de controles sanos, y (iii) un mapa de calor de cohorte agregado generado a partir de una pluralidad de sujetos con NC de ERBB2 alto y carga de mutación baja. Además, se muestra un gráfico de cobertura de recuentos de mononucleosomas y dinucleosomas en 4 regiones genómicas diferentes (p. ej., correspondientes a los genes TP53, NF1, ERBB2 y BRCA1).
FIGS. 29Ay29Bmuestran gráficos de mapeo de nucleosomas 2D para dominios exónicos ERBB2 y NF 1 (sin amplificación). En la parte inferior de cada figura, se muestra una estimación de densidad 2D y el procesamiento de imágenes. En la parte superior de cada figura, se muestra una máscara nucleosomal para un dominio canónico observado en 30 casos clínicos de ERBB2 casi diploide.
FIG. 30muestra una gráfica de la carga tumoral del cromosoma 17 inferida en 4 cohortes diferentes que previamente habían sido analizadas para determinar el FAM máximo mediante un ensayo de biopsia líquida: (i) una cohorte con un MAP máximo en un rango de (0, 0,5], (ii) una cohorte con un MAP máximo en un rango de (0,5,5], (iii) una cohorte con un FAM máximo en un rango de (5,20], y (iv) una cohorte con un FAM máximo en un rango de (20, 100].
FIG. 31Amuestra una gráfica del componente de expresión de ERBB2 frente al número de copias de ERBB2.
FIG. 31Bmuestra una gráfica de umbralización 2D usando un conjunto de entrenamiento negativo de ERBB2, que se realiza mediante la construcción de una matriz de varianza-covarianza, invirtiendo la matriz de varianzacovarianza y generando una función de discriminación de elipse.
FIG. 32Amuestra un gráfico de enriquecimiento relativo de fragmentos dinucleosomales en el dominio del gen MPL en 2360 sujetos con cáncer en etapa avanzada y 43 controles sanos.
FIGS. 32By32Cmuestran un ejemplo de un punto de interrupción en la señal de la relación dinucleosomal residual en una transcripción alternativa del gen MPL.FIG. 32Cmuestra una parte ampliada dela FIG. 32B.
DESCRIPCIÓN DETALLADA
[0023]Si bien en el presente documento se han mostrado y descrito formas de realización preferibles de la invención, será obvio para los expertos en la técnica que tales formas de realización se proporcionan a modo de ejemplo únicamente. Numerosas variaciones, cambios y sustituciones ahora occurirán a los expertos en la técnica sin apartarse de la invención. Debe entenderse que se pueden emplear varias alternativas a las formas de realización de la invención descritas en el presente documento en la práctica de la invención.
[0024]El término "muestra biológica", como se usa en el presente documento, generalmente se refiere a una muestra de tejido o fluido derivada de un sujeto. Se puede obtener una muestra biológica directamente del sujeto. La muestra biológica puede ser o puede incluir una o más moléculas de ácido nucleico, tales como moléculas de ácido desoxirribonucleico (ADN) o ácido ribonucleico (ARN). La muestra biológica puede derivarse de cualquier órgano, tejido o fluido biológico. Una muestra biológica puede comprender, por ejemplo, un fluido corporal o una muestra de tejido sólido. Un ejemplo de una muestra de tejido sólido es una muestra de tumor, por ejemplo, de una biopsia de tumor sólido. Los fluidos corporales incluyen, por ejemplo, sangre, suero, plasma, células tumorales, saliva, orina, fluido linfático, fluido prostático, fluido seminal, leche, esputo, heces, lágrimas y derivados de estos.
[0025]El término "sujeto", tal como se utiliza en el presente documento, generalmente se refiere a cualquier animal, mamífero o ser humano. Un sujeto puede tener, potencialmente tener o sospecharse que tiene una o más características seleccionadas de cáncer, uno o más síntomas asociados con el cáncer, asintomáticos con respecto al cáncer o no diagnosticados (por ejemplo, no diagnosticados de cáncer). El sujeto puede tener cáncer, el sujeto puede mostrar uno o más síntomas asociados con el cáncer, el sujeto puede estar libre de síntomas asociados con el cáncer o el sujeto puede no haber sido diagnosticado con cáncer. En algunas formas de realización, el sujeto es un ser humano.
[0026]El término "ADN libre de células" (o "ADNlc") como se usa en el presente documento, generalmente se refiere a fragmentos de ADN que circulan libremente en el torrente sanguíneo de un sujeto. Los fragmentos de ADN libres de células pueden tener protección dinucleosomal (por ejemplo, un tamaño de fragmento de al menos 240 pares de bases ("pb")). Estos fragmentos de ADNlc con protección dinucleosomal probablemente no se cortaron entre el nucleosoma, lo que resultó en una longitud de fragmento más larga (p. ej., con una distribución de tamaño típica centrada alrededor de 334 pb). Los fragmentos de ADN libres de células pueden tener protección mononucleosomal (por ejemplo, un tamaño de fragmento de menos de 240 pares de bases ("pb")). Estos fragmentos de ADNlc con protección mononucleosomal probablemente se cortaron entre el nucleosoma, lo que resultó en una longitud de fragmento más corta (p. ej., con una distribución de tamaño típica centrada alrededor de 167 pb). El ADNlc discutido en este documento puede no tener un origen fetal y, por lo general, es posible que la sujeto no esté embarazada.
[0027] El término "secuencia de ADN", como se usa en el presente documento, generalmente se refiere a "lecturas de secuencia sin procesar" y/o "secuencias de consenso". Las lecturas de secuencias sin procesar son la salida de un secuenciador de ADN y normalmente incluyen secuencias redundantes de la misma molécula original, por ejemplo, después de la amplificación. Las "secuencias de consenso" son secuencias derivadas de secuencias redundantes de una molécula original destinadas a representar la secuencia de la molécula original. Las secuencias de consenso pueden producirse mediante votación (en la que cada nucleótido mayoritario, por ejemplo, el nucleótido observado más comúnmente en una posición de base determinada, entre las secuencias es el nucleótido de consenso) u otros enfoques tales como la comparación con un genoma de referencia. Se pueden producir secuencias de consenso etiquetando moléculas originales originales con etiquetas moleculares únicas o no únicas, que permiten el seguimiento de las secuencias de la progenie (por ejemplo, después de la amplificación) mediante el seguimiento de la etiqueta y/o el uso de información interna de lectura de secuencia. Se proporcionan ejemplos de etiquetado o códigos de barras y usos de etiquetas o códigos de barras, por ejemplo, en la publicación de patentes de EE. UU. Nos 2015/0368708, 2015/0299812, 2016/0040229 y 2016/0046986.
[0028] El método de secuenciación puede ser un método de secuenciación de primera generación, tal como secuenciación de Maxam-Gilbert o Sanger, o un método de secuenciación de alto rendimiento (por ejemplo, secuenciación de próxima generación o NGS). Un método de secuenciación de alto rendimiento puede secuenciar simultáneamente (o sustancialmente simultáneamente) al menos 10.000, 100.000, 1 millón, 10 millones, 100 millones, mil millones o más moléculas de polinucleótidos. Los métodos de secuenciación pueden incluir, entre otros: pirosecuenciación, secuenciación por síntesis, secuenciación de una sola molécula, secuenciación de nanoporos, secuenciación de semiconductores, secuenciación por ligación, secuenciación por hibridación, expresión genética digital (Helicos), masiva secuenciación paralela, por ejemplo, Helicos, Clonal Single Molecule Array (Solexa/Illumina), secuenciación utilizando plataformas PacBio, SOLiD, Ion Torrent o Nanopore.
[0029] El término "genoma de referencia" (a veces denominado "ensamblaje") como se usa en el presente documento, generalmente se refiere a una base de datos de secuencias de ácidos nucleicos, ensamblada a partir de datos genéticos y destinada a representar el genoma de una especie. Normalmente, los genomas de referencia son haploides. Normalmente, los genomas de referencia no representan el genoma de un solo individuo de la especie, sino que son mosaicos de los genomas de varios individuos. Un genoma de referencia puede estar disponible públicamente o ser un genoma de referencia privado. Los genomas de referencia humanos incluyen, por ejemplo, hg19 o NCBI Build 37 o Build 38.
[0030] El término "secuencia de referencia", como se usa en el presente documento, generalmente se refiere a una secuencia de nucleótidos con la que se comparan las secuencias de nucleótidos de un sujeto. Normalmente, una secuencia de referencia se deriva de un genoma de referencia.
[0031] El término "mapeo", como se usa en el presente documento, generalmente se refiere a alinear una secuencia de ADN con una secuencia de referencia basándose en la homología de secuencia. La alineación se puede realizar utilizando un algoritmo de alineación, por ejemplo, el algoritmo Needleman-Wunsch (consulte, por ejemplo, el alineador de agujas EMBOSS disponible en la URL ebi.ac.uk/Tools/psa/emboss_needle/nucleótido.html, opcionalmente con la configuración predeterminada), el BLAST algoritmo (ver, por ejemplo, la herramienta de alineación BLAST disponible en la URL blast.ncbi.nlm.nih.govBlast.cgi, opcionalmente con la configuración predeterminada), o el algoritmo Smith-Waterman (ver, por ejemplo, el alineador EMBOSS Water disponible en la URL ebi.ac.uk/Tools/psa/emboss_water/nucleótido.html, opcionalmente con la configuración predeterminada). La alineación óptima se puede evaluar utilizando cualquier parámetro adecuado de un algoritmo elegido, incluidos los parámetros predeterminados.
[0032] El término "región genómica", como se usa en el presente documento, generalmente se refiere a cualquier región (por ejemplo, rango de ubicaciones de pares de bases) de un genoma, por ejemplo, un genoma completo, un cromosoma, un gen o un exón. Una región genómica puede ser una región contigua o no contigua. Un "locus genético" (o "locus") puede ser una porción o la totalidad de una región genómica (por ejemplo, un gen, una porción de un gen o un único nucleótido de un gen).
[0033] El término "medida cuantitativa", tal como se utiliza en el presente documento, generalmente se refiere a una medida absoluta o relativa. Una medida cuantitativa puede ser, sin limitación, un número, una medida estadística (por ejemplo, frecuencia, media, mediana, desviación estándar o cuantil), o un grado o una cantidad relativa (por ejemplo, alta, media y baja). Una medida cuantitativa puede ser una relación de dos medidas cuantitativas. Una medida cuantitativa puede ser una combinación lineal de medidas cuantitativas. Una medida cuantitativa puede ser una medida normalizada.
[0034] El término "estado biológico anormal", como se usa en el presente documento, generalmente se refiere a un estado de un sistema biológico que se desvía en algún grado de lo normal. Los estados anormales pueden ocurrir a nivel fisiológico o molecular. Por ejemplo, y sin limitación, un estado fisiológico anormal (enfermedad, patología) o una aberración genética (mutación, variante de un solo nucleótido, variante de número de copias, fusión genética, indel, etc). Un estado patológico puede ser cáncer o precáncer. Un estado biológico anormal puede estar asociado con un grado de anormalidad (p. ej., una medida cuantitativa que indica una distancia respecto del estado normal).
[0035] El término "probabilidad", tal como se utiliza en el presente documento, generalmente se refiere a una probabilidad, una probabilidad relativa, una presencia o una ausencia, o un grado.
[0036] El término "algoritmo de aprendizaje automático", tal como se utiliza en el presente documento, generalmente se refiere a un algoritmo, ejecutado por computadora, que automatiza la construcción de modelos analíticos, por ejemplo, para agrupamiento, clasificación o reconocimiento de patrones. Los algoritmos de aprendizaje automático pueden ser supervisados o no supervisados. Los algoritmos de aprendizaje incluyen, por ejemplo, redes neuronales artificiales (p. ej., redes de retropropagación), análisis discriminantes (p. ej., clasificador bayesiano o análisis de Fischer), máquinas de vectores de soporte, árboles de decisión (p. ej., procesos de partición recursivos como CART, árboles de clasificación y regresión)., o bosques aleatorios), clasificadores lineales (p. ej., regresión lineal múltiple (MLR), regresión de mínimos cuadrados parciales (PLS) y regresión de componentes principales), agrupamiento jerárquico y análisis de conglomerados. Un conjunto de datos sobre el cual aprende un algoritmo de aprendizaje automático puede denominarse "datos de entrenamiento".
[0037] El término "clasificador", tal como se utiliza en el presente documento, generalmente se refiere a un código informático de algoritmo que recibe, como entrada, datos de prueba y produce, como salida, una clasificación de los datos de entrada como pertenecientes a una u otra clase.
[0038] El término "conjunto de datos", tal como se utiliza en este documento, generalmente se refiere a una colección de valores que caracterizan elementos de un sistema. Un sistema puede ser, por ejemplo, ADNlc de una muestra biológica. Los elementos de tal sistema pueden ser loci genéticos. Ejemplos de un conjunto de datos (o "conjunto de datos") incluyen valores que indican una medida cuantitativa de una característica seleccionada entre: (i) secuencias de ADN que se asignan a un locus genético, (ii) secuencias de ADN que comienzan en un locus genético, (iii) secuencias de ADN terminando en un locus genético; (iv) una protección dinucleosomal o protección mononucleosomal de una secuencia de ADN; (v) secuencias de ADN ubicadas en un intrón o exón de un genoma de referencia; (vi) una distribución de tamaño de secuencias de ADN que tienen una o más características; y (vii) una distribución de longitud de secuencias de ADN que tienen una o más características, etc.
[0039] El término "valor", tal como se utiliza en este documento, generalmente se refiere a una entrada en un conjunto de datos que puede ser cualquier cosa que caracterice la característica a la que se refiere el valor. Esto incluye, entre otros, números, palabras o frases, símbolos (por ejemplo, o -) o grados.
[0040] El término "biopsia líquida", como se usa en el presente documento, generalmente se refiere a una prueba o ensayo de laboratorio no invasivo o mínimamente invasivo (por ejemplo, de una muestra biológica o ADN libre de células). Dichos ensayos de "biopsia líquida" pueden informar mediciones (por ejemplo, frecuencias de alelos menores, expresión génica o expresión de proteínas) de uno o más genes marcadores asociados a tumores. Dichos ensayos de biopsia líquida pueden estar disponibles comercialmente, como, por ejemplo, una prueba de ADN de tumores circulantes de Guardant Health, un panel de oncología Spotlight 59 de Fluxion Biosciences, un panel de cáncer de pulmón UltraSEEK de Agena Bioscience, un ensayo de biopsia líquida FoundationACT de Foundation Medicine y un ensayo PlasmaSELECT de Personal Genome Diagnostics. Dichos ensayos pueden informar mediciones de valores de fracción de alelo menor (FAM) para cada uno de un conjunto de variantes genéticas (por ejemplo, SNV, CNV, indeles y/o fusiones).
[0041] El término "densidad multimodal", como se usa en el presente documento, generalmente se refiere a una densidad o distribución de densidad a través de múltiples parámetros. Una densidad multimodal puede incluir una mezcla multivariada de distribuciones.
Introducción
[0042] La formación y progresión del cáncer pueden surgir de modificaciones tanto genéticas como epigenéticas del ácido desoxirribonucleico (ADN). La presente divulgación se refiere a métodos de análisis de modificaciones epigenéticas del ADN, tales como el ADN libre de células (ADNlc). Dicho análisis de "fragmentoma" se puede utilizar solo o en combinación con tecnologías existentes para determinar la presencia o ausencia de una enfermedad o afección, el pronóstico de una enfermedad o afección diagnosticada, el tratamiento terapéutico de una enfermedad o afección diagnosticada, o el resultado previsto del tratamiento para una enfermedad o condición.
[0043] El ADN libre de células circulante (ADNlc) puede ser predominantemente fragmentos de ADN cortos (por ejemplo, que tienen longitudes de aproximadamente 100 a 400 pares de bases, con una moda de aproximadamente 165 pb) desprendidos de células de tejido moribundas a fluidos corporales tales como sangre periférica (plasma o suero). El análisis del ADNlc puede revelar, además de variantes genéticas asociadas al cáncer, huellas epigenéticas y firmas de eliminación fagocítica de células moribundas, lo que puede dar como resultado un perfil agregado de ocupación nucleosomal de las neoplasias malignas presentes (p. ej., tumores), así como sus componentes de microambiente.
[0044] Uno, dos o más componentes o factores pueden contribuir a una señal de fragmentoma plasmático (p. ej., una señal obtenida del análisis de fragmentos de ADNlc), incluido (i) el tipo de muerte celular y los eventos de condensación de cromatina asociados durante el desmantelamiento del ADN, (ii) la eliminación mecanismos, que pueden involucrar varios tipos de maquinaria de absorción regulada por el sistema inmunológico de un sujeto, y (iii) variación no maligna en la composición de la sangre, que puede verse afectada por una combinación subyacente de tipos de células en circulación, (iv) múltiples fuentes o causas de muerte celular no maligna en órganos o tejidos de un tipo determinado, y (v) heterogeneidad de los tipos de células dentro del cáncer, ya que los tumores sólidos malignos incluyen células normales, epiteliales y estromales asociadas a tumores, células inmunitarias y células vasculares, cualquier de todos los cuales pueden contribuir y estar representados en una muestra de ADNlc (por ejemplo, que puede obtenerse de un fluido corporal de un sujeto).
[0045]El ADN libre de células en forma de complejos protegidos por histonas puede ser liberado por diversas células huésped, incluidos neutrófilos, macrófagos, eosinófilos y células tumorales. El ADN circulante normalmente tiene una vida media corta (p. ej., aproximadamente de 10 a 15 minutos) y el hígado suele ser el órgano principal donde los fragmentos de ADN circulante se eliminan de la circulación sanguínea. La acumulación de ADNlc en la circulación puede deberse a un aumento de la muerte y/o activación celular, una eliminación deficiente del ADNlc y/o disminuciones en los niveles de enzimas DNasa endógenas. El ADN libre de células (ADNlc) que circula en el torrente sanguíneo de un sujeto normalmente puede estar empaquetado en estructuras recubiertas de membrana (p. ej., cuerpos apoptóticos) o complejos con biopolímeros (p. ej., histonas o proteínas plasmáticas de unión al ADN). El proceso de fragmentación del ADN y el tráfico posterior se pueden analizar para determinar sus efectos sobre las características de las señales de ADN libre de células detectadas mediante análisis de fragmentomas.
[0046]En el núcleo de una célula (por ejemplo, de un ser humano), el ADN normalmente existe en nucleosomas, que están organizados en estructuras que comprenden aproximadamente 145 pares de bases (pb) de ADN envueltos alrededor de un octámero de histona central. Las interacciones electrostáticas y por enlaces de hidrógeno del ADN y los dímeros de histonas pueden provocar una flexión energéticamente desfavorable del ADN sobre la superficie de la proteína. Tal curvatura puede ser estéricamente prohibitiva para otras proteínas de unión al ADN y, por tanto, puede servir para regular el acceso al ADN en el núcleo de una célula. La posición de los nucleosomas en una célula puede fluctuar dinámicamente (por ejemplo, con el tiempo y en diversos estados y condiciones celulares), por ejemplo, desenvolverse parcialmente y volverse a envolver espontáneamente. Dado que una señal de fragmentoma puede reflejar fragmentos de ADN protegidos por histonas que se originaron a partir de una configuración influenciada por unidades nucleosomales, la estabilidad y dinámica del nucleosoma pueden influir en dicha señal de fragmentoma. Esta dinámica de los nucleosomas puede deberse a una variedad de factores, tales como: (i) complejos de remodelación dependientes de ATP, que pueden utilizar la energía de la hidrólisis del ATP para deslizar los nucleosomas e intercambiar o expulsar histonas de la fibra de cromatina, (ii) variantes de histonas, que pueden poseer propiedades distintas de las de las histonas canónicas y crear dominios específicos localizados dentro de la fibra de cromatina, (iii) chaperonas de histonas, que pueden controlar el suministro de histonas libres y cooperar con los remodeladores de cromatina en la deposición y expulsión de histonas, y (iv) modificaciones postraduccionales (PTM) de histonas (p. ej., acetilación, metilación, fosforilación y ubiquitinación), que pueden influir directa o indirectamente en la estructura de la cromatina.
[0047]Por lo tanto, las señales o patrones de fragmentación en el ADNlc pueden ser indicativos de una señal de ADNlc agregada, derivada de múltiples eventos relacionados con la heterogeneidad en la organización de la cromatina en todo el genoma. Dicha organización de la cromatina puede diferir dependiendo de factores como la identidad celular global, el estado metabólico, el estado regulatorio regional, la actividad genética local en las células moribundas y los mecanismos de eliminación del ADN. Además, las señales del fragmentoma de ADN libre de células pueden atribuirse sólo parcialmente a la arquitectura de cromatina subyacente de las células contribuyentes. Estas señales del fragmentoma de ADNlc pueden ser indicativas de una huella más compleja de compactación de la cromatina durante la muerte celular y de la protección del ADN frente a la digestión enzimática. Por lo tanto, los mapas de cromatina específicos de un determinado tipo de célula o tipo de linaje celular pueden contribuir sólo parcialmente a la heterogeneidad inherente de la accesibilidad del ADN debido a cambios en la estabilidad, conformación y composición de los nucleosomas en diversas etapas de la muerte celular o el tráfico de desechos. Como resultado, algunos nucleosomas pueden estar preferentemente presentes o no presentes en el ADN libre de células (p. ej., puede haber un mecanismo de filtrado que influye en la eliminación del ADN libre y su liberación en la circulación sanguínea), lo que puede depender de factores como el modo y mecanismo de muerte y limpieza de cadáveres celulares.
[0048]Se puede generar una señal de fragmentoma en una célula y liberarse como ADNlc en la circulación sanguínea como resultado de la fragmentación del ADN nuclear durante procesos celulares como la apoptosis y la necrosis. Dicha fragmentación puede producirse como resultado de diferentes enzimas nucleasas que actúan sobre el ADN en diferentes etapas de las células, lo que da como resultado patrones de escisión de ADN específicos de secuencia que pueden analizarse en señales de fragmentomas de ADN libre. La clasificación de dichos patrones de eliminación puede ser un marcador clínicamente relevante de los entornos celulares (p. ej., microambientes tumorales, inflamación, estados patológicos, tumorigénesis, etc.).
[0049]Las señales de los fragmentomas se pueden analizar clasificando los fragmentos de ADNlc en distintos componentes correspondientes a los diferentes estados de cromatina de los que se derivaron. Por ejemplo, una señal de fragmentoma puede expresarse como una suma de componentes (por ejemplo, respuesta sistémica benigna, respuesta sistémica tumoral, microambiente tumoral y tumor) que representan diferentes estados de cromatina subyacentes, como se muestra en laFIG. 1A.Este modelo de "aclaramiento de estados de cromatina" puede modificarse multiplicando los componentes por un factor de aclaramiento, ya que cada estado de cromatina puede tener un mecanismo de aclaramiento subyacente diferente (por ejemplo, específico de un tipo de tejido, tipo de órgano o tipo de tumor). Como se muestra en laFIG. 1B,la señal del fragmentoma se puede modelar como una suma de uno o más componentes, donde cada componente se ve afectado por (por ejemplo, multiplicado por) un factor de eliminación. Dichos componentes y factores de eliminación pueden representar marcadores no variantes que pueden usarse para diferenciar entre estados de cromatina similares o idénticos. El análisis de fragmentoma se puede realizar utilizando un modelo de "aclaramiento de estados de cromatina" identificando regiones (o características) específicas donde uno o más de los estados de cromatina, o uno o más de sus mecanismos de aclaramiento, son suficientemente diferentes para ser utilizados como marcadores indicadores de, por ejemplo, aberraciones genéticas. o estados patológicos. Tales aberraciones genéticas pueden comprender SNV, CNV, indeles y fusiones.
[0050]El análisis de fragmentoma puede revelar variaciones canónicas o no canónicas en la organización o estructuras de la cromatina, que pueden ser consecuencia de aberraciones genómicas y/o cambios epigenéticos en el ADN. Tales mediciones pueden revelar, por ejemplo, uno o más de: (i) un microambiente tumoral específico del cáncer, (ii) una respuesta estromal al estrés físico que resulta en características de desprendimiento del estroma que son específicas del cáncer, (iii) un cambio en la composición de las células sanguíneas. en respuesta a una presencia minúscula de fragmentos de cáncer inmunológicamente activos, y/o (iv) una respuesta de la composición de la sangre a variaciones sutiles del perfil inmunológico del tejido que están asociadas con la formación de un nicho tumoral en ciernes. Las aberraciones genéticas que pueden medirse o inferirse mediante análisis de fragmentomas pueden comprender variantes o cambios epigenéticos.
[0051]Las variantes del número de copias somáticas (CNV) que incluyen amplificaciones focales y/o aneuploidía representan un grupo de aberraciones genéticas comúnmente observadas en muchos cánceres, especialmente en los cánceres metastásicos. Normalmente, el número de copias se refiere a la cantidad de copias por célula de un gen o secuencia de ADN en particular. Sin embargo, dicha interpretación del número de copias (NC) puede volverse menos precisa al perfilar entornos tumorales multiclonales heterogéneos. Estas células tumorales pueden tener una amplia gama de NC en poblaciones heterogéneas de células tumorales.
[0052]Los reordenamientos cromosómicos adquiridos somáticamente, como las deleciones y duplicaciones, especialmente las focales, pueden provocar un cambio en el nivel de expresión de un gen, un fenómeno conocido como efecto de dosis genética.
[0053]Las tecnologías de microarrays se utilizan ampliamente en la detección de CNV, como la hibridación genómica comparativa de arrays (array CGH) y los microarrays de polimorfismos de un solo nucleótido (SNP). En la CGH de matriz tradicional, los ADN de referencia y de prueba se marcan con fluorescencia y se hibridan con matrices, y la relación de señal se utiliza como estimación de la relación del número de copias (NC). Los microarrays de SNP también se basan en la hibridación, pero se procesa una sola muestra en cada microarray y las relaciones de intensidad se forman comparando la intensidad de la muestra bajo investigación con una colección de muestras de referencia o con todas las demás muestras que se estudian. Si bien las matrices de micromatrices/genotipado son eficientes para la detección de CNV grandes, son menos sensibles para detectar CNV de genes cortos o secuencias de ADN (por ejemplo, con una longitud de menos de aproximadamente 50 kilobases (kb)).
[0054]Al proporcionar una vista base por base del genoma, la secuenciación de próxima generación (NGS) puede detectar CNV pequeñas o nuevas que pueden pasar desapercibidas para las matrices. Ejemplos de métodos NGS adecuados pueden incluir genoma completo (WGS), secuenciación del exoma completo (WES) o secuenciación dirigida del exoma (TES). Sin embargo, persisten desafíos en el desarrollo de algoritmos computacionales para detectar CNV (p. ej., amplificaciones del número de copias (CNA)) a partir de una muestra de secuenciación individual, debido en parte a los sesgos introducidos por la hibridación y la cobertura escasa y desigual en todo el genoma.
[0055]Las dificultades para adquirir tejido tumoral (p. ej., mediante procedimientos de biopsia costosos e invasivos) y los riesgos para la salud asociados han motivado el desarrollo de ensayos sanguíneos mínimamente invasivos. El perfilado de sangre puede ofrecer varias ventajas prácticas, incluida la naturaleza mínimamente invasiva de la adquisición de muestras, la relativa facilidad de estandarización de los protocolos de muestreo y la capacidad de obtener muestras repetidas a lo largo del tiempo. Estudios anteriores han identificado variantes asociadas al cáncer, incluidas alteraciones de microsatélites y mutaciones genéticas, en el plasma de pacientes con diferentes tipos de cáncer. La detección de variantes de cáncer en presencia de grandes cantidades de ADN no tumoral en plasma puede presentar nuevos desafíos en la detección del número de copias.
[0056]Además, el ADN libre de células derivadas de plasma conserva características previamente observadas en el análisis de todo el genoma de la estructura de la cromatina (en particular, en la secuenciación de nucleasas microcócicas, o ensayos 'MNase-seq'), particularmente aquellos asociados con paisajes epigenéticos de tejidos humanos como se determinó, examinando los patrones de fragmentación del ADN observados en el ADNlc.FIG.7ilustra un ejemplo de una enzima que puede cortar ADN bicatenario entre pares de bases: nucleasa microcócica (MNasa). Una dilución 1:3 de nucleasa microcócica puede escindir en cualquier posición de par de bases sin especificidad por una secuencia particular. La MNasa puede digerir la cromatina y así proporcionar información sobre la ubicación de los nucleosomas a lo largo de las cadenas de ADN. Los estudios de varios organismos modelo y líneas celulares humanas han revelado que la posición de los nucleosomas en el ADN es variable y específica del tejido, lo que hace que los métodos tradicionales de número de copias que se basan en la señal de referencia sean subóptimos para la detección del número de copias de ADN derivado de plasma de variantes cortas de CNV. En particular, el número de copias del fragmento de ADN libre puede depender de la posición nucleosomal, la eliminación celular y/o la expresión genética de un tipo de célula o tejido subyacente, que puede cambiar con el tiempo y los estados celulares. Se ha observado que las señales de ADN libre de células se comportan de acuerdo con la posición de los nucleosomas observada en el tejido, de modo que el agotamiento de los nucleosomas ocurre en los sitios de inicio de la transcripción (TSS) de genes que expresan activamente y, por lo tanto, que la prevalencia de ciertos fragmentos de ADN dentro de los TSS refleja directamente la expresión firma de células hematopoyéticas.
[0057] Los nucleosomas pueden estar presentes incluso cuando los genes se transcriben activamente (p. ej., mediante la ADN polimerasa II (Pol II)). Sin embargo, la posición de los nucleosomas a menudo cambia con el tiempo en una célula y algunos nucleosomas pueden perderse cuando se induce la transcripción. Por ejemplo, en muchos genes eucariotas, Pol II se detiene después de transcribir entre 50 y 100 pb iniciales de la plantilla. Las histonas originales pueden permanecer en el ADN durante la transcripción de nivel moderado que implica bucles de ADN, mientras que puede ocurrir una remodelación más significativa durante la transcripción intensa cuando múltiples complejos de transcripción desplazan a las histonas. Como resultado, la discriminación entre la naturaleza mononucleosomal y dinucleosomal de los fragmentos de ADN puede ayudar a identificar y determinar la regulación subyacente alrededor de los sitios de inicio de la transcripción (TSS), por ejemplo, en casos del uso alternativo del promotor TSS, como se muestra en la FIG. 1C, donde el análisis univariado de la cobertura del inicio del fragmento no revela la presencia de un complejo dinucleosomal (por ejemplo, que puede ser indicativo de un inicio de transcripción alternativo, como se muestra en la FIG. 1D).
[0058] A pesar de los avances recientes en el esclarecimiento del origen del ADN libre de células, sigue siendo necesario contar con algoritmos de detección de variantes somáticas que tengan en cuenta los nucleosomas. Los enfoques de detección de variantes conscientes de los nucleosomas pueden ampliar nuestra comprensión de cómo el posicionamiento de los nucleosomas influye en los patrones y señales de los fragmentos de ADN libre, y pueden centrarse en la extensión del análisis basado en nucleosomas de los patrones de fragmentación del ADN libre de células (fragmentómica) fuera de los sitios de unión del factor de transcripción y de inicio de la transcripción.
[0059] La presente divulgación se refiere al uso de un análisis uniparamétrico o multiparamétrico para determinar una puntuación de desregulación plasmática. Un análisis uniparamétrico puede comprender un análisis de una función de distribución con un parámetro independiente. Un análisis multiparamétrico puede comprender un análisis de una función de distribución con dos o más parámetros independientes. Una puntuación de desregulación plasmática puede variar a lo largo del genoma (p. ej., entre ubicaciones genómicas). Esta variación puede basarse, por ejemplo, en el número de fragmentos que se superponen con cada posición base de una pluralidad de posiciones base. La pluralidad de posiciones de bases se puede seleccionar de una parte o de todo el genoma. Esta variación puede basarse, por ejemplo, en la distribución de longitudes de fragmentos que se superponen con cada posición de una porción o de todo el genoma.
[0060] En un aspecto, determinar una puntuación de desregulación plasmática puede comprender representar gráficamente el número de fragmentos de ADNlc en una muestra (por ejemplo, detectados mediante NGS u otros métodos de secuenciación) que tienen una longitud particular en cada una de un conjunto de ubicaciones genómicas. Esto se puede lograr mediante un análisis multiparamétrico, por ejemplo, creando un gráfico tridimensional (3-D) en el que un primer eje puede representar una pluralidad de ubicaciones genómicas que se superponen con una o más regiones de un genoma (por ejemplo, una región contigua) abarcan una pluralidad de posiciones de pares de bases, o un conjunto de regiones genómicas como se indica en la Tabla 1). Un segundo eje del gráfico tridimensional puede representar cada uno de un conjunto de posibles longitudes de fragmentos en la muestra (por ejemplo, 0 pb - 400 pb). Un tercer eje del gráfico tridimensional puede representar el número de fragmentos que se superponen con la posición genómica única en cada una de las longitudes de los fragmentos.
[0061] Cuando los datos se trazan en una matriz tridimensional de este tipo, el gráfico de distribución multiparamétrico resultante se puede utilizar para determinar una puntuación. Esta puntuación puede ser una puntuación de desregulación plasmática, como se describe en otra parte del presente documento.
[0062] La determinación de una puntuación de desregulación plasmática puede comprender un análisis uniparamétrico, por ejemplo, la creación de un gráfico bidimensional (2-D) en el que un primer eje puede representar una pluralidad de ubicaciones genómicas que se superponen con una o más regiones de un genoma (por ejemplo, un tramo contiguo de una pluralidad de posiciones de pares de bases, o un conjunto de regiones genómicas como se indica en la Tabla 1). Un segundo eje del gráfico 2-D puede representar el número de fragmentos de ADNlc en una muestra que tienen una longitud particular y que se superponen con cada una de la pluralidad de ubicaciones genómicas.
[0063] El análisis de fragmentoma puede comprender uno o más análisis uniparamétricos o multiparamétricos descritos anteriormente. El análisis de fragmentomas puede comprender perfiles de nucleosomas utilizando ácidos nucleicos libres de células, asociando patrones de perfiles de nucleosomas con fenotipos específicos, como una enfermedad o afección, o configurando un clasificador para ayudar a clasificar muestras en una o más clases relevantes. Por ejemplo, un clasificador usa información de límites intrón-exón, que comprende ubicaciones de límites intrón-exón en un genoma de referencia e información de fragmentoma (por ejemplo, uno o más modelos multiparamétricos o uniparamétricos) que comprende valores que indican la ubicación en un intrón o exón o cerca de ellos. un límite intrón-exón. Dicha información sobre los límites intrón-exón puede ser informativa para la discriminación de variantes genéticas o estados biológicos anormales. El análisis de fragmentoma también se puede utilizar, por ejemplo, para identificar sondas, cebadores y cebos que se pueden utilizar para enriquecer selectivamente partes únicas del genoma para detectar fenotipos relevantes.
Información de secuencia
[0064] El perfil de fragmentoma en este documento utiliza información de secuencia derivada de una muestra de ADN libre de células. Existen numerosas formas de determinar la información de la secuencia. Los ejemplos incluyen la secuenciación utilizando HiSeq (Illumina) o Ion Torrent (Thermo Fisher). En particular, se puede utilizar la secuenciación de extremos pares para medir la contigüidad de moléculas de ADN individuales en plasma, por ejemplo, para estudiar los patrones de activación de endonucleasas endógenas que escinden el ADN de cromatina en fragmentos internucleosomales. Debido a los patrones de ocupación nucleosomal, estas longitudes de fragmentos de ADNlc se observan como una distribución, como se muestra en la FIG. 1E. El eje horizontal es la longitud del fragmento (en pares de bases, "pb"), mientras que el eje vertical muestra el número de fragmentos de ADN libre con una longitud de fragmento determinada. Se observa un pico en la distribución de la longitud del fragmento alrededor de 167 pb, lo que corresponde a aproximadamente 147 pb de ADN envuelto alrededor de un núcleo de octámero de histona y un segmento de ADN conector. También se observa un pico más pequeño alrededor de 334 pb (p. ej., al doble de la longitud del fragmento de 167 pb), que corresponde al ADN enrollado dos veces alrededor de un núcleo de octámero de histona (p. ej., dos veces alrededor de una sola histona o alrededor de dos histonas consecutivas) con un conector asociado. a Dn . Este pico de distribución de longitud de fragmento de aproximadamente 167 pb puede ser evidente durante el análisis multiparamétrico observando uno o más picos periódicos separados por aproximadamente 167 pb a lo largo de uno o más ejes de un gráfico de calor multiparamétrico.
[0065] En presencia de fragmentación apoptótica del ADN observada en la señal del ADNlc, la secuenciación de extremos pares permite determinar tanto la posición como la ocupación de los nucleosomas y los factores de transcripción unidos al ADN. A su vez, este enfoque permite distinguir poblaciones de moléculas que surgen de diferentes perfiles de arquitectura de cromatina, incluso en resolución subnucleosomal. Examinar cómo varían los fragmentos de ADNlc a lo largo de un inicio genómico versus el espacio de longitud del fragmento puede dar como resultado visualizaciones de gráficos de calor, como se ilustra en la FlG. 2.
[0066] Una vez adquiridos los datos de secuencia de muestras de ácido nucleico libres de células, los datos de secuencia se pueden alinear y colapsar en lecturas de moléculas únicas. Los métodos para alinear incluyen ClustalW2, Clustal Omega y MAFFT.
[0067] La información de secuenciación obtenida aquí puede colapsarse opcionalmente para determinar moléculas únicas y/o lecturas de secuencia únicas. Los métodos para colapsar en moléculas únicas se describen, por ejemplo, en VeriTag de Population Genetics y SafeSeqS de la Universidad Johns Hopkins.
[0068] Las técnicas para secuenciar ADNlc y mapear genomas de referencia se conocen en la técnica, por ejemplo, véase Chandrananda et al. (2015) BMC Medical Genomics 8:29.
Modelado uniparamétrico
[0069] Un modelo uniparamétrico puede comprender realizar un análisis 2D en una distribución 2D, por ejemplo, una distribución de recuento de fragmentos. Un modelo uniparamétrico puede comprender un conjunto de posiciones en un genoma. El genoma puede ser un genoma humano. El genoma puede comprender uno o más loci de marcadores tumorales informados. La distribución del recuento de fragmentos 2-D puede comprender un conjunto de posiciones en un genoma y un conjunto de varios fragmentos que se alinean con cada posición en el conjunto de posiciones en un genoma. Dicho modelado se puede usar con un clasificador, como se describe con más detalle en el presente documento, para identificar patrones o firmas asociadas con una condición o estado de una condición, o para determinar aberraciones genéticas (por ejemplo, SNV, CNV, fusiones o indeles) en un sujeto de prueba. Otros ejemplos de modelos uniparamétricos incluyen, entre otros, un análisis 2D en una distribución de posición inicial 2D, en una distribución de posición final 2D o en una distribución de longitud de fragmento 2D.
[0070] Una distribución de posición inicial 2-D puede comprender un conjunto de posiciones en un genoma y un conjunto de números de fragmentos que comienzan en cada posición en el conjunto de posiciones en un genoma.
[0071] Una distribución de posiciones finales 2-D puede comprender un conjunto de posiciones en un genoma y un conjunto de números de fragmentos que terminan en cada posición en el conjunto de posiciones en un genoma.
[0072] Una primera distribución de longitud de fragmentos 2-D puede comprender un conjunto de posiciones en un genoma y un conjunto de longitudes de fragmentos que se superponen con cada posición en el conjunto de posiciones en un genoma.
[0073] Una segunda distribución de longitud de fragmentos 2-D puede comprender un conjunto de longitudes y un conjunto de números de fragmentos que tienen una longitud en el conjunto de longitudes (por ejemplo, como se muestra en la FIG. 1E).
[0074]En un ejemplo, se utiliza un modelo uniparamétrico para detectar un SNV en el ADN libre de células de un sujeto. En primer lugar, se obtiene ADN libre de células a partir de una muestra de fluido corporal de un sujeto con cáncer de pulmón. Los fragmentos de ADNlc se secuencian para producir una pluralidad de lecturas de secuencia de los fragmentos. Cada secuencia leída se asigna a un conjunto de una pluralidad de secuencias de referencia del genoma humano. Para cada posición de base en el conjunto de secuencias de referencia, se cuenta el número de lecturas de secuencia asignadas a esa posición de base, produciendo así una distribución de recuento de fragmentos 2-D para el conjunto de secuencias de referencia. Entre el conjunto de secuencias de referencia, una secuencia de referencia se identifica de manera que la distribución del recuento de fragmentos 2-D es inusualmente baja (en relación con las otras secuencias de referencia en el conjunto) en esa secuencia de referencia. Esto se interpreta biológicamente como una secuencia de referencia que contiene un locus con expresión genética regulada positivamente. Esta secuencia de referencia contiene el locus del polimorfismo de un solo nucleótido EGFR L858R. Por tanto, un modelo uniparamétrico realizó la detección "libre de variantes" de la presencia de un SNV EGFR L858R sin utilizar la identidad de bases de las posiciones de bases en la secuencia de referencia (es decir, sin detectar directamente el SNV a través de la variación de la identidad de nucleótidos en una secuencia). Esta detección de SNV puede usarse luego para determinar un diagnóstico clínico, pronóstico, selección de terapia, predicción de terapia, monitorización de terapia, etc.
Modelado multiparamétrico
[0075]Después de generar los datos de secuencia de una muestra, se puede realizar un análisis multiparamétrico de los datos de secuencia para generar un modelo multiparamétrico. Un análisis multiparamétrico se refiere a cualquier análisis que utiliza múltiples parámetros (conjuntos de datos) simultáneamente. Por ejemplo, un análisis multiparamétrico puede comprender una función de distribución (con valor de funcióny) connvariables independientes (con valoresxi, X2,.., Xn),en la quenes un número entero de al menos 2. Por ejemplo, en un caso, un análisis multiparamétrico puede comprender generar un gráfico de distribución a lo largo del genoma que designe en un eje mapeable base por base (por ejemplo, a través de cada una de una pluralidad de posiciones genómicas a lo largo de un genoma) el número de moléculas únicas que abarcan esa base y el número de moléculas únicas que comienzan en esa base. Como otro ejemplo, un análisis multiparamétrico puede comprender generar un gráfico de distribución del número de fragmentos (por ejemplo, el valor de la funcióny) asociado con cada vector de entrada [xi, X2,..,Xn], en el que cadax¡es una variable independiente (de una pluralidad denvariables independientes) en los datos leídos de secuenciación. Un ejemplo de dicho vector de entrada puede ser uno en el quexies una posición de base mapeable (por ejemplo, entre una pluralidad de tales posiciones genómicas a lo largo de un genoma) que está abarcada por un fragmento de ADNlc yX2es la longitud en bases de un ADNlc. fragmento (p. ej., "longitud del fragmento"). Los valores de cobertura (p. ej., recuentos) de varios fragmentos de ADN pueden normalizarse o no normalizarse, ya que el análisis de fragmentomas normalmente comprende el análisis de una distribución relativa de fragmentos (p. ej., en relación con diferentes sujetos, muestras extraídas en diferentes puntos temporales, diferentes posiciones genómicas o loci genéticos, etc.).
[0076]Los parámetros pueden ser indicativos de uno o más de: (i) una longitud de los fragmentos de ADN que se alinean con cada una de la pluralidad de posiciones de bases en el genoma, (ii) un número de los fragmentos de ADN que se alinean con cada una de la pluralidad de posiciones de bases en el genoma, y (iii) un número de fragmentos de ADN que comienzan o terminan en cada una de la pluralidad de posiciones de bases en el genoma. Un modelo multiparamétrico puede comprender dos o más de dichos parámetros. Dichos parámetros pueden ser valores normalizados o no normalizados.
[0077]El modelado multiparamétrico, al igual que el modelado uniparamétrico, puede producir patrones que indican grupos o regiones de variación o inestabilidad estructural genómica (p. ej., como resultado de la ocupación o posicionamiento de nucleosomas).
[0078]El perfil de fragmentoma se puede realizar generando uno o más modelos multiparamétricos o uniparamétricos a partir de una muestra de ácido nucleico libre de células, generando así un perfil de fragmentoma de la muestra de ácido nucleico libre de células. Uno o más perfiles de fragmentomas (o datos de fragmentomas) pueden someterse a agrupamiento no supervisado para revelar una o más clases de distintos estados biológicos anormales. Se pueden incorporar uno o más perfiles de fragmentoma (o datos de fragmentoma) en un clasificador (por ejemplo, usando técnicas de aprendizaje automático) para determinar la probabilidad de que un sujeto pertenezca a una o más clases de importancia clínica. Una clase de importancia clínica puede ser una categoría que, por ejemplo, indique un estado biológico anormal o una variante genética. Ejemplos de clases de importancia clínica incluyen (i) presencia o ausencia de una o más variantes genéticas, (ii) presencia o ausencia de uno o más cánceres, (iii) presencia o ausencia de una o más mutaciones conductoras canónicas, (iv) presencia o ausencia de uno o más subtipos de enfermedad (p. ej., subtipos moleculares de cáncer de pulmón), (v) probabilidad de respuesta a un tratamiento (p. ej., fármaco o terapia) para el cáncer u otra enfermedad, trastorno o estado biológico anormal, (vi) presencia o ausencia de una variación del número de copias (CNV) (p. ej., amplificación de ERBB2), o (vii) información derivada del microambiente tumoral (p. ej., tejido de origen correspondiente a fragmentos de ADNlc).
[0079]Se pueden incorporar uno o más perfiles de fragmentoma (o datos de fragmentoma) en un clasificador para determinar la probabilidad de presencia o ausencia de una o más mutaciones conductoras canónicas. Una mutación conductora puede ser una mutación que otorga una ventaja selectiva a un clon en su microambiente, ya sea aumentando su supervivencia o su reproducción. Una mutación conductora puede ser una mutación somática asociada con el cáncer u otro estado biológico anormal. La presencia de una mutación conductora puede ser indicativa de diagnóstico de cáncer, estratificación de un sujeto con un subtipo de cáncer, carga tumoral, tumor en un tejido u órgano, metástasis tumoral, eficacia del tratamiento o resistencia al tratamiento. Una mutación conductora canónica puede ser una mutación que sea bien conocida en la técnica, por ejemplo, una mutación incluida en el Catálogo de mutaciones somáticas en cáncer (COSMIC) (disponible en la URL cancer.sanger.ac.uk/cosmic). Ejemplos de mutaciones conductoras canónicas incluyen la eliminación del exón 19 del receptor del factor de crecimiento epidérmico (EGFR), la inserción del exón 19 de EGFR, la inserción del exón 20 de EGFR G719X, el EGFR T790M, el EGFR L858R y el e Gf R L861Q en el cáncer de pulmón. Dicha información sobre la probabilidad de presencia o ausencia de una o más mutaciones conductoras canónicas puede usarse para diagnosticar un sujeto (por ejemplo, con cáncer de pulmón), estratificar a un sujeto con un diagnóstico (por ejemplo, un subtipo molecular de cáncer de pulmón), seleccionar un tratamiento para tratar a un sujeto con una enfermedad u otro estado biológico anormal (p. ej., un fármaco como un tratamiento dirigido a una dosis determinada), suspender un tratamiento para tratar a un sujeto con una enfermedad u otro estado biológico anormal, cambiar un tratamiento para tratar un sujeto con una enfermedad u otro estado biológico anormal (por ejemplo, de un primer fármaco a un segundo fármaco, o de una primera dosis a una segunda dosis), o realizar pruebas médicas adicionales (por ejemplo, imágenes o biopsia) en el sujeto.
[0080]Se pueden incorporar uno o más perfiles de fragmentomas (o datos de fragmentomas) en un clasificador para determinar la probabilidad de presencia o ausencia de uno o más subtipos de enfermedad (por ejemplo, subtipos moleculares de cáncer de pulmón en un sujeto). Por ejemplo, EGFR T790M y EGFR L858R son dos subtipos moleculares de cáncer de pulmón. Dicha información sobre la probabilidad de presencia o ausencia de uno o más subtipos de enfermedad puede usarse para diagnosticar un sujeto (por ejemplo, con cáncer de pulmón), estratificar a un sujeto con un diagnóstico (por ejemplo, un subtipo molecular de cáncer de pulmón), seleccionar un tratamiento tratar a un sujeto con una enfermedad u otro estado biológico anormal (p. ej., un fármaco como un tratamiento dirigido a una dosis determinada), suspender un tratamiento para tratar a un sujeto con una enfermedad u otro estado biológico anormal, cambiar un tratamiento para tratar un sujeto con una enfermedad u otro estado biológico anormal (por ejemplo, de un primer fármaco a un segundo fármaco, o de una primera dosis a una segunda dosis), o realizar pruebas médicas adicionales (por ejemplo, imágenes o biopsia) en el sujeto.
[0081]Se pueden incorporar uno o más perfiles de fragmentomas (o datos de fragmentomas) en un clasificador para determinar la probabilidad de respuesta a un tratamiento (por ejemplo, fármaco o terapia para el cáncer u otra enfermedad, trastorno o estado biológico anormal) de un sujeto. Por ejemplo, un tratamiento puede ser un tratamiento dirigido tal como un inhibidor de la tirosina quinasa (TKI) diseñado para tratar el cáncer de pulmón positivo para EGFR. Ejemplos de TKI son erlonitib y gefinitib. Dicha información sobre la probabilidad de respuesta a un tratamiento de un sujeto puede usarse para seleccionar un tratamiento para tratar a un sujeto con una enfermedad u otro estado biológico anormal (por ejemplo, un fármaco tal como un tratamiento dirigido a una dosis determinada), suspender un tratamiento para tratar a un sujeto con una enfermedad u otro estado biológico anormal, cambiar un tratamiento para tratar a un sujeto con una enfermedad u otro estado biológico anormal (por ejemplo, de un primer fármaco a un segundo fármaco, o de una primera dosis a una segunda dosis), o realizar pruebas médicas adicionales (p. ej., imágenes o biopsia) en el sujeto.
[0082]Se pueden incorporar uno o más perfiles de fragmentomas (o datos de fragmentomas) en un clasificador para determinar la probabilidad de que la información se derive del microambiente del tumor (por ejemplo, tejido de origen correspondiente a fragmentos de ADNlc). Dado que un perfil de fragmentoma puede comprender una señal (o firma) característica de ácidos nucleicos circulantes en la sangre, dicha firma puede comprender una señal agregada de células tumorales, leucocitos y otras células de fondo y el microambiente de un tumor. La biología celular y el microambiente de un tumor pueden desempeñar un papel al afectar la biología y la actividad del tumor. Por lo tanto, dicha información sobre la probabilidad de información derivada del microambiente tumoral puede usarse para identificar el tejido de origen (por ejemplo, que la actividad tumoral prevalece en un tejido u órgano). Dicha información puede desconvolucionarse para identificar subcomponentes (p. ej., órgano inflamado, leucocitos, tumores, células apoptóticas normales). Dicha información de subcomponentes puede usarse para determinar los tejidos y/u órganos donde se encuentra un tumor.
[0083]Un análisis multiparamétrico se puede representar mediante un gráfico de densidad 2D (por ejemplo, un gráfico de calor o mapa de calor), un ejemplo del cual se muestra en laFIG. 2.El eje horizontal puede ser una primera variable independiente (por ejemplo, posición genómica a través de una pluralidad de regiones genómicas en el genoma). El eje vertical es una segunda variable independiente (p. ej., longitud del fragmento de ADN libre). El gráfico de calor tiene una pluralidad de colores que representan diferentes cuantiles de valores de función de distribución (por ejemplo, valorador de función) en todo el rango de valores de función de distribución. Por ejemplo, un gráfico de calor puede comprender una pluralidad de seis colores (azul, cian, verde, amarillo, naranja y rojo), representando cada color sucesivo en el conjunto un valor de función de distribución en el primero, segundo, tercero, cuarto, quinto. y sexto cuantiles del rango de valores de la función de distribución, respectivamente. Alternativamente, un gráfico de calor puede comprender combinaciones continuas de una pluralidad de colores discretos (por ejemplo, azul, cian, verde, amarillo, naranja y rojo), representando cada color una combinación linealmente ponderada de una pluralidad de colores discretos, según cada calor. Trazar el percentil relativo del valor de la función del punto dentro del rango de valores de la función de distribución. Un gráfico de calor de este tipo puede ser tridimensional (3-D). Sin embargo, se pueden utilizar muchos otros enfoques para generar multidimensionales. En algunos casos, un análisis multiparamétrico comprende 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más de 20 dimensiones analizadas simultáneamente.
[0084]Como se ve en laFIG. 2,dicho gráfico de calor puede revelar la periodicidad en la posición genómica o la longitud del fragmento como resultado de patrones típicos en la distribución de fragmentos de ADN libre (FIG. 1E). Esta periodicidad puede ser de aproximadamente 167 pb en el eje horizontal o en el eje vertical del gráfico de calor.
[0085]Un análisis multiparamétrico genera un modelo multiparamétrico, como un mapa de calor, por ejemplo, las herramientas de minería de datos se pueden utilizar para identificar patrones sistemáticos y no aleatorios. Dichos patrones pueden incluir asociaciones de alturas de picos o ancho de picos en relación con un fenotipo de cohortes tales como aquellos diagnosticados con una afección (por ejemplo, afección cardiovascular, infección, inflamación, trastorno autoinmune, cáncer, diagnosticados con un tipo específico de cáncer)., diagnosticado con un estadio específico de cáncer, etc.).
[0086]Una vez que se ha generado un mapa de calor multiparamétrico, este espacio se puede transformar de varias maneras diferentes, por ejemplo, utilizando técnicas de aprendizaje automático multivariado o modelado directo de la variación residual de gráficos de densidad 2-D en relación con un mapa de calor no maligno. cohorte (como se muestra en laFIG. 3). Por ejemplo, se puede establecer en un análisis multiparamétrico una métrica de desregulación del plasma (valorador de la función de distribución) en función de la abundancia de fragmentos(xi)y la longitud del fragmento(X2)en una posición genómica determinada. Dicha forma funcional puede ser tan simple como (1) una norma L2 en cobertura normalizada y espacio de longitud de fragmentos, o puede expresarse como (2) una aproximación normal bivariada de los controles negativos y/o el conjunto de referencia de donantes sanos. Como ejemplo de esto último (2), una métrica de desregulación del plasma puede ser negativa de un logaritmo de una densidad normal bivariada con elipses de contorno de probabilidad determinadas por un primer momento y un segundo momento de los datos, por ejemplo, utilizando ubicación multivariada robusta y estimación a escala con un punto de ruptura alto (también conocidos como estimadores rápidos del determinante mínimo de covarianza).
[0087]Para ilustrar una realización de transformaciones de datos, lasFIGS. 3A-3Dilustran ejemplos de 4 mapas de calor multiparamétricos transformados diferentes que muestran una métrica de desregulación del plasma para tres conjuntos diferentes de ubicaciones genómicas (dos de PIK3CA y uno de EGFR). Cada mapa de calor se generó mediante una transformación del inicio del fragmento y la densidad del ancho en una métrica de desregulación del plasma en más de dos mil muestras clínicas. El eje horizontal puede indicar una cobertura de inicio de fragmento exonnormalizado de 10 pb. El eje vertical puede indicar un tamaño de fragmento mediano centrado de 10 pb. Cada muestra clínica se indica mediante un círculo de color sólido de la siguiente manera: los controles sanos se muestran en verde oscuro y los sujetos con cáncer se muestran con un color que va desde azul, cian, amarillo, naranja y rojo (correspondiente a la fracción máxima de alelo mutante (FAM) valores de 0,1 % a 93 %, respectivamente. En la práctica, un círculo de color azul puede corresponder al extremo del espectro con el valor mínimo o más bajo (p. ej., rango de valores máximos de MAP en toda la cohorte de sujetos con cáncer), mientras que un círculo de color rojo puede corresponder al extremo con el valor máximo o más alto del espectro (p. ej., rango de valores máximos de FAM en toda la cohorte de sujetos con cáncer).
[0088]De lasFIG. 3Ay3B, observamos que para el conjunto de ubicaciones genómicas PIK3CA 12238, los sujetos con cáncer con MAP máximo alto (por ejemplo, indicado por círculos rojos) tienden a tener valores más bajos para el tamaño de fragmento mediano centrado de 10 pb y valores más altos para el tamaño de fragmento de 10 pb normalizado con exón. Cobertura de inicio del fragmento de pb en comparación con controles sanos (p. ej., indicado por círculos verdes). De laFIG. 3C,también observamos que para el conjunto de ubicaciones genómicas PIK3CA 12663, los sujetos con cáncer con MAP máximo alto (por ejemplo, indicado por círculos rojos) tienden a tener valores más altos para el tamaño de fragmento mediano centrado de 10 pb y valores más bajos para el tamaño de fragmento de 10 pb normalizado con exón. Cobertura de inicio de fragmentos en comparación con controles sanos (p. ej., indicados por círculos verdes). De laFIG. 3D, también observamos que para el conjunto de ubicaciones genómicas de EGFR 16101, los sujetos con cáncer con MAP máximo alto (por ejemplo, indicado por círculos rojos) tienden a tener valores más altos para el tamaño de fragmento mediano centrado de 10 pb y valores más altos para el tamaño de fragmento de 10 pb normalizado con exón. Cobertura de inicio de fragmentos en comparación con controles sanos (p. ej., indicados por círculos verdes). Para cada uno de estos 3 conjuntos de ubicaciones genómicas, los cambios tanto en (1) la distribución del tamaño mediano centrado del fragmento de 10 pb como (2) la distribución de la cobertura inicial del fragmento de 10 pb normalizado por exón (p. ej., cambios en el eje x y eje y) se observan en la cohorte de sujetos con cáncer en comparación con los controles sanos. Estas observaciones de cambios en la distribución en una distribución multiparamétrica como resultado del estado del cáncer fueron evidentes independientemente del análisis de datos de lectura de secuencia (p. ej., análisis bioinformático) y pueden usarse como base (p. ej., solos o junto con otros datos clínicamente observados) para identificar variantes de un solo nucleótido (SNV), variaciones del número de copias (CNV), inserciones y eliminaciones (indeles) u otras aberraciones genéticas convencionales.
[0089]En un ejemplo, se utiliza un modelo multiparamétrico para detectar cáncer analizando el ADN libre de células de un sujeto. Primero, se obtuvo ADN libre de células a partir de muestras de fluidos corporales de un conjunto de múltiples sujetos con cáncer y sujetos sin cáncer. Los fragmentos de ADNlc se secuenciaron para producir una pluralidad de lecturas de secuencia de los fragmentos. Cada secuencia leída se mapeó a un conjunto de una pluralidad de secuencias de referencia del genoma humano. Se generó un modelo multiparamétrico de la siguiente manera: para cada valor en un conjunto de valores de tamaño de fragmento de 10 pb medianos centrados (primera variable), para cada valor en un conjunto de valores de cobertura de inicio de fragmento de 10 pb normalizados por exón (segunda variable), y para cada ubicación genómica en el conjunto de ubicaciones genómicas PIK3CA 12663 (tercera variable), el FAM de cada sujeto de control sano sin cáncer se representó en verde y el MAP de cada sujeto con cáncer se representó en un espectro de colores que representa el MAP (p. ej., aumentando de azul a amarillo, de naranja a rojo). Entre este modelo multiparamétrico, se observó que los sujetos con cáncer con FAM máximo alto (p. ej., indicado por círculos rojos) tienden a tener valores más altos para el tamaño de fragmento de 10 pb mediano centrado y valores más bajos para la cobertura de inicio de fragmento de 10 pb normalizado por exón en comparación a controles sanos (p. ej., indicados por círculos verdes). A continuación, se repitió el mismo procedimiento anterior para un primer y un segundo sujetos de prueba con un estado de cáncer desconocido. El círculo asociado con el primer sujeto de prueba se encontraba dentro del rango representativo de un control sano (por ejemplo, la región con un grupo de círculos verdes), por lo tanto, el primer sujeto de prueba fue diagnosticado como negativo para cáncer según esta prueba. El círculo asociado con el segundo sujeto de prueba se encontraba dentro del rango representativo de un sujeto con cáncer (por ejemplo, la región con un grupo de círculos rojos) con un FAM muy alto del 90 %, por lo tanto, el segundo sujeto de prueba fue diagnosticado como positivo para cáncer. o remitido para pruebas de biopsia adicionales basadas en esta prueba. De este modo, se realizó un modelo multiparamétrico en muestras de ADNlc de sujetos para detectar cáncer en estos sujetos.
[0090]Se pueden aplicar una o más técnicas de filtrado múltiples a los datos de distribución multiparamétrica, ya sea antes de llegar a la métrica de desregulación del plasma calculada o después de que se establezca la métrica de desregulación del plasma. Las técnicas de filtrado pueden crear una función de aproximación que intenta capturar información, tendencias o parámetros importantes en un conjunto de datos (por ejemplo, un conjunto de datos granulares), dejando de lado el ruido u otros fenómenos de escala fina. Por ejemplo, las técnicas de filtrado pueden permitir extraer más información de un conjunto de datos o permitir análisis que sean flexibles o sólidos. Las técnicas de filtrado de muestra incluyen promedios móviles, polinomios globales, splines, suavizado digital (por ejemplo, un filtro Butterworth, un suavizado de Fourier, etc.), una transformada de Wigner, una transformada Wavelet continua (CWT) y una transformada Wavelet discreta (DWT). Las técnicas de filtrado también pueden implicar la eliminación del ruido específico del ensayo mediante la resta de la cobertura de inicio de fragmento predefinida asociada con sesgos del ensayo, por ejemplo, sesgos relacionados con el enriquecimiento asociados con la captura dirigida. Se puede analizar una muestra artificial que representa una distribución uniforme de fragmentos, y el enriquecimiento de la longitud de los fragmentos observado en tales muestras artificiales se puede usar para corregir señales de muestras clínicas (por ejemplo, ajustando y/o restando componentes de la señal relacionados con el ensayo). Alternativa o adicionalmente, los recuentos de fragmentos se pueden normalizar aún más para corregir los sesgos de la degradación del ADN plasmático. Dicha degradación puede deberse, por ejemplo, a la manipulación y el almacenamiento, y puede dar lugar a cambios en la distribución prevista de la longitud de los fragmentos y/o a la presencia de ADN genómico contaminado.
[0091]Como ejemplo, laFIG. 4incluye una muestra de una puntuación de desregulación plasmática que varía según la posición a lo largo de un fragmento del genoma en una muestra clínica determinada (panel inferior). El panel superior muestra una lista de genes relevantes analizados y cualquier alteración (SNV o CNV) encontrada en esos genes. Una puntuación de desregulación plasmática puede ser un valor que represente la desregulación plasmática en regiones genómicas localizadas. Una puntuación de desregulación plasmática puede ser indicativa de una envoltura canónica (p. ej., una región (p. ej., un área) de una distribución multiparamétrica) donde se observan la mayoría de las señales de fragmentomas de ADN que se originan en células sanas. Se puede generar una puntuación de desregulación plasmática utilizando un conjunto de entrenamiento de sujetos de control sanos no malignos (sin una enfermedad de interés) y realizando un análisis multiparamétrico en muestras de ADNlc de cada sujeto del conjunto de entrenamiento. A continuación, se pueden identificar regiones donde se observan fragmentos con una frecuencia específica (p. ej., 90 %, 95 %, 96 %, 97 %, 98 %, 99 %, 99,9 %, 99,99 %, 99,999 % o 99,995 %) a lo largo de la cohorte. A continuación, estas regiones pueden enmascararse, de modo que se identifiquen las densidades fuera de estas regiones. A continuación, estas densidades pueden agregarse (o sumarse) para obtener una puntuación de desregulación plasmática. Tal puntuación de desregulación plasmática puede ser indicativa de, por ejemplo, una carga de mutaciones, una carga de tumores o una carga de enfermedad.
[0092]Un ejemplo de puntuación de desregulación plasmática puede ser una puntuación de cobertura libre de variantes (VCF), que indica una cantidad de fragmentos de ADN que cubren una región genómica o posición de base determinada. Un valor bajo de la puntuación de desregulación plasmática puede indicar un nivel relativamente bajo de desregulación plasmática en una región genómica localizada. Un valor alto de puntuación de desregulación plasmática puede indicar un nivel relativamente alto de desregulación plasmática en una región genómica localizada. Las puntuaciones de desregulación del plasma pueden representarse con diferentes colores para indicar diferencias relativas (por ejemplo, un color diferente para cada cuantil diferente en una pluralidad de cuantiles en un rango de puntuaciones de desregulación del plasma), por ejemplo, como se ve en un gráfico de calor uniparamétrico (o mapa de calor) o un gráfico de calor multiparamétrico (o mapa de calor).
[0093]Haciendo referencia nuevamente a laFIG. 4,se pueden observar varios picos diferentes en la puntuación de desregulación plasmática, que corresponden a varios genes marcadores de cáncer bien establecidos (p. ej., PIK3CA, MYC, CDKN2A, CCND1,<c>C<n>D2, K<r>A<s>, CDK4, RB 1 y ERBB2). Se pueden asociar diferentes picos en la puntuación de desregulación plasmática con marcadores tumorales conocidos, por ejemplo, mutaciones somáticas informadas en el Catálogo de mutaciones somáticas en cáncer (COSMIC).
[0094]Al generar modelos multiparamétricos a través de una gran cantidad (p. ej., cientos a miles, o más) de muestras clínicas, dichos modelos multiparamétricos pueden producir métricas (p. ej., puntuación de desregulación plasmática) que comprenden características empíricas que pueden asociarse con tipos específicos de cáncer o analizarse para descubrir variantes somáticas o de otro tipo. A continuación, dicha información se puede incorporar a un clasificador de variantes somáticas libre de variantes. Como ejemplo, la agrupación no supervisada de puntuaciones de desregulación plasmática en múltiples regiones genómicas en muestras de 5000 pacientes con carcinoma de pulmón de células no pequeñas (NSCLC) se puede analizar y visualizar como un gráfico de calor.
[0095]Por ejemplo, laFIG. 5muestra un gráfico de calor generado por agrupación no supervisada de puntuaciones de desregulación plasmática en múltiples regiones genómicas en 5.000 muestras, cada una de un paciente diferente con carcinoma de pulmón de células no pequeñas (NSCLC). El eje Y refleja cada una de las 5.000 muestras de pacientes. El eje X refleja un panel de ubicaciones genómicas analizadas. El color refleja la puntuación de desregulación del plasma para cada ubicación genómica de cada muestra. Todo el conjunto de datos se agrupó utilizando un algoritmo de agrupamiento no supervisado. Con base en este mapa de calor, podemos usar estos datos para identificar regiones que pueden usarse como puntos calientes para la clasificación de pacientes sin variantes. Dicha clasificación se puede utilizar para identificar a los pacientes que se incluirán en un ensayo clínico, a los que se les administrará una determinada terapia, a los que se les retirará un tratamiento terapéutico, etc.
[0096]El eje horizontal (más largo) puede indicar la ubicación genómica a través de una pluralidad de ubicaciones genómicas en un genoma. El eje vertical (más corto) puede indicar muestras clínicas (por ejemplo, cada fila ilustra datos de una muestra clínica). Un gráfico de calor de este tipo puede revelar áreas de desregulación del plasma relativamente alta (por ejemplo, en áreas de colores rojo, naranja y amarillo) y áreas de desregulación del plasma relativamente baja (por ejemplo, en áreas de colores azul y verde).
[0097]Como otro ejemplo de modelo multiparamétrico, se puede generar un mapa de calor en ubicaciones genómicas (por ejemplo, con una resolución de 10 pares de bases ("pb")) para visualizar un único gen (por ejemplo, KRAS) en un gran número de genes clínicos. muestras (por ejemplo, 2000), como se muestra en laFIG. 6(parte A). El eje horizontal puede indicar la ubicación genómica a través de una pluralidad de ubicaciones genómicas (por ejemplo, que abarcan un gen KRAS) en un genoma. El eje vertical puede indicar muestras clínicas (por ejemplo, cada fila ilustra datos de una muestra clínica). En este análisis, los valores de cobertura libre de variantes (VFC) de KRAS con al menos una variante informada se visualizan en el gráfico de calor (FIG. 6(parte A)). Los contenedores superiores de var alto (variable) se colocan en orden genómico y se superponen con isoformas de transcripción y perfiles de ARNm (FIG. 6(parte B)).
[0098]Las características observadas de las puntuaciones de desregulación del plasma generadas a partir de uno o más modelos uniparamétricos y/o multiparamétricos en un gran número de muestras clínicas pueden incorporarse dentro de enfoques de métodos de cuantificación y detección de mutaciones somáticas bien conocidas para mejorar la sensibilidad de detección de dichas mutaciones somáticas y métodos de cuantificación. Por ejemplo, en los métodos actuales para detectar y cuantificar variaciones en el número de copias (p. ej., CNV) en ácidos nucleicos libres de células como el ADNlc, una métrica de cobertura típica (p. ej., una proporción calculada de una cantidad de moléculas que comprenden una variante con respecto a un número de referencia de moléculas sin una variante) puede ajustarse o reemplazarse por una métrica correspondiente a cambios en un modelo multiparamétrico.
[0099]Las características observadas de las puntuaciones de desregulación plasmática generadas a partir de uno o más modelos uniparamétricos y/o multiparamétricos en una gran cantidad de muestras clínicas pueden agruparse y someterse a análisis de enriquecimiento para producir una asociación del perfil plasmático con cambios somáticos subyacentes. Este enfoque puede conducir a un cálculo o determinación de probabilidades probabilísticas de que un conjunto de una o más mutaciones somáticas (p. ej., marcadores tumorales conocidos) estén presentes en un paciente del que se obtuvo una muestra de ADNlc, mediante el uso de puntuaciones de desregulación del plasma libre de variantes.
[0100]Uno o más modelos uniparamétricos generados a partir de una muestra de ADN libre de células de un sujeto pueden incorporarse a un clasificador (por ejemplo, un motor de aprendizaje automático) que está entrenado para clasificar dicha muestra según tenga o no cada uno de un conjunto de variantes de nucleótidos únicas (SNV) u otras variantes genéticas. Estos SNV u otras variantes genéticas se pueden encontrar en uno o más genes seleccionados de laTabla 1.Este clasificador puede ser un clasificador sin variantes (por ejemplo, no clasifica basándose en la identificación de mutaciones somáticas). Este clasificador puede ser un clasificador que reconoce variantes (por ejemplo, clasifica basándose en la identificación de mutaciones somáticas).
[0101]Un clasificador libre de variantes puede determinar la presencia o ausencia de una aberración de secuencia en un locus de un genoma sin tener en cuenta una identidad de bases en cada una de una pluralidad de posiciones de bases en cualquier locus o sublocus del genoma, en el que dicha pluralidad de identidades de bases son indicativos de una mutación somática conocida. Un sublocus puede ser una pluralidad de posiciones de bases contiguas de modo que dicha pluralidad sea un subconjunto de un locus en un genoma. Un clasificador sin variantes puede utilizar un análisis uniparamétrico o multiparamétrico para determinar la presencia o ausencia de la aberración de secuencia en un locus de un sujeto. Este locus puede ser un marcador tumoral informado. Este locus puede ser un marcador tumoral que no se informó anteriormente.
[0102]Un clasificador que reconoce variantes puede determinar la presencia o ausencia de una aberración de secuencia en un primer locus en un genoma teniendo en cuenta una identidad de bases en cada una de una pluralidad de posiciones de bases en uno o más loci o subloci del genoma en el que dicha pluralidad de identidades de bases es indicativa de una mutación somática conocida, y en el que el primer locus no está entre uno o más loci o subloci del genoma. En otras palabras, un clasificador que reconoce variantes puede identificar una aberración de secuencia en un locus determinado incorporando información sobre mutaciones somáticas conocidas detectadas en cualquier otro loci de un genoma.
[0103]Alternativamente, uno o más modelos multiparamétricos generados a partir de una muestra de ADN libre de células de un sujeto pueden incorporarse a un clasificador (por ejemplo, un motor de aprendizaje automático) que está entrenado para clasificar dicha muestra según tenga o no cada uno de un conjunto de variantes de un solo nucleótido (SNV) u otras variantes genéticas. Estos SNV u otras variantes genéticas pueden seleccionarse de laTabla 1. Este clasificador puede ser un clasificador libre de variantes (por ejemplo, no clasifica basándose en la identificación de mutaciones somáticas). Este clasificador puede ser un clasificador que reconoce variantes (por ejemplo, clasifica basándose en la identificación de mutaciones somáticas). Los modelos multiparamétricos pueden comprender uno o más conjuntos de datos que incluyen cualquier información asociada con uno o más loci genéticos, por ejemplo, valores que indican una medida cuantitativa de una característica seleccionada entre: (i) secuencias de ADN que se asignan a un locus genético, (ii)) secuencias de ADN que comienzan en un locus genético, (iii) secuencias de ADN que terminan en un locus genético; (iv) una protección dinucleosomal o protección mononucleosomal de una secuencia de ADN; (v) secuencias de ADN ubicadas en un intrón o exón de un genoma de referencia; (vi) una distribución de tamaño de secuencias de ADN que tienen una o más características; (vii) una distribución de longitud de secuencias de ADN que tienen una o más características, o (viii) cualquier combinación de las mismas.
[0104]Alternativamente, uno o más modelos uniparamétricos y uno o más modelos multiparamétricos generados a partir de una muestra de ADN libre de células de un sujeto pueden incorporarse a un clasificador (por ejemplo, un motor de aprendizaje automático) que está entrenado para clasificar dicha muestra como tener o no cada uno de un conjunto de variantes de un solo nucleótido (SNV) u otras variantes genéticas. Estos SNV u otras variantes genéticas se pueden seleccionar de laTabla 1.Este clasificador puede ser un clasificador sin variantes (por ejemplo, no clasifica basándose en la identificación de mutaciones somáticas). Este clasificador puede ser un clasificador que reconoce variantes (por ejemplo, clasifica basándose en la identificación de mutaciones somáticas). Los modelos uniparamétricos pueden comprender uno o más conjuntos de datos que incluyen cualquier información asociada con uno o más loci genéticos, por ejemplo, valores que indican una medida cuantitativa de una característica seleccionada entre: (i) secuencias de ADN que se asignan a un locus genético, (ii)) secuencias de ADN que comienzan en un locus genético, (iii) secuencias de ADN que terminan en un locus genético; (iv) una protección dinucleosomal o protección mononucleosomal de una secuencia de ADN; (v) secuencias de ADN ubicadas en un intrón o exón de un genoma de referencia; (vi) una distribución de tamaño de secuencias de ADN que tienen una o más características; (vii) una distribución de longitud de secuencias de ADN que tienen una o más características, o (viii) cualquier combinación de las mismas.
[0105]Además de métricas como la puntuación de desregulación plasmática, el análisis multiparamétrico también puede revelar información relevante para el tumor de un sujeto. En un ejemplo, el número de lecturas en cualquier posición determinada de un genoma puede proporcionar información sobre el estado del tumor de un sujeto del que se adquirió la muestra de ácido nucleico libre de células, como el tejido de origen, la carga tumoral, la agresividad del tumor, la farmacología del tumor, evolución y clonalidad del tumor y resistencia del tumor al tratamiento.
[0106]En otro ejemplo, el número de lecturas en cualquier posición dada en un genoma se interpone con la longitud de las lecturas en esa posición en el genoma, y puede proporcionar información sobre el estado del tumor de un sujeto del cual se adquirió la muestra de ADN libre de células, como el tejido de origen, la carga tumoral, la agresividad del tumor, la farmacología del tumor, la evolución y clonalidad del tumor y la resistencia del tumor al tratamiento.
[0107]Los patrones, por ejemplo, altura de los picos, anchura de los picos, aparición de nuevos picos, desplazamiento de los picos y/o manchas, en un modelo pueden servir como indicador de un fenotipo. En algunos casos, se compara un perfil de nucleosoma de un individuo con un modelo o patrón multiparamétrico de referencia para determinar un fenotipo o un cambio en el fenotipo.
[0108]En el presente documento se describe un método para generar un resultado indicativo de la presencia o ausencia de una aberración genética en fragmentos de ácido desoxirribonucleico (ADN) a partir de una muestra libre de células (o ADN libre de células) obtenida de un sujeto. El método puede comprender construir (por ejemplo, mediante una computadora) una distribución de los fragmentos de ADN de la muestra libre de células (o ADN libre de células) sobre una pluralidad de posiciones de bases en un genoma. A continuación, se puede determinar el resultado indicativo de la presencia o ausencia de la aberración genética en el sujeto utilizando la distribución. La presencia o ausencia puede determinarse (i) sin comparar la distribución de los fragmentos de ADN con una distribución de referencia de una fuente externa a un genoma del sujeto, (ii) sin comparar parámetros derivados de la distribución de los fragmentos de ADN con parámetros de referencia y/o (iii) sin comparar la distribución de los fragmentos de ADN con una distribución de referencia de un control del sujeto. En algunas formas de realización, la aberración genética comprende una variación del número de copias (CNV) y/o una variante de un solo nucleótido (SNV). En algunas formas de realización, la distribución comprende una o más distribuciones multiparamétricas.
[0109]Se describe un método para procesar muestras biológicas de un sujeto para fragmentos de ADN con protección dinucleosomal y/o fragmentos de ADN con protección mononucleosomal. El procesamiento puede comprender la obtención de una muestra biológica de un sujeto. La muestra biológica puede comprender fragmentos de ácido desoxirribonucleico (ADN). El ensayo puede comprender generar una señal indicativa de la presencia o ausencia de (i) fragmentos de ADN con protección dinucleosomal asociados con un locus genético de uno o más loci genéticos y/o (ii) fragmentos de ADN con protección mononucleosomal asociados con el locus genético. Dichas señales generadas pueden usarse para generar una salida indicativa de la presencia o ausencia de (i) fragmentos de ADN con protección dinucleosomal asociados con un locus genético de uno o más loci genéticos y/o (ii) fragmentos de ADN con protección mononucleosomal asociados con el locus genético. El ensayo puede comprender enriquecer la muestra biológica en fragmentos de ADN para un conjunto de uno o más loci genéticos. Dichos loci genéticos pueden comprender loci genéticos asociados a tumores y/o loci genéticos no asociados a tumores. El ensayo puede comprender secuenciar los fragmentos de ADN de la muestra biológica.
[0110]En el presente documento se describe un método para generar un resultado indicativo de la presencia o ausencia de una aberración genética en fragmentos de ácido desoxirribonucleico (ADN) a partir de una muestra libre de células (o ADN libre de células) obtenida de un sujeto. El generar puede comprender construir (por ejemplo, mediante una computadora) una distribución de los fragmentos de ADN de la muestra libre de células (o ADN libre de células) (por ejemplo, sobre una pluralidad de posiciones de bases en un genoma). A continuación, para cada uno de uno o más loci genéticos, se puede calcular una medida cuantitativa (por ejemplo, mediante una computadora) que sea indicativa de una proporción de (1) un número de fragmentos de ADN con protección dinucleosomal asociados con un locus genético de uno o más loci genéticos, y (2) varios fragmentos de ADN con protección mononucleosomal asociados con el locus genético, o viceversa. A continuación, se puede generar la salida indicativa de la presencia o ausencia de la aberración genética en uno o más loci genéticos en el sujeto. La generación puede utilizar la medida cuantitativa para cada uno de uno o más loci genéticos. La distribución puede comprender una o más distribuciones multiparamétricas.
Modelos de referencia
[0111]Se puede derivar un modelo multiparamétrico de referencia a partir de diferentes muestras obtenidas del mismo sujeto en diferentes momentos. Algunas o todas estas muestras pueden comprender ADN libre de células. Alternativamente, una o más de estas muestras pueden derivarse directamente del tumor (por ejemplo, mediante una biopsia o aspiración con aguja fina). Los modelos derivados de dichas muestras se pueden utilizar para monitorear el cáncer de un paciente, observar la clonalidad en el cáncer, detectar nuevas mutaciones y resistencia a los medicamentos.
[0112]Se puede derivar un modelo multiparamétrico de referencia a partir de tejido estromal del microambiente tumoral circundante del sujeto. El ADN utilizado para dicho modelo puede derivarse, por ejemplo, durante una biopsia. Se puede utilizar un modelo derivado del tejido estromal para crear un modelo multiparamétrico de referencia. Esto puede permitir observaciones tempranas de nuevas variaciones en el ADN libre de células derivado de tumores.
[0113]Se puede derivar un modelo multiparamétrico de referencia a partir de ADN genómico (no libre de células) cortado de un individuo asintomático sano. El ADN cortado se puede utilizar para simular una muestra de ADN libre de células de un individuo sano. Por ejemplo, dichas muestras de ADN cortadas pueden usarse para la normalización de señales de fragmentomas. Por ejemplo, puede generarse ADN cortado y usarse en experimentos para validar y optimizar la eficiencia de captura de un conjunto de una o más sondas (por ejemplo, en un ensayo dirigido).
[0114]Se puede derivar un modelo multiparamétrico de referencia a partir de un perfil de fragmentoma (por ejemplo, nucleosomal) de un tipo de tejido determinado. Ejemplos de técnicas de elaboración de perfiles de ocupación nucleosomal incluyen, Statham et al., Genomics Data, volumen 3, marzo de 2015, páginas 94-96 (2015).
[0115]Utilizando los modelos multiparamétricos de muestras de referencia, se pueden determinar patrones o perfiles de fragmentomas (p. ej., nucleosomales) asociados con procesos apoptóticos y procesos necróticos. La detección de tales patrones puede usarse entonces, de forma independiente o en conjunto, para monitorear una condición en un sujeto. Por ejemplo, a medida que un tumor se expande, la proporción entre necrosis y apoptosis en el microambiente del tumor puede cambiar. Dichos cambios en la necrosis y/o apoptosis se pueden detectar usando los métodos descritos en el presente documento usando perfiles de fragmentomas.
[0116]Se puede derivar una función de distancia a partir de un perfil de fragmentoma calculando la diferencia entre (1) un modelo uniparamétrico o multiparamétrico de un sujeto y (2) un modelo uniparamétrico o multiparamétrico de referencia (por ejemplo, típico de una población sana).
Firmas de fragmentomas
[0117]En un ejemplo, se puede analizar el perfil del fragmentoma de cohortes de sujetos que tienen un fenotipo (por ejemplo, individuos sanos asintomáticos o individuos que tienen un tipo particular de cáncer) utilizando los métodos del presente documento. Se analizan los perfiles de fragmentoma de los miembros de la cohorte y se determina una firma de fragmentoma de la cohorte. Un clasificador capacitado (una base de datos entrenada) puede clasificar el perfil de un sujeto evaluadode novoen una o más clases utilizando las firmas de fragmentomas de dos o más cohortes.
[0118]Las cohortes de individuos pueden tener todas una característica compartida. Esta característica compartida puede seleccionarse del grupo que consiste en: un tipo de tumor, una condición inflamatoria, una condición apoptótica, una condición necrótica, una recurrencia del tumor y la resistencia a un tratamiento. Una condición apoptótica puede ser, por ejemplo, una enfermedad o condición que causa una mayor probabilidad de muerte celular por apoptosis que por necrosis, en comparación con un sujeto sano. La condición apoptótica puede seleccionarse del grupo que consiste en: una infección y recambio celular. Una condición necrótica puede ser, por ejemplo, una enfermedad o condición que causa una mayor probabilidad de muerte celular por necrosis que por apoptosis, en comparación con un sujeto sano. La condición necrótica puede seleccionarse del grupo que consiste en: una condición cardiovascular, sepsis y gangrena.
[0119]En algunos casos, una cohorte comprende individuos que tienen un tipo específico de cáncer (por ejemplo, mama, colorrectal, páncreas, próstata, melanoma, pulmón o hígado). Para obtener la firma del nucleosoma de dicho cáncer, cada individuo proporciona una muestra de sangre. A partir de dichas muestras de sangre se obtiene ADN libre de células. Se secuencia el ADN libre de células de dichas cohortes (con o sin enriquecimiento selectivo de un conjunto de regiones del genoma). La información de secuencia en forma de lecturas de secuencia de las reacciones de secuenciación se asigna al genoma humano. Opcionalmente, las moléculas se colapsan en lecturas de moléculas únicas antes o después de la operación de mapeo.
[0120]Dado que los fragmentos de ADN libre de células en una muestra determinada representan una mezcla de células de las cuales surgió el ADN libre de células, la ocupación nucleosomal diferencial de cada tipo de célula puede resultar en una contribución al modelo matemático representativo de una muestra de ADN libre de células determinada. Por ejemplo, puede haber surgido una distribución de las longitudes de los fragmentos debido a la protección nucleosomal diferencial entre diferentes tipos de células, o entre células tumorales y no tumorales. Este método se puede utilizar para desarrollar un conjunto de evaluaciones clínicamente útiles basadas en el análisis uniparamétrico, multiparamétrico y/o estadístico de datos de secuencia.
[0121]Los modelos se pueden usar en una configuración de panel para enriquecer selectivamente regiones (p. ej., regiones asociadas al perfil de fragmentoma) y garantizar una gran cantidad de lecturas que abarquen una mutación particular, eventos importantes centrados en la cromatina como sitios de inicio de la transcripción (TSS), regiones promotoras, zonas de unión. También se pueden considerar sitios y regiones intrónicas.
[0122]Por ejemplo, las diferencias en los perfiles de fragmentomas se encuentran en o cerca de las uniones (o límites) de intrones y exones. La identificación de una o más mutaciones somáticas puede correlacionarse con uno o más modelos multiparamétricos o uniparamétricos para revelar ubicaciones genómicas donde se distribuyen los fragmentos de ADNlc. Este análisis de correlación puede revelar una o más uniones intrón-exón donde las alteraciones del perfil del fragmentoma son más pronunciadas. Por ejemplo, una alteración del perfil de un fragmentoma puede deberse a que se expresa una isoforma diferente de proteína, lo que provoca que se altere un sitio de unión, cambiando así la protección nucleosomal de los fragmentos de ADNlc que se puede observar empíricamente como una firma y distribución diferencial de los fragmentos de ADNlc en uniones intrón-exón, donde las ubicaciones específicas de las uniones intrón-exón están asociadas con un inicio de la isoforma. Se pueden incluir límites intrón-exón en la configuración del panel para enriquecer selectivamente estas regiones, lo que puede dar una mejor discriminación (por ejemplo, determinación de probabilidad diferencial) de una enfermedad u otro estado biológico anormal. Este enfoque puede mejorar el diseño del panel al centrarse en las uniones exón-intrón en lugar de, o además de, regiones enteras de exones.
[0123]Los perfiles de fragmentoma se pueden combinar con paneles existentes de mutaciones somáticas. En algunos casos, el uso de información SNV en combinación con la elaboración de perfiles de fragmentos puede aumentar la sensibilidad o precisión de una llamada SNV. Por ejemplo, si un determinado SNV está presente predominantemente en fragmentos más cortos que el promedio (p. ej., menos de 155, 154, 153, 152, 151, 150, 149 o 148 pb de longitud), entonces es más probable que el SNV esté una mutación somática. Si un SNV se encuentra predominantemente en fragmentos más largos que el promedio (p. ej., más de 155, 156, 157, 158, 159, 160, 161, 162, 163, 164, 165 o 166), entonces es más probable que el SNV sea un SNV de línea germinal. Por lo tanto, un ensayo de la divulgación puede implicar determinar SNV en moléculas únicas a partir de una muestra de ADN libre de células, así como el tamaño del fragmento de cada molécula única y ajustar la puntuación de confianza de la llamada de un SNV somático en función de la distribución de tamaño de las moléculas únicas que incluyen al SNV.
[0124]El análisis del perfil de fragmentoma puede comprender realizar un análisis uniparamétrico o multiparamétrico de<a>D<n>libre de células representativo de un sujeto. A partir de los datos de secuencia de un sujeto determinado, se pueden generar una o más distribuciones esperadas para cada posición base en todo el genoma de referencia, donde cada distribución esperada describe uno o más de: el número de lecturas que se asignan a la posición dada, el ADN libre de células longitudes de fragmentos que se asignan a la posición dada, la cantidad de fragmentos de ADN libres de células que comienzan en la posición dada y la cantidad de fragmentos de ADN libres de células que terminan en la posición dada.
[0125]Al realizar comparaciones de pares de bases entre la muestra y la referencia en un locus determinado de un genoma, se pueden observar cualquier desviación de este patrón (por ejemplo, un mayor o menor número de lecturas de lo esperado en una posición de base determinada, o un cambio en la distribución) revelan información relevante para el tumor, como la carga tumoral, el tipo de tumor, la clonalidad o heterogeneidad del tumor, la agresividad del tumor, etc. Tales desviaciones son consecuencias posteriores de la variación del posicionamiento nucleosomal y de los procesos celulares.
[0126]Por ejemplo, los procesos celulares anormales como la infección, la inflamación y el crecimiento y la invasividad de los tumores influyen en las contribuciones relativas de las vías apoptóticas y necróticas para eliminar el ADN en el torrente sanguíneo, donde los fragmentos de ADN libre de células circulan y se recolectan como parte de muestras de sangre para aplicaciones de biopsia líquida. Dado que los procesos apoptóticos atraviesan los nucleosomas, estos procesos pueden dar lugar a lecturas más largas (p. ej., fragmentos más largos) donde los nucleosomas están presentes. Dado que la protección nucleosomal es diferente en las células tumorales que, en las células normales, se pueden observar diferentes patrones de datos entre cohortes, por ejemplo, entre cáncer y normales, o entre dos tipos de tumores.
[0127]Para realizar un análisis de perfil de fragmentoma, se puede proporcionar una colección de moléculas de ADN libres de células a partir de una muestra de sangre extraída de un sujeto. El ADN libre de células puede estar en forma de fragmentos cortos (la mayoría de los cuales tienen menos de 200 pares de bases de longitud). El ADN libre de células puede someterse a preparación de biblioteca y secuenciación de alto rendimiento para generar información de secuencia representativa de moléculas de ADN libre de células de la muestra. Después del alineamiento, se puede realizar un análisis multiparamétrico de la información de la secuencia alineada para generar un modelo multiparamétrico representativo de las moléculas de ADN libres de células de la muestra.
[0128]Se puede realizar un análisis uniparamétrico en un conjunto de dos conjuntos de datos usando dicha información de secuencia para generar un modelo uniparamétrico representativo de las moléculas de ADN libres de células de la muestra, en donde el modelo uniparamétrico tiene dos dimensiones. Un conjunto de datos puede comprender un vector de valores cuantitativos. Un modelo uniparamétrico puede comprender dos conjuntos de datos, por ejemplo, de modo que un conjunto de datos comprenda un eje y y un conjunto de datos comprenda un eje x.
[0129]Se puede realizar un análisis multiparamétrico en una pluralidad de tres o más conjuntos de datos usando dicha información de secuencia para generar un modelo multiparamétrico representativo de las moléculas de ADN libres de células de la muestra, en el que el modelo multiparamétrico tiene tres o más dimensiones. Un modelo multiparamétrico puede comprender tres conjuntos de datos, por ejemplo, de modo que un conjunto de datos comprenda un eje z (o color sombreado), un conjunto de datos comprenda un eje y y un conjunto de datos comprenda un eje x.
[0130]Los conjuntos de datos elegidos para un análisis uniparamétrico o multiparamétrico pueden seleccionarse del grupo que consiste en: (a) posición inicial de los fragmentos secuenciados, (b) posición final de los fragmentos secuenciados, (c) número de fragmentos únicos secuenciados que cubrir una posición mapeable, (d) longitud del fragmento, (e) una probabilidad de que una posición de un par de bases mapeable aparezca en un extremo de un fragmento secuenciado, (f) una probabilidad de que una posición de un par de bases mapeable aparezca dentro de un fragmento secuenciado fragmento como consecuencia de la ocupación diferencial de nucleosomas, y (g) un motivo de secuencia de fragmentos secuenciados. Un motivo de secuencia es una secuencia de 2 a 8 pares de bases de longitud ubicada en el extremo de un fragmento, que puede usarse para identificar patrones en la información de la secuencia y puede incorporarse en esquemas de clasificación.
[0131]Un análisis uniparamétrico puede comprender mapear un parámetro en cada una de dos o más posiciones o regiones del genoma. Este parámetro puede seleccionarse del grupo que consiste en: (a) posición inicial de los fragmentos secuenciados, (b) posición final de los fragmentos secuenciados, (c) número de fragmentos únicos secuenciados que cubren una posición mapeable, (d) longitud del fragmento, (e) una probabilidad de que una posición de un par de bases mapeable aparezca en un extremo de un fragmento secuenciado, y (f) una probabilidad de que una posición de un par de bases mapeable aparezca dentro de un fragmento secuenciado como consecuencia de la ocupación diferencial de nucleosomas. Estas dos o más posiciones o regiones de un genoma pueden incluir al menos una región asociada con uno o más de los genes de interés, que se enumeran en laTabla 1.
[0132]Un análisis multiparamétrico puede comprender mapear dos o más parámetros en cada una de dos o más posiciones o regiones del genoma. Estos parámetros pueden seleccionarse del grupo que consiste en: (a) posición inicial de los fragmentos secuenciados, (b) posición final de los fragmentos secuenciados, (c) número de fragmentos únicos secuenciados que cubren una posición mapeable, (d) longitud del fragmento, (e) una probabilidad de que una posición de un par de bases mapeable aparezca en un extremo de un fragmento secuenciado, y (f) una probabilidad de que una posición de un par de bases mapeable aparezca dentro de un fragmento secuenciado como consecuencia de la ocupación diferencial de nucleosomas. Estas dos o más posiciones o regiones de un genoma pueden incluir al menos una región asociada con uno o más de los genes de interés, que se enumeran en laTabla 1.
[0133]El ADN libre de células puede comprender una huella representativa de su organización de cromatina subyacente, que puede capturar uno o más de: ocupación nucleosomal que gobierna la expresión, pausa de la ARN polimerasa II, hipersensibilidad a la ADNasa específica de la muerte celular y condensación de cromatina durante la muerte celular. Tal huella puede llevar una firma de eliminación y tráfico de desechos celulares, por ejemplo, la fragmentación del ADN llevada a cabo por la ADNasa activada por caspasa (CAD) en células que mueren por apoptosis, pero también puede llevarse a cabo por la ADNasa II lisosomal después de que las células moribundas sean fagocitadas., dando como resultado diferentes mapas de escisión. Los mapas de partición del genoma se pueden construir mediante la identificación de todo el genoma de los estados diferenciales de la cromatina en condiciones malignas y no malignas asociadas con las propiedades de la cromatina antes mencionadas mediante la agregación de ventanas significativas en regiones de interés. Estas regiones de interés se denominan generalmente mapas de partición del genoma.
[0134]Las dos o más posiciones o regiones de un genoma pueden identificarse (i) proporcionando uno o más mapas de partición del genoma, y (ii) seleccionando de los mapas de partición del genoma las posiciones o regiones de un genoma, cada una de dichas posiciones o regiones de un mapeo del genoma a un gen de interés. Las dos o más posiciones o regiones de un genoma pueden tener cada una una longitud de entre 2 y 500 pares de bases. Estas posiciones o regiones del genoma representan regiones genómicas localizadas asociadas con genes de interés para análisis posteriores.
[0135]El análisis multiparamétrico puede comprender generar un mapa de calor de las dos o más regiones del genoma. Este mapa de calor puede brindar una representación visual de cómo varían dos o más parámetros en las posiciones de un genoma determinado. Las dos o más regiones del genoma pueden incluir al menos una región seleccionada de uno o más de los genes enumerados en laTabla 1.Los mapas de calor representativos de un gran número (por ejemplo, más de 100) de sujetos dentro de una cohorte o entre cohortes pueden combinarse para generar uno o más mapas de calor de referencia que sean representativos de la cohorte o grupo de cohortes dado al que pertenecen los sujetos. Por ejemplo, las cohortes pueden incluir sujetos que comparten una característica, por ejemplo, una enfermedad diagnosticada (por ejemplo, un tipo de tumor), un estado de enfermedad en común (por ejemplo, un control sano) o un resultado de enfermedad en común (por ejemplo, una recurrencia del tumor o resistencia al tratamiento).
[0136]El análisis multiparamétrico puede comprender además aplicar una o más transformaciones matemáticas para generar un modelo multiparamétrico. El modelo multiparamétrico puede ser un modelo de distribución conjunta de dos o más variables seleccionadas del grupo que consiste en: (a) posición inicial de los fragmentos secuenciados, (b) posición final de los fragmentos secuenciados, (c) número de fragmentos únicos secuenciados que cubrir una posición mapeable, (d) longitud del fragmento, (e) una probabilidad de que una posición de un par de bases mapeable aparezca en un extremo de un fragmento secuenciado, (f) una probabilidad de que una posición de un par de bases mapeable aparezca dentro de un fragmento secuenciado como una consecuencia de la ocupación diferencial de nucleosomas, y (g) un motivo de secuencia. A partir de un modelo multiparamétrico, se pueden identificar uno o más picos. Cada uno de dichos picos puede tener una anchura de distribución de picos y una cobertura de picos.
[0137]Los modelos uniparamétricos o multiparamétricos representativos de un gran número (p. ej., al menos 50, 100, 200, 300, 500, 700, 1000, 2000, 3000, 5000 o más) de sujetos dentro de una cohorte o entre cohortes pueden combinarse para generar uno o más modelos uniparamétricos o multiparamétricos de referencia, respectivamente, que sean representativos de la cohorte o grupo de cohortes dado al que pertenecen los sujetos. Por ejemplo, las cohortes pueden incluir sujetos que tienen una enfermedad diagnosticada común (por ejemplo, un tipo de tumor), un estado de enfermedad común (por ejemplo, un control sano) o un resultado de enfermedad común (por ejemplo, una recurrencia del tumor).
[0138]El análisis uniparamétrico o multiparamétrico puede comprender además medir la expresión de ARN de las moléculas de ADN libres de células. El análisis uniparamétrico o multiparamétrico puede comprender además medir la metilación de las moléculas de ADN libres de células. El análisis uniparamétrico o multiparamétrico puede comprender además medir el mapeo nucleosomal de las moléculas de ADN libres de células. Dado que la ocupación nucleosomal está relacionada con el contenido de guanina-citosina (GC) de los fragmentos secuenciados, el nivel de metilación se puede evaluar indirectamente, por ejemplo, examinando áreas de TSS donde la represión de la metilación se puede inferir a partir de la ocupación nucleosomal. En estas áreas, se pueden observar cambios en la cobertura y/o ancho de los picos como resultado de la metilación (por ejemplo, debido a diferentes envolturas alrededor de las histonas). De manera similar, se puede evaluar indirectamente el mapeo nucleosomal de las moléculas de ADN libre.
[0139]El análisis uniparamétrico o multiparamétrico puede comprender además identificar la presencia de una o más variantes somáticas de un solo nucleótido (SNV) en las moléculas de ADN libres de células. El análisis uniparamétrico o multiparamétrico puede comprender además identificar la presencia de una o más variantes de nucleótido único (SNV) de la línea germinal en las moléculas de ADN libres de células.
[0140]Se puede incorporar un parámetro genómico en un análisis uniparamétrico. Se pueden incorporar uno o más parámetros genómicos al análisis multiparamétrico. Los parámetros genómicos se pueden elegir entre: (i) tipo de tejido, (ii) patrones de expresión génica, (iii) ocupación del sitio de unión del factor de transcripción (TFBS), (iv) sitio de metilación, (v) conjunto de mutaciones somáticas detectables, (vi) nivel de mutaciones somáticas detectables, (vii) conjunto de mutaciones de la línea germinal detectables y (viii) nivel de mutaciones de la línea germinal detectables.
[0141]Se pueden detectar desviaciones del modelo uniparamétrico o multiparamétrico de referencia. Tales desviaciones pueden incluir: (i) un aumento en el número de lecturas fuera de una región de nucleosoma, (ii) un aumento en el número de lecturas dentro de una región de nucleosoma, (iii) una distribución de picos más amplia en relación con una ubicación genómica mapeable, (iv) un cambio en la ubicación de un pico, (v) identificación de un nuevo pico, (vi) un cambio en la profundidad de cobertura de un pico, (vii) un cambio en la posición inicial alrededor de un pico, y (viii) un cambio en tamaños de fragmentos asociados con un pico. Estas desviaciones pueden ser indicativas de una alteración del mapa nucleosomal representativa del ADN libre de células derivado de la muestra.
[0142]Una región genómica localizada es una región corta del genoma que puede variar en longitud desde aproximadamente 2 hasta aproximadamente 200 pares de bases. Cada región genómica localizada puede contener un patrón o grupo de variación o inestabilidad estructural significativa. Se pueden proporcionar mapas de partición del genoma para identificar regiones genómicas localizadas relevantes. Una región genómica localizada puede contener un patrón o grupo de variación estructural significativa o inestabilidad estructural. Un grupo es una región de hotspot dentro de una región genómica localizada. La región del punto crítico puede contener una o más fluctuaciones o picos significativos. Una variación estructural es una variación en el posicionamiento nucleosomal. Se puede seleccionar una variación estructural del grupo que consiste en: una inserción, una eliminación, una translocación, un reordenamiento genético, un estado de metilación, un microsatélite, una variación del número de copias, una variación estructural relacionada con el número de copias, o cualquier otra variación, lo que indica diferenciación.
[0143]Se puede obtener un mapa de partición del genoma: (a) proporcionando muestras de ADN libre de células de dos o más sujetos en una cohorte, (b) realizando un análisis multiparamétrico de cada una de las muestras de ADN libre de células para generar un modelo multiparamétrico para cada una de dichas muestras, y (c) analizar los modelos multiparamétricos para identificar una o más regiones genómicas localizadas, cada una de las cuales contiene un patrón o grupo de variación o inestabilidad estructural significativa.
[0144]Se proporciona un método para analizar una muestra que comprende ADN libre de células derivada de un sujeto, en el que se obtiene información de secuencia representativa de moléculas de ADN libre de células de la muestra, y se realiza un análisis estadístico sobre dicha información de secuencia para clasificar un conjunto de uno o más modelos uniparamétricos asociados con uno o más perfiles de ocupación nucleosomal que representan cohortes distintas.
[0145]Se proporciona un método para analizar una muestra que comprende ADN libre de células derivada de un sujeto, en el que se obtiene información de secuencia representativa de moléculas de ADN libre de células de la muestra, y se realiza un análisis estadístico sobre dicha información de secuencia para clasificar el modelo multiparamétrico como asociado con uno o más perfiles de ocupación nucleosomal que representan cohortes distintas.
[0146]El análisis estadístico puede comprender proporcionar uno o más mapas de partición del genoma que enumeren intervalos genómicos relevantes representativos de genes de interés para análisis adicionales. El análisis estadístico puede comprender además seleccionar un conjunto de una o más regiones genómicas localizadas en base a los mapas de partición del genoma. El análisis estadístico puede comprender además analizar una o más regiones genómicas localizadas en el conjunto para obtener un conjunto de una o más alteraciones del mapa nucleosomal. El análisis estadístico puede comprender uno o más de: reconocimiento de patrones, aprendizaje profundo y aprendizaje no supervisado.
[0147]Una alteración del mapa nucleosomal es un valor medido que caracteriza una región genómica localizada determinada en términos de información biológicamente relevante. Una alteración del mapa nucleosomal puede estar asociada con una mutación conductora elegida del grupo que consiste en: tipo salvaje, variante somática, variante de línea germinal y metilación del ADN.
[0148]Se pueden usar una o más alteraciones del mapa nucleosomal para clasificar el modelo uniparamétrico o multiparamétrico como asociado con uno o más perfiles de ocupación nucleosomal que representan cohortes distintas. Estos perfiles de ocupación nucleosomal pueden estar asociados con una o más evaluaciones. Una evaluación puede considerarse como parte de una intervención terapéutica (p. ej., opciones de tratamiento, selección del tratamiento, evaluación adicional mediante biopsia y/o imágenes).
[0149]Se puede seleccionar una evaluación del grupo que consiste en: indicación, tipo de tumor, gravedad del tumor, agresividad del tumor, resistencia del tumor al tratamiento y clonalidad del tumor. Se puede determinar una evaluación de la clonalidad del tumor observando la heterogeneidad en la alteración del mapa nucleosomal entre moléculas de ADN libres de células en una muestra. Se determina una evaluación de las contribuciones relativas de cada uno de dos o más clones.
[0150]Se puede determinar una puntuación de enfermedad como indicador del estado de salud del sujeto del que se obtuvo la muestra de ADN libre de células. Esta puntuación de enfermedad puede determinarse como una función de uno o más de: (i) una o más de las evaluaciones, (ii) uno o más modelos multiparamétricos de referencia saludables asociados con la enfermedad, y (iii) uno o más modelos multiparamétricos de referencia saludables asociados con la enfermedad. Modelos multiparamétricos de referencia asociados a la enfermedad.
[0151]Los mapas de partición del genoma pueden aplicarse a la selección de un conjunto de variaciones estructurales. La selección de una variación estructural puede ser función de uno o más de: (i) uno o más modelos multiparamétricos de referencia asociados con una o más enfermedades, (ii) la eficiencia de una o más sondas dirigidas a la variación estructural, y (iii) información previa sobre partes del genoma donde una frecuencia esperada de variaciones estructurales es mayor que la frecuencia promedio esperada de variaciones estructurales en todo el genoma.
[0152]Los métodos de análisis de una o más muestras de ADN libre de células se pueden aplicar para configurar un panel multimodular. Esta configuración de panel multimodular puede comprender analizar uno o más de: (i) una o más mutaciones somáticas, (ii) información de distribución de posiciones nucleosomales en el genoma humano, e (iii) información previa con respecto a los sesgos de cobertura en moléculas de ADN libre de células que se originan en tejidos o tipos de células normales y en tejidos o tipos de células que contienen mutaciones somáticas. Posteriormente al análisis anterior, la configuración del panel multimodular también puede comprender seleccionar para su inclusión en el panel multimodular un conjunto que comprende uno o más de los siguientes: (i) una o más variaciones estructurales, al menos una de las cuales indica una mayor probabilidad de que una o más enfermedades estén presentes en el sujeto del cual se adquirió la muestra de ADN libre de células, (ii) una o más mutaciones somáticas, al menos una de las cuales indica una mayor probabilidad de que una o más enfermedades estén presentes en el sujeto de quien se adquirió la muestra de ADN libre de células, y (iii) uno o más eventos centrados en la cromatina. Los eventos centrados en la cromatina pueden comprender uno o más sitios de inicio de la transcripción, regiones promotoras, sitios de unión y regiones intrónicas.
[0153]Los métodos de análisis de una o más muestras de ADN libre de células se pueden aplicar para detectar o controlar una afección. Tal detección o seguimiento de una afección puede comprender obtener información de secuencia representativa de moléculas de ADN libres de células de la muestra; y usar información a macroescala (por ejemplo, información distinta de identidades de bases) perteneciente a dichas moléculas para detectar o controlar dicha condición.
[0154]Los métodos de análisis de una o más muestras de ADN libre de células se pueden aplicar para detectar variaciones estructurales relacionadas con el número de copias (NC) absoluto basándose en un modelo multiparamétrico. Las variaciones estructurales relacionadas con NC representan áreas de desviación relativamente mayor o menor de un modelo multiparamétrico basado en mapas de partición del genoma. Las variaciones estructurales relacionadas con NC pueden representar una o más alteraciones del mapa nucleosomal para determinar una o más evaluaciones, por ejemplo, carga tumoral o tipo de tumor. Con modelos uniparamétricos o multiparamétricos de referencia sanos apropiados y modelos uniparamétricos o multiparamétricos de referencia enfermos, las desviaciones en el modelo uniparamétrico o multiparamétrico de un sujeto pueden interpretarse como alteraciones del mapa nucleosomal. Se pueden combinar una o más de estas alteraciones del mapa nucleosomal para determinar una o más evaluaciones, por ejemplo, heterogeneidad tumoral.
Configuraciones de paneles
[0155]La técnica de perfilado de fragmentomas descrita en el presente documento se puede utilizar además para la configuración de paneles modulares. Esta configuración de panel modular permite diseños de un conjunto de sondas o cebos que enriquecen selectivamente regiones del genoma que son relevantes para la elaboración de perfiles nucleosomales. Al incorporar esta "conciencia del fragmentoma" o "conciencia nucleosomal", se pueden obtener datos de secuencia de muchos individuos para optimizar el procedimiento de configuración del panel modular, por ejemplo, la determinación de qué ubicaciones genómicas apuntar y la concentración óptima de sondas para estas ubicaciones genómicas.
[0156]Por ejemplo, los cambios en la estructura de la cromatina, por ejemplo, el reposicionamiento nucleosomal en los sitios de inicio de la transcripción (TSS) o la alteración de la arquitectura de los dominios asociados topológicamente, pueden desempeñar un papel integral en la regulación de la transcripción genética y se han asociado con muchos aspectos de la salud humana., incluidas las enfermedades. Por lo tanto, comparar la accesibilidad a la cromatina en todo el genoma entre cohortes no malignas y malignas puede permitir la identificación de ubicaciones de cambios epigenéticos instrumentales que acompañan al desarrollo de la enfermedad. Por ejemplo, a partir de estudios de atlas públicos de ocupación nucleosomal, accesibilidad a la cromatina, sitios de unión de factores de transcripción y mapas de sensibilidad a la ADNasa, así como del descubrimiento directo de arquitecturas diferenciales de cromatina denovo(p. ej., mediante secuenciación del genoma completo (WGS)) en cohortes representativas. En casos malignos y no malignos (p. ej., sujetos), se pueden producir huellas enfocadas que están enriquecidas en marcadores de cromatina. Dichos marcadores de cromatina pueden ser específicos de ciertos tejidos, tipos de células, tipos de muerte celular y tipos de malignidad (por ejemplo, tipos de tumores), y pueden apuntarse a una resolución y cobertura suficientes mediante ensayos de enriquecimiento dirigidos.
[0157]Al incorporar el conocimiento tanto de las variaciones somáticas como de las variaciones e inestabilidad estructurales, se pueden configurar paneles de sondas, cebos o cebadores para apuntar a porciones específicas del genoma ("puntos críticos") con patrones o grupos conocidos de variación estructural o inestabilidad. Por ejemplo, el análisis estadístico de datos de secuencia revela una serie de eventos somáticos acumulados y variaciones estructurales y, por lo tanto, permite estudios de evolución clonal. El análisis de datos revela importantes conocimientos biológicos, incluida la cobertura diferencial entre cohortes, patrones que indican la presencia de ciertos subconjuntos de tumores, eventos estructurales extraños en muestras con alta carga de mutación somática y cobertura diferencial atribuida a células sanguíneas versus células tumorales.
[0158]En otro ejemplo, el perfil de fragmentoma se puede aplicar para generar un panel de reacción en cadena de la polimerasa (PCR) de baja multiplexación para uno o más genes. El panel de PCR de baja multiplexación puede generarse (a) proporcionando uno o más mapas de partición del genoma; (b) proporcionar una pluralidad de sondas que cubren una o más regiones genómicas localizadas en uno o más de los mapas de partición del genoma; y (c) seleccionar de la pluralidad de sondas, una o más sondas que tienen un rendimiento de PCR óptimo, en el que cada una de dichas sondas cubre una región genómica localizada determinada asociada con cada uno de los genes.
[0159]La evaluación del rendimiento óptimo de la PCR se mide por la profundidad máxima de cobertura de una sonda asociada con cada uno de los genes. Por tanto, para cada gen, se pueden elegir una o más sondas óptimas para su inclusión en un panel de PCR.
[0160]En un ejemplo, un panel de PCR de baja multiplexación comprende al menos 1, 2, 3, 4, 5 o 6 genes, en el que cualquier subconjunto del panel se puede combinar simultáneamente en un único ensayo de PCR multiplexada. Se puede utilizar un panel de PCR de baja multiplexación para realizar en moléculas de ADN o ARN libres de células un ensayo seleccionado del grupo que consiste en: PCR digital, PCR digital en gotas, PCR cuantitativa y PCR con transcripción inversa. Dado que un ensayo de PCR de baja multiplexación no tiene la capacidad de colocar múltiples sondas y cebadores en un determinado gen de interés, el uso de dicho panel optimizado garantizará la selección de un conjunto óptimo de un pequeño número de sondas para su inclusión en el panel de PCR.
Clasificación
[0161]Los métodos y sistemas aquí descritos se aplican a un clasificador capacitado. El clasificador se utiliza para identificar patrones asociados con una condición o estado de una condición. El clasificador se implementa en una computadora.
[0162]Un clasificador puede determinar aberraciones genéticas en un sujeto de prueba utilizando ADN de una muestra libre de células (o ADN libre de células) obtenida del sujeto de prueba. Este clasificador puede comprender (a) una entrada de un conjunto de puntuaciones de distribución para cada una de una o más muestras (o ADN libre de células) de sujetos, en donde cada puntuación de distribución es representativa de un número de bases presentes en el ADN de una muestra libre de células (o ADN libre de células) de un sujeto que se asigna a cada una de una pluralidad de posiciones en un genoma; y (b) un resultado de clasificaciones de una o más aberraciones genéticas.
[0163]Un clasificador puede comprender un motor de aprendizaje automático. Las puntuaciones de distribución pueden representar la longitud de cada molécula a partir de la cual se mapea una posición base. Las puntuaciones de distribución pueden representar recuentos de cada molécula que se superpone a una posición base. Las puntuaciones de distribución pueden representar recuentos de cada molécula comenzando en una posición base. Las puntuaciones de distribución pueden representar recuentos de cada molécula que termina en una posición base.
[0164]Se puede utilizar un clasificador para determinar aberraciones genéticas en un sujeto de prueba utilizando ADN de una muestra libre de células (o ADN libre de células) obtenida del sujeto de prueba proporcionando un conjunto de puntuaciones de distribución para un sujeto de prueba y generando una clasificación del sujeto de prueba usando el clasificador.
[0165]Un clasificador puede ser entrenado por un conjunto de entrenamiento. Un conjunto de entrenamiento puede comprender un conjunto de puntuaciones de distribución para cada una de una pluralidad de muestras de sujetos y un conjunto de clasificaciones para cada una de la pluralidad de muestras. El conjunto de puntuaciones de distribución puede comprender (a) un conjunto de puntuaciones de distribución de referencia para cada una de una pluralidad de muestras de sujetos de control, en donde cada puntuación de distribución de referencia es representativa de una serie de bases presentes en el ADN de una muestra libre de células (o ADN libre de células) de un sujeto de control que se asigna a cada una de una pluralidad de posiciones en un genoma o (b) un conjunto de puntuaciones de distribución fenotípica para cada una de una pluralidad de muestras de sujetos que tienen un fenotipo observado, en donde cada puntuación de distribución fenotípica es representativo de una serie de bases presentes en el ADN de una muestra libre de células (o ADN libre de células) de un sujeto que tiene el fenotipo observado que se asigna a cada una de una pluralidad de posiciones en un genoma. El conjunto de clasificaciones puede comprender (c) un conjunto de clasificaciones de referencia para cada una de la pluralidad de muestras de sujetos de control o (d) un conjunto de clasificaciones fenotípicas para cada una de la pluralidad de muestras de sujetos que tienen un fenotipo observado.
[0166]Los sujetos de control asociados con el conjunto de puntuaciones de distribución de referencia o el conjunto de clasificaciones de referencia pueden ser individuos sanos asintomáticos. Los sujetos que tienen un fenotipo observado asociado con el conjunto de puntuaciones de distribución fenotípica o el conjunto de clasificaciones fenotípicas pueden comprender (a) sujetos con un cáncer específico de tejido, (b) sujetos con una etapa particular de cáncer, (c) sujetos con un condición inflamatoria, (d) sujetos que son asintomáticos de cáncer pero que tienen un tumor que progresará a cáncer, o (e) sujetos con cáncer que tienen una respuesta positiva o negativa a un fármaco o régimen de fármaco particular.
[0167]El clasificador puede comprender además una entrada de un conjunto de variantes genéticas en uno o más loci del genoma. El conjunto de variantes genéticas puede comprender uno o más loci de marcadores tumorales informados (por ejemplo, un marcador tumoral informado en COSMIC).
[0168]Se describe un método para crear un clasificador entrenado, que comprende (a) proporcionar una pluralidad de clases diferentes, en donde cada clase representa un conjunto de sujetos con una característica compartida (por ejemplo, de una o más cohortes); (b) proporcionar un modelo uniparamétrico o multiparamétrico representativo de las moléculas de ADN libres de células de cada una de una pluralidad de muestras que pertenecen a cada una de las clases, proporcionando así un conjunto de datos de entrenamiento; y (c) entrenar un algoritmo de aprendizaje en el conjunto de datos de entrenamiento para crear uno o más clasificadores entrenados, en donde cada clasificador entrenado clasifica una muestra de prueba en una o más de la pluralidad de clases.
[0169]Como ejemplo, un clasificador entrenado puede utilizar un algoritmo de aprendizaje seleccionado del grupo que consta de: un bosque aleatorio, una red neuronal, una máquina de vectores de soporte y un clasificador lineal. Cada una de la pluralidad de clases diferentes puede seleccionarse del grupo que consiste en: sanos, cáncer de mama, cáncer de colon, cáncer de pulmón, cáncer de páncreas, cáncer de próstata, cáncer de ovario, melanoma y cáncer de hígado.
[0170]Se puede aplicar un clasificador capacitado a un método para clasificar una muestra de un sujeto. Este método de clasificación puede comprender: (a) proporcionar un conjunto de uno o más modelos uniparamétricos representativos de las moléculas de ADN libres de células de una muestra de prueba del sujeto; y (b) clasificar la muestra de prueba utilizando un clasificador entrenado. Después de que la muestra de prueba se clasifica en una o más clases, se realiza una intervención terapéutica sobre el sujeto en función de la clasificación de la muestra.
[0171]Se puede aplicar un clasificador capacitado a un método para clasificar una muestra de un sujeto. Este método de clasificación puede comprender: (a) proporcionar un modelo multiparamétrico representativo de las moléculas de ADN libres de células de una muestra de prueba del sujeto; y (b) clasificar la muestra de prueba utilizando un clasificador entrenado. Después de que la muestra de prueba se clasifica en una o más clases, se realiza una intervención terapéutica sobre el sujeto en función de la clasificación de la muestra.
[0172] FIGS. 8y9ilustran cada una un aspecto que puede incorporarse a un modelo multiparamétrico, en particular gráficos de la frecuencia de fragmentos en cada posición genómica dentro de un rango del genoma. En cada figura, la frecuencia de los fragmentos fluctúa con la posición genómica como resultado del posicionamiento nucleosomal diferencial. En laFIG. 8,una línea semiperiódica muestra la frecuencia promedio de fragmentos (eje y) a través de las posiciones genómicas (eje x), lo que ilustra una señal de fragmentoma variable como resultado de la ocupación nucleosomal diferencial. En laFIG.9,dos líneas semiperiódicas muestran la distribución de inicio de fragmentos canónicos (eje y) y la carga tumoral mediana de fragmentos originados en una posición determinada (eje y), respectivamente, a través de las posiciones genómicas (eje x), que ilustran tanto una señal de fragmentoma variable como un resultado de la ocupación nucleosomal diferencial y una carga tumoral mediana más alta de fragmentos que se originan en una posición determinada en posiciones de distribución inicial de fragmentos canónicos más bajos.
[0173] FIGS. 10y11ilustran dos aspectos de un modelo multiparamétrico, en particular gráficos de los recuentos normalizados de moléculas (panel superior) y el tamaño de fragmento normalizado (es decir, longitud; panel inferior) en cada posición genómica dentro de un rango del genoma. En cada figura, tanto los recuentos normalizados de moléculas como el tamaño de fragmento normalizado fluctúan con la posición genómica como resultado del posicionamiento nucleosomal diferencial.
[0174] FIG. 12ilustra tres aspectos de un modelo multiparamétrico, en particular los recuentos normalizados de moléculas, el tamaño de fragmento normalizado (es decir, longitud) y el porcentaje de dobles cadenas normalizadas en cada posición genómica dentro de un rango del genoma. Los tres aspectos del modelo multiparamétrico fluctúan con la posición genómica como resultado del posicionamiento nucleosomal diferencial. En particular, esta fluctuación muestra cierta periodicidad en el modelo multiparamétrico. Esta periodicidad suele ser de unos 10,5 pares de bases.
[0175] FIG. 13ilustra un aspecto de un modelo multiparamétrico, en particular los recuentos de lectura (eje y) en cada posición genómica (eje x) dentro de un rango del genoma. Este rango del genoma corresponde a varios genes relevantes para tumores, incluidos NF1, ERBB2, BRCA1, MET, SMO, BRAF, EGFR y COK6.
[0176] FIG. 14ilustra un ejemplo de una transformación matemática que se puede realizar como parte del análisis multiparamétrico para generar un modelo multiparamétrico. En particular, se aplica una transformada rápida de Fourier (FFT) para generar un gráfico de recuentos de lectura por posición inicial en cada posición genómica dentro de un rango del genoma. Este rango del genoma corresponde a varios genes relevantes para tumores, incluidos NF1, ERBB2, BRCA1 y TP53. Como se muestra, en particular, el gen ERBB2 exhibe un valor de recuento de lecturas que es significativamente mayor (aproximadamente el doble o más) que los otros genes indicados, lo que indica que es probable que esté presente una mutación ERBB2.
[0177] FIG. 15ilustra un ejemplo de dos modelos multiparamétricos de dos sujetos diferentes en una región determinada de un genoma. En particular, esta región del genoma corresponde a un gen relevante para el tumor, el TP53. A partir del modelo multiparamétrico (en este caso, un mapa de calor) correspondiente a un sujeto con tumor (panel inferior), se pueden observar desviaciones relativas al sujeto sin tumor (panel superior), especialmente cerca del área marcada por el Exón 9. Tales desviaciones incluyen una topografía menos suave del mapa de calor y la presencia de regiones más variables (por ejemplo, picos).
[0178] FIG. 16ilustra un ejemplo de dos modelos multiparamétricos de dos sujetos diferentes en una región determinada de un genoma. En particular, esta región del genoma corresponde a un gen relevante para el tumor, el NF1. TP53. A partir del modelo multiparamétrico (en este caso, un mapa de calor) correspondiente a un sujeto con tumor (panel inferior), se pueden observar desviaciones relativas al sujeto sin tumor (panel superior). Tales desviaciones incluyen una topografía menos suave del mapa de calor y la presencia de regiones más variables (por ejemplo, picos).
[0179] FIG. 17ilustra un ejemplo de dos modelos multiparamétricos de dos sujetos diferentes en una región determinada de un genoma. En particular, esta región del genoma corresponde a un gen relevante para los tumores, el ERBB2. A partir del modelo multiparamétrico (en este caso, un mapa de calor) correspondiente a un sujeto con tumor (panel inferior), se pueden observar desviaciones con respecto al sujeto sin tumor (panel superior). Tales desviaciones incluyen una topografía menos suave del mapa de calor y la presencia de regiones más variables (por ejemplo, picos).
[0180] FIGS. 18y19ilustran ejemplos de organización nucleosomal versus posición genómica en una región determinada de un genoma. En particular, cada figura ilustra la organización nucleosomal (cobertura indicada por el color sombreado) versus la posición genómica (eje x) en un cromosoma humano diferente (cromosoma 19 en laFIG. 18y cromosoma 20 en laFIG. 19), medida en diferentes sujetos (eje y).FIGS. 18y19ilustran que se pueden observar grupos similares de señales de fragmentomas en diferentes sujetos de una cohorte, independientemente de las identidades de base en estas regiones genómicas.
[0181] FIG. 20ilustra un ejemplo del proceso para determinar el Número de Copia (NC) absoluto. En primer lugar, localice las ubicaciones de los nucleosomas y haga coincidirlas con las esperadas en una cohorte normal. A continuación, para cada ventana de nucleosoma en FGFR, determine una colección de sitios de nucleosoma no chr10 ultraconservadores y determine una colección de sitios de nucleosoma chr10 ultraconservadores. Finalmente, integre la posición frente a la densidad del tamaño de inserción del sitio del nucleosoma FGFR.
[0182] FIGS. 21Ay21Bilustran un ejemplo del uso del perfil de fragmentomas para inferir la activación de genes amplificados en el número de copias mediante secuenciación completa de ADN plasmático.FIG. 21Amuestra un gráfico de la relación de recuento de dinucleosomas a mononucleosomas normalizada en ERBB2 en 2.076 muestras clínicas. Mediante la inspección visual de este mapa de calor, se pueden observar regiones de alta actividad de amplificación (p. ej., mostradas en el color amarillo 2104 y rojo 2106) sobre un fondo de actividad de amplificación normal a baja (p. ej., mostrada en el color verde 2102).FIG. 21Bmuestra una parte ampliada del lado derecho del gráfico de laFIG. 21A,que muestra un grupo enriquecido en llamadas CNV de alta amplitud (por ejemplo, como se muestra en el color amarillo 2114 y el color rojo 2116) contra un fondo de color verde o azul 2112. El panel inferior de laFIG.21Bmuestra regiones genómicas que se han agrupado mediante señales de fragmentomas similares (por ejemplo, como resultado de una porción contigua de regiones genómicas correspondientes a un locus genético común).
[0183]Para cada muestra clínica, solo se escindieron fragmentos de ERBB2 (p. ej., fragmentos de ADN libre que se mapean en el gen ERBB2) y se sometieron a perfiles de fragmentomas. ERBB2 es bien conocido como marcador de ciertos tipos de cáncer, como el cáncer de mama y el cáncer gástrico, y como marcador de resistencia al tratamiento en sujetos con cáncer. Para cada muestra clínica, se determinó la relación de recuento de dinucleosomas a mononucleosomas en un dominio genómico de ERBB2 (p. ej., región genómica) mediante (1) contando una cantidad de fragmentos con protección dinucleosomal (p. ej., un tamaño de fragmento de al menos 240 pares de bases ("pb")), (2) contar un número de fragmentos con protección mononucleosomal (por ejemplo, un tamaño de fragmento de menos de 240 pares de bases ("pb")), (3) tomar una proporción de (1) a (2) y (4) normalizar la relación con la mediana de la muestra (p. ej., mediana del valor de dicha relación en toda la muestra). A continuación, para cada muestra clínica, se representó gráficamente la relación de recuento de dinucleosomas a mononucleosomas de la muestra con mediciones de CNV asociadas con esa muestra (p. ej., con cada llamada de amplificación mostrada como un punto violeta; panel superior).
[0184]La agrupación no supervisada de este gráfico de datos en 2076 muestras clínicas reveló la presencia de 3 grupos de alta actividad de amplificación (como lo indica la señal de fragmentoma más alta expresada por los recuentos de lectura) (p. ej., mostrado en el color amarillo 2104 y el color rojo 2106) en un contexto de actividad de amplificación de normal a baja (p. ej., se muestra en color verde 2102), siendo uno de los de la derecha el más pronunciado a la vista. Este grupo está enriquecido con llamadas CNV de alta amplitud, mientras que otras están distribuidas en un grupo en el medio y menos en un grupo a la derecha. Los grupos pueden interpretarse como una indicación de que se han activado genes amplificados en el número de copias (por ejemplo, genes asociados con ERBB2) para las muestras clínicas asociadas con los grupos visibles (por ejemplo, en colores rojo y amarillo). Por tanto, un perfil de fragmentoma (p. ej., en ERBB2) puede correlacionarse con el estado de amplificación. Tales observaciones pueden realizarse incluso para regiones genómicas sin llamadas CNV de alta amplitud asociadas (quizás debido a una baja sensibilidad del ADN tumoral circulante (p. ej., ADNct) que solo permite una detección limitada). Estas observaciones pueden interpretarse en el sentido de indicar una mayor probabilidad de que esas regiones genómicas estén transcribiendo activamente un gen con perfil de fragmentoma (p. ej., ERBB2). Dicho perfil de fragmentoma se puede incorporar a los métodos de detección de CNV existentes (por ejemplo, realizando un ensayo de biopsia líquida) para aumentar la sensibilidad y la especificidad. Se pueden realizar análisis similares en una pluralidad de genes para observar una activación relativamente alta y baja de la amplificación del número de copias entre la pluralidad de genes.
[0185]Los resultados de lasFIGS. 21Ay21Bmuestran que los fragmentos de ADNlc pueden revelar información sobre un microambiente tumoral de células cancerosas realizando perfiles de fragmentomas que comprenden análisis de tamaños de fragmentos y posiciones de fragmentos. En este caso, la activación de genes amplificados en el número de copias (p. ej., ERBB2) en células eliminadas activamente en un microambiente tumoral se puede observar como una firma de protección dinucleosomal de ERBB2 independientemente de la realización de llamadas CNV de alta amplitud. Este enfoque puede ser ventajoso sobre los enfoques existentes de detección y llamada de CNV porque estos últimos son muy difíciles de detectar con sensibilidad en el ADN tumoral circulante (p. ej., ADNct) dadas las fracciones alélicas bajas que normalmente se encuentran en circulación. Dichos enfoques de fragmentomas también pueden ser apropiados para medir y predecir la presencia de otras variantes genéticas como SNV, indeles y fusiones, especialmente cuando dichas variantes genéticas no dan como resultado una diferencia fenotípica observable. El perfil de fragmentoma en sujetos de una cohorte con una enfermedad compartida, por ejemplo, para la conjunción de ubicación, longitud del fragmento o función de distancia en diferentes dimensiones (longitud del fragmento, ubicación) en relación con muestras normales, puede revelar subtipos moleculares dentro de la cohorte (por ejemplo, diferentes tipos moleculares). subtipos de cáncer de pulmón dentro de una cohorte de pacientes con cáncer de pulmón), estratificando así a los sujetos de la cohorte.
Ensayos para detectar diferencias en las longitudes de los fragmentos nucleosomales.
[0186]En el presente documento se divulga un método para procesar una muestra biológica de un sujeto, que comprende (a) obtener dicha muestra biológica de dicho sujeto, en donde dicha muestra biológica comprende fragmentos de ácido desoxirribonucleico (ADN); (b) analizar dicha muestra biológica para generar una señal indicativa de la presencia o ausencia de fragmentos de ADN con (i) protección dinucleosomal asociada con un locus genético de uno o más loci genéticos, y (ii) protección mononucleosomal asociada con el locus genético; y (c) usar dicha(s) señal(es) para generar una salida indicativa de dicha presencia o ausencia de fragmentos de ADN con (i) protección dinucleosomal asociada con un locus genético de uno o más loci genéticos, y (ii) protección mononucleosomal asociada con el locus genético.
[0187]El método puede implicar enriquecer la muestra biológica en fragmentos de ADN para un conjunto de uno o más loci genéticos.
[0188]También se divulga en el presente documento un método para analizar una muestra biológica que comprende fragmentos de ADN libres de células derivados de un sujeto, en donde el método comprende detectar fragmentos de ADN del mismo locus genético que corresponden a cada una de la protección mononucleosomal y la protección dinucleosomal.
[0189]También se divulga en el presente documento un método para analizar una muestra biológica de un sujeto, en donde el método comprende: (i) secuenciar fragmentos de ADNlc en la muestra, para proporcionar secuencias de ADN; (ii) mapear secuencias de ADN obtenidas en (i) con una o más regiones genómicas en un genoma de referencia para la especie del sujeto; y (iii) para una o más regiones genómicas que tienen una secuencia de ADN mapeada, calcular el número de secuencias que corresponden a mononucleosomas y el número de secuencias que corresponden a dinucleosomas. Se pueden comparar los números de secuencias mono y dinucleosomales obtenidos en (iii).
[0190]Así, en términos generales, los fragmentos de ADNlc correspondientes a la protección mononucleosomal y dinucleosomal del mismo locus (o loci) genético se analizan por separado. Como se muestra en el presente documento, los cambios en los niveles medidos de estos fragmentos pueden revelar un cambio en el estado biológico dentro del sujeto, por ejemplo,FIG. 27Bmuestra un aumento en fragmentos dinucleosomales en muestras de pacientes con cáncer de mama con un número elevado de copias de ERBB2. Por lo tanto, los métodos pueden incluir un paso adicional de usar la señal detectada o calculada (por ejemplo, usando un clasificador, como se analiza en otra parte del presente documento) para evaluar el estado biológico del sujeto del cual se tomó la muestra (por ejemplo, para diagnosticar una enfermedad). En particular, se puede utilizar un cambio en la cantidad de fragmentos mono o dinucleosomales para evaluar el estado biológico del sujeto.
[0191]Los fragmentos se pueden analizar de varias maneras, por ejemplo, secuenciando fragmentos de ADNlc como se analiza en otra parte del presente documento, o separando fragmentos de ADNlc por tamaño (por ejemplo, en un gel de agarosa) y cuantificándolos.
[0192]Estos métodos pueden considerar la proporción cuantitativa de fragmentos mononucleosomales y dinucleosomales observados en el locus (p. ej., la proporción puede cambiar a medida que cambia el estado biológico), la cantidad de fragmentos observados en el locus (p. ej., los niveles de ambos tipos de fragmentos pueden aumentar, aunque la proporción sigue siendo la misma), o la aparición o desaparición de fragmentos (por ejemplo, los fragmentos dinucleosomales pueden ser indetectables en un estado biológico, pero detectables en otro estado). Cada una de estas señales se puede considerar en el método.
[0193]Los métodos pueden centrarse en un locus (o loci) genético particular de interés, por ejemplo, que se sabe que exhiben un cambio en la señal mononucleosomal y/o dinucleosomal según el estado biológico. Sin embargo, en otras formas de realización, los métodos pueden detectar una señal que luego puede correlacionarse con un cambio en el estado biológico. Por ejemplo, se puede secuenciar el ADNlc y las secuencias se pueden mapear en un genoma de referencia, como se analiza en otra parte del presente documento. En algunas formas de realización, para loci en los que un cambio en la señal mononucleosomal y/o dinucleosomal ya se ha correlacionado con una diferencia en el estado biológico (por ejemplo, enfermo frenteano enfermo, o mutante frente a tipo salvaje, o número de copia bajo frente a alto,etc.),la señal en estos loci se puede evaluar (por ejemplo, usando un clasificador, como se analiza en otra parte del presente documento). En otras formas de realización, la(s) señal(es) mono/dinucleosomal(es) en uno o más loci se pueden comparar con la(s) señal(es) en los mismos loci en una muestra tomada de un sujeto que tiene un estado biológico diferente, y cualquier diferencia puede evaluarse (por ejemplo, utilizando muestras de otros sujetos) para ver si se correlacionan con esa diferencia en el estado biológico o para construir un clasificador, como se analiza en otra parte del presente documento.
[0194]Por lo tanto, un método puede incluir una etapa de comparar la cantidad de fragmentos mono/dinucleosomales con valores obtenidos de una muestra de referencia. Tales comparaciones pueden utilizar clasificadores como se describe en otra parte del presente documento.
[0195]Un locus considerado con estos métodos puede estar generalmente dentro de un único gen o una región promotora de un único gen.
[0196]Además de considerar fragmentos dinucleosomales, estos métodos pueden considerar adicionalmente (o en su lugar) otros fragmentos oligonucleosomales (tri-, tetra-,etc.)aunque, como se muestra en laFIG. 1E,dichos fragmentos son menos abundantes y, por lo tanto, no se detectan tan fácilmente. Los fragmentos oligonucleosomales (di-, tri-,etc.)pueden considerarse individual o colectivamente.
[0197]En la técnica se conocen ensayos para fragmentos de ADN mono y oligonucleosomal. Por ejemplo, el producto ELISA PLUS para detección de muerte celular está disponible comercialmente y se ha aplicado al ADNlc en suero (Holdenriederet al.,2005), pero no distingue entre la longitud de los fragmentos de ADN o entre fragmentos en diferentes loci.
Sistemas informáticos
[0198]Los sistemas informáticos pueden programarse para implementar métodos de divulgación.FIG. 22muestra un sistema informático 2201 que está programado o configurado de otro modo para analizar una muestra que comprende ácido nucleico libre de células derivado de un sujeto. El sistema informático 2201 puede regular varios aspectos de los métodos de la presente divulgación. El sistema informático 2201 puede ser un dispositivo electrónico de un usuario o un sistema informático que está ubicado de forma remota con respecto al dispositivo electrónico. El dispositivo electrónico puede ser un dispositivo electrónico móvil.
[0199]El sistema informático 2201 incluye una unidad de procesamiento central (CPU, también "procesador" y "procesador de computadora" en el presente documento) 2205, que puede ser un procesador de un solo núcleo o de múltiples núcleos, o una pluralidad de procesadores para procesamiento en paralelo. El sistema informático 2201 también incluye memoria o ubicación de memoria 2210 (por ejemplo, memoria de acceso aleatorio, memoria de sólo lectura, memoria flash), unidad de almacenamiento electrónico 2215 (por ejemplo, disco duro), interfaz de comunicación 2220 (por ejemplo, adaptador de red) para comunicar con uno o más sistemas diferentes y dispositivos periféricos 2225, tales como caché, otra memoria, almacenamiento de datos y/o adaptadores de pantalla electrónica. La memoria 2210, la unidad de almacenamiento 2215, la interfaz 2220 y los dispositivos periféricos 2225 están en comunicación con la CPU 2205 a través de un bus de comunicación (líneas continuas), tal como una placa base. La unidad de almacenamiento 2215 puede ser una unidad de almacenamiento de datos (o depósito de datos) para almacenar datos. El sistema informático 2201 puede acoplarse operativamente a una red informática ("red") 2230 con la ayuda de la interfaz de comunicación 2220. La red 2230 puede ser Internet, una Internet y/o extranet, o una intranet y/o extranet que está en comunicación con Internet. La red 2230 en algunos casos es una red de telecomunicaciones y/o datos. La red 2230 puede incluir uno o más servidores informáticos, que pueden permitir la computación distribuida, tal como la computación en la nube. La red 2230, en algunos casos con la ayuda del sistema informático 2201, puede implementar una red de igual a igual, que puede permitir que los dispositivos acoplados al sistema informático 2201 se comporten como un cliente o un servidor.
[0200]La CPU 2205 puede ejecutar una secuencia de instrucciones legibles por máquina, que pueden incorporarse en un programa o software. Las instrucciones pueden almacenarse en una ubicación de memoria, tal como la memoria 2210. Las instrucciones pueden dirigirse a la CPU 2205, que posteriormente puede programar o configurar de otro modo la CPU 2205 para implementar métodos de la presente divulgación. Ejemplos de operaciones realizadas por la CPU 2205 pueden incluir buscar, decodificar, ejecutar y reescribir.
[0201]La CPU 2205 puede ser parte de un circuito, como por ejemplo un circuito integrado. Uno o más componentes del sistema 2201 puede incluirse en el circuito. En algunos casos, el circuito es un circuito integrado de aplicación específica (ASIC).
[0202]La unidad de almacenamiento 2215 puede almacenar archivos, tales como controladores, bibliotecas y programas guardados. La unidad de almacenamiento 2215 puede almacenar datos de usuario, por ejemplo, preferencias de usuario y programas de usuario. El sistema informático 2201 en algunos casos puede incluir una o más unidades de almacenamiento de datos adicionales que son externas al sistema informático 2201, como las ubicadas en un servidor remoto que está en comunicación con el sistema informático 2201 a través de una intranet o Internet.
[0203]El sistema informático 2201 puede comunicarse con uno o más sistemas informáticos remotos a través de la red 2230. Por ejemplo, el sistema informático 2201 puede comunicarse con un sistema informático remoto de un usuario. Ejemplos de sistemas informáticos remotos incluyen computadoras personales (por ejemplo, PC portátiles), pizarras o tabletas (por ejemplo, iPad de Apple®, Galaxy Tab de Samsung®), teléfonos, teléfonos inteligentes (por ejemplo, iPhone de Apple®, dispositivos con Android, Blackberry®), o asistentes digitales personales. El usuario puede acceder al sistema informático 2201 a través de la red 2230.
[0204]Los métodos como se describen en el presente documento se pueden implementar mediante un código ejecutable de máquina (por ejemplo, procesador de computadora) almacenado en una ubicación de almacenamiento electrónico del sistema informático 2201, tal como, por ejemplo, en la memoria 2210 o la unidad de almacenamiento electrónico 2215. La máquina ejecutable o se puede proporcionar un código legible por máquina en forma de software. Durante el uso, el código puede ser ejecutado por el procesador 2205. En algunos casos, el código puede recuperarse de la unidad de almacenamiento 2215 y almacenarse en la memoria 2210 para un fácil acceso por parte del procesador 2205. En algunas situaciones, la unidad de almacenamiento electrónico 2215 se puede impedir, y las instrucciones ejecutables por máquina se almacenan en la memoria 2210.
[0205]El código puede precompilarse y configurarse para su uso con una máquina que tenga un procesador adaptado para ejecutar el código, o puede compilarse durante el tiempo de ejecución. El código se puede suministrar en un lenguaje de programación que se puede seleccionar para permitir que el código se ejecute de forma precompilada o tal como está compilada.
[0206]Aspectos de los sistemas y métodos descritos en el presente documento, tales como el sistema informático 2201, pueden incorporarse en programación. Varios aspectos de la tecnología pueden considerarse como "productos" o "artículos de fabricación", normalmente en forma de código ejecutable por máquina (o procesador) y/o datos asociados que se llevan o incorporan en un tipo de medio legible por máquina. El código ejecutable por máquina se puede almacenar en una unidad de almacenamiento electrónico, tal como una memoria (por ejemplo, memoria de sólo lectura, memoria de acceso aleatorio, memoria flash) o un disco duro. Los medios de tipo "almacenamiento" pueden incluir cualquiera o toda la memoria tangible de las computadoras, procesadores o similares, o módulos asociados de los mismos, tales como diversas memorias de semiconductores, unidades de cinta, unidades de disco y similares, que pueden proporcionar almacenamiento no transitorio en cualquier momento para la programación del software. En ocasiones, todo o parte del software puede comunicarse a través de Internet o de otras redes de telecomunicaciones. Tales comunicaciones, por ejemplo, pueden permitir la carga del software desde una computadora o procesador a otro, por ejemplo, desde un servidor de administración o computadora central a la plataforma informática de un servidor de aplicaciones. Por lo tanto, otro tipo de medio que puede soportar los elementos de software incluye ondas ópticas, eléctricas y electromagnéticas, tales como las utilizadas a través de interfaces físicas entre dispositivos locales, a través de redes terrestres cableadas y ópticas y a través de diversos enlaces aéreos. Los elementos físicos que transportan dichas ondas, como enlaces cableados o inalámbricos, enlaces ópticos o similares, también pueden considerarse medios que contienen el software. Tal como se utiliza en este documento, a menos que se restrinja a medios de "almacenamiento" tangibles y no transitorios, términos como "medio legible" por computadora o máquina se refieren a cualquier medio que participe en el suministro de instrucciones a un procesador para su ejecución.
[0207]Por lo tanto, un medio legible por máquina, tal como un código ejecutable por computadora puede adoptar muchas formas, incluyendo, entre otras, un medio de almacenamiento tangible, un medio de onda portadora o un medio de transmisión física. Los medios de almacenamiento no volátiles incluyen, por ejemplo, discos ópticos o magnéticos, tales como cualquiera de los dispositivos de almacenamiento en cualquier computadora o similares, tales como los que pueden usarse para implementar las bases de datos, etc., que se muestran en los dibujos. Los medios de almacenamiento volátiles incluyen la memoria dinámica, tal como la memoria principal de dicha plataforma informática. Los medios de transmisión tangibles incluyen cables coaxiales; alambre de cobre y fibra óptica, incluidos los alambres que componen un bus dentro de un sistema informático. Los medios de transmisión de ondas portadoras pueden tomar la forma de señales eléctricas o electromagnéticas, u ondas acústicas o luminosas como las generadas durante las comunicaciones de datos por radiofrecuencia (RF) e infrarrojos (IR). Por lo tanto, las formas comunes de medios legibles por computadora incluyen, por ejemplo: un disquete, un disco flexible, un disco duro, una cinta magnética, cualquier otro medio magnético, un CD-ROM, DVD o DVD-ROM, cualquier otro medio óptico, cinta de papel de tarjetas perforadas, cualquier otro medio de almacenamiento físico con patrones de agujeros, una RAM, una ROM, una PROM y EPROM, una FLASH-EPROM, cualquier otro chip o cartucho de memoria, una onda portadora que transporte datos o instrucciones, cables o enlaces que transporten dicho portador de ondas, o cualquier otro medio desde el cual una computadora pueda leer códigos y/o datos de programación. Muchas de estas formas de medios legibles por computadora pueden estar implicadas en llevar una o más secuencias de una o más instrucciones a un procesador para su ejecución.
[0208]El sistema informático 2201 puede incluir o estar en comunicación con una pantalla electrónica 2235 que comprende una interfaz de usuario (IU) 2240 para proporcionar, por ejemplo, información que es relevante para un análisis de una muestra que comprende ácido nucleico libre de células derivado de un sujeto. Ejemplos de IU incluyen, entre otros, una interfaz gráfica de usuario (IGU) y una interfaz de usuario basada en web.
[0209]Los métodos y sistemas de la presente divulgación se pueden implementar mediante uno o más algoritmos. Se puede implementar un algoritmo por medio de software tras su ejecución por parte de la unidad central de procesamiento 2205.
[0210]Si bien en el presente documento se han mostrado y descrito formas de realización preferidas de la presente invención, será obvio para los expertos en la técnica que dichas formas de realización se proporcionan a modo de ejemplo únicamente. No se pretende que la invención esté limitada por los ejemplos específicos proporcionados en la especificación. Si bien la invención se ha descrito con referencia a la especificación antes mencionada, las descripciones e ilustraciones de las formas de realización del presente documento no deben interpretarse en un sentido limitante. A los expertos en la materia se les ocurrirán numerosas variaciones, cambios y sustituciones a los expertos en la técnica sin apartarse de la invención. Además, se entenderá que todos los aspectos de la invención no se limitan a las representaciones, configuraciones o proporciones relativas específicas establecidas en el presente documento que dependen de una variedad de condiciones y variables. Debe entenderse que se pueden emplear varias alternativas a las formas de realización de la invención descritas en el presente documento en la práctica de la invención. Por lo tanto, se contempla que la invención también cubra dichas alternativas, modificaciones o variaciones. Se pretende que las siguientes reivindicaciones definan el alcance de la invención y que los métodos y estructuras dentro del alcance de estas reivindicaciones queden cubiertos por el mismo.
Ejemplo 1: Los patrones de fragmentación del ADN libre de células revelan cambios asociados con mutaciones somáticas en los tumores primarios y mejoran la sensibilidad y especificidad de la detección de variantes somáticas.
[0211]El ADN libre de células (ADNlc) aislado del plasma sanguíneo circulante comprende fragmentos de ADN que sobreviven a la eliminación de las células moribundas y al tráfico en el torrente sanguíneo. En el cáncer, estos fragmentos llevan una huella de variación somática del tumor, así como su microambiente, lo que permite la genotipificación de tumores no invasiva basada en plasma en la práctica clínica. Sin embargo, la fracción de ADN derivado del cáncer suele ser baja, lo que dificulta la detección precisa en las primeras etapas e impulsa la búsqueda de patrones libres de variantes somáticas ortogonales asociados con el estado canceroso. Dado que se ha demostrado que la distribución genómica de los fragmentos de ADNlc refleja la ocupación nucleosomal en las células hematopoyéticas, se realizó un experimento (a) para observar patrones heterogéneos de posicionamiento del ADNlc en el cáncer en asociación con distintas mutaciones en los tumores de los pacientes y (b) para integrar el posicionamiento del ADNlc en los enfoques de análisis existentes pueden permitir una mayor sensibilidad y especificidad de detección.
[0212]Las distribuciones de la longitud y posición de los fragmentos de ADNlc y los perfiles genómicos somáticos asociados de más de 15.000 pacientes con cáncer clínico en estadio avanzado se determinaron mediante una prueba NGS de ADNct de cobertura profunda (15.000x) altamente precisa y dirigida a 70 genes. Se realizó un análisis integrativo del perfil de fragmentoma libre de variantes y se probó la asociación del perfil de fragmentoma con las alteraciones somáticas detectadas mediante métodos estadísticos. Se observó que distintas clases de subtipos fragmentómicos (p. ej., subtipos con perfiles diferenciales de fragmentomas revelados por observación visual, agrupamiento u otros enfoques) estaban significativamente enriquecidos en muestras con alteraciones del controlador y subtipos moleculares genómicos bien caracterizados. Se interrogó una cohorte independiente de muestras con estado inmunohistoquímico de HER2 conocido para confirmar la asociación descubierta entre los patrones de posicionamiento del ADNlc y las amplificaciones de HER2.
[0213]En general, el perfil del fragmentoma reveló una firma de amplificación de ERBB2 (p. ej., HER2) que se asoció significativamente con el estado inmunohistoquímico (IHC) de HER2 de los tumores, lo que resultó en un aumento del 42 % en la sensibilidad de la detección de la amplificación de HER2 y un aumento del 7 % en la especificidad de HER2. detección de amplificación. Los subtipos fragmentómicos de adenocarcinoma de pulmón observados coexistieron con alteraciones genómicas mutuamente excluyentes y subtipos moleculares intrínsecos de cáncer de pulmón descritos previamente. En conjunto, estos resultados sugieren que el análisis integrador de los paisajes de fragmentación del ADNlc puede ayudar a un mayor desarrollo de biomarcadores basados en ADNlc para una variedad de condiciones humanas. Por lo tanto, el perfil de fragmentoma puede permitir la clasificación del ADNlc del cáncer y puede proporcionar evidencia independiente de la variación somática observada y el microambiente tumoral subyacente, lo que conduce a una mayor sensibilidad y precisión en la detección de variantes. Esto sugiere un camino hacia la detección integrada de clases clínicamente relevantes con patogénesis distinta de subtipos de cáncer y selección de terapia.
Ejemplo 2: Los patrones de fragmentación del ADN libre de células (perfil de fragmentoma o análisis "fragmentómico") revelan cambios asociados con mutaciones somáticas asociadas a tumores
[0214]El ADN libre de células (ADNlc) aislado del plasma sanguíneo circulante comprende fragmentos de ADN que sobreviven a la eliminación de las células moribundas y al tráfico en el torrente sanguíneo. En el cáncer, estos fragmentos llevan una huella de variación somática del tumor, así como su microambiente, lo que permite la genotipificación de tumores no invasiva basada en plasma en la práctica clínica. Sin embargo, la fracción de ADN derivado del cáncer suele ser baja, lo que dificulta la detección precisa en las primeras etapas e impulsa la búsqueda de patrones libres de variantes somáticas ortogonales asociados con el estado canceroso. Debido a que se ha demostrado que la distribución genómica de los fragmentos de ADNlc refleja la ocupación nucleosomal en las células hematopoyéticas, se realizó un experimento (a) para observar patrones heterogéneos de posicionamiento del ADNlc en el cáncer en asociación con distintas mutaciones en los tumores de los pacientes y (b) para integrar el posicionamiento del ADNlc en los enfoques de análisis existentes pueden permitir una mayor sensibilidad y especificidad de detección.
[0215]Las distribuciones de la longitud y posición de los fragmentos de ADNlc y los perfiles genómicos somáticos asociados de más de 15.000 pacientes con cáncer clínico en estadio avanzado se determinaron mediante una prueba NGS de ADNct de alta precisión y cobertura profunda (>15.000X) dirigida a 70 genes. Se realizó un análisis integrador del perfil de fragmentoma libre de variantes (análisis "fragmentómica") y se probó la asociación del perfil de fragmentoma con las alteraciones somáticas detectadas utilizando métodos estadísticos. Se observó que distintas clases de subtipos fragmentómicos (p. ej., subtipos con perfiles diferenciales de fragmentomas revelados por observación visual, agrupamiento u otros enfoques) estaban significativamente enriquecidos en muestras con alteraciones del controlador y subtipos moleculares genómicos bien caracterizados.
[0216]Utilizando la deconvolución de señales de los patrones de fragmentación del ADNlc, se produjo un patrón de fragmentación de resolución de un solo nucleosoma en todos los tipos de tumores, como se observa para el gen EGFR en laFIG. 23.Como se observa en la parte a, existen múltiples regiones genómicas del gen EGFR que pueden contener marcadores asociados a tumores para la detección del cáncer (p. ej., que pueden analizarse mediante una biopsia líquida). Como se ve en la parte b, el análisis de "fragmentación sin secuencia" revela variantes en regiones genómicas del gen EGFR, incluidas variantes benignas, no somáticas y somáticas. Como se ve en la parte c, dichas variantes de ADN de EGFR pueden comprender mutaciones (SNV) y amplificaciones (por ejemplo, CNV). Como se ve en la parte d, una carga de mutación total se indica a partir de la detección de variantes que incluyen SNV y CNV mediante análisis de fragmentomas.
[0217]Se interrogó a una cohorte independiente de muestras de una cohorte de validación de 768 pacientes con adenocarcinoma de pulmón en etapa tardía (etapa avanzada) para evaluar los perfiles fragmentómicos y confirmar la asociación descubierta entre los patrones de posicionamiento del ADNlc y las características de los nucleosomas específicas del cáncer de pulmón. La selección de características de redundancia mínima (por ejemplo, como se describe en Ding et al., J Bioinform Comput Biol 2005 Abril; 3(2): 185-205) se realizó en los perfiles de fragmentomas generados de la cohorte de validación de pacientes con adenocarcinoma de pulmón en etapa tardía. Este análisis de agrupamiento no supervisado identificó un subconjunto de características específicas del cáncer de pulmón (incluidas mutaciones somáticas asociadas con los genes Eg FR, KRAS, FGFR2, ALK, EML4, TSC1, RAF1, BRCA2 y KIT), como se muestra en laFIG. 24.Cada fila (eje y) indica una de las 768 muestras de ADNlc extraídas de un paciente, y cada columna (eje x) indica una posición genómica diferente correspondiente a diferentes genes. En particular, el patrón de fragmentoma reveló grupos significativos de mutaciones somáticas en EGFR, KRAS y FGFR2 (comúnmente observadas entre pacientes con adenocarcinoma de pulmón y otros tipos de cáncer de pulmón, por ejemplo, mediante análisis de genotipado). Por lo tanto, el análisis del perfil del fragmentoma confirmó las asociaciones descubiertas entre los patrones de posicionamiento del ADN libre (fragmentómica) y las características del nucleosoma específicas del cáncer de pulmón.
Ejemplo 3: Los patrones de fragmentación de ADN libre de células (perfil de fragmentoma o análisis "fragmentómico") se pueden modelar como una densidad para la detección de anomalías.
[0218]Un perfil de fragmentoma se puede modelar en un espacio de coordenadas 3D como una densidad de inicios y longitudes de fragmentos observados asociados con condiciones específicas (por ejemplo, maligno o no maligno, con una condición maligna que representa un caso anómalo). Dichos perfiles de fragmentomas se pueden obtener utilizando una variedad de métodos de ensayo, como la reacción en cadena de la polimerasa con gotitas digitales (ddPCR), la reacción en cadena de la polimerasa cuantitativa (qPCR) y la hibridación genómica comparativa basada en matrices (CGH). Dichos ensayos de "biopsia líquida" pueden estar disponibles comercialmente, tales como, por ejemplo, una prueba de ADN de tumores circulantes de Guardant Health, un panel de oncología Spotlight 59 de Fluxion Biosciences, un panel de cáncer de pulmón UltraSEEK de Agena Bioscience, un ensayo de biopsia líquida FoundationACT de Foundation Medicine y un ensayo PlasmaSELECT de Personal Genome Diagnostics. Dichos ensayos pueden informar mediciones de valores de fracción de alelo menor (FAM) para cada uno de un conjunto de variantes genéticas (por ejemplo, SNV, CNV, indeles y/o fusiones).
[0219]Los perfiles de fragmentomas pueden someterse a análisis mediante un algoritmo de detección de anomalías para identificar condiciones anormales (por ejemplo, cáncer maligno en un sujeto). La detección de anomalías se usa ampliamente en la minería de datos y se puede realizar con el uso de modelos mixtos y el algoritmo de maximización de expectativas (ME). La detección de anomalías puede comprender el modelado de mezclas, una técnica de agrupamiento probabilístico común en la que una distribución de inicios y longitudes de fragmentos se puede describir formalmente como un modelo de mezcla de componentesK(que representanKconfiguraciones de cromatina diferentes), como se muestra en laFIG. 25.
[0220]Según el modelo anterior, se puede procesar una posición inicial de ADNIc ("inicio") y una señal de longitud (por ejemplo, el inicio y la longitud de cada uno de una pluralidad de fragmentos de ADNlc) para definir una frontera que delimita un contorno de una distribución de células no malignas. observaciones de un subconjunto de fragmentos de ADN asociados con una unidad de cromatina particular (p. ej., aquellos que han sobrevivido a la muerte celular y la eliminación celular). Si dentro de dicho subespacio delimitado por fronteras se realizan más observaciones, se considera que estos puntos de observación proceden de la misma población no maligna que las observaciones iniciales. De lo contrario, otras observaciones que se encuentren fuera de la frontera pueden ser indicativas de un estado celular anormal (p. ej., originado en una población maligna). Esta indicación de anormalidad puede determinarse con un nivel de confianza determinado. Se pueden utilizar varias técnicas de análisis de datos para aplicar modelos mixtos a subpoblaciones agrupadas en un conjunto heterogéneo de observaciones, entre ellas: The One-Class SVM [Estimación del soporte de una distribución de alta dimensión Scholkopf, Bernhard, et al. Neural Computation 13.7 (2001): 1443-1471.], Ajuste de una envoltura elíptica [Rousseeuw, PJ, Van Driessen, K. "A fast algoritmo for the minimal covariance determinante estimator" Technometrics 41(3), 212 (1999)], y Bosque de Aislamiento [Liu, Fei Tony, Ting, Kai Ming and Zhou, Zhi-Hua. "Isolation forest." Data Mining, 2008. ICD<m>'08. Eighth IEEE International Conference on.], cada una de las cuales se incorpora aquí como referencia.
[0221]Se puede aplicar un método para ajustar envolventes elípticas a la mezcla normal bivariada definida anteriormente (y mostrada en laFIG. 25). La primera operación consiste en establecer una línea de contorno asociada a fragmentos procedentes de la misma unidad de ADN protegida por histonas. Esta derivación de isolíneas en una normal multivariada se describe a continuación y establece la línea de contorno como un elipsoide. Dado un conjunto de muestras de plasma de control no maligno, el espacio genómico se puede subdividir en segmentos no superpuestos, segmentos que definen grupos de ADN protegido observados en una población de fragmentos de ADN libre. A continuación, se construye un modelo de distribución t bivariado normal o bivariado P(x) para obtener una probabilidad de que un fragmento particular provenga de una célula no maligna. Si la probabilidad p está por debajo de un umbral £, entonces dicho fragmento se considera ser anómalo. La suma de las densidades de fragmentos anómalos en todos los segmentos genómicos (con la debida atención a los cromosomas X e Y) da como resultado una medida cuantitativa de la carga de malignidad (p. ej., carga tumoral) que representa una fracción de los fragmentos de ADNlc que se originaron fuera de configuraciones de cromatina no malignas (es decir,, fragmentos de ADNlc que son de origen anómalo). Si un conjunto de entrenamiento comprende un conjunto fisiológicamente diverso de muestras de ADNlc obtenidas de una pluralidad de controles no malignos (por ejemplo, sujetos de control sanos), entonces cualquier contribución maligna detectada (por ejemplo, anomalía detectada) puede ser indicativa de un origen de cáncer. Tal determinación de carga maligna se puede realizar ajustando envolturas elípticas a la mezcla normal bivariada (como se muestra en laFIG. 26A), de modo que:
( x - H ) rS - , ( x -M ) = C
donde I es la matriz de covarianza. Esta ecuación representa una elipse. En un caso simple, en el que p = (0,0) y I es diagonal, se obtiene la siguiente ecuación:
[0222]En el caso de que I no es diagonal, se puede realizar una diagonalización para llegar al mismo resultado. Las técnicas de diagonalización se describen, por ejemplo, en [Hyndman, RJ (1996). Computing and graphing highest density regions. The American Statistician, 50(2), 120-126.], que se incorpora al presente documento como referencia.
[0223]Se realizaron los siguientes algoritmos para entrenar y probar el modelo de mezcla normal bivariado utilizando poblaciones de ADNlc de muestras de referencia (p. ej., controles sanos).
[0224]En primer lugar, el entrenamiento se realizó utilizando un conjunto de datos que comprendía 40 muestras de plasma de adultos no malignos. Para cada cromosoma humano, se ignoró la longitud del fragmento y se calculó una estimación de la densidad del núcleo utilizando la función de "densidad" en el paquete de software estadístico R. El algoritmo (1) dispersa la masa de la función de distribución empírica en una cuadrícula regular de al menos 5000 puntos, luego (2) usa una transformada rápida de Fourier para convolucionar esta aproximación con una versión discretizada del núcleo, y luego (3) usa una aproximación lineal para evaluar la densidad en los puntos especificados. El método de estimación de la densidad del grano se describe, por ejemplo, en [Venables, W. N. y Ripley, B. D. (2002) Modern Applied Statistics with S. New York: Springer.], que se incorpora en el presente documento como referencia.
[0225]A continuación, se establecieron valles en la densidad calculada, con el fin de establecer límites de las unidades de protección de la cromatina. Un valle se define como el valor más bajo de una serie donde se ha producido un cambio de dirección. A continuación, para cada segmento definido, se calculó una estimación de la densidad del núcleo agrupada en 2D usando el paquete KernSmooth en el paquete de software estadístico R. El algoritmo KernSmooth se describe, por ejemplo, en [Wand, MP (1994). Fast Computation of Multivariate Kernel Estimators. Journal of Computational and Graphical Statistics, 3, 433-445.], que se incorpora aquí como referencia. A continuación, se produjo un conjunto de puntos de cuadrícula en cada dirección de coordenadas (con la posición genómica como eje x y la longitud del fragmento como eje y). A continuación, se calculó la matriz de estimaciones de densidad sobre la malla inducida por los puntos de la cuadrícula.
[0226]El kernel utilizado fue la densidad normal bivariada estándar. Para cada par (x 1, x 2) en la cuadrícula predefinida, el núcleo gaussiano bivariado se centra en esa ubicación y se suman las alturas del núcleo, escaladas por los anchos de banda, en cada punto de datos. La cuadrícula se puede definir tan escasamente como sea necesario (por ejemplo, cada 3 pb, 5 pb, etc.). Se utilizó un tamaño de cuadrícula de 15 pb para ambas direcciones para minimizar el uso de memoria. Los anchos de banda se refieren a los parámetros de suavizado del ancho de banda del kernel, donde valores mayores de ancho de banda generan estimaciones más suaves y valores más pequeños de ancho de banda generan estimaciones menos uniformes. Se realizó un ajuste heurístico, con un ancho de banda de 30 pb, examinando el rendimiento de diferentes anchos de banda en una región 12p11.1. que contiene más de 400 perfiles nucleosomales fuertemente posicionados (es decir, aquellos perfiles que preservan la misma estructura nucleosomal en múltiples tejidos, linajes celulares y organismos). Dichos perfiles nucleosomales fuertemente posicionados se describen, por ejemplo, en Gaffney, D.J. et al. Controls of nucleosome positioning in the human genome. PLoS Genet. 8, e1003036 (2012)], que se incorpora aquí como referencia. Alternativamente, se puede utilizar la estimación formal del ancho de banda (disponible en la URL www.ssc.wisc.edu/~bhansen/718/NonParametrics1.pdf) para minimizar el error cuadrático integrado medio.
[0227]A continuación, utilizando la media y la covarianza estimadas, se estableció una envolvente elíptica del 99,995 % utilizando la biblioteca mvtnorm en el paquete de software estadístico R. El algoritmo comprende invertir la matriz de varianza-covarianza utilizando la función solve(), y la métrica de altura se calculó como el negativo del logaritmo de la densidad normal bivariada usando la función elipse(). Se pueden usar otros valores de envolventes elípticas, tales como, por ejemplo, al menos 60 %, al menos 65 %, al menos 70 %, al menos 75 %, al menos 80 %, al menos 85 %, al menos 90 %, al menos el 95 %, al menos el 96 %), al menos el 97 %, al menos el 98 %, al menos el 99 %, al menos el 99,9 %, al menos el 99,99 %), al menos el 99,999 % o al menos el 99,9995 %.
[0228]Las operaciones de entrenamiento descritas anteriormente han establecido regiones en la posición inicial de fragmento 3D y el espacio de longitud que representó grupos no malignos con un 99,995 % de confianza. A continuación, se realizó la prueba del modelo bivariado de mezcla normal utilizando un conjunto de datos que comprendía muestras de ADNlc obtenidas de cohortes de pacientes con cáncer de pulmón y colon, donde las muestras de ADNlc se derivaron de extracciones de sangre previas y posteriores a la resección. De manera similar al entrenamiento, la parte de prueba del algoritmo comprendía el cálculo de estimaciones de densidad del núcleo 2D. A continuación, se calculó la carga maligna (carga maligna, carga tumoral o carga tumoral) como una suma ponderada de densidades fuera de las envolturas elípticas no malignas. Los pesos se establecieron como el inverso de las estimaciones de densidad del núcleo 2D para el conjunto de entrenamiento no maligno.
[0229] FIG. 26Bmuestra un ejemplo de distribuciones de puntuaciones de desregulación generadas por análisis de fragmentomas de muestras de ADNlc en 5 cohortes diferentes (cáncer colorrectal postoperatorio, cáncer colorrectal preoperatorio, cáncer de pulmón postoperatorio, cáncer de pulmón preoperatorio y normal), usando el modelo bivariado de mezcla normal descrito anteriormente. "Postoperatorio" se refiere a sujetos cuyo ADNlc se analizó a partir de extracciones de sangre realizadas después de una operación de resección quirúrgica. "Preoperatorio" se refiere a sujetos cuyo ADNlc se analizó a partir de extracciones de sangre realizadas antes de una operación de resección quirúrgica. Tenga en cuenta que las puntuaciones de desregulación (y, por tanto, la carga maligna) de las cohortes postoperatorias de cáncer colorrectal y postoperatorias de cáncer de pulmón tuvieron valores más bajos y fueron similares a las de la cohorte normal (p. ej., sana). Por el contrario, las puntuaciones de desregulación (y, por tanto, la carga maligna) de las cohortes preoperatorias de cáncer colorrectal y preoperatorias de cáncer de pulmón tuvieron valores significativamente más altos que los de la cohorte normal (p. ej., sana). Además, las puntuaciones de desregulación (y, por tanto, la carga maligna) de las cohortes preoperatorias de cáncer colorrectal y preoperatorias de cáncer de pulmón tuvieron una variación significativamente mayor dentro de estas cohortes en comparación con las otras tres (cáncer colorrectal posoperatorio, cáncer de pulmón posoperatorio, y sujetos normales).
Ejemplo 4: Los patrones de fragmentación del ADN libre de células (perfil de fragmentoma o análisis "fragmentómico") revelan cambios asociados con la variación del número de copias (CNV) asociada al tumor
[0230]El ADN libre de células (ADNlc) aislado del plasma sanguíneo circulante comprende fragmentos de ADN que sobreviven a la eliminación de las células moribundas y al tráfico en el torrente sanguíneo. En el cáncer, estos fragmentos conllevan una huella de variación en el número de copias del tumor, así como su microambiente, lo que permite la genotipificación de tumores no invasiva basada en plasma en la práctica clínica. Sin embargo, la fracción de ADN derivado del cáncer suele ser baja, lo que dificulta la detección precisa en las primeras etapas y provoca la búsqueda de patrones libres de variantes en el número de copias ortogonales asociados con el estado canceroso. Debido a que se ha demostrado que la distribución genómica de los fragmentos de ADNlc refleja la ocupación nucleosomal en las células hematopoyéticas, se realizó un experimento (a) para observar patrones heterogéneos de posicionamiento del ADNlc en el cáncer en asociación con distintas CNV en tumores de pacientes y (b) para integrar el posicionamiento del ADNlc en análisis existente. Estos enfoques pueden permitir una mayor sensibilidad y especificidad de detección.
[0231]La dinámica del nucleosoma de ERBB2 se estudió mediante la realización de un ensayo de biopsia líquida para medir los FAM para los exomas específicos de última etapa. Se utilizó un modelo multiparamétrico que comprende un mapa de calor 2D del tamaño del fragmento de ADN versus la posición inicial del fragmento de ADN (por ejemplo, con la cobertura del fragmento de ADN como tercera dimensión) para derivar una aproximación agrupada a la estimación ordinaria de la densidad del núcleo de los recuentos de fragmentos por posición inicial. mediante agrupación lineal, convoluciones discretas mediante FFT y ajuste de kernel gaussiano bivariado, cuyos resultados se muestran en laFIG.
27A.
[0232] FIG. 27Ailustra un ejemplo de un modelo multiparamétrico que comprende el tamaño del fragmento (por ejemplo, longitud del fragmento) (eje y) y la posición genómica (eje x) de un sujeto en una región de un genoma asociado con el gen TP53, exón número 7 (con el recuento de fragmentos en el eje z indicado por el sombreado de color). Este modelo multiparamétrico se puede utilizar para visualizar los efectos del posicionamiento de nucleosomas libres de células. Del modelo multiparamétrico (en este caso, un mapa de calor) correspondiente a un sujeto con un tumor, se pueden observar dos picos, que están separados por aproximadamente 180 posiciones base (por ejemplo, a lo largo del eje horizontal correspondiente a la posición). Además, se pueden observar tres picos correspondientes a la protección mononucleosomal (por ejemplo, correspondientes a un tamaño de fragmento en un intervalo de aproximadamente 160 a aproximadamente 180 posiciones de bases (pb)). Además, se pueden observar tres picos correspondientes a la protección dinucleosomal (por ejemplo, correspondientes a un tamaño de fragmento en un intervalo de aproximadamente 320 a aproximadamente 340 posiciones de bases (pb)). Cada uno de estos picos puede comprender una posición (por ejemplo, en el centro del pico a lo largo del eje horizontal), un tamaño de fragmento (por ejemplo, en el centro del pico a lo largo del eje vertical) y una anchura de pico (por ejemplo, a lo largo de uno de los ejes).
[0233]Ambos elementos reguladores (p. ej., las regiones promotoras y potenciadoras asociadas con el gen ERBB2) se examinaron mediante análisis del genoma completo en una cohorte de 20 pacientes con cáncer de mama en etapa tardía ERBB2 negativo y ERBB2 positivo. Dichos estudios revelaron una cobertura de fragmentos suficiente con la estructura de cromatina anticipada del aclaramiento nucleosomal en casos positivos para ERBB2, así como una presencia de grupos dinucleosomales asociados con la expresión, como se muestra en lasFlG. 27By27C.
[0234] FIG. 27Bmuestra mapas de calor de densidad de posición inicial de fragmento (eje x) y longitud de fragmento (eje y) 2D de una región promotora de ERBB2 en cuatro cohortes agregadas de cáncer de mama en etapa tardía de 20 muestras (como se muestra de arriba a abajo): (i) una cohorte que comprende una carga de mutación baja y un número de copias (NC) de ERBB2 casi diploide, (ii) una cohorte que comprende una carga de mutación alta y un número de copias (NC) de ERBB2 casi diploide, (iii) una cohorte que comprende una carga de mutación baja y un número de copias (NC) de ERBB2 alto (por ejemplo, mayor que aproximadamente 4), y (iv) una cohorte que comprende una alta carga de mutación y un alto número de copias (NC) de ERBB2 (por ejemplo, mayor que aproximadamente 4).
[0235]La cohorte que comprende una carga de mutación baja y un número de copias (NC) de ERBB2 casi diploide representa a sujetos que probablemente tienen una carga tumoral baja y una CNV baja en el gen ERBB2 del tumor. La cohorte que comprende una alta carga de mutaciones y un número de copias (NC) de ERBB2 casi diploide representa a sujetos que probablemente tienen una carga tumoral alta pero una CNV baja en el gen ERBB2 del tumor. Como se ve en los mapas de calor en las dos filas superiores de laFIG. 27B,los sujetos con CNV baja en el gen ERBB2 en el tumor exhibieron perfiles de fragmentoma similares en los casos tanto con carga de mutación baja como con carga de mutación alta.
[0236]La cohorte que comprende una carga de mutación baja y un número de copias (NC) de ERBB2 alto (por ejemplo, mayor que aproximadamente 4) representa sujetos que probablemente tienen una carga tumoral baja, pero tienen una CNV alta en el gen ERBB2 en el tumor. La cohorte que comprende una alta carga de mutaciones y un alto número de copias (NC) de ERBB2 (por ejemplo, mayor que aproximadamente 4) representa sujetos que probablemente tienen una alta carga tumoral y tienen una c Nv alta en el gen ERBB2 en el tumor. Como se ve en los mapas de calor en las dos filas inferiores de laFIG. 27B,los sujetos con CNV alta en el gen ERBB2 en el tumor exhibieron perfiles de fragmentoma similares en los casos de carga de mutación baja y alta. Además, los sujetos con CNV alta en el gen ERBB2 exhibieron perfiles de fragmentomas con (i) la aparición de más picos dinucleosomales (ubicados en la parte superior del mapa de calor de cada fila a lo largo del eje vertical correspondiente a la longitud del fragmento) y (ii) una mayor distancia entre dos picos y "manchado" (por ejemplo, picos menos pronunciados, que tienen anchos mayores y por lo tanto comienzan a fusionarse) de otros picos.
[0237] FIG. 27Cmuestra mapas de calor de densidad de posición inicial de fragmento (eje x) y longitud de fragmento (eje y) 2D de una región potenciadora de ERBB2 en cuatro cohortes agregadas de cáncer de mama en etapa tardía de 20 muestras (como se muestra de arriba a abajo): (i) una cohorte que comprende una carga de mutación baja y un número de copias (NC) de ERBB2 casi diploide, (ii) una cohorte que comprende una carga de mutación alta y un número de copias (NC) de ERBB2 casi diploide, (iii) una cohorte que comprende una carga de mutación baja y un número de copias (NC) de ERBB2 alto (por ejemplo, mayor que aproximadamente 4), y (iv) una cohorte que comprende una alta carga de mutación y un alto número de copias (NC) de ERBB2 (por ejemplo, mayor que aproximadamente 4).
[0238]La cohorte que comprende una carga de mutación baja y un número de copias (NC) de ERBB2 casi diploide representa a sujetos que probablemente tienen una carga tumoral baja y una CNV baja en el gen ERBB2 del tumor. La cohorte que comprende una alta carga de mutaciones y un número de copias (NC) de ERBB2 casi diploide representa a sujetos que probablemente tienen una carga tumoral alta pero una CNV baja en el gen ERBB2 del tumor. Como se ve en los mapas de calor en las dos filas superiores de laFIG. 27C,los sujetos con CNV baja en el gen ERBB2 en el tumor exhibieron perfiles de fragmentoma similares en los casos de carga de mutación baja y alta.
[0239]La cohorte que comprende una carga de mutación baja y un número de copias (NC) de ERBB2 alto (por ejemplo, mayor que aproximadamente 4) representa sujetos que probablemente tienen una carga tumoral baja, pero tienen una CNV alta en el gen ERBB2 en el tumor. La cohorte que comprende una alta carga de mutaciones y un alto número de copias (NC) de ERBB2 (por ejemplo, mayor que aproximadamente 4) representa sujetos que probablemente tienen una alta carga tumoral y tienen una c Nv alta en el gen ERBB2 en el tumor. Como se ve en los mapas de calor en las dos filas inferiores de laFlG. 27C,los sujetos con CNV alta en el gen ERBB2 en el tumor exhibieron perfiles de fragmentoma similares en los casos de carga de mutación baja y alta. Además, los sujetos con CNV alta en el gen ERBB2 exhibieron perfiles de fragmentomas con la aparición de más picos dinucleosomales (ubicados en la parte superior del mapa de calor de cada fila a lo largo del eje vertical correspondiente a la longitud del fragmento).
[0240]El análisis de fragmentomas de muestras de sujetos individuales confirmó la viabilidad de la detección de la estructura de la cromatina usando un ensayo dirigido tal como un ensayo de biopsia líquida, como se muestra en lasFIG.
28Ay28B.
[0241] FIG. 28Amuestra mapas de calor de densidad de posición inicial de fragmento 2D alineados (eje x) y longitud de fragmento (eje y) (lado derecho; como se muestra de arriba a abajo): (i) un mapa de calor de una región potenciadora de ERBB2 (arriba a la derecha), generado a partir de una única muestra (de un sujeto positivo para ERBB2), (ii) un mapa de calor de cohorte agregado generado a partir de una pluralidad de controles sanos, y (iii) un mapa de calor de cohorte agregado generado a partir de una pluralidad de NC de ERBB2 alto/mutación baja sujetos de carga. Además, se muestra un gráfico de cobertura de recuentos de mononucleosomas y dinucleosomas (p. ej., número de fragmentos contados en la muestra de prueba que comienzan en esa posición genómica) en 4 regiones genómicas diferentes (p. ej., correspondientes a los genes TP53, NF1, ERBB2 y BRCA1) (lado izquierdo). La muestra de prueba exhibe un perfil de fragmentoma (derecha) que es más similar al de la cohorte con alto NC de ERBB2 y baja carga de mutación (p. ej., con la aparición de picos de fragmentos dinucleosomales o "picos dinucleosomales") que la cohorte de controles sanos. Además, la muestra de prueba muestra un gráfico de cobertura (izquierda) de recuentos mononucleosomales y dinucleosomales que están significativamente elevados en la región del gen ERBB2 (p. ej., varias veces) en comparación con los otros 3 genes (TP53, NF1 y BRCA1). Por lo tanto, el perfil del fragmentoma y el gráfico de cobertura de la muestra de prueba indican y confirman que el sujeto de prueba probablemente sea positivo para ERBB2. Al realizar un perfil de fragmentoma, se midió y obtuvo la presencia de una aberración genética N<c>en el gen ERBB2 sin tener en cuenta la identidad de bases de cada posición de base en un locus del gen ERBB2.
[0242] FIG. 28Bmuestra mapas de calor de densidad de posición de inicio de fragmento 2D alineados (eje x) y longitud de fragmento (eje y) (como se muestra de arriba a abajo): (i) un mapa de calor de una región potenciadora de ERBB2 (arriba a la derecha), generado a partir de una sola muestra (de un sujeto negativo para ERBB2), (ii) un mapa de calor de cohorte agregado generado a partir de una pluralidad de controles sanos, y (iii) un mapa de calor de cohorte agregado generado a partir de una pluralidad de sujetos con alta carga de mutación baja y NC de ERBB2. Además, se muestra un gráfico de cobertura de recuentos de mononucleosomas y dinucleosomas (p. ej., número de fragmentos contados en la muestra de prueba que comienzan en esa posición genómica) en 4 regiones genómicas diferentes (p. ej., correspondientes a TP53, NF1, genes ERBB2 y BRCA1). La muestra de prueba exhibe un perfil de fragmentoma (derecha) que es más similar al de la cohorte de controles sanos (p. ej., con ausencia de picos de fragmentos dinucleosomales o "picos dinucleosomales") que la cohorte con NC de ERBB2 alto y carga de mutación baja. Además, la muestra de prueba muestra un gráfico de cobertura (izquierda) de recuentos mononucleosomales y dinucleosomales que no están elevados en la región del gen ERBB2 en comparación con los otros 3 genes (TP53, NF 1 y BRCA1). Por lo tanto, el perfil del fragmentoma y el gráfico de cobertura de la muestra de prueba indican y confirman que el sujeto de prueba probablemente sea negativo para ERBB2. Al realizar el perfil de fragmentoma, se midió y obtuvo la ausencia de una aberración genética NC en el gen ERBB2 sin tener en cuenta la identidad de bases de cada posición de base en un locus del gen ERBB2.
[0243]En un aspecto, en el presente documento se divulga un método para generar un resultado indicativo de la presencia o ausencia de una aberración genética en fragmentos de ácido desoxirribonucleico (ADN) de una muestra libre de células (o ADN libre de células) obtenida de un sujeto. El método puede comprender la identificación de uno o más picos a partir de un perfil de fragmentoma (por ejemplo, un gráfico de mapa de calor 2D). Dicha identificación puede comprender construir una distribución de los fragmentos de ADN de la muestra libre de células (o ADN libre de células) sobre una pluralidad de posiciones de bases en un genoma. A continuación, se pueden identificar uno o más picos en una o más posiciones de bases de la pluralidad de posiciones de bases en la distribución de los fragmentos de ADN. Cada uno de dichos picos puede comprender un valor de pico y una anchura de distribución de pico. A continuación, se puede determinar la presencia o ausencia de la aberración genética en el sujeto. Tal determinación puede basarse al menos en (i) una o más posiciones base, (ii) el valor de pico y/o (iii) el ancho de distribución de pico. En algunas formas de realización, uno o más picos comprenden un pico dinucleosomal y/o un pico mononucleosomal.
[0244]En algunas formas de realización, la salida indicativa de una presencia o ausencia de la aberración genética se determina basándose al menos en una medida cuantitativa indicativa de una relación de un primer valor de pico asociado con el pico dinucleosomal y un segundo valor de pico asociado con el pico mononucleosomal. o viceversa. Por ejemplo, se puede usar una relación de un valor de pico dinucleosomal (y/o ancho de distribución de pico ("ancho de pico")) a un valor de pico mononucleosomal (y/o ancho de pico) para indicar si un perfil de fragmentoma de una muestra de prueba puede usarse. ser un patrón coincidente con un perfil de fragmentoma (que tiene ubicaciones de pico, valores de pico y/o anchos de pico similares) de uno o más sujetos (o cohortes) de control sanos y/o uno o más sujetos (o cohortes) enfermos.
[0245]Una vez que se genera una distribución multiparamétrica (por ejemplo, un gráfico de densidad 2D o un mapa de calor), se puede estimar una densidad multimodal; sin embargo, dicha estimación puede resultar difícil incluso en una dimensión. Para un modelo unimodal, la forma de la densidad puede describirse mediante parámetros (por ejemplo, asimetría y curtosis) que pueden generarse utilizando métodos bien conocidos de análisis de distribución multivariante. Para un modelo multimodal, se puede realizar un análisis de densidad multimodal (por ejemplo, de parámetros tales como posiciones de inicio de fragmentos ("inicio de fragmento")) para determinar una serie de modos y una ubicación de cada uno de dichos modos, ya que los modos son una característica dominante que imita la epigenética. La expresión génica del análisis de cap (CAGE) alcanza picos de marcas de cromatina y puede ser potencialmente sintomático de la organización subyacente de la cromatina.
[0246]Un análisis de densidad multimodal puede comprender el uso de un modelo mixto, que proporciona una descomposición de la población muestreada en un conjunto de componentes homogéneos de una manera que sea consistente con la configuración de densidad multimodal. Se pueden utilizar varios métodos y enfoques para determinar el comportamiento modal de mezclas normales multivariadas, por ejemplo, algoritmos de aprendizaje automático. Como ejemplo, se pueden realizar algoritmos de procesamiento de imágenes y segmentación de imágenes, tales como una transformación de cuenca hidrográfica adecuada para un mapa topográfico, en una distribución multiparamétrica (por ejemplo, un fragmentoma de densidades 2D). Dichos enfoques de transformación de cuencas hidrográficas pueden representar el perfil del fragmentoma de manera que el brillo de cada punto represente su altura, por lo que el análisis de densidad multimodal puede comprender determinar una o más líneas que corren a lo largo de las cimas de las crestas de dichas parcelas de cuencas hidrográficas. Utilizando dichos enfoques de transformación, se analizaron perfiles de fragmentomas para mapear la arquitectura nucleosomal canónica mediante modelado topográfico de mezclas normales bivariadas, como se muestra en laFIG. 29A.
[0247] FIG. 29Amuestra un mapeo de nucleosomas 2D para los dominios exónicos de ERBB2 y NF1 (sin amplificación). Tal mapeo de nucleosoma se puede obtener, por ejemplo, realizando una reconstrucción de la línea de crestas de un perfil de fragmentoma asociado con la región promotora ERBB2 y un gen adyacente NF1 en el cromosoma 17. En este proceso, se ajustaron máscaras de nucleosoma al perfil de fragmentoma.
[0248]En este documento, la señal representa los contornos de los límites nucleosomales y la variación de las densidades en dichos contornos. En la parte inferior de la figura, se muestra una estimación de densidad 2D y el procesamiento de imágenes. En la parte superior de la figura, una máscara nucleosomal para un dominio canónico observado en 30 casos clínicos de ERBB2 casi diploide (p. ej., sujetos cuyos ensayos de biopsia líquida informaron valores de FAM indicativos de CNV baja o nula). Se examinaron sujetos sanos y se los sometió a perfiles de fragmentomas, y se determinaron los contornos donde se espera que estén presentes los nucleosomas. Dicho análisis comprendió el uso de señales delta, en el que cada señal delta comprende una diferencia entre la distribución de los fragmentos de ADN (por ejemplo, de una muestra de prueba) y una distribución de referencia (por ejemplo, una distribución canónica de controles sanos). Se construyó una máscara basada en controles sanos y esta máscara se aplicó a la muestra de prueba. El gráfico resultante indica que esta muestra de prueba tiene un perfil de fragmentoma que es bastante similar al de la cohorte de controles sanos.
[0249]A continuación, se aplicó el enfoque de enmascaramiento de nucleosomas a todo un dominio objetivo del cromosoma 17 (chr17) y se extendió a una cohorte clínica más grande de 7000 muestras que se analizaron mediante un ensayo de biopsia líquida, muestras que representaban a pacientes con cáncer avanzado en 4 tipos de tejido (próstata, colon, mama y pulmón). Las señales de fragmentoma se desconvolucionaron para producir una máscara nucleosomal canónica de un dominio dirigido a chr17 que incluía los 4 genes de ERBB2, NF1, BRCA1 y TP53.
[0250]A continuación, se utilizaron características específicas de nucleosoma derivadas de un conjunto de entrenamiento del número de copias de ERBB2 casi diploide pan-cáncer para estimar el componente de expresión de ERBB2 y la carga tumoral del cromosoma 17 contrastando las máscaras residuales del gen ERBB2 con las de los genes vecinos en 811 tumores mamarios en etapa avanzada. muestras de carcinoma en las que se analizaron las frecuencias de alelos menores (FAM) asociadas a tumores. Específicamente, la carga tumoral se evaluó como una medición residual iterativa a través del dominio no ERBB2, robustecida frente a eventos de amplificación focal (como se muestra en laFIG.
30)y la medida de expresión de ERBB2 se calculó como estimación de densidad residual en canales dinucleosomales versus mononucleosomales de ERBB2 para la expresión de ERBB2 versus Estimaciones del número de copias (como se muestra en laFIG. 31A)en 811 muestras de cáncer de mama. El número de copias de ERBB2 se determinó como una densidad residual en los mononucleosomas de ERBB2, se corrigió por carga mutacional y se evaluó fuera de los límites de ERBB2.
[0251] FIG. 29Bmuestra un mapeo de nucleosomas 2D para los dominios exónicos de ERBB2 y NF1 (sin amplificación). En la parte inferior de la figura, se muestra una estimación de densidad 2D y el procesamiento de imágenes. En la parte superior de la figura, se muestra una máscara nucleosomal para un dominio canónico observado en 30 casos clínicos de ERBB2. En este proceso, la coincidencia de patrones se realizó mediante una comparación entre la muestra de prueba y el perfil saludable canónico (por ejemplo, realizando deconvolución de señales y reconocimiento de patrones en las señales deconvolucionadas). Se pueden utilizar múltiples enfoques para la comparación y observar diferencias. Por ejemplo, se puede calcular una probabilidad logarítmica para medir una distancia (o señal delta) entre una señal observada y (i) una o una pluralidad de máscaras canónicas (por ejemplo, de controles sanos), (ii) una o una pluralidad de máscaras canónicas (por ejemplo, de controles sanos), (ii) una o una pluralidad de máscaras canónicas (por ejemplo, de controles sanos) perfiles anormales, o (iii) una combinación de ambos. Como otro ejemplo, se puede realizar un algoritmo de procesamiento de imágenes para comparaciones de perfiles de fragmentomas. A continuación, dichas distancias o señales delta pueden compararse para determinar si una muestra de prueba determinada tiene un perfil de fragmentoma que sea indicativo de que es más probable que el sujeto se encuentre en un estado sano o enfermo. Las comparaciones con una pluralidad de distribuciones de referencia (por ejemplo, una o más sanas y una o más enfermas) pueden incorporarse en una única comparación.
[0252] FIG. 30muestra una gráfica de la carga tumoral del cromosoma 17 inferida en 4 cohortes diferentes que previamente habían sido analizadas para determinar el FAM máximo mediante un ensayo de biopsia líquida: (i) una cohorte con un MAP máximo en un rango de (0, 0,5], (ii) una cohorte con un MAP máximo en un rango de (0,5,5], (iii) una cohorte con un FAM máximo en un rango de (5,20], y (iv) una cohorte con un FAM máximo en un rango de (20,100]. La eliminación celular del tumor (p. ej., la tendencia del tumor a arrojar células y ADN libre de células a la circulación) se puede medir calculando una medida cuantitativa del gen NF1 u otro marcador no canceroso. Por ejemplo, dicha medida cuantitativa puede ser una relación entre un número de fragmentos medidos con protección dinucleosomal y un número de fragmentos medidos con protección mononucleosomal. Una distribución de fragmentos de ADN de una muestra libre de células (o ADN libre de células) obtenida de un sujeto (por ejemplo, una distribución multiparamétrica o una distribución uniparamétrica) se puede desconvolucionar en uno o más componentes en un locus genético. Dichos componentes pueden comprender uno, dos, tres números de copias (NC), eliminación celular y expresión génica. La deconvolución puede comprender construir una distribución de una cobertura de los fragmentos de ADN de la muestra libre de células (o ADN libre de células) sobre una pluralidad de posiciones de bases en un genoma. A continuación, la desconvolución puede comprender, para cada uno de uno o más loci genéticos, desconvolucionar la distribución de la cobertura, generando así contribuciones fraccionarias asociadas con un componente de número de copias (NC), un componente de eliminación celular y/o un componente de expresión génica.
[0253] FIG. 31Amuestra una gráfica del componente de expresión de ERBB2 frente al número de copias de ERBB2. Aquí, las mediciones de expresión de ERBB2 (eje y) se calcularon como una estimación de la densidad residual en los canales dinucleosomales versus mononucleosomales de ERBB2 en 811 muestras de cáncer de mama. Se examinó la región promotora de ERBB2 para observar eventos de reorganización de la cromatina asociados con un cambio en el número de copias. Dado que los cambios en el número de copias están relacionados con la expresión, la expresión se puede estimar a partir de señales de fragmentomas. Para una cohorte de sujetos con estado de ERBB2 previamente confirmado como HER2 positivo mediante FISH y/o inmunohistoquímica (IHC), se examinaron los perfiles de fragmentomas en la región promotora de ERBB2 en esta cohorte y se identificó una máscara de expresión positiva de ERBB2. De manera similar, se generó una máscara para una cohorte negativa de ERBB2 (nuevamente, verificada clínicamente mediante FISH y/o IHC) para identificar una máscara para la expresión negativa de ERBB2. Por lo tanto, para una muestra de prueba determinada, el análisis del perfil de fragmentoma asociado (p. ej., como una mezcla de perfiles positivos para ERBB y perfiles negativos para ERBB2) puede revelar una probabilidad (p. ej., una probabilidad logarítmica asociada con la coincidencia de patrones) de coincidir con el perfil positivo para ERBB2 o el patrón de fragmentoma negativo de ERBB2. Para cada sujeto de la cohorte, el número de copias de ERBB2 se midió a partir de los números de cobertura de los perfiles de fragmentomas asociados.
[0254] FIG. 31Bmuestra una gráfica de umbralización 2D usando un conjunto de entrenamiento negativo de ERBB2, que se realiza mediante la construcción de una matriz de varianza-covarianza, invirtiendo la matriz de varianza-covarianza y generando una función de discriminación de elipse. La distribución normal multivariada de la expresión de ERBB2 y el número de copias se parametrizó con un vector medio, m, y una matriz de covarianza, I y se utiliza para producir puntuaciones de discriminación. Este procedimiento se utilizó para probar una muestra de prueba para su inclusión dentro de las elipses creadas por una aproximación normal bivariada a los datos de entrenamiento negativos para ERBB2. Las elipses (como se muestra en laFIG. 31B)fueron determinadas por el primer y segundo momento de los datos. La inversión de la matriz de varianza-covarianza de la distribución normal multivariada de la expresión de ERBB2 y el número de copias produjo una puntuación de discriminación. Esta puntuación de discriminación se calculó como el logaritmo negativo de la densidad normal bivariada.
Tabla 2
[0255]LaTabla 2muestra los resultados resumidos de la detección de amplificación en 58 muestras con estado inmunohistoquímico de HER2 conocido. Estos resultados incluyen resúmenes de sensibilidad y especificidad del conjunto de pruebas independientes de casos de cáncer de mama ERBB2 positivos y ERBB2 negativos, que fueron verificados mediante inmunohistoquímica (IHC) e hibridación fluorescente in situ (FISH). Estos resultados indican que la fragmentómica (análisis de perfiles de fragmentomas) permitió la detección por amplificación de casos de cáncer de mama ERBB2 positivo y ERBB2 negativo con mayor sensibilidad y especificidad en comparación con los enfoques tradicionales de detección de CNV. Dichos enfoques fragmentómicos se pueden realizar en paralelo a los enfoques tradicionales de detección de CNV (por ejemplo, enfoques que tienen en cuenta identidades de bases de posiciones de bases en uno o más loci genéticos) para detectar CNV con mayor sensibilidad y mayor especificidad. Alternativamente, dichos enfoques fragmentómicos se pueden realizar en combinación con enfoques tradicionales de detección de CNV (por ejemplo, enfoques que tienen en cuenta identidades de bases de posiciones de bases en uno o más loci genéticos) para detectar CNV con mayor sensibilidad y mayor especificidad que cualquiera de los métodos por separado.
Ejemplo 5: Los patrones de fragmentación del ADN libre de células (perfil de fragmentoma o análisis "fragmentómico") revelan cambios indicativos de la presencia de tipos de células inmunitarias asociadas con el cáncer.
[0256]Se examinó un conjunto de perfiles de fragmentomas que comprenden distribuciones de inicio de fragmentos para un locus del gen MPL (protooncogén MPL, receptor de trombopoyetina) representado por un único tramo contiguo de chr1: 43814893-43815072 en (i) un conjunto de 2.360 casos malignos en etapa tardía que abarca al menos 6 tejidos diferentes y (ii) 43 sujetos de control sanos en biobancos. Para cada perfil de fragmentoma, una proporción dinucleosomal, definida como una cantidad de fragmentos dinucleosomales observados (que tienen una longitud en el rango de ~240 a -360 pb) dividida por una cantidad de fragmentos mononucleosomales (que tienen una longitud de menos de 240 pb), se calculó en una ventana deslizante de 30 pb. A continuación, se obtuvo un residuo de dicha proporción dinucleosomal para cada perfil de fragmentoma, restando un perfil mediano en sujetos de control sanos. Como se muestra en laFIG. 32A,se generó un gráfico residual, representado por un mapa de calor, con filas correspondientes a muestras y columnas correspondientes a ventanas individuales que abarcan un dominio objetivo de MPL de 180 pb, y con el eje y ordenado aumentando la frecuencia máxima del alelo de mutación (FAM) observado en un ensayo de biopsia líquida.
[0257]Las muestras con FAM elevado (más de aproximadamente el 30 %) (es decir, aquellas de sujetos con la mayor carga tumoral y que, por lo tanto, representan una enfermedad metastásica relativamente avanzada) exhibieron un enriquecimiento del residuo dinucleosomal indicativo de cromatina diferencial de corto alcance (subnucleosomal, menos de ~180 pb). arquitectura en cánceres con alta carga tumoral en comparación con sujetos de control sanos. El examen de la estructura de transcripción ENSEMBL del dominio MPL objetivo reveló un punto de interrupción en la señal de proporción dinucleosomal residual (como se muestra en lasFIGS. 32By32C), que se asoció con la variación de la estructura de la transcripción con enriquecimiento de fragmentos en muestras de cáncer con alta carga tumoral que coincide con el uso de exones truncados. en una transcripción alternativa de MPL. Tal punto de ruptura es indicativo de un evento de corte y empalme alternativo en el gen MPL y representa una señal de fragmentoma subnucleosomal que abarca dos transcritos diferentes, siendo un transcrito la forma truncada de otro. La forma truncada de la transcripción (forma canónica) se muestra en la parte superior, mientras que la forma no canónica de la transcripción se muestra en la parte inferior.
[0258]Un examen más detallado de la asociación del punto de interrupción con el uso de exón alternativo específico de tejido (como se muestra en laFIGS. 32C), revela la identificación de variantes de Mpl transmembrana definitorias, MPLK (completo) y MPLP (truncado). La variante MPLP se detectó en poblaciones de monocitos, linfocitos B y células T, mientras que la expresión de ARNm de MPLK fue baja en monocitos, células B y células T. Observamos un punto de interrupción asociado con el borde de la transcripción más corta, mientras que una pequeña fracción (es decir, una señal más baja) se asocia con la transcripción más larga. La transcripción más larga se observa en poblaciones de tipos de células inmunitarias y puede ser indicativa de la presencia y/o agresividad del cáncer. Estos resultados indican que, en comparación con los sujetos de control normales sanos, los sujetos con una alta carga tumoral llevan una carga adicional de ADN libre de células, que está enriquecida con una firma MPLP. Tal firma es indicativa de la presencia de un tipo de célula inmune asociada con la presencia y agresividad del cáncer (por ejemplo, como se describe en [Different mutations of the human c-mpl gene indícate distinct hematopoietic diseases, Xin Heet al,Journal of Hematology & Oncology20136:11]. Por lo tanto, estos resultados indican que la fragmentómica (análisis de perfiles de fragmentomas) permitió la detección e identificación de la presencia o una cantidad relativa mayor de tipos de células inmunes, cuya presencia está asociada con el cáncer.

Claims (13)

REIVINDICACIONES
1. Un método implementado por computadora para analizar fragmentos de ácido desoxirribonucleico (ADNIc) libres de células derivados de un sujeto, el método que comprende:
a) someter los fragmentos de ADNlc a preparación de biblioteca y secuenciación de alto rendimiento para generar información de secuencia representativa de fragmentos de ADNlc del sujeto, que comprende:
(i) marcar los fragmentos de ADNlc con etiquetas moleculares únicas o no únicas;
(ii) amplificar los fragmentos de ADNlc marcados; y
(iii) seguimiento de las secuencias de progenie mediante seguimiento de la etiqueta;
(b) alinear la información de secuenciación con una secuencia de referencia;
(c) realizar un análisis multiparamétrico de la información de secuencia alineada, generando así un modelo multiparamétrico representativo de los fragmentos de ADNlc, en el que el modelo multiparamétrico comprende dos o más parámetros seleccionados de parámetros que son indicativos de (i) una longitud de los fragmentos de ADNlc que se alinean con cada una de una pluralidad de posiciones de bases en un genoma, (ii) un número de los fragmentos de ADNlc que se alinean con cada una de una pluralidad de posiciones de bases en un genoma, y (iii) un número de los ADNlc fragmentos que comienzan o terminan en cada una de una pluralidad de posiciones base en un genoma; y
(d) realizar, con la computadora, análisis estadístico con un clasificador capacitado para clasificar el modelo multiparamétrico como asociado con uno o más perfiles de ocupación nucleosomal que representan cohortes distintas, en donde al menos uno de los perfiles de ocupación nucleosomal está asociado con una o más evaluaciones seleccionadas del grupo formado por: indicación de tumor, detección temprana de cáncer, tipo de tumor, gravedad del tumor, agresividad del tumor, resistencia del tumor al tratamiento, clonalidad del tumor, farmacobilidad del tumor, progresión del tumor y puntuación de desregulación plasmática.
2. El método de la reivindicación 1, en el que el análisis estadístico comprende proporcionar uno o más mapas de partición del genoma, enumerando intervalos genómicos relevantes representativos de genes de interés para análisis posteriores.
3. El método de la reivindicación 2, en el que el análisis estadístico comprende además seleccionar un conjunto de una o más regiones genómicas localizadas basadas en los mapas de partición del genoma.
4. El método de la reivindicación 2 o la reivindicación 3, en el que el análisis estadístico comprende además analizar una o más regiones genómicas localizadas en el conjunto para obtener un conjunto de una o más alteraciones del mapa nucleosomal.
5. El método de la reivindicación 4, en el que al menos una de las alteraciones del mapa nucleosomal se usa para clasificar el modelo multiparamétrico como asociado con uno o más perfiles de ocupación nucleosomal que representan cohortes distintas.
6. El método de cualquiera de las reivindicaciones 2 a 5, en el que los mapas de partición del genoma se construyen mediante:
a) seleccionar un conjunto de una o más regiones genómicas localizadas basándose en los mapas de partición del genoma;
b) realizar un análisis multiparamétrico de cada una de las poblaciones de ADNlc para generar un modelo multiparamétrico para cada una de las muestras; y
(c) analizar los modelos multiparamétricos para identificar una o más regiones genómicas localizadas.
7. El método de cualquiera de las reivindicaciones 3 a 6, en el que analizar una o más regiones genómicas localizadas comprende detectar una o más desviaciones entre el modelo multiparamétrico representativo de los fragmentos de ADNlc y uno o más modelos multiparamétricos de referencia seleccionados entre:
(i) uno o más modelos multiparamétricos de referencia sanos asociados con una o más cohortes de controles sanos, y
(ii) uno o más modelos multiparamétricos de referencia enfermos asociados con una o más cohortes de sujetos enfermos.
8. El método de cualquiera de las reivindicaciones 3 a 7, en el que al menos una de las regiones genómicas localizadas es una región corta de ADN que varía de aproximadamente 2 a aproximadamente 200 pares de bases, en el que la región contiene un patrón de variación estructural significativa.
9. El método de cualquiera de las reivindicaciones anteriores, en el que el método comprende además determinar una puntuación de enfermedad de una enfermedad, en donde la puntuación de la enfermedad se determina como una función de uno o más de:
(i) uno o más perfiles de ocupación nucleosomal asociados con la enfermedad;
(ii) uno o más modelos multiparamétricos de referencia sanos asociados con una cohorte que no padece la enfermedad; y
(iii) uno o más modelos multiparamétricos de referencia de enfermos asociados con una cohorte que tiene la enfermedad.
10. El método de cualquiera de las reivindicaciones anteriores, en el que los fragmentos de ADNlc se derivan de una muestra de sangre del sujeto.
11. El método de cualquiera de las reivindicaciones anteriores, en el que el paso (a) de la reivindicación 1 comprende, además:
(iv) generar secuencias consenso para cada fragmento de ADNlc usando las secuencias redundantes fragmento de ADNlc.
12. El método de cualquiera de las reivindicaciones anteriores, en el que el modelo multiparamétrico es un mapa de calor.
13. El método de cualquiera de las reivindicaciones anteriores, en el que el método se usa para detectar, monitorear y/o determinar el tratamiento para el sujeto, en el que el sujeto tiene o se sospecha que tiene cáncer.
ES17824931T 2016-07-06 2017-07-06 Procedimientos de perfilado de fragmentoma de ácidos nucleicos sin células Active ES2967443T3 (es)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662359151P 2016-07-06 2016-07-06
US201662420167P 2016-11-10 2016-11-10
US201662437172P 2016-12-21 2016-12-21
US201762489399P 2017-04-24 2017-04-24
PCT/US2017/040986 WO2018009723A1 (en) 2016-07-06 2017-07-06 Methods for fragmentome profiling of cell-free nucleic acids

Publications (1)

Publication Number Publication Date
ES2967443T3 true ES2967443T3 (es) 2024-04-30

Family

ID=60913158

Family Applications (1)

Application Number Title Priority Date Filing Date
ES17824931T Active ES2967443T3 (es) 2016-07-06 2017-07-06 Procedimientos de perfilado de fragmentoma de ácidos nucleicos sin células

Country Status (11)

Country Link
EP (2) EP4322168A3 (es)
JP (2) JP7448310B2 (es)
KR (1) KR102610098B1 (es)
CN (1) CN109689891A (es)
AU (1) AU2017292854B2 (es)
BR (1) BR112019000296A2 (es)
CA (1) CA3030038A1 (es)
ES (1) ES2967443T3 (es)
MX (1) MX2019000037A (es)
SG (1) SG11201811556RA (es)
WO (1) WO2018009723A1 (es)

Families Citing this family (84)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11111543B2 (en) 2005-07-29 2021-09-07 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US9424392B2 (en) 2005-11-26 2016-08-23 Natera, Inc. System and method for cleaning noisy genetic data from target individuals using genetic data from genetically related individuals
US11111544B2 (en) 2005-07-29 2021-09-07 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US11322224B2 (en) 2010-05-18 2022-05-03 Natera, Inc. Methods for non-invasive prenatal ploidy calling
WO2011146632A1 (en) 2010-05-18 2011-11-24 Gene Security Network Inc. Methods for non-invasive prenatal ploidy calling
US20190010543A1 (en) 2010-05-18 2019-01-10 Natera, Inc. Methods for simultaneous amplification of target loci
US11939634B2 (en) 2010-05-18 2024-03-26 Natera, Inc. Methods for simultaneous amplification of target loci
US9677118B2 (en) 2014-04-21 2017-06-13 Natera, Inc. Methods for simultaneous amplification of target loci
US11408031B2 (en) 2010-05-18 2022-08-09 Natera, Inc. Methods for non-invasive prenatal paternity testing
US10316362B2 (en) 2010-05-18 2019-06-11 Natera, Inc. Methods for simultaneous amplification of target loci
US11326208B2 (en) 2010-05-18 2022-05-10 Natera, Inc. Methods for nested PCR amplification of cell-free DNA
US11332785B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US11339429B2 (en) 2010-05-18 2022-05-24 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US11332793B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for simultaneous amplification of target loci
ES2625288T3 (es) 2011-04-15 2017-07-19 The Johns Hopkins University Sistema de secuenciación segura
ES2701742T3 (es) 2012-10-29 2019-02-25 Univ Johns Hopkins Prueba de Papanicolaou para cánceres de ovario y de endometrio
EP3134541B1 (en) 2014-04-21 2020-08-19 Natera, Inc. Detecting copy number variations (cnv) of chromosomal segments in cancer
EP3294906A1 (en) 2015-05-11 2018-03-21 Natera, Inc. Methods and compositions for determining ploidy
ES2907697T3 (es) 2015-07-23 2022-04-26 Univ Hong Kong Chinese Análisis de los patrones de fragmentación del ADN acelular
US11286531B2 (en) 2015-08-11 2022-03-29 The Johns Hopkins University Assaying ovarian cyst fluid
EP3433382B1 (en) 2016-03-25 2021-09-01 Karius, Inc. Synthetic nucleic acid spike-ins
US11485996B2 (en) 2016-10-04 2022-11-01 Natera, Inc. Methods for characterizing copy number variation using proximity-litigation sequencing
US10011870B2 (en) 2016-12-07 2018-07-03 Natera, Inc. Compositions and methods for identifying nucleic acid molecules
WO2018119452A2 (en) 2016-12-22 2018-06-28 Guardant Health, Inc. Methods and systems for analyzing nucleic acid molecules
AU2018212272B2 (en) 2017-01-25 2022-04-28 Grail, Inc. Diagnostic applications using nucleic acid fragments
WO2019016353A1 (en) * 2017-07-21 2019-01-24 F. Hoffmann-La Roche Ag CLASSIFICATION OF SOMATIC MUTATIONS FROM A HETEROGENEOUS SAMPLE
CA3072195A1 (en) 2017-08-07 2019-04-04 The Johns Hopkins University Methods and materials for assessing and treating cancer
WO2019060716A1 (en) 2017-09-25 2019-03-28 Freenome Holdings, Inc. SAMPLE EXTRACTION METHODS AND SYSTEMS
WO2019147663A1 (en) * 2018-01-24 2019-08-01 Freenome Holdings, Inc. Methods and systems for abnormality detection in the patterns of nucleic acids
US11767562B2 (en) 2018-03-08 2023-09-26 St. John's University Circulating serum cell-free DNA biomarkers and methods
EP3765633A4 (en) * 2018-03-13 2021-12-01 Grail, Inc. PROCESS AND SYSTEM FOR THE SELECTION, ADMINISTRATION AND ANALYSIS OF HIGH DIMENSIONAL DATA
WO2019178563A1 (en) * 2018-03-15 2019-09-19 The Board Of Trustees Of Leland Stanford Junior University Methods using nucleic acid signals for revealing biological attributes
AU2019253118B2 (en) 2018-04-13 2024-02-22 Freenome Holdings, Inc. Machine learning implementation for multi-analyte assay of biological samples
CA3096678A1 (en) * 2018-04-13 2019-10-17 Grail, Inc. Multi-assay prediction model for cancer detection
EP3801623A4 (en) 2018-06-01 2022-03-23 Grail, LLC NEURAL CONVOLUTIONAL NETWORK SYSTEMS AND DATA CLASSIFICATION METHODS
WO2020006369A1 (en) * 2018-06-29 2020-01-02 Guardant Health, Inc. Methods and systems for analysis of ctcf binding regions in cell-free dna
US11525159B2 (en) 2018-07-03 2022-12-13 Natera, Inc. Methods for detection of donor-derived cell-free DNA
AU2019356497A1 (en) * 2018-10-08 2021-03-18 Freenome Holdings, Inc. Transcription factor profiling
GB201818159D0 (en) * 2018-11-07 2018-12-19 Cancer Research Tech Ltd Enhanced detection of target dna by fragment size analysis
CN113227468A (zh) * 2018-11-21 2021-08-06 卡里乌斯公司 感染性疾病的检测和预测
US10468141B1 (en) * 2018-11-28 2019-11-05 Asia Genomics Pte. Ltd. Ancestry-specific genetic risk scores
US11581062B2 (en) 2018-12-10 2023-02-14 Grail, Llc Systems and methods for classifying patients with respect to multiple cancer classes
WO2020125709A1 (en) * 2018-12-19 2020-06-25 The Chinese University Of Hong Kong Cell-free dna end characteristics
EP3899956A4 (en) * 2018-12-21 2022-11-23 Grail, LLC SYSTEMS AND METHODS OF USING FRAGMENT LENGTHS AS A CANCER PREDICTOR
JP7332695B2 (ja) * 2018-12-21 2023-08-23 エフ. ホフマン-ラ ロシュ アーゲー 循環核酸からの全ゲノム配列データにおける包括的配列特徴の同定
WO2020150258A1 (en) * 2019-01-15 2020-07-23 Luminist, Inc. Methods and systems for detecting liver disease
SG11202012518WA (en) * 2019-01-24 2021-01-28 Illumina Inc Methods and systems for monitoring organ health and disease
CN113661249A (zh) 2019-01-31 2021-11-16 夸登特健康公司 用于分离无细胞dna的组合物和方法
US11081210B2 (en) 2019-02-12 2021-08-03 Tempus Labs, Inc. Detection of human leukocyte antigen loss of heterozygosity
US11475978B2 (en) 2019-02-12 2022-10-18 Tempus Labs, Inc. Detection of human leukocyte antigen loss of heterozygosity
WO2020176659A1 (en) * 2019-02-27 2020-09-03 Guardant Health, Inc. Methods and systems for determining the cellular origin of cell-free dna
CA3134519A1 (en) * 2019-04-15 2020-10-22 Natera, Inc. Improved liquid biopsy using size selection
WO2020237184A1 (en) * 2019-05-22 2020-11-26 Grail, Inc. Systems and methods for determining whether a subject has a cancer condition using transfer learning
WO2020243722A1 (en) 2019-05-31 2020-12-03 Guardant Health, Inc. Methods and systems for improving patient monitoring after surgery
WO2021007462A1 (en) * 2019-07-09 2021-01-14 The Translational Genomics Research Institute METHODS OF DETECTING DISEASE AND TREATMENT RESPONSE IN cfDNA
US20220301654A1 (en) * 2019-08-28 2022-09-22 Grail, Llc Systems and methods for predicting and monitoring treatment response from cell-free nucleic acids
CN110706749B (zh) * 2019-09-10 2022-06-10 至本医疗科技(上海)有限公司 一种基于组织器官分化层次关系的癌症类型预测系统和方法
US11891653B2 (en) 2019-09-30 2024-02-06 Guardant Health, Inc. Compositions and methods for analyzing cell-free DNA in methylation partitioning assays
WO2021072275A1 (en) * 2019-10-11 2021-04-15 Guardant Health, Inc. Use of cell free bacterial nucleic acids for detection of cancer
CN114746560A (zh) 2019-11-26 2022-07-12 夸登特健康公司 改进甲基化多核苷酸结合的方法、组合物和系统
CN115151657A (zh) * 2019-12-20 2022-10-04 安可济控股有限公司 用于疾病检测的方法和系统
WO2021130356A1 (en) * 2019-12-24 2021-07-01 Vib Vzw Disease detection in liquid biopsies
EP4143338A1 (en) 2020-04-30 2023-03-08 Guardant Health, Inc. Methods for sequence determination using partitioned nucleic acids
WO2023282916A1 (en) 2021-07-09 2023-01-12 Guardant Health, Inc. Methods of detecting genomic rearrangements using cell free nucleic acids
US11946044B2 (en) 2020-07-30 2024-04-02 Guardant Health, Inc. Methods for isolating cell-free DNA
JP2023540221A (ja) 2020-08-25 2023-09-22 ガーダント ヘルス, インコーポレイテッド バリアントの起源を予測するための方法およびシステム
US20230348997A1 (en) * 2020-09-17 2023-11-02 The Regents Of The University Of Colorado, A Body Corporate Signatures in cell-free dna to detect disease, track treatment response, and inform treatment decisions
WO2022073012A1 (en) 2020-09-30 2022-04-07 Guardant Health, Inc. Compositions and methods for analyzing dna using partitioning and a methylation-dependent nuclease
US20220154286A1 (en) 2020-10-23 2022-05-19 Guardant Health, Inc. Compositions and methods for analyzing dna using partitioning and base conversion
CA3199829A1 (en) 2020-11-30 2022-06-02 Guardant Health, Inc. Compositions and methods for enriching methylated polynucleotides
CN114634982A (zh) * 2020-12-15 2022-06-17 广州市基准医疗有限责任公司 一种检测多核苷酸变异的方法
EP4015650A1 (en) * 2020-12-18 2022-06-22 Nipd Genetics Biotech Limited Methods for classifying a sample into clinically relevant categories
WO2022140629A1 (en) 2020-12-23 2022-06-30 Guardant Health, Inc. Methods and systems for analyzing methylated polynucleotides
EP4291679A1 (en) 2021-02-12 2023-12-20 Guardant Health, Inc. Methods and compositions for detecting nucleic acid variants
EP4314329A1 (en) 2021-03-25 2024-02-07 Guardant Health, Inc. Methods and compositions for quantifying immune cell dna
EP4347884A1 (en) * 2021-05-24 2024-04-10 University of Essex Enterprises Limited Method and system for identifying genomic regions with condition sensitive occupancy/positioning of nucleosomes and/or chromatin
CN113838533B (zh) * 2021-08-17 2024-03-12 福建和瑞基因科技有限公司 一种癌症检测模型及其构建方法和试剂盒
WO2023091517A2 (en) * 2021-11-17 2023-05-25 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for gene expression and tissue of origin inference from cell-free dna
WO2023197004A1 (en) 2022-04-07 2023-10-12 Guardant Health, Inc. Detecting the presence of a tumor based on methylation status of cell-free nucleic acid molecules
WO2023235379A1 (en) * 2022-06-02 2023-12-07 The Board Of Trustees Of The Leland Stanford Junior University Single molecule sequencing and methylation profiling of cell-free dna
WO2024006908A1 (en) 2022-06-30 2024-01-04 Guardant Health, Inc. Enrichment of aberrantly methylated dna
US20240043935A1 (en) * 2022-07-29 2024-02-08 Centre For Novostics Limited Epigenetics analysis of cell-free dna
WO2024073508A2 (en) 2022-09-27 2024-04-04 Guardant Health, Inc. Methods and compositions for quantifying immune cell dna
CN116052768A (zh) * 2022-10-08 2023-05-02 南京世和基因生物技术股份有限公司 恶性肺结节筛查基因标志物、筛查模型的构建方法和检测装置

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9218449B2 (en) * 2007-07-23 2015-12-22 The Chinese University Of Hong Kong Methods for analyzing massively parallel sequencing data for noninvasive prenatal diagnosis
CA2741117A1 (en) 2008-10-30 2010-05-06 Centre De Recherche Public De La Sante Biomarkers for heart failure
CN101901345B (zh) * 2009-05-27 2013-02-27 复旦大学 一种差异蛋白质组学的分类方法
US11322224B2 (en) * 2010-05-18 2022-05-03 Natera, Inc. Methods for non-invasive prenatal ploidy calling
EP2426217A1 (en) * 2010-09-03 2012-03-07 Centre National de la Recherche Scientifique (CNRS) Analytical methods for cell free nucleic acids and applications
GB2485635B (en) * 2011-07-26 2012-11-28 Verinata Health Inc Method for determining the presence or absence of different aneuploidies in a sample
CA2850781C (en) 2011-10-06 2020-09-01 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9367663B2 (en) * 2011-10-06 2016-06-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
IN2014DN06795A (es) 2012-02-16 2015-05-22 Oxford Nanopore Tech Ltd
CN204440396U (zh) * 2012-04-12 2015-07-01 维里纳塔健康公司 用于确定胎儿分数的试剂盒
US10497461B2 (en) 2012-06-22 2019-12-03 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20160040229A1 (en) * 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
IL305303A (en) 2012-09-04 2023-10-01 Guardant Health Inc Systems and methods for detecting rare mutations and changes in number of copies
US20130309666A1 (en) * 2013-01-25 2013-11-21 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP3882362B1 (en) * 2013-03-15 2024-05-08 Guardant Health, Inc. Methods for sequencing of cell free polynucleotides
AU2014281635B2 (en) * 2013-06-17 2020-05-28 Verinata Health, Inc. Method for determining copy number variations in sex chromosomes
US9499870B2 (en) * 2013-09-27 2016-11-22 Natera, Inc. Cell free DNA diagnostic testing standards
CN106062214B (zh) 2013-12-28 2020-06-09 夸登特健康公司 用于检测遗传变异的方法和系统
CN106795558B (zh) * 2014-05-30 2020-07-10 维里纳塔健康公司 检测胎儿亚染色体非整倍性和拷贝数变异
CA2956208A1 (en) * 2014-07-25 2016-01-28 University Of Washington Methods of determining tissues and/or cell types giving rise to cell-free dna, and methods of identifying a disease or disorder using same
CN107750277B (zh) * 2014-12-12 2021-11-09 维里纳塔健康股份有限公司 使用无细胞dna片段大小来确定拷贝数变化

Also Published As

Publication number Publication date
EP3481966B1 (en) 2023-11-08
WO2018009723A1 (en) 2018-01-11
JP2022025101A (ja) 2022-02-09
CN109689891A (zh) 2019-04-26
AU2017292854A1 (en) 2019-01-24
EP3481966A4 (en) 2019-08-07
MX2019000037A (es) 2019-07-10
KR102610098B1 (ko) 2023-12-04
EP3481966A1 (en) 2019-05-15
JP7448310B2 (ja) 2024-03-12
SG11201811556RA (en) 2019-01-30
JP2019531700A (ja) 2019-11-07
EP4322168A3 (en) 2024-05-15
KR20190026837A (ko) 2019-03-13
EP4322168A2 (en) 2024-02-14
BR112019000296A2 (pt) 2019-04-16
CA3030038A1 (en) 2018-01-11
AU2017292854B2 (en) 2023-08-17

Similar Documents

Publication Publication Date Title
ES2967443T3 (es) Procedimientos de perfilado de fragmentoma de ácidos nucleicos sin células
US20190287645A1 (en) Methods for fragmentome profiling of cell-free nucleic acids
US20190352695A1 (en) Methods for fragmentome profiling of cell-free nucleic acids
Hardiman et al. Intra-tumor genetic heterogeneity in rectal cancer
ES2687847T3 (es) Análisis mutacional de ADN de plasma para la detección de cáncer
ES2923602T3 (es) Detección y tratamiento de enfermedades que muestran heterogeneidad celular de enfermedad y sistemas y métodos para comunicar los resultados de las pruebas
JP6987786B2 (ja) がんの進化の検出および診断
Alkodsi et al. Comparative analysis of methods for identifying somatic copy number alterations from deep sequencing data
ES2911613T3 (es) Análisis de patrones de metilación de haplotipos en tejidos en una mezcla de ADN
JP7340021B2 (ja) 予測腫瘍遺伝子変異量に基づいた腫瘍分類
Ritz et al. Detection of recurrent rearrangement breakpoints from copy number data
Zhu et al. The genomic and epigenomic evolutionary history of papillary renal cell carcinomas
Chun et al. Molecular characterization of lung adenocarcinoma from Korean patients using next generation sequencing
Peterson et al. Progression inference for somatic mutations in cancer
Marczyk et al. Classification of thyroid tumors based on DNA methylation patterns
Rosolowski et al. Massive transcriptional perturbation in subgroups of diffuse large B-cell lymphomas
Nordentoft et al. Whole genome mutational analysis for tumor-informed ctDNA based MRD surveillance, treatment monitoring and biological characterization of urothelial carcinoma
Alkodsi Computational investigation of cancer genomes
Kontogianni Development of a methodology of computational intelligence for robust composite biomarker discovery: Targeting breakthrough in the therapeutic management of melanoma
Zhao Semi-Parametric Mixture Gaussian Model to Detect Breast Cancer Intra-Tumor Heterogeneity
KR20230172685A (ko) ctDNA 단편 크기 기반 암 예후 예측 시스템
Chi Recurrent copy number alteration analysis identifies risk genes in young women with breast cancer
Parker et al. Effects of germline and somatic events in candidate