ES2907697T3 - Análisis de los patrones de fragmentación del ADN acelular - Google Patents

Análisis de los patrones de fragmentación del ADN acelular Download PDF

Info

Publication number
ES2907697T3
ES2907697T3 ES16827283T ES16827283T ES2907697T3 ES 2907697 T3 ES2907697 T3 ES 2907697T3 ES 16827283 T ES16827283 T ES 16827283T ES 16827283 T ES16827283 T ES 16827283T ES 2907697 T3 ES2907697 T3 ES 2907697T3
Authority
ES
Spain
Prior art keywords
dna
genomic
dna molecules
positions
acellular
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES16827283T
Other languages
English (en)
Inventor
Yuk-Ming Dennis Lo
Rossa Wai Kwun Chiu
Kwan Chee Chan
Peiyong Jiang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese University of Hong Kong CUHK
Original Assignee
Chinese University of Hong Kong CUHK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from PCT/CN2016/073753 external-priority patent/WO2016127944A1/en
Application filed by Chinese University of Hong Kong CUHK filed Critical Chinese University of Hong Kong CUHK
Application granted granted Critical
Publication of ES2907697T3 publication Critical patent/ES2907697T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Detergent Compositions (AREA)

Abstract

Un método implementado por ordenador para analizar una muestra biológica, que incluye una mezcla de moléculas de ADN acelular de diversos tipos de tejido que incluye un primer tipo de tejido, para determinar una clasificación de una contribución proporcional del primer tipo de tejido en la mezcla, comprendiendo el método: identificar un primer conjunto de posiciones genómicas en las que los extremos de las moléculas de ADN acelular del primer tipo de tejido se producen con una frecuencia superior a un umbral; analizar, mediante un sistema informático, una primera pluralidad de moléculas de ADN acelular de la muestra biológica de un sujeto, en donde el análisis de una molécula de ADN acelular incluye: determinar una posición genómica en un genoma de referencia correspondiente a al menos un extremo de la molécula de ADN acelular; basándose en el análisis de la primera pluralidad de moléculas de ADN, determinar que un primer número de la primera pluralidad de moléculas de ADN acelular termina dentro de una de una pluralidad de ventanas, incluyendo cada ventana al menos una del primer conjunto de posiciones genómicas; calcular una abundancia relativa de la primera pluralidad de moléculas de ADN acelular que terminan dentro de una de la pluralidad de ventanas mediante la normalización del primer número de la primera pluralidad de moléculas de ADN acelular utilizando un segundo número de moléculas de ADN acelular, en donde el segundo número de moléculas de ADN acelular incluye moléculas de ADN acelular que terminan en un segundo conjunto de posiciones genómicas fuera de la pluralidad de ventanas que incluyen el primer conjunto de posiciones genómicas; y determinar la clasificación de la contribución proporcional del primer tipo de tejido comparando la abundancia relativa con uno o más valores de calibración determinados a partir de una o más muestras de calibración cuyas contribuciones proporcionales del primer tipo de tejido se conocen.

Description

DESCRIPCIÓN
Análisis de los patrones de fragmentación del ADN acelular
En estudios previos, se demostró que el ADN plasmático consta principalmente de fragmentos cortos de menos de 200 pb (Lo et al., Sci Transl Med 2010; 2(61):61ra91). En la distribución por tamaño molecular del ADN plasmático, se pudo observar un pico a 166 pb. Además, se observó que la densidad de marcadores secuenciados podría variar con una periodicidad de aproximadamente 180 pb cerca de los sitios de inicio transcripcional (TSS) cuando se secuenció el a Dn plasmático materno (Fan et al., PNAS 2008;105:16266-71). Estos resultados son un conjunto de pruebas que indican que la fragmentación del ADN plasmático puede no ser un proceso aleatorio. Sin embargo, aún no se han aclarado los patrones concretos de fragmentación del ADN en el plasma, así como los factores que determinan los patrones. Además, aún no se han evidenciado las aplicaciones prácticas del uso de la fragmentación del ADN.
De acuerdo con la presente invención, se proporciona un método de análisis informatizado de una muestra biológica como se define en la reivindicación 1.
Diversas realizaciones se refieren a aplicaciones (por ejemplo, aplicaciones de diagnóstico) del análisis de los patrones de fragmentación del ADN acelular, por ejemplo, ADN plasmático y ADN sérico. Las realizaciones de una aplicación pueden determinar una clasificación de una contribución proporcional de un tipo de tejido concreto en una mezcla de ADN acelular de diferentes tipos de tejido. Por ejemplo, pueden determinarse a modo de clasificación los porcentajes específicos, el intervalo de porcentajes o si la contribución proporcional se encuentra por encima de un porcentaje especificado. En un ejemplo, pueden identificarse las posiciones finales preferidas para el tipo de tejido particular y puede usarse la abundancia relativa de moléculas de ADN acelular que terminan en las posiciones finales preferidas para proporcionar la clasificación de la contribución proporcional. En otro ejemplo, puede usarse la amplitud en un patrón de fragmentación (por ejemplo, el número de moléculas de ADN acelular que terminan en una posición genómica) en una región específica para el tipo de tejido particular.
Las realizaciones de otra aplicación pueden determinar un genotipo de un tipo de tejido particular en una mezcla de ADN acelular de diferentes tipos de tejido. En un ejemplo, pueden identificarse las posiciones finales preferidas para el tipo de tejido particular y puede determinarse el genotipo utilizando moléculas de ADN acelular que terminan en las posiciones finales preferidas.
Las realizaciones de otra aplicación pueden identificar posiciones finales preferidas mediante la comparación de un máximo local para los extremos izquierdos de moléculas de ADN acelular con un máximo local para los extremos derechos de moléculas de ADN acelular. Las posiciones finales preferidas pueden identificarse cuando los máximos locales correspondientes están suficientemente separados. Además, pueden compararse las cantidades de moléculas de ADN acelular que terminan en un máximo local para el extremo izquierdo/derecho con una cantidad de moléculas de ADN acelular para un máximo local con baja separación, a fin de determinar una contribución proporcional de un tipo de tejido.
Otras realizaciones se refieren a sistemas, dispositivos portátiles de consumo, y medios legibles por ordenador asociados a los métodos descritos en el presente documento.
Se puede obtener una mejor comprensión de la naturaleza y ventajas de las realizaciones de la presente invención con referencia a la siguiente descripción detallada y los dibujos adjuntos.
La FIG. 1 muestra un ejemplo ilustrativo para la definición de la probabilidad de intacto (P i) de acuerdo con las realizaciones de la presente invención.
Las FIG. 2A y 2B muestran la variación de la Pi a lo largo de un segmento del cromosoma 6 utilizando 25 como valor de z, de acuerdo con las realizaciones de la presente invención.
La FIG. 3 muestra la ilustración de la variación sincrónica de la P i para el ADN de origen materno y fetal en el plasma materno.
La FIG. 4 muestra una ilustración de la variación asincrónica de la Pi para el ADN de origen materno y fetal en el plasma materno.
La FIG. 5 es un diagrama de flujo que muestra un análisis sobre si las moléculas de ADN materno y fetal son sincrónicas en la variación de la Pi .
La FIG. 6 muestra un análisis de dos muestras de plasma materno (S24 y S26) para determinar la variación de la Pi para fragmentos de ADN de origen materno (rojo/gris) y fetal (azul/negro) en el plasma materno.
La FIG. 7 muestra una ilustración de la amplitud de la variación de la Pi .
La FIG. 8A muestra los patrones de variación de la Pi en regiones que son sitios de hipersensibilidad a DNasa pero no TSS.
La FIG. 8B muestra patrones de variación de la Pi en regiones que son TSS pero no sitios de hipersensibilidad a DNasa.
La FIG. 9 muestra una ilustración del principio para la medición de la proporción de ADN liberado de diferentes tejidos.
La FIG. 10 muestra la relación entre la FRA y la contribución proporcional del tejido A al ADN en una mezcla determinada mediante el análisis de dos o más muestras de calibración con concentraciones proporcionales conocidas de ADN del tejido A.
La FIG. 11 muestra una correlación entre la FRplacenta y el porcentaje de ADN fetal en el plasma materno.
La FIG. 12 muestra una correlación entre el FRsangre y la concentración de ADN fetal en el plasma materno. La FIG. 13 es un diagrama de flujo de un método 1300 de análisis de una muestra biológica para determinar una clasificación de una contribución proporcional del primer tipo de tejido de acuerdo con las realizaciones de la presente invención.
La FIG. 14 muestra una ilustración del principio de una diferencia de los fragmentos de ADN circulante en relación con el ADN de origen tumoral o fetal.
La FIG. 15 es un diagrama de flujo de un método de análisis de una muestra biológica que incluye una mezcla de moléculas de ADN acelular de una pluralidad de tipos de tejidos que incluye un primer tipo de tejido.
La FIG. 16 es un diagrama de Venn que muestra el número de sitios de terminación frecuentes que son específicos para el caso HCC, específicos para la mujer embarazada y compartidos por ambos casos.
La FIG. 17 muestra una curva de calibración que muestra la relación entre la proporción de fragmentos de ADN secuenciados que terminan en posiciones finales específicas para el cáncer y la fracción de ADN tumoral en plasma para pacientes con cáncer con fracciones conocidas de ADN tumoral en plasma.
La FIG. 18 muestra un ejemplo ilustrativo de los patrones de fragmentación no aleatorios del ADN plasmático que portan un alelo específico del feto y un alelo compartido por la madre y el feto.
La FIG. 19 muestra una gráfica de la probabilidad de que una coordenada genómica sea una posición final de los fragmentos de ADN plasmático materno en una región con un polimorfismo de un solo nucleótido (SNP) informativo.
La FIG. 20 muestra un análisis de las posiciones finales de los fragmentos de ADN plasmático a lo largo de los SNP que eran homocigóticos en la madre y heterocigóticos en el feto.
La FIG. 21 muestra un análisis de las posiciones finales de los fragmentos de ADN plasmático a lo largo de los SNP que eran homocigóticos en el feto y heterocigóticos en la madre.
La FIG. 22 muestra una correlación entre la abundancia relativa (Ratio (F/M)) de las moléculas de ADN plasmático con extremos fetales (Conjunto A) y maternos (Conjunto X) recurrentes y la fracción de ADN fetal.
Las FIG. 23A-23E muestran datos relativos a las distribuciones del tamaño del ADN plasmático para los fragmentos que terminan en las posiciones finales con preferencia fetal y los fragmentos que terminan en las posiciones finales con preferencia materna.
Las FIG. 24A-24E muestran datos relativos a las distribuciones de tamaño del ADN plasmático en una muestra de ADN plasmático conjunta de 26 mujeres en el primer trimestre del embarazo para los fragmentos que terminan en las posiciones finales con preferencia fetal y los fragmentos que terminan en las posiciones finales con preferencia materna.
La FIG. 25 muestra un ejemplo ilustrativo de los patrones de fragmentación no aleatorios del ADN plasmático del paciente con HCC.
La FIG. 26 es una gráfica de la probabilidad de que una coordenada genómica sea una posición final de los fragmentos de ADN plasmático en una región con un sitio de mutación.
La FIG. 27A muestra un análisis de las posiciones finales de los fragmentos de ADN plasmático en las posiciones genómicas en las que había mutaciones en el tejido tumoral.
La FIG. 27B muestra una correlación entre la RelaciónM/TS y la fracción de ADN tumoral en el plasma de 71 pacientes con HCC.
La FIG. 28A muestra el número de posiciones finales preferidas para el ADN plasmático de la mujer embarazada y del paciente con HCC. El conjunto P contenía 29 millones de posiciones finales que eran las preferidas en la mujer embarazada.
La FIG. 28B muestra que se observó una correlación positiva entre la RelaciónHCC/Emb y la fracción de ADN tumoral en plasma para los 71 pacientes con HCC.
La FIG. 29A muestra una ilustración del concepto de relación de terminación preferida (PETR). Cada línea representa un fragmento de ADN plasmático.
La FIG. 29B muestra una correlación entre la fracción de ADN tumoral en plasma con la PETR en las posiciones del conjunto H en 11 pacientes con HCC.
La FIG. 30 muestra la proporción de ADN corto (<150 pb) detectado entre las moléculas de ADN plasmático que terminan con extremos preferidos por el HCC, extremos preferidos por el VHB o los extremos compartidos. La FIG. 31A muestra una ilustración del principio de la w-PETR. El valor de w-PETR se calcula como la relación entre el número de fragmentos de ADN que terminan dentro de la ventana A y la ventana B.
La FIG. 31B muestra una correlación entre la fracción de ADN tumoral y el valor de la w-PETR en los 11 pacientes con HCC.
La FIG. 32 muestra la proporción de posiciones finales preferidas comúnmente compartidas detectadas en muestras de plasma de cada una de las muestras estudiadas cuando se comparan con una muestra de plasma sanguíneo del cordón umbilical (cobertura del genoma haploide 210x).
La FIG. 33 muestra un diagrama de Venn en el que se indica el número de posiciones finales preferidas que se observan comúnmente en dos o más muestras, así como las que solo se observaron en una muestra.
La FIG. 34A muestra una correlación entre la fracción de ADN fetal en el plasma y la PETR media en el conjunto de posiciones identificadas mediante la comparación entre las muestras de ADN plasmático "antes del parto" y "después del parto".
La FIG. 34B muestra una correlación entre la fracción de ADN fetal en el plasma y el promedio de w-PETR en el conjunto de posiciones identificadas a través de la comparación entre las muestras de ADN plasmático "antes del parto" y "después del parto".
La FIG. 35A muestra el millón de posiciones finales preferidas del ADN plasmático observadas con mayor frecuencia entre dos mujeres embarazadas a las 18 semanas (mujer embarazada 1) y a las 38 semanas de gestación (mujer embarazada 2).
La FIG. 35B muestra una comparación de los valores de PETR del millón de posiciones finales preferidas más frecuentemente observadas en el plasma de dos mujeres embarazadas.
La FIG. 36 es un diagrama de flujo de un método de análisis de una muestra biológica para determinar una clasificación de una contribución proporcional del primer tipo de tejido en una mezcla de acuerdo con las realizaciones de la presente invención.
La FIG. 37 muestra las moléculas de ADN plasmático materno que portan diferentes alelos cuando se alinean con un genoma de referencia cerca de una posición final preferida por el feto.
La FIG. 38 es un diagrama de flujo de un método 3800 de análisis de una muestra biológica para determinar un genotipo del primer tipo de tejido de acuerdo con las realizaciones de la presente invención.
La FIG. 39 muestra un diagrama de bloques de un sistema informático 10 ilustrativo que puede utilizarse con el sistema y los métodos de acuerdo con las realizaciones de la presente invención.
Un "tejido" corresponde a un grupo de células que se agrupan como una unidad funcional. En un mismo tejido pueden encontrarse más de un tipo de células. Los distintos tipos de tejidos pueden estar formados por diferentes tipos de células (por ejemplo, hepatocitos, células alveolares o células sanguíneas), pero también puede corresponder a tejidos de organismos diferentes (la madre en comparación con feto) o a células sanas en comparación con células tumorales.
Una "muestra biológica" se refiere a cualquier muestra que se toma de un sujeto (por ejemplo, un ser humano, tal como una mujer embarazada, una persona con cáncer o una persona que se sospecha que tiene cáncer, un receptor de un trasplante de órganos o un sujeto que se sospecha que padece una enfermedad que afecta a un órgano (por ejemplo, el corazón en el infarto de miocardio, o el cerebro en el ictus, o el sistema hematopoyético en la anemia) y que contiene una o más moléculas de ácido nucleico de interés. La muestra biológica puede ser un tejido corporal, tal como sangre, plasma, suero, orina, fluido vaginal, líquido de un hidrocele (por ejemplo, de los testículos), líquidos de un lavado vaginal, líquido pleural, líquido ascítico, líquido cefalorraquídeo, saliva, sudor, lágrimas, esputo, líquido de lavado broncoalveolar, líquido de descarga del pezón, líquido de aspiración de diferentes partes del cuerpo (por ejemplo, tiroides, mama), etc. También pueden utilizarse muestras de heces. En diversas realizaciones, la mayor parte del ADN de una muestra biológica enriquecida en ADN acelular (por ejemplo, una muestra de plasma obtenida mediante un protocolo de centrifugación) puede estar libre de células, por ejemplo, más del 50 %, 60 %, 70 %, 80 %, 90 %, 95 % o 99 % del ADN puede estar libre de células. El protocolo de centrifugación puede incluir, por ejemplo, 3.000 g x 10 minutos, obtener la parte líquida, y volver a centrifugar, por ejemplo, 30.000 g durante otros 10 minutos para eliminar las células residuales.
Los "cambios asociados al cáncer' o "cambios específicos del cáncer1" incluyen, pero sin limitación, mutaciones derivadas del cáncer (incluidas mutaciones de un solo nucleótido, deleciones o inserciones de nucleótidos, deleciones de segmentos genéticos o cromosómicos, translocaciones, inversiones), amplificación de genes, segmentos genéticos o cromosómicos, secuencias asociadas a virus (por ejemplo, episomas víricos e inserciones víricas), perfiles de metilación aberrantes o firmas de metilación específicas del tumor, perfiles de tamaño del ADN acelular aberrantes, marcas aberrantes de modificación de histonas y otras modificaciones epigenéticas, y ubicaciones de los extremos de los fragmentos de ADN acelular que están asociados al cáncer o son específicos del cáncer.
Un "fragmento de ADN de cáncer informativo" corresponde a un fragmento de ADN portador de uno o más de los cambios o mutaciones asociados al cáncer o específicos del cáncer. Un "fragmento de ADN fetal informativo" corresponde a un fragmento de ADN fetal portador de una mutación que no se encuentra en ninguno de los genomas de los progenitores. Un "fragmento de ADN informativo" puede referirse a cualquiera de los tipos de fragmentos de ADN mencionados.
Una "lectura de secuencia" se refiere a una cadena de nucleótidos secuenciada de cualquier parte o de una molécula completa de ácido nucleico. Por ejemplo, una lectura de secuencia puede ser una cadena corta de nucleótidos (por ejemplo, 20-150) secuenciados a partir de un fragmento de ácido nucleico, una cadena corta de nucleótidos en uno o ambos extremos de un fragmento de ácido nucleico, o la secuenciación de todo el fragmento de ácido nucleico que existe en la muestra biológica. Una lectura de secuencia puede obtenerse de diversos modos, por ejemplo, mediante técnicas de secuenciación o utilizando sondas, por ejemplo, en matrices de hibridación o sondas de captura, o técnicas de amplificación, como la reacción en cadena de la polimerasa (PCR) o la amplificación lineal con un único cebador o la amplificación isotérmica.
Una "posición final" (o simplemente "final") puede referirse a la coordenada genómica o a la identidad genómica o de nucleótidos de la base más externa, es decir, en los extremos, de una molécula de ADN acelular, por ejemplo, la molécula de ADN plasmático. La posición final puede corresponder a cualquier extremo de una molécula de ADN. De esta manera, si se hace referencia a un inicio y un final de una molécula de ADN, ambos corresponderían a una posición final. En la práctica, una posición final es la coordenada genómica o la identidad de los nucleótidos de la base más externa de un extremo de una molécula de ADN acelular que se detecta o determina mediante un método analítico, como, por ejemplo, secuenciación paralela masiva o secuenciación de última generación, secuenciación de molécula única, protocolos de preparación de bibliotecas de secuenciación de ADN monocatenario o bicatenario, reacción en cadena de la polimerasa (PCR) o micromatriz. Estas técnicas in vitro pueden alterar los extremos auténticos in vivo de las moléculas de ADN acelulares. Por tanto, cada extremo detectable puede representar el extremo biológicamente auténtico o el extremo es uno o más nucleótidos hacia adentro o uno o más nucleótidos extendidos desde el extremo original de la molécula, por ejemplo, el despunte en 5' y el relleno en 3' de los salientes de las moléculas de ADN bicatenario no despuntadas por el fragmento Klenow. La identidad genómica o la coordenada genómica de la posición final podría derivarse de los resultados de la alineación de las lecturas de la secuencia con un genoma humano de referencia, por ejemplo, hg19. Podría derivarse de un catálogo de índices o códigos que representan las coordenadas originales del genoma humano. Podría referirse a una posición o identidad de nucleótidos en una molécula de ADN acelular que se lee mediante, pero sin limitación, sondas específicas para la diana, minisecuenciación, amplificación de ADN.
Un "extremo preferido" (o una "posición final recurrente") se refiere a un extremo que está más representado o es más prevalente (por ejemplo, medido por una tasa) en una muestra biológica que tiene un estado fisiológico (por ejemplo, embarazo) o patológico (enfermedad) (por ejemplo, cáncer) que una muestra biológica que no tiene dicho estado o que en diferentes puntos temporales o etapas del mismo estado patológico o fisiológico, por ejemplo, antes o después del tratamiento. Por lo tanto, un extremo preferido tiene una mayor probabilidad de ser detectado en el estado fisiológico o patológico pertinente en comparación con otros estados. El aumento de la probabilidad puede compararse entre el estado patológico y un estado no patológico, por ejemplo, en pacientes con y sin cáncer y cuantificados como cociente de probabilidad o probabilidad relativa. El cociente de probabilidad puede determinarse en función de la probabilidad de detectar al menos un número umbral de extremos preferidos en la muestra analizada o en función de la probabilidad de detectar los extremos preferidos en pacientes con dicha afección que en pacientes sin dicha afección. Los ejemplos para los umbrales de los cocientes de probabilidad incluyen, entre otros, 1,1, 1,2, 1,3, 1,4, 1,5, 1,6, 1,8, 2,0, 2,5, 3,0, 3,5, 4,0, 4,5, 5, 6, 8, 10, 20, 40, 60, 80 y 100. Estos cocientes de probabilidad pueden medirse comparando los valores de abundancia relativa de las muestras con y sin la afección correspondiente. Dado que la probabilidad de detectar un extremo preferido en un estado fisiológico o patológico relevante es mayor, esas posiciones finales preferidas se verían en más de un individuo con ese mismo estado fisiológico o patológico. Con el aumento de la probabilidad, puede detectarse más de una molécula de ADN acelular como terminada en una misma posición final preferida, incluso cuando el número de moléculas de ADN acelular analizadas es mucho menor que el tamaño del genoma. Por tanto, las posiciones finales preferidas o recurrentes también se denominan "posiciones finales frecuentes" En algunas realizaciones, se puede utilizar un umbral cuantitativo para exigir que los extremos se detecten al menos varias veces (por ejemplo, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20 o 50) dentro de la misma muestra o de la misma alícuota de muestra para ser considerado como un extremo preferente. Un estado fisiológico relevante puede incluir un estado cuando una persona está sana, libre de enfermedad, o libre de una enfermedad de interés. De manera similar, una "ventana final preferida" corresponde a un conjunto contiguo de posiciones finales preferidas.
La "frecuencia" de moléculas de ADN que terminan en una posición se refiere a la frecuencia con la que una molécula de ADN termina en la posición. La frecuencia puede estar basada en un número de moléculas de ADN que terminan en la posición normalizada frente a un número de moléculas de ADN analizadas. Por consiguiente, la frecuencia corresponde a una frecuencia del número de moléculas de ADN que terminan en una posición, y no está relacionado con una periodicidad de posiciones que tienen un máximo local en el número de moléculas de ADN que terminan en la posición.
Una "muestra de calibración" puede corresponder a una muestra biológica cuya fracción de ADN específica del tejido se conoce o se determina mediante un método de calibración, por ejemplo, utilizando un alelo específico para el tejido. Como otro ejemplo, una muestra de calibración puede corresponder a una muestra a partir de la cual se pueden determinar las posiciones finales preferidas. Una muestra de calibración puede utilizarse para ambos fines.
Un "punto de datos de calibración" incluye un "valor de calibración" y una distribución proporcional medida o conocida del ADN de interés (es decir, el ADN de un tipo de tejido concreto). El valor de calibración puede ser una abundancia relativa determinada para una muestra de calibración, para el que se conoce la distribución proporcional del tipo de tejido. Los puntos de datos de calibración pueden definirse de varias maneras, por ejemplo, como puntos individuales o como una función de calibración (también denominada curva de calibración o superficie de calibración). La función de calibración podría derivarse de una transformación matemática adicional de los puntos de datos de calibración.
La expresión "profundidad de secuenciación" se refiere al número de veces que un locus está cubierto por una lectura de secuencia alineada con el locus. El locus puede ser tan pequeño como un nucleótido, o tan grande como un brazo cromosómico, o tan grande como todo el genoma. La profundidad de secuenciación puede expresarse como 50x, 100x, etc., donde "x" se refiere al número de veces que se cubre un locus con una lectura de secuencia. La profundidad de secuenciación también puede aplicarse a múltiples locus o a todo el genoma, en cuyo caso x puede referirse al número medio de veces que se secuencian los locus, el genoma haploide o todo el genoma. La secuenciación ultra profunda puede referirse a una profundidad de secuenciación de al menos 100x.
Un "valor de separación" corresponde a una diferencia o a un cociente entre dos valores. El valor de separación puede ser una simple diferencia o frecuencia. A modo de ejemplo, una relación directa de x/y es un valor de separación, así como x/(x+y). El valor de separación puede incluir otros factores, por ejemplo, factores multiplicativos. Como otro ejemplo, se puede utilizar una diferencia o relación de funciones de los valores, por ejemplo, una diferencia o ratio de los logaritmos naturales (In) de los dos valores. Un valor de separación puede incluir una diferencia y una proporción.
Una "abundancia relativa" es un tipo de valor de separación que relaciona una cantidad (un valor) de moléculas de ADN acelular que terminan dentro de una ventana de posición genómica con una cantidad (otro valor) de moléculas de ADN acelular que terminan dentro de otra ventana de posiciones genómicas. Las dos ventanas pueden superponerse, pero serían de diferentes tamaños. En otras implementaciones, las dos ventanas no se superpondrían. Además, las ventanas pueden tener una amplitud de un nucleótido y, por tanto, equivaler a una posición genómica.
El término "clasificación", como se usa en el presente documento, se refiere a cualquier número u otros caracteres que se asocian a una propiedad particular de una muestra. Por ejemplo, un símbolo "+" (o la palabra "positivo") podría significar que una muestra está clasificada como con deleciones o amplificaciones. La clasificación puede ser binaria (por ejemplo, positiva o negativa) o tener más niveles de clasificación (por ejemplo, una escala de 1 a 10 o de 0 a 1). Los términos "corte" y "umbral' se refieren a números predeterminados utilizados en una operación. Por ejemplo, un tamaño de corte puede referirse a un tamaño por encima del cual se excluyen los fragmentos. Un valor umbral puede ser un valor por encima o por debajo del cual se aplica una determinada clasificación. Cualquiera de estos términos puede utilizarse en cualquiera de estos contextos.
La expresión "nivel de cáncer1" puede referirse a si existe el cáncer (es decir, presencia o ausencia), un estadio de un cáncer, un tamaño del tumor, si hay metástasis, la carga tumoral total del cuerpo, y/u otra medida de la gravedad de un cáncer (por ejemplo, la recurrencia del cáncer). El nivel de cáncer puede ser un número u otros indicios, tales como símbolos, letras del alfabeto y colores. El nivel podría ser cero. El nivel de cáncer también incluye las afecciones (estados) premalignas o precancerosas asociadas a mutaciones o a un número de mutaciones. El nivel de cáncer puede usarse de varias maneras. Por ejemplo, el cribado puede comprobar si el cáncer está presente en una persona que no se sabe ha tenido cáncer con anterioridad. La evaluación puede investigar a una persona a la que se le ha diagnosticado un cáncer para controlar la evolución del mismo a lo largo del tiempo, estudiar la eficacia de las terapias o determinar el pronóstico. En una realización, el pronóstico puede expresarse como la probabilidad de que un paciente muera de cáncer, o la probabilidad de que el cáncer progrese después de una duración o tiempo específicos, o la probabilidad de que el cáncer metastatice. Detección puede significar "cribado" o puede significar comprobar si alguien, con características indicativas de cáncer (por ejemplo, síntomas u otras pruebas positivas), tiene cáncer.
Un "máximo local" puede referirse a una posición genómica (por ejemplo, un nucleótido) en la que se obtiene el mayor valor del parámetro de interés cuando se compara con las posiciones vecinas, o puede referirse al valor del parámetro de interés en dicha posición genómica. A modo de ejemplo, las posiciones vecinas pueden variar de 50 pb a 2000 pb. Entre los ejemplos del parámetro de interés se incluyen, pero sin limitación, el número de fragmentos que terminan en una posición genómica, el número de fragmentos que se solapan con la posición o la proporción de fragmentos que cubren la posición genómica y que son mayores que un tamaño umbral. Pueden producirse muchos máximos locales cuando el parámetro de interés tiene una estructura periódica. Un máximo global es uno específico de los máximos locales. De manera similar, un "mínimo local" puede referirse a una posición genómica en la que se obtiene el menor valor del parámetro de interés cuando se compara con las posiciones vecinas, o puede referirse al valor del parámetro de interés en dicha posición genómica.
Se describen factores que afectan al patrón de fragmentación del ADN acelular (por ejemplo, el ADN plasmático) y aplicaciones del análisis de los patrones de fragmentación del ADN acelular, por ejemplo en diagnóstico molecular. Varias aplicaciones pueden utilizar una propiedad de un patrón de fragmentación para determinar una contribución proporcional de un tipo de tejido concreto, para determinar el genotipo de un tipo de tejido concreto (por ejemplo, tejido fetal en una muestra materna o tejido tumoral en una muestra de un paciente con cáncer), y/o para identificar las posiciones finales preferidas para un tipo de tejido concreto, que puede utilizarse para determinar la contribución proporcional de un tipo de tejido concreto. En algunas realizaciones, las posiciones finales preferidas para un tejido concreto también pueden utilizarse para medir la contribución absoluta de un tipo de tejido concreto en una muestra, por ejemplo, en número de genomas por unidad de volumen (por ejemplo, por mililitro).
Los ejemplos de clasificación de una contribución proporcional incluyen porcentajes específicos, intervalos de porcentajes o puede determinarse como clasificación si la contribución proporcional se encuentra por encima de un porcentaje. Para determinar la clasificación de una contribución proporcional, algunas realizaciones pueden identificar las posiciones finales preferidas correspondientes a un tipo de tejido concreto (por ejemplo, tejido fetal o tejido tumoral). Estas posiciones finales preferidas pueden determinarse de varias maneras, por ejemplo, analizando la velocidad con la que las moléculas de ADN acelular terminan en posiciones genómicas, comparando dichas tasas con otras muestras (por ejemplo, que no tengan una afección relevante), y comparando conjuntos de posiciones genómicas con altas frecuencias de aparición de extremos de moléculas de ADN acelular para diferentes tejidos y/o diferentes muestras que difieran en una afección. La abundancia relativa de las moléculas de ADN acelular que terminan en las posiciones finales preferidas en relación con las moléculas de ADN acelular que terminan en otras posiciones genómicas puede compararse con uno o más valores de calibración determinados a partir de una o más muestras biológicas de calibración cuya contribución proporcional del tipo de tejido particular se conoce. Los datos proporcionados en el presente documento muestran una relación positiva entre varias medidas de abundancia relativa y una contribución proporcional de varios tejidos en una muestra.
Para determinar la clasificación de una contribución proporcional, algunas realizaciones pueden utilizar una amplitud en un patrón de fragmentación (por ejemplo, el número de moléculas de ADN acelular que terminan en una posición genómica). Por ejemplo, pueden identificarse uno o más mínimos locales y uno o más máximos locales analizando el número de moléculas de ADN acelular que terminan en una pluralidad de posiciones genómicas. Un valor de separación (por ejemplo, una relación) de un primer número de moléculas de ADN acelular en uno o más máximos locales y un segundo número de moléculas de ADN acelular en uno o más mínimos locales se muestra positivamente relacionado con una contribución proporcional del tipo de tejido particular.
En algunas realizaciones, se podría medir la concentración del tejido de interés en relación con el volumen o el peso de las muestras de ADN acelular. Por ejemplo, la PCR cuantitativa podría utilizarse para medir el número de moléculas de ADN acelular que terminan en uno o más extremos preferidos en una unidad de volumen o de peso de la muestra de ADN acelular extraída. Se pueden realizar mediciones similares para las muestras de calibración y, por lo tanto, se puede determinar la contribución proporcional, ya que la contribución es una concentración por unidad de volumen o de peso.
Para determinar el genotipo de un tipo de tejido concreto (por ejemplo, tejido fetal o tejido tumoral) en una mezcla de ADN acelular de diferentes tipos de tejido, algunas realizaciones pueden identificar una posición final preferida para el tipo de tejido concreto. Para cada molécula de ADN acelular de un conjunto de moléculas de ADN acelular que termina en la posición final preferida, puede determinarse una base correspondiente que ocurra en la posición final preferida.
Las bases correspondientes pueden utilizarse para determinar el genotipo en la posición final preferida, por ejemplo, basándose en los porcentajes de las diferentes bases observadas. En diversas implementaciones, un alto porcentaje de una sola base (por ejemplo, por encima del 90 %) puede indicar que el genotipo es homocigoto para esa base, mientras que dos bases con porcentajes similares (por ejemplo, entre el 30-70 %) pueden llevar a determinar que el genotipo es heterocigoto.
Para identificar posiciones finales preferidas, algunas realizaciones pueden comparar un máximo local para los extremos izquierdos de las moléculas de ADN acelular con un máximo local para los extremos derechos de moléculas de ADN acelular. Las posiciones finales preferidas pueden identificarse cuando los máximos locales correspondientes están suficientemente separados. Además, pueden compararse las cantidades de moléculas de ADN acelular que terminan en un máximo local para el extremo izquierdo/derecho con una cantidad de moléculas de ADN acelular para un máximo local con baja separación, a fin de determinar una contribución proporcional de un tipo de tejido.
En la siguiente descripción, se presenta en primer lugar una descripción general de la fragmentación y de las técnicas, seguida de aspectos específicos de los patrones de fragmentación y de los ejemplos de la cuantificación de los mismos y una descripción adicional relacionada con la determinación de una contribución proporcional, la identificación de posiciones finales preferidas y la determinación de un genotipo.
I. DESCRIPCIÓN GENERAL DE LA FRAGMENTACIÓN Y LAS TÉCNICAS
En la presente divulgación, los presentes inventores demuestran que existe un proceso de fragmentación no aleatorio del a Dn acelular. El proceso de fragmentación no aleatoria tiene lugar en cierta medida en varios tipos de muestras biológicas que contienen ADN acelular, por ejemplo plasma, suero, orina, saliva, líquido cefalorraquídeo, líquido pleural, líquido amniótico, líquido peritoneal y líquido ascítico. El ADN acelular se produce de forma natural en forma de fragmentos cortos. La fragmentación del ADN acelular se refiere al proceso por el que se escinde, se rompe o se digiere en fragmentos cortos el ADN de alta masa molecular (tal como el ADN del núcleo de una célula) cuando se generan o liberan moléculas de ADN acelular.
No todas las moléculas de ADN acelular tienen la misma longitud. Algunas moléculas son más cortas que otras. Se ha demostrado que el ADN acelular, tal como ADN plasmático, es generalmente más corto y está menos intacto, es decir, tiene menos probabilidades de mantenerse intacto o tiene menos integridad, dentro de los dominios de cromatina abiertos, incluidos alrededor de los sitios de inicio de la transcripción, y en lugares entre los núcleos nucleosómicos, como en las posiciones de los enlaces (Straver et al., Prenat Diagn 2016, 36:614-621). Cada tejido diferente tiene su perfil de expresión génica característico que, a su vez, está regulado por medios que incluyen la estructura de la cromatina y el posicionamiento nucleosómico. Por tanto, los patrones de ADN acelular con probabilidad de estar intactos o íntegros en determinadas ubicaciones genómicas, como las del ADN plasmático, son firmas o distintivos del origen tisular de dichas moléculas de ADN. De manera similar, cuando un proceso patológico, por ejemplo, un cáncer, altera el perfil de expresión genética y la función del genoma de una célula, el perfil de probabilidad de ADN acelular intacto procedente de las células con enfermedad sería un reflejo de esas células. El perfil de ADN acelular, por tanto, proporcionaría pruebas de la presencia de la enfermedad o es distintivo de su presencia.
Algunas realizaciones mejoran aún más la resolución para estudiar el perfil de la fragmentación del ADN acelular. En lugar de limitarse a sumar las lecturas sobre un tramo de nucleótidos para identificar regiones con mayor o menor probabilidad de integridad o intactas, los presentes inventores estudiaron las posiciones finales reales o terminales de las moléculas individuales de ADN acelular, especialmente las moléculas de ADN plasmático. Notablemente, los presentes datos revelan que los lugares específicos donde se cortan las moléculas de ADN acelular no son aleatorios. El ADN genómico tisular de alta masa molecular que se corta o trata con ultrasonidos in vitro muestra moléculas de ADN con posiciones terminales dispersas aleatoriamente por todo el genoma. Sin embargo, hay ciertas posiciones finales de las moléculas de ADN acelular que están altamente representadas dentro de una muestra, tal como plasma. El número de apariciones o representaciones de estas posiciones finales de manera estadísticamente significativa más alto de lo esperado por mera casualidad. Estos datos hacen que nuestra comprensión de la fragmentación del ADN acelular se encuentre un paso más allá de la variación regional de la identidad (Snyder et al., Cell 2016, 164: 57­ 68). En el presente documento los presentes inventores demuestran que el proceso de fragmentación del ADN acelular está orquestado incluso hasta la posición específica del nucleótido de corte o escisión. Los presentes inventores denominan estas posiciones no aleatorias de los extremos del ADN acelular como posiciones finales preferidas o extremos preferidos.
En la presente divulgación, los presentes inventores demuestran que hay posiciones finales del ADN acelular que se dan comúnmente en individuos con diferentes estados fisiológicos o patológicos. Por ejemplo, hay fines preferidos comunes compartidos por mujeres embarazadas y no embarazadas, compartidos por una embarazada y un paciente con cáncer, compartidos con individuos con y sin cáncer. Por otro lado, hay extremos preferidos que se dan sobre todo en las mujeres embarazadas, solo en pacientes con cáncer, o solo en mujeres embarazadas sin cáncer. Curiosamente, estos extremos específicos del embarazo o específicos del cáncer o específicos de una enfermedad también están altamente representados en otros individuos con un estado fisiológico o patológico comparable. Por ejemplo, los extremos preferidos identificados en el plasma de una mujer embarazada son detectables en el plasma de otras mujeres embarazadas. Además, la cantidad de una proporción de dichos extremos preferidos se correlaciona con la fracción de ADN fetal en el plasma de otras mujeres embarazadas. Dichas terminaciones preferidas están de hecho asociadas al embarazo o al feto porque sus cantidades se reducen sustancialmente en las muestras de plasma materno posteriores al parto. De manera similar, en el cáncer, los extremos preferidos identificados en el plasma de un paciente con cáncer son detectables en el plasma de otro paciente con cáncer. Además, la cantidad de una proporción de dichos extremos preferidos se correlaciona con la fracción de ADN tumoral en el plasma de otros pacientes con cáncer. Estas terminaciones preferidas se asocian al cáncer porque sus cantidades se reducen tras el tratamiento del mismo, por ejemplo, la resección quirúrgica.
Existen varias aplicaciones o utilidades para el análisis de los extremos preferidos del ADN acelular. Estas podrían proporcionar información sobre la fracción de ADN fetal en el embarazo y, por tanto, sobre la salud del feto. Por ejemplo, se ha informado de que una serie de trastornos asociados al embarazo, como la preeclampsia, el parto prematuro, la restricción del crecimiento intrauterino (RCIU), las aneuploidías cromosómicas fetales y otros, se asocian a alteraciones en la concentración fraccional de ADN fetal, a saber, la fracción de ADN fetal, o fracción fetal, en comparación con embarazos de control emparejados según la edad gestacional. Los extremos preferidos del ADN acelular plasmático asociados al cáncer revelan la fracción de ADN tumoral o la concentración fraccional en una muestra de plasma. Conocer la fracción de ADN del tumor proporciona información sobre el estadio del cáncer, su pronóstico y ayuda a controlar la eficacia del tratamiento o la recurrencia del cáncer. El perfil de los extremos preferidos del ADN acelular también revelaría la composición de los tejidos que aportan ADN a la muestra biológica que contiene ADN acelular, por ejemplo, el plasma. Por tanto, se podría identificar el origen tisular del cáncer u otras patologías, por ejemplo, accidentes cerebrovasculares (es decir, apoplejía), manifestaciones orgánicas del lupus eritematoso sistémico.
Se puede identificar un catálogo de extremos preferidos relevantes para determinados estados fisiológicos o patológicos comparando los perfiles de ADN acelular de los extremos preferidos entre individuos con diferentes estados fisiológicos o patológicos, por ejemplo, las muestras de no embarazadas comparadas con las de embarazadas, muestras de cáncer en comparación con no cancerosas, o el perfil de la mujer embarazada sin cáncer en comparación con el perfil de las pacientes con cáncer no embarazadas. Otra estrategia consiste en comparar los perfiles de ADN acelular de extremos preferidos en diferentes momentos de un proceso fisiológico (por ejemplo, el embarazo) o patológico (por ejemplo, el cáncer). Algunos ejemplos de estos momentos son antes y después del embarazo, antes y después del parto de un feto, muestras recogidas en diferentes edades gestacionales durante el embarazo, antes y después del tratamiento del cáncer (por ejemplo, terapia dirigida, inmunoterapia, quimioterapia, cirugía), diferentes momentos tras el diagnóstico de cáncer, antes y después de la progresión del cáncer, antes y después del desarrollo de la metástasis, antes y después del aumento de la gravedad de la enfermedad, o antes y después del desarrollo de complicaciones.
Además, los extremos preferidos podrían identificarse utilizando marcadores genéticos que son relevantes para un tejido particular. Por ejemplo, las moléculas de ADN acelular que contienen un alelo SNP específico del feto serían útiles para identificar los extremos preferidos específicos del feto en una muestra como el plasma materno. Por el contrario, las moléculas de ADN plasmático que contienen un alelo SNP específico de la madre serían útiles para identificar los extremos preferidos por la madre en el plasma materno. Las moléculas de ADN plasmático que contienen una mutación específica del tumor podrían utilizarse para identificar los extremos preferidos asociados al cáncer. Las moléculas de a Dn plasmático que contienen un alelo SNP específico del donante o del receptor en el contexto del trasplante de órganos son útiles para identificar los extremos preferidos del órgano trasplantado o no trasplantado. Por ejemplo, los alelos SNP específicos del donante serían útiles para identificar las terminaciones preferidas representativas del órgano trasplantado.
Un extremo preferido puede considerarse relevante para un estado fisiológico o patológico cuando tiene una alta probabilidad o posibilidad de ser detectado en ese estado fisiológico o patológico. En otras realizaciones, con una determinada probabilidad es más probable detectar un extremo preferido en el estado fisiológico o patológico relevante que en otros estados. Dado que la probabilidad de detectar un extremo preferido en un estado fisiológico o patológico relevante es mayor, dichos extremos preferidos o recurrentes (o posiciones finales) se verían en más de un individuo con ese mismo estado fisiológico o patológico. La alta probabilidad también haría que esos extremos preferidos o recurrentes fueran detectables muchas veces en la misma muestra de ADN acelular o en la alícuota del mismo individuo. En algunas realizaciones, se puede establecer un umbral cuantitativo para limitar la inclusión de los extremos que se detecten al menos un número determinado de veces (por ejemplo, 5, 10, 15, 20, etc.) dentro de la misma muestra o de la misma alícuota de muestra para ser considerado como un extremo preferente.
Tras establecer un catálogo de extremos preferidos de ADN acelular para cualquier estado fisiológico o patológico, podrían utilizarse métodos dirigidos o no dirigidos para detectar su presencia en muestras de ADN acelular, por ejemplo, el plasma, u otros individuos para determinar una clasificación de los otros individuos analizados que tienen un estado de salud, fisiológico o patológico similar. Los extremos preferidos del ADN acelular podrían detectarse mediante secuenciación no aleatoria no dirigida. Debería tenerse en cuenta la profundidad de la secuenciación, de modo que se logre una probabilidad razonable de identificar la totalidad o una porción de los extremos preferidos relevantes. Como alternativa, la captura por hibridación de locus con alta densidad de extremos preferidos podría llevarse a cabo en las muestras de ADN acelular para enriquecer la muestra con moléculas de ADN acelular con dichos extremos preferidos tras, pero sin limitación, la detección por secuenciación, micromatriz, o PCR. No obstante, como alternativa, podrían utilizarse estrategias basadas en la amplificación para amplificar y enriquecer específicamente las moléculas de ADN acelular con los extremos preferidos, por ejemplo, PCR inversa, amplificación en círculo rodante. Los productos de amplificación podrían identificarse mediante secuenciación, micromatriz, sondas fluorescentes, electroforesis en gel y otras estrategias convencionales conocidas por los expertos en la materia.
En la práctica, una posición final puede ser la coordenada genómica o la identidad de los nucleótidos de la base más externa de un extremo de una molécula de ADN acelular que se detecta o determina mediante un método analítico, como, por ejemplo, secuenciación paralela masiva o secuenciación de última generación, secuenciación de molécula única, protocolos de preparación de bibliotecas de secuenciación de ADN monocatenario o bicatenario, PCR, otros métodos enzimáticos para la amplificación del ADN (por ejemplo, la amplificación isotérmica) o micromatriz. Estas técnicas in vitro pueden alterar los extremos auténticos in vivo de las moléculas de ADN acelulares. Por tanto, cada extremo detectable puede representar el extremo biológicamente verdadero o el extremo es uno o más nucleótidos hacia el interior o uno o más nucleótidos extendidos desde el extremo original de la molécula. Por ejemplo, el fragmento Klenow se utiliza para crear moléculas de ADN bicatenario con extremos romos durante la construcción de bibliotecas de secuenciación de ADN mediante el despunte de los salientes 5' y el relleno de los salientes 3'. Aunque estos procedimientos pueden revelar una posición final del ADN acelular que no es idéntica al final biológico, todavía podría determinarse la relevancia clínica. Esto se debe a que la identificación de los preferidos que son relevantes o están asociados a un estado fisiológico o patológico concreto podría basarse en los mismos protocolos de laboratorio o principios metodológicos que darían lugar a alteraciones consistentes y reproducibles de los extremos del ADN acelular tanto en las muestras de calibración como en las de prueba. Varios protocolos de secuenciación de ADN utilizan bibliotecas de ADN monocatenario (Snyder et al., Cell 2016, 164: 57-68). Los extremos de las lecturas de secuencia de bibliotecas monocatenarias pueden encontrase más hacia el interior o extenderse más allá que los extremos de las bibliotecas de ADN bicatenario.
La identidad genómica o la coordenada genómica de la posición final podría derivarse de los resultados de la alineación de las lecturas de la secuencia con un genoma humano de referencia, por ejemplo, hg19. Podría derivarse de un catálogo de índices o códigos que representan las coordenadas originales del genoma humano. Mientras que un extremo es el nucleótido en uno o ambos extremos de una molécula de ADN acelular, la detección del extremo podría hacerse mediante el reconocimiento de otro nucleótido u otros tramos de nucleótidos en la molécula de ADN plasmático. Por ejemplo, la amplificación positiva de una molécula de ADN plasmática con un extremo preferido se detecta mediante una sonda fluorescente que se une a las bases intermedias del amplicón. Por ejemplo, un extremo podría identificarse mediante la hibridación positiva de una sonda fluorescente que se une a algunas bases en una sección intermedia de una molécula de ADN plasmático, donde se conoce el tamaño del fragmento. De este modo, se podría determinar la identidad genómica o la coordenada genómica de un extremo calculando cuántas bases son externas a la sonda fluorescente con secuencia e identidad genómica conocidas. En otras palabras, podría identificarse o detectarse un extremo mediante la detección de otras bases en la misma molécula de ADN plasmático. Un extremo podría ser una posición o identidad de nucleótidos en una molécula de ADN acelular que se lee mediante, pero sin limitación, sondas específicas para la diana, minisecuenciación y amplificación del ADN.
II. PATRONES DE FRAGMENTACIÓN DEL ADN PLASMÁTICO
Para el análisis del patrón de fragmentación del ADN plasmático materno, los presentes inventores secuenciaron el ADN plasmático de una mujer embarazada reclutada en el Departamento de Obstetricia y Ginecología a una edad gestacional de 12 semanas (Lo et al. Sci Transl Med 2010; 2(61):61ra91). El ADN plasmático obtenido de la madre se sometió a una secuenciación masiva en paralelo utilizando la plataforma Illumina Genome Analyzer. Podrían utilizarse otros secuenciadores para secuenciación masiva en paralelo o de una sola molécula. Se realizó la secuenciación paired-end de las moléculas de ADN plasmático. Se secuenciaron 50 pb de cada uno de los extremos de la molécula, obteniéndose de este modo un total de 100 pb por molécula. Los dos extremos de cada secuencia se alinearon con el genoma humano de referencia (Hg18 NCBI.36) utilizando el programa SOAP2 (Li R et al., Bioinformatics 2009, 25:1966-7). También se extrajo el ADN de las muestras de la capa leucocitaria del padre y de la madre, así como de la muestra del CVS. Estas muestras de ADN se genotiparon utilizando el sistema Affymetrix Genome-Wide Human SNP Array 6.0.
A. Ejemplo de cuantificación de la fragmentación
A fin de reflejar los patrones de fragmentación, la probabilidad de intacto (Pi) puede determinarse para cada nucleótido del genoma basándose en los resultados de la secuenciación del ADN plasmático materno.
Pi = ^ Nf
donde Nz es el número de lecturas secuenciadas de longitud completa que abarcan al menos z nucleótidos (nt) a ambos extremos (5' y 3') del nucleótido diana; y Nt es el número total de lecturas secuenciadas que abarcan el nucleótido diana.
El valor de Pi puede reflejar la probabilidad de tener una molécula de ADN intacta centrada en una posición concreta con una longitud del doble del valor de z más 1 (2z 1). Cuanto mayor sea el valor de la probabilidad de intacto (Pi), menos probable es que el ADN plasmático se fragmente en la posición del nucleótido concreto. A fin de ilustrar esto, la definición de la probabilidad de intacto se ilustra en la FIG. 1.
La FIG. 1 muestra un ejemplo ilustrativo para la definición de la probabilidad de intacto (P i). T es la posición del nucleótido diana para el que se calcula la Pi. A y B son dos posiciones a z nucleótidos (nt) cadena arriba (5') y z nt cadena abajo (3') de T, respectivamente. Las líneas negras marcadas de la a a la j representan fragmentos de ADN plasmático secuenciado a partir del plasma materno. Los fragmentos a a d abarcan las tres posiciones A, B y T. Por tanto, el número de fragmentos que cubren al menos z nt a ambos lados (5' y 3') del nucleótido diana (Nz ) es 4. Además, los fragmentos e, f y g también abarcan la posición T, pero no cubren las dos posiciones A y B. Por tanto, hay un total de 7 fragmentos que abarcan la posición T (Nt =7). Los fragmentos h y j abarcan A o B pero no T. Estos fragmentos no se cuentan en Nz o Nt . Por consiguiente, la Pi en este ejemplo concreto es de 4/7 (57 %).
En una realización, La Pi puede calcularse utilizando 25 como valor de z. Por tanto, los fragmentos de ADN plasmático intactos se definirían como fragmentos que cubren al menos 25 nt cadena arriba de la posición diana hasta 25 nt cadena abajo de la posición diana. En otras realizaciones, pueden utilizarse otros valores de z, por ejemplo, pero sin limitación, 10, 15, 20, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75 y 80.
La Pi es un ejemplo de abundancia relativa de moléculas de ADN acelular que terminan en una ventana de posiciones genómicas. Pueden utilizarse otras métricas, por ejemplo, la el valor recíproco de la Pi , que tendría una relación opuesta con la probabilidad de tener una molécula de ADN intacta. Un valor más alto del valor recíproco de la Pi indicaría una mayor probabilidad de ser una posición final o una ventana final. Otros ejemplos son un valor de p para un número medido de fragmentos de ADN finales frente a un número esperado de fragmentos de ADN finales, una proporción de fragmentos de ADN terminados de entre todos los fragmentos de ADN alineados, o una proporción de terminación final preferida (PETR), todos los cuales se describen con más detalle a continuación. Todas estas métricas de una abundancia relativa miden una tasa en la que los fragmentos de ADN acelular terminan dentro de una ventana, por ejemplo, con una amplitud de 2z+1, donde z puede ser cero, por lo que la ventana es equivalente a una posición genómica.
B. Periodicidad del patrón de fragmentación
Ciertas regiones del genoma son propensas a una mayor tasa (frecuencia) de rotura de una región cromosómica en un tejido concreto y, por tanto, tienen una mayor tasa de fragmentos de ADN acelular que terminan dentro de una ventana en la región. Un gráfico de la abundancia relativa muestra un patrón de fragmentación, que puede tener una estructura periódica. La estructura periódica muestra las posiciones de finalización máxima (escisión alta) y las posiciones de finalización mínima (escisión baja). Cuando se utiliza la Pi , un valor máximo corresponde a una ventana de baja escisión, dado que la Pi mide una probabilidad de intacta en contraposición a una probabilidad de escisión (probabilidad de posición final), que tienen una relación inversa entre sí.
Las FIG. 2A y 2B muestran la variación de la Pi a lo largo de un segmento del cromosoma 6 utilizando 25 como valor de z, de acuerdo con las realizaciones de la presente invención. En la figura 2A, la variación de la Pi se presenta en diferentes intensidades de gris como se muestra en la clave a la izquierda. En la FIG. 2B, la variación de la Pi se visualiza en un segmento más corto. El eje x es la coordenada genómica en nucleótidos (nt) y el eje y es la Pi . La variación de la Pi tiene una periodicidad aparente de unos 180 pb.
C. Variación sincrónica de la Pi para el ADN materno y fetal en el plasma materno
Mientras que la Pi varía a lo largo del genoma con una periodicidad de aproximadamente 180 pb, los presentes inventores investigaron además si la variación en la Pi sería sincrónica para las moléculas de ADN plasmáticas derivadas del feto y de la madre. La variación sincrónica significa que los picos (máximos) y los valles (mínimos) de la PI se producen en las mismas posiciones relativas de los nucleótidos en todo el genoma o en una proporción suficientemente alta del mismo. El umbral para definir la proporción suficientemente alta puede ajustarse para aplicaciones específicas, por ejemplo, pero sin limitación, >20 %, >25 %, >30 %, >35 %, >40 %, >45 %, >50 %, >55 %, >60 %, >65 %, >70 %, >75 %, >80 %, >85 %, >90 % y >95 %. Las dos figuras que aparecen a continuación (FIG. 3 y FIG. 4) muestran dos posibles relaciones entre las variaciones de la Pi para el ADN de origen materno y fetal en el plasma materno.
La FIG. 3 muestra la ilustración de la variación sincrónica de la Pi para el ADN de origen materno y fetal en el plasma materno. Los picos y valles de la Pi se producen en las mismas posiciones relativas para el ADN materno y fetal en todo el genoma o en la mayor parte del mismo. Si hubiera una variación sincrónica en una región, el ADN procedente del feto y el procedente de la madre tendrían el mismo patrón de fragmentación, dificultando por tanto el uso de la periodicidad de un patrón de fragmentación en la región como firma de uno de los tipos de tejido.
La FIG. 4 muestra una ilustración de la variación asincrónica de la Pi para el ADN de origen materno y fetal en el plasma materno. Los picos y valles de la Pi para el ADN materno y fetal no tienen una relación relativa constante en todo el genoma. En la región I, los picos de la Pi del ADN materno coinciden con el pico del ADN fetal. En la región II, los picos de la Pi para el ADN materno coinciden con el valle para el ADN fetal. En las regiones III y IV, los picos de la Pi del ADN materno se encuentran entre los picos y las depresiones del ADN fetal. Si la variación no fue sincrónica, dicha diferencia en los patrones de fragmentación fetal y maternos podría utilizarse como firma para identificar el ADN que probablemente proceda del feto o de la madre. Además, dicha diferencia puede utilizarse para determinar una contribución proporcional del tejido fetal o materno, como se describe con más detalle a continuación. Por ejemplo, es más probable que los fragmentos de ADN que terminan en uno de los picos de la región II sean ADN fetal, y la abundancia relativa de fragmentos de ADN que terminan en dicho pico en comparación con otras posiciones genómicas aumentaría con el incremento de la fracción de ADN fetal.
La FIG. 5 es un diagrama de flujo 500 que muestra un análisis sobre si las moléculas de ADN materno y fetal son sincrónicas en la variación de la Pi . El análisis 500 investiga si la variación de la Pi es sincrónica entre el ADN materno y el fetal en el plasma materno. El análisis 500 puede utilizar un sistema informático. Aunque el análisis 500 se realizó mediante secuenciación, como se ha descrito anteriormente, pueden utilizarse otras técnicas, por ejemplo, como se describe en el presente documento.
En el bloque 510, el análisis 500 identifica los SNP en los que la mujer embarazada es homocigota (AA) y el feto es heterocigoto (AB). Estos SNP se denominan SNP informativos. El alelo B es el alelo específico del feto. Estos SNP informativos pueden identificarse analizando una muestra que sea única o predominantemente de origen materno. Por ejemplo, se puede utilizar la capa leucocitaria de una muestra de sangre, ya que los glóbulos blancos serían predominantemente de la madre. Las posiciones genómicas en las que solo aparece un nucleótido (o un alto porcentaje de un nucleótido, por ejemplo, por encima del 80 %, que puede depender de la fracción de ADN fetal) pueden identificarse como homocigóticas en la madre. El plasma puede analizarse para identificar posiciones homocigotas en la madre cuando se identifique un porcentaje suficiente de fragmentos de ADN que tengan otro alelo identificado.
En el bloque 520, se identificaron las moléculas de ADN plasmático que tenían el alelo B específico del feto. Estas moléculas de ADN pueden identificarse como correspondientes a tejido fetal como resultado de la identificación del alelo B.
En el bloque 530, se determinó el valor de la Pi para el ADN acelular en el plasma materno. Estos valores de Pi incluyen el ADN fetal y el materno. El valor de la Pi para una posición genómica determinada se obtuvo analizando las lecturas de la secuencia alineadas a esa posición genómica de un genoma de referencia.
En el bloque 540, los picos de Pi se determinaron analizando la salida del bloque 530. Los picos pueden identificarse de varias maneras, y cada pico puede restringirse a una sola posición genómica o permitirse que corresponda a más de una posición genómica. Los presentes inventores observaron que la Pi varía a lo largo de todo el genoma para el ADN mayoritariamente procedente de la madre en el plasma materno con un patrón de tipo sinusoide con una periodicidad de aproximadamente 180 pb.
En el bloque 550, se determinó la distancia entre los SNP informativos y la Pi más cercana (bloque 540) para el total del plasma materno. Los presentes inventores identificaron la posición del SNP en relación con el pico más cercano de la variación de la Pi para el ADN total del plasma procedente predominantemente de la propia mujer embarazada.
En el bloque 560, todos los fragmentos de ADN derivados del feto se agregaron. Todos los fragmentos de ADN plasmático detectados que portaban un alelo específico del feto se agregaron para el cálculo de la Pi del ADN procedente del feto. A continuación se calculó la Pi para los fragmentos de ADN agregados procedentes del feto con referencia a la posición del pico de la Pi más cercana para el ADN total del plasma materno. El cálculo de la Pi para el ADN procedente del feto se realizó de forma similar al cálculo de la Pi para el ADN total del plasma materno.
En el bloque 570, se determinó una variación de la Pi para los fragmentos de ADN procedentes del feto en relación con los picos de la Pi para el ADN total del plasma materno. La variación se muestra en la FIG. 6.
La FIG. 6 muestra un análisis de dos muestras de plasma materno (S24 y S26) para la variación de la Pi para los fragmentos de ADN procedentes del feto (rojo/gris) y total (azul/negro) en las muestras de plasma materno. El eje vertical muestra la Pi como porcentaje. El eje horizontal muestra la distancia en pares de bases (pb) entre el SNP informativo y el pico más cercano en la Pi.
Los valores totales incluyen las contribuciones del ADN fetal y materno. Los valores totales se agregan a lo largo de todos los picos de Pi. Como puede observarse, cuanto más cerca esté el SNP del pico de la Pi, mayor será el valor de la Pi . De hecho, para los fragmentos de ADN procedentes del feto, el pico de la Pi se situó aproximadamente en la posición 0. Por tanto, la Pi alcanzó su punto máximo aproximadamente en la misma posición para los fragmentos de ADN procedentes de la madre y del feto. A partir de estos datos, los presentes inventores llegaron a la conclusión de que las variaciones de la Pi para el ADN de origen materno y fetal son sincrónicas.
Aunque los patrones de fragmentación parecen ser sincrónicos, la descripción a continuación muestra que se pueden utilizar otras propiedades además de la periodicidad para distinguir los patrones de fragmentación, permitiendo así determinar una firma para un tipo de tejido concreto. Por ejemplo, se ha observado una diferencia en la amplitud de los picos y los valles para ciertas regiones genómicas, permitiendo así que ciertas posiciones dentro de esas regiones se utilicen para determinar un patrón de fragmentación específico del tejido.
D. Factores que afectan a la variación de los patrones de fragmentación del ADN plasmático
En estudios previos, se demostró que la fragmentación del ADN plasmático no era aleatoria cerca del TSS (Fan et al. PNAS 2008;105:16266-71). La probabilidad de que cualquier ADN plasmático termine en un nucleótido específico variaría con la distancia al TSS con una periodicidad de aproximadamente el tamaño de los nucleosomas. En general, se cree que este patrón de fragmentación es consecuencia de la degradación apoptótica del ADN. Por consiguiente, el tamaño del ADN plasmático se asemeja generalmente al tamaño del ADN asociado a un complejo de histonas.
En estudios previos, también se demostró que el tamaño del ADN plasmático se asemeja generalmente al tamaño del ADN asociado a un nucleosoma (Lo et al. Sci Transl Med 2010; 2(61):61ra91). Se cree que el ADN plasmático se genera mediante la degradación apoptótica del ADN celular (ADN nuclear y ADN mitocondrial). Este punto de vista se ve respaldado por la ausencia de este patrón nucleosómico en el ADN mitocondrial circulante, ya que el ADN mitocondrial no se asocia con las histonas en las células. Aunque se demostró que la posición de los nucleótidos en la que termina un fragmento de ADN plasmático no es aleatoria cerca de los sitios de inicio de la transcripción (Fan et al. PNAS 2008;105:16266-71), el mecanismo exacto que rige los patrones de fragmentación del ADN plasmático aún no está claro.
Recientemente, se ha demostrado además que el tamaño del ADN plasmático sería diferente en regiones con diferentes contextos de secuencia (Chandrananda et al. BMC Med Genomics 2015;8:29). Estos últimos datos también apoyan la hipótesis anterior de que es más probable que los fragmentos de ADN acelular comiencen y terminen en las regiones enlazadoras de los nucleosomas, en lugar de en los centros nucleosómicos. Estos resultados son coherentes con nuestro hallazgo de la variación de nucleótido a nucleótido en la probabilidad de intacto, tal y como se ha analizado en las secciones anteriores. En este punto, planteamos además la hipótesis de que la amplitud de la variación de la probabilidad de intacto variaría en las diferentes regiones genómicas. Esta variación de región a región en la variabilidad de la fragmentación no se ha explorado ni cuantificado adecuadamente en ningún estudio anterior. Las siguientes figuras ilustran el concepto de variación local y regional de la Pi .
La FIG. 7 muestra una ilustración de la amplitud de la variación de la Pi . En las secciones anteriores, los presentes inventores han demostrado que existe un patrón de variación de tipo sinusoidal en la Pi en un tramo corto de ADN. Aquí analizamos además la amplitud de la variación en regiones genómicas más amplias. La amplitud de la variación se refiere a la diferencia de la Pi entre el pico más alto y la variación más baja de la Pi en una región concreta con un tamaño determinado. En una realización, el tamaño de una región concreta puede ser de 1000 pb. En otras realizaciones, pueden utilizarse otros tamaños, por ejemplo, pero sin limitación, 600 pb, 800 pb, 1500 pb, 2000 pb, 3000 pb, 5000 pb y 10000 pb.
Como se muestra en la FiG. 7, la amplitud de la región 1 es mayor que la de la región 2. Este comportamiento se observa en los datos a continuación. Si dichas apariciones de altas amplitudes se dan en diferentes regiones genómicas para diferentes tejidos, puede utilizarse una medición de la amplitud para determinar una contribución proporcional de un tipo de tejido cuando se analiza una región en la que la amplitud difiere entre los tipos de tejido. Por ejemplo, si la amplitud es diferente para los distintos tipos de tejidos, la contribución proporcional variaría proporcionalmente con una cantidad creciente de ADN de un tipo de tejido concreto (por ejemplo, tejido fetal o tejido tumoral). Por consiguiente, una medida de la amplitud correspondería a una contribución proporcional particular. Las realizaciones pueden utilizar datos de calibración de muestras en las que la contribución proporcional se mide mediante otra técnica (por ejemplo, mediante el análisis de alelos, firmas de metilación, grado de amplificación/deleción) como se describen en las publicaciones de patentes estadounidenses n.° 2009/0087847, 2011/0276277, 2011/0105353, 2013/0237431 y 2014/0100121.
En nuestros datos de secuenciación, observamos que la amplitud de la variación de la Pi variaba en diferentes regiones genómicas. La hipótesis de los presentes inventores es que la amplitud de la variación de la Pi está relacionada con la accesibilidad de la cromatina a la degradación durante la apoptosis. Por tanto, los presentes inventores investigaron la posible relación entre la amplitud de la variación y los sitios de hipersensibilidad a DNasas en el genoma. En un estudio anterior, se observó que el patrón de fragmentación del ADN plasmático se ve afectado por su posición relativa respecto al TSS. En el este análisis, los presentes inventores investigaron la importancia relativa de los sitios de hipersensibilidad al TSS y a DNasas en el efecto de los patrones de fragmentación del ADN plasmático. Se pueden utilizar otros lugares en los que la amplitud se corresponda con el tejido analizado. Un ejemplo de este tipo de sitios es el que se identifica mediante el ensayo de cromatina accesible por transposasa con secuenciación de alto rendimiento (ATAC-Seq) (Buenrostro et al. Nat Methods 2013; 10: 1213-1218). Otro ejemplo de este tipo de sitios es el que se identifica con la nucleasa de micrococos (MNasa).
Los presentes inventores compararon la amplitud de la variación de la Pi en dos tipos de regiones genómicas:
ii. Regiones que son TSS pero no sitios de hipersensibilidad a DNasas; y
iii. Regiones que son sitios de hipersensibilidad a DNasas pero no TSS.
Las coordenadas del TSS y de los sitios de hipersensibilidad a DNasas se recuperaron de la base de datos ENCODE (genome.ucsc.edu/ENCODE/downloads.html).
Los patrones de Pi alrededor de los sitios de TSS y DNasa I se perfilaron utilizando la siguiente estrategia.
1) Se recuperaron las regiones a 2 kb cadena arriba y cadena abajo alrededor de los sitios de referencia seleccionados.
2) A continuación, se reescalaron las coordenadas genómicas absolutas en función de la distancia a un sitio de referencia. Por ejemplo, si una ventana particular con 60 pb de tamaño está a 50 pb de un sitio de referencia en dirección cadena arriba, se marcará como -50. De lo contrario, si una ventana particular con 60 pb de tamaño está a 50 pb del sitio de referencia en dirección cadena abajo, se marcará como 50.
3) El valor de Pi en una ventana concreta con las mismas coordenadas nuevas reescaladas se recalculará utilizando el recuento de fragmentos intactos y de todos los fragmentos que se solapen con dicha ventana.
La FIG. 8A muestra los patrones de variación de la Pi en regiones que son sitios de hipersensibilidad a DNasa pero no TSS. La FIG. 8B muestra patrones de variación de la Pi en regiones que son TSS pero no sitios de hipersensibilidad a DNasa. Como se muestra, la amplitud de la variación es mucho mayor en las regiones que son sitios de hipersensibilidad a DNasas pero no TSS, que las que son TSS pero no sitios de hipersensibilidad a DNasas. Estas observaciones sugieren que un factor que influye en el patrón de fragmentación del ADN plasmático es la posición relativa de una región sometida a fragmentación a los sitios de hipersensibilidad a DNasas.
III. USO DE PICOS Y VALLES PARA DETERMINAR LA PROPORCIÓN DE TEJIDO
Habiendo demostrado que la posición relativa a los sitios de hipersensibilidad a DNasas es un factor importante que rige el patrón de fragmentación del ADN plasmático, los presentes inventores investigaron si esta observación puede traducirse en aplicaciones clínicas. Se ha observado que los perfiles de los sitios de hipersensibilidad a DNasas son diferentes en los distintos tipos de tejidos. Los perfiles corresponden a las localizaciones genómicas de los sitios; las localizaciones de los sitios de hipersensibilidad a DNasas son diferentes para los distintos tejidos. Por tanto, razonamos que el ADN plasmático liberado de diferentes tipos de tejidos mostraría patrones de fragmentación específicos de los tejidos. De manera similar, pueden usarse otras regiones donde la amplitud de una región varía de un tejido a otro.
A. Ejemplo de sitios de hipersensibilidad a DNasas
La FIG. 9 muestra una ilustración del principio para la medición de la proporción de ADN liberado de diferentes tejidos. El ADN plasmático derivado del tejido A tiene una menor probabilidad de fragmentarse en las posiciones de nucleótidos con alta Pi (picos, indicados por P). Por consiguiente, los extremos del ADN plasmático derivado del tejido A tiene una menor probabilidad de estar localizados en estas posiciones de nucleótidos. Por el contrario, los extremos del ADN plasmático derivado del tejido A tienen una mayor probabilidad de estar localizados en posiciones de nucleótidos con baja Pi (valles, indicados por T). Por otro lado, ya que este sitio no es un sitio de hipersensibilidad a DNasas para el tejido B, la amplitud de la variación de Pi es baja para el ADN plasmático derivado del tejido B. Por lo tanto, la probabilidad de que el ADN plasmático del tejido B termine en las posiciones P y T sería similar, al menos en relación con la cantidad de variación observada para el tejido A.
Los presentes inventores definieron la proporción de extremos de fragmentos en las regiones que son sitios de hipersensibilidad a DNasas del tejido A (FRA) como sigue:
FRa = ^ Np
donde Nt es el número de fragmentos de ADN plasmático que terminan en posiciones de nucleótidos de los valles de Pi y Np es el número de fragmentos de ADN plasmático que terminan en posiciones de nucleótidos de los picos de Pi . El FRA es un ejemplo de un valor de separación, y más concretamente un ejemplo de la abundancia relativa de los fragmentos de ADN que terminan en el valle con respecto a los que terminan en el pico. En otras realizaciones, se pueden determinar las relaciones separadas de los valles (mínimo local) y los picos (máximo local) vecinos, y se puede determinar una media de las relaciones separadas.
Para el tejido A, FRA sería mayor que 1 dado que Nt sería mayor que Np . Para el tejido B, FRA sería aproximadamente 1 dado que Nt y Np serían similares. Por consiguiente, en una mezcla que contenga el ADN plasmático derivado de los tejidos A y B, el valor de FRA tendría una correlación positiva con la contribución proporcional del tejido A. En la práctica, FRA para el tejido B no es necesariamente 1. Siempre que FRA del tejido B sea diferente de f Ra del tejido A, la contribución proporcional de los dos tipos de tejidos puede determinarse a partir de FRA.
En dichas regiones, la alta variación en la probabilidad de que los fragmentos de ADN terminen en los valles dará lugar a un mayor número de fragmentos de ADN que terminen en dichas posiciones que en los puntos máximos (tenga en cuenta que para diferentes valores de abundancia relativa definidos, puede darse una mayor probabilidad para los picos). Cuando más fragmentos de ADN son del tipo de tejido A, mayor será la diferencia en el número de fragmentos de ADN que terminan en los valles y en los picos. Por tanto, a medida que aumenta la contribución proporcional del tejido A, mayor será la separación entre el número de fragmentos de a Dn que terminan en un valle y el número de fragmentos de ADN que terminan en un pico. Este valor de separación corresponde a la alta amplitud en la función de verosimilitud mostrada en la FIG. 9 para el tejido A.
B. Relación entre la abundancia relativa y la contribución proporcional
La FIG. 10 muestra la relación entre la FRA y la contribución proporcional del tejido A al ADN en una mezcla determinada mediante el análisis de dos o más muestras de calibración con concentraciones proporcionales conocidas de ADN del tejido A. En el ejemplo mostrado, se analizan dos muestras con contribución proporcional de tejido A de X i y X2. Los valores FRA de las dos muestras se determinaron como y i e y2, respectivamente. La relación entre FRA y la contribución proporcional de A puede determinarse a partir de los valores de x i , x2, yi e y2.
Los valores y i e y2 son ejemplos de valores de calibración. Los puntos de datos (xi ,yi ) y (X2,y2) son ejemplos de puntos de datos de calibración. Los puntos de datos de calibración pueden ajustarse a una función para obtener una curva de calibración 1010, que puede ser lineal. Cuando se mide un nuevo FRA (u otro valor de abundancia relativa) para una nueva muestra, el nuevo FRA puede compararse con al menos uno de los valores de calibración para determinar una clasificación de la contribución proporcional de la nueva muestra. La comparación con el valor de calibración puede hacerse de varias maneras. Por ejemplo, la curva de calibración puede utilizarse para encontrar la contribución proporcional x correspondiente a la nueva FRA. Como otro ejemplo, el nuevo FRA puede compararse con el valor de calibración yi de un primer punto de datos de calibración para determinar si la nueva muestra como contribución proporcional es mayor o menor que x i .
En otras realizaciones, una mezcla que contenga más de dos tipos de tejidos puede analizarse de forma similar para la contribución proporcional de los tejidos A siempre que FRA de los demás tejidos sea relativamente constante. Estos métodos son útiles en la práctica para el análisis de diferentes escenarios clínicos, por ejemplo, pero sin limitación, para la detección del cáncer, el seguimiento de trasplantes, el seguimiento de traumatismos, el diagnóstico de infecciones y prenatal.
En una realización, se puede determinar la concentración fraccional del tejido afectado en el plasma de un paciente con cáncer. Por ejemplo, en un paciente con cáncer hepático, la contribución fraccional del ADN hepático puede determinarse mediante el análisis de las regiones de cromatina abierta específicas del hígado, por ejemplo, sitios de hipersensibilidad a DNasas. En una realización, esto se puede hacer usando DNase-Seq (Boyle et al. Cell 2008; i32: 3 ii-322; Madrigal et al. Front Genet 20i2; i6: i23 - i3 i) . En otra realización, esto puede realizarse mediante el Aislamiento de Elementos Reguladores Asistido por Formaldehído (FAIRE)-Seq (Giresi et al. Genome Res 2007; i7: 877-885). En otra realización más, esto puede realizarse mediante ATAC-Seq (Buenrostro et al. Nat Methods 20i3; i0: i2 i3 - i2 i8 ) . El FRhígado puede determinarse en estos sitios y compararse con sujetos sanos normales. En los sitios de hipersensibilidad a DNasas específicos del hígado, la variación en la Pi entre las regiones de pico y de valle estaría aportada principalmente por el hígado. Mediante la comparación con una curva de calibración similar a la de la FIG. i0, puede determinarse la contribución del hígado. El valor de FRhígado del caso analizado puede compararse con un rango de la contribución del hígado en los sujetos sanos. Se pueden utilizar otras regiones que tengan una gran variación de amplitud en la función de probabilidad de los fragmentos de ADN que terminan en una posición genómica entre varios tejidos de una mezcla. Los ejemplos de estas otras regiones se describen con más detalle en secciones posteriores.
De manera similar, la contribución del órgano trasplantado en un paciente que ha recibido un trasplante de órgano puede determinarse mediante este método. En estudios previos, se demostró que en los pacientes con rechazo se producía una mayor liberación de ADN del órgano trasplantado, lo que daba lugar a una concentración elevada del ADN del órgano trasplantado en el plasma. El análisis de la FR del órgano trasplantado sería un medio útil para la detección y el seguimiento del rechazo del órgano. Las regiones utilizadas para dicho análisis pueden variar en función del órgano trasplantado.
En otra realización, este método puede utilizarse para determinar la concentración de ADN fetal en el plasma materno. En el plasma materno, las moléculas de ADN que portan los genotipos fetales proceden en realidad de la placenta. Por tanto, si nos centramos en los sitios de hipersensibilidad a DNasas que son específicos de la placenta pero que no están presentes en las células sanguíneas, se podría determinar la contribución proporcional de la placenta al ADN plasmático mediante el análisis de FRplacenta.
La FIG. i i muestra una correlación entre la FRplacenta y el porcentaje de ADN fetal en el plasma materno según las realizaciones de la presente invención. El eje vertical corresponde a la FRplacenta determinada mediante uno o más
i5
máximos locales y mínimos locales que se encuentran en uno o más sitios de hipersensibilidad a DNasas. El eje horizontal es la fracción de ADN fetal medida mediante una técnica de medición independiente. Como puede observarse, el valor de FRplacenta está correlacionado con la fracción de ADN fetal. En este ejemplo, la fracción de ADN fetal se determinó basándose en la proporción de alelos específicos del feto en los SNP para los que la madre era homocigota y el feto era heterocigoto. Por tanto, el porcentaje de ADN fetal puede estimarse mediante FRplacenta basándose en los resultados de la secuenciación del ADN plasmático materno.
Como alternativa, ya que los dos componentes clave en el plasma materno son el ADN procedente de la placenta y el ADN procedente de las células sanguíneas (un tipo de tejido diferente), los presentes inventores razonaron que FRsangre estaría correlacionado negativamente con la concentración fraccional de ADN fetal en el plasma sanguíneo. Por tanto, se identificaron los sitios de hipersensibilidad a DNasas específicos para las células sanguíneas y se determinó FRsangre.
La FIG. 12 muestra una correlación entre FRsangre y la concentración de ADN fetal en el plasma materno. El eje vertical corresponde a la FRsangre determinada mediante uno o más máximos locales y mínimos locales que se encuentran en uno o más sitios de hipersensibilidad a DNasas. El eje horizontal es la fracción de ADN fetal medida en función de la proporción de alelos específicos del feto en el plasma materno. Se pudo observar una correlación negativa entre FRsangre y el porcentaje de ADN fetal. Por tanto, el porcentaje de ADN fetal puede estimarse mediante FRsangre basándose en los resultados de la secuenciación del ADN plasmático materno. Por consiguiente, una región genómica puede tener un patrón de fragmentación específico para múltiples tipos de tejidos, por ejemplo, correlaciones positivas para algunos tejidos y negativas para otros.
C. Método que utiliza los máximos y los mínimos
La FIG. 13 es un diagrama de flujo de un método 1300 de análisis de una muestra biológica para determinar una clasificación de una contribución proporcional del primer tipo de tejido de acuerdo con las realizaciones de la presente invención. La muestra biológica incluye una mezcla de moléculas de ADN acelular de una pluralidad de tipos de tejidos que incluye el primer tipo de tejido. Como en el caso de los otros métodos descritos en el presente documento, el método 1300 puede utilizar un sistema informático. El primer tipo de tejido (por ejemplo, tejido hepático o tejido fetal) puede seleccionarse en función del sujeto específico. Por ejemplo, si el sujeto ha tenido cáncer de hígado en el pasado, se puede realizar un cribado para comprobar si el cáncer de hígado ha regresado, lo que supondría un aumento de la contribución proporcional del tejido hepático. Este criterio de selección se aplica a otros métodos descritos en el presente documento.
En el bloque 1310, se identifica al menos una región genómica que tiene un patrón de fragmentación específico del primer tipo de tejido. A modo de ejemplo, la al menos una región genómica puede incluir uno o más sitios de hipersensibilidad a DNasas. Cada una de las al menos una región genómica con un patrón de fragmentación específico del primer tipo de tejido puede incluir uno o más alelos específicos del primer tejido en al menos una muestra adicional, por ejemplo, como se describirá con detalle en la sección VI. Como otro ejemplo, la al menos una región genómica puede incluir uno o más sitios de nucleasas ATAC-seq o de micrococos. El primer tipo de tejido puede corresponder a un órgano concreto o incluso a un cáncer particular del órgano.
En el bloque 1320, se analiza una pluralidad de moléculas de ADN acelular de la muestra biológica. El análisis de una molécula de ADN acelular incluye la determinación de una posición genómica (posición final) en un genoma de referencia correspondiente a al menos un extremo de la molécula de ADN acelular. Por tanto, se pueden determinar dos posiciones finales, o solo una posición final de la molécula de ADN acelular.
Las posiciones finales preferidas pueden determinarse de varias maneras, como se describe en el presente documento. Por ejemplo, las moléculas de ADN acelular pueden secuenciarse para obtener lecturas de secuencia, y las lecturas de secuencia pueden cartografiarse (alinearse) con el genoma de referencia. Si el organismo es un ser humano, el genoma de referencia sería un genoma humano de referencia, potencialmente de una subpoblación particular. Como otro ejemplo, las moléculas de ADN acelular pueden analizarse con diferentes sondas (por ejemplo, tras la PCR u otro tipo de amplificación), donde cada sonda corresponde a una localización genómica, que puede abarcar al menos una región genómica.
Se puede analizar un número estadísticamente significativo de moléculas de ADN acelular para poder determinar con precisión la contribución proporcional del primer tipo de tejido. En algunas realizaciones, se analizan al menos 1.000 moléculas de ADN acelular. En otras realizaciones, se pueden analizar al menos 10.000 o 50.000 o 100.000 o 500.000 o 1.000.000 o 5.000.000 de moléculas de ADN libre de células o más.
En el bloque 1330, se identifica un primer conjunto de primeras posiciones genómicas. Cada primera posición genómica tiene un mínimo local de extremos de moléculas de ADN acelular corresponde a la primera posición genómica. Varias posiciones genómicas vecinas pueden definirse como un extremo local (máximo o mínimo), y por tanto un máximo local no se limita a una sola posición.
En algunas realizaciones, se puede determinar una proporción para cada una de una pluralidad de posiciones genómicas. Se puede determinar una primera cantidad de moléculas de ADN acelular que terminan en la posición genómica y se extienden al menos un número especificado de nucleótidos a ambos lados de la posición genómica, por ejemplo, como se describe para la FIG. 1. Una segunda cantidad de moléculas de ADN acelular que se encuentran en la posición genómica puede utilizarse con la primera cantidad para determinar la proporción. Se puede identificar una pluralidad de mínimos locales y una pluralidad de máximos locales en las relaciones, por ejemplo, recorriendo los valores de la proporción para identificar una o más posiciones genómicas contiguas que se encuentren en cada uno de los extremos (máximo o mínimo).
En el bloque 1340, se identifica un segundo conjunto de segundas posiciones genómicas. Cada segunda posición genómica que tiene un máximo local de extremos de moléculas de ADN acelular corresponde a la segunda posición genómica. El segundo conjunto puede identificarse de manera similar al primer conjunto.
En el bloque 1350, se determina un primer número de moléculas de ADN acelular que terminan en cualquiera de las primeras posiciones genómicas en cualquiera de la al menos una región genómica. El primer número puede determinarse de varias maneras, por ejemplo, como una suma a lo largo de todas las primeras posiciones genómicas. Como otro ejemplo, se puede determinar una cantidad independiente en cada posición genómica. Por tanto, la determinación del primer número de moléculas de ADN acelular puede incluir la determinación de una primera cantidad de moléculas de ADN acelular que terminan en cada primera posición genómica, determinando así una pluralidad de primeras cantidades.
En el bloque 1360, se determina un segundo número de moléculas de ADN acelular que terminan en cualquiera de las segundas posiciones genómicas en cualquiera de la al menos una región genómica. El segundo número puede determinarse de forma similar al primero. Por tanto, la determinación del segundo número de moléculas de ADN acelular puede incluir la determinación de una segunda cantidad de moléculas de ADN acelular que terminan en cada segunda posición genómica, determinando así una pluralidad de segundas cantidades.
En el bloque 1370, se calcula un valor de separación utilizando el primer número y el segundo. El valor de separación puede calcularse de varios modos, por ejemplo, como una proporción del primer número y el segundo número, como se describe en la sección III.A. En otra implementación que utiliza múltiples máximos y mínimos, se puede determinar una cantidad en cada una de esas posiciones genómicas. El cálculo del valor de separación puede incluir la determinación de una pluralidad de proporciones separadas, cada proporción separada de una de la pluralidad de primeras cantidades y una de la pluralidad de segundas cantidades. El valor de separación puede determinarse utilizando la pluralidad de relaciones separadas, por ejemplo, la media o la mediana de las proporciones separadas.
En el bloque 1380, la clasificación de la contribución proporcional del primer tipo de tejido se determina comparando el valor de separación con uno o más valores de calibración determinados a partir de una o más muestras de calibración cuyas contribuciones proporcionales del primer tipo de tejido se conocen.
D. Análisis sin amplificación
El análisis de las moléculas de ADN acelular en el bloque 1310 puede ser sin amplificación. Cuando se utiliza la PCR, la profundidad de la secuenciación (es decir, el número de lecturas de la secuencia que cubren un nucleótido concreto o que terminan en ese nucleótido concreto en un genoma de referencia) no refleja directamente cuántas moléculas de ADN plasmático que cubren ese nucleótido concreto se analizan. Esto se debe a que una molécula de ADN plasmático puede generar múltiples réplicas durante el proceso de la PCR, y pueden originarse múltiples lecturas de secuencias a partir de una única molécula de ADN plasmático. Este problema de duplicación sería más importante con i) un mayor número de ciclos de PCR para amplificar la biblioteca de secuenciación; ii) una mayor profundidad de secuenciación, y iii) un menor número de moléculas de ADN en la muestra de plasma original (por ejemplo, un menor volumen de plasma).
Además, el paso de la PCR introduce más errores (Kinde et al. Proc Natl Acad Sci USA 2011; 108: 9530-9535) dado que la fidelidad de una ADN polimerasa no es del 100 %, y ocasionalmente, podría incorporarse un nucleótido erróneo en la hebra hija producida mediante la PCR. Si este error de PCR se produce durante los primeros ciclos de la PCR, se generarían clones de moléculas hijas que mostrarían el mismo error. La concentración fraccional de la base errónea puede alcanzar una proporción tan alta entre las demás moléculas de ADN del mismo locus que el error sería mal interpretado, por ejemplo, como una mutación procedente del feto o del tumor. Algunos ejemplos de protocolos sin PCR son: Berry Genomics (investor.illumina.com/mobile.view?c=121127&v=203&d=1&id=1949110); Illumina (www.illumina.com/products/truseq-dna-pcr-free-sample-prep-kits.html), y diversas técnicas de secuenciación de una sola molécula.
Por consiguiente, algunas realizaciones pueden incluir la obtención de moléculas de ADN molde a partir de la muestra biológica a analizar; preparar una biblioteca de secuenciación de moléculas de ADN analizables utilizando las moléculas de ADN molde, la preparación de la biblioteca de secuenciación de moléculas de ADN analizables que no incluye una etapa de amplificación del ADN de las moléculas de ADN molde; secuenciar la biblioteca de secuenciación de moléculas de ADN analizables para obtener una pluralidad de lecturas de secuencia correspondientes a la primera pluralidad de moléculas de ADN acelular. El análisis de la primera pluralidad de moléculas de ADN acelular puede incluir recibir, en el sistema informático, la pluralidad de lecturas de la secuencia y alinear, mediante el sistema informático, la pluralidad de lecturas de la secuencia al genoma de referencia para determinar las posiciones genómicas de la pluralidad de lecturas de la secuencia.
IV. ABUNDANCIA RELATIVA DE LOS NUCLEÓTIDOS A LA IZQUIERDA Y A LA DERECHA
La FIG. 14 muestra una ilustración del principio de una diferencia de los fragmentos de ADN circulante en relación con el ADN de origen tumoral o fetal. En estudios previos, se ha demostrado que el tamaño del ADN circulante se asemeja mucho al tamaño del ADN nucleosómico. El pico principal de 166 pb en la distribución del tamaño del ADN plasmático representa el ADN asociado al núcleo del complejo de histonas junto con el ADN enlazador que conecta dos complejos de histonas sucesivos.
También se ha observado que las distribuciones de tamaño de las moléculas de ADN derivadas del feto y del tumor son más cortas que las del ADN no tumoral y no derivado del feto en el plasma de pacientes con cáncer y de mujeres embarazadas (Lo et al. Sci Transl Med 2010; 2(61):61ra91 y Jiang et al. Proc Natl Acad Sci USA 2015;112:E1317-25.). Para la distribución del tamaño del ADN derivado del tumor y del feto en el plasma, el pico de 166 pb disminuye y un pico de 144 pb es más prominente. El pico de 144 pb se debe probablemente a la degradación del a Dn enlazador de ~20 pb que conecta dos complejos de histonas sucesivos.
Para ilustrar el principio de este método, los presentes inventores utilizaron el escenario de un paciente con cáncer como ejemplo. El mismo principio puede aplicarse a otros escenarios, incluido el análisis del ADN fetal circulante en el plasma materno en el embarazo, y el análisis del plasma de pacientes que han recibido un trasplante. Las realizaciones pueden analizar los extremos de las moléculas de ADN plasmático, denotados como los extremos izquierdo y derecho en la FIG. 14.
Cuando el ADN de los tejidos no malignos se fragmenta y se libera en el plasma, los extremos de conexión de las dos moléculas se situarían ambos en la posición del nucleótido A. En otras palabras, para la molécula del lado derecho, el nucleótido más externo de la izquierda está justo al lado de la posición del nucleótido A. Para la molécula del lado izquierdo, el nucleótido más externo de la derecha también está justo al lado de la posición del nucleótido A. Cuando la abundancia relativa de las moléculas que terminan en un nucleótido particular se traza contra la coordenada del nucleótido, los picos de abundancia de los extremos estarían en la posición A para los nucleótidos más externos a la izquierda y a la derecha que corresponden a esta región. Para las moléculas de ADN derivadas de células tumorales, un fragmento de 20 pb se eliminaría de las moléculas tras el proceso de fragmentación.
Como resultado, habría un espacio de 20 pb entre el lado izquierdo de la molécula de la derecha y el lado derecho de la molécula de la izquierda. Cuando la abundancia relativa de las moléculas que terminan en un determinado nucleótido se representa frente a la coordenada del nucleótido, los picos del nucleótido más externo de la derecha (situado en B) y el pico del nucleótido más externo de la izquierda (situado en C) estarían separados por 20 pb. Por consiguiente, la relación entre la abundancia de moléculas que terminan en las posiciones de nucleótidos B y C y la abundancia de moléculas que terminan en la posición A representaría la concentración fraccional de ADN derivado del tumor en la muestra de plasma.
El mismo principio puede aplicarse para la cuantificación de especies de ADN que tienen una distribución de tamaño diferencial, por ejemplo, pero sin limitación, la medición del ADN fetal en el plasma de las mujeres embarazadas y la medición del ADN de un órgano trasplantado.
La FIG. 15 es un diagrama de flujo de un método 1500 de análisis de una muestra biológica que incluye una mezcla de moléculas de ADN acelular de una pluralidad de tipos de tejidos que incluye un primer tipo de tejido. Se pueden utilizar partes del método 1500 para implementar el bloque 1310 y otros bloques que identifiquen las posiciones finales preferidas.
En el bloque 1510, las moléculas de ADN acelular se analizan para determinar las posiciones finales izquierda y derecha en un genoma de referencia. El bloque 1510 puede realizarse de un modo similar al bloque 1320. En el bloque 1510, se puede analizar una primera pluralidad de moléculas de ADN acelular procedentes de la muestra biológica de un sujeto, donde cada una de la primera pluralidad de moléculas de ADN acelular tiene un extremo izquierdo y un extremo derecho. Se puede determinar una posición final izquierda en el genoma de referencia correspondiente al extremo izquierdo de la molécula de ADN acelular, por ejemplo, mediante la alineación (cartografía) de una lectura de la secuencia del fragmento de ADN con el genoma de referencia o mediante una sonda cuya posición se conoce en el genoma de referencia. El extremo izquierdo puede referirse a cualquier extremo, dependiendo del sistema de coordenadas elegido para definir el genoma de referencia. De manera similar, se puede determinar una posición final derecha en el genoma de referencia correspondiente al extremo derecho de la molécula de ADN acelular. Las dos posiciones finales pueden determinarse en dos pasos de alineación separados, por ejemplo, si los dos extremos tienen lecturas de secuencias separadas.
En el bloque 1520, se identifica un conjunto de posiciones genómicas izquierdas. Cada posición genómica del conjunto izquierdo tiene un máximo local de extremos izquierdos de la primera pluralidad de moléculas de ADN acelular correspondiente a una de las posiciones genómicas del conjunto izquierdo. El conjunto izquierdo puede determinarse de forma similar a la descrita para los máximos del método 1300.
En el bloque 1530, se identifica un conjunto de posiciones genómicas correctas. Cada posición genómica del conjunto derecho tiene un máximo local de extremos derechos de la primera pluralidad de moléculas de ADN acelular correspondiente a una de las posiciones genómicas del conjunto derecho. El conjunto correcto puede determinarse de forma similar a la descrita para los máximos del método 1300.
En el bloque 1540, un primer conjunto de posiciones genómicas se identifica como específico del primer tipo de tejido. Todas o una parte de las posiciones genómicas izquierdas del conjunto izquierdo pueden compararse con todas o una parte de las posiciones genómicas derechas del conjunto derecho para identificar el primer conjunto de posiciones genómicas en el que una distancia desde una posición genómica izquierda a una posición genómica derecha más cercana es mayor que una primera distancia umbral de posiciones genómicas (por ejemplo, nucleótidos) en el genoma de referencia. Algunos ejemplos de la primera distancia umbral son 5, 6, 7, 8, 9, 10, 15 y 20 nucleótidos.
En el bloque 1550, se identifica un segundo conjunto de posiciones genómicas. Todas o una parte de las posiciones genómicas izquierdas del conjunto izquierdo pueden compararse con todas o una parte de las posiciones genómicas derechas del conjunto derecho para identificar el segundo conjunto de posiciones genómicas en el que una distancia de una posición genómica izquierda a una posición genómica derecha más cercana es menor que una segunda distancia umbral de posición genómica en el genoma de referencia. Algunos ejemplos de la segunda distancia umbral son 2, 3, 4 y 5 posiciones genómicas (por ejemplo, nucleótidos).
En el bloque 1560, se determina un valor de separación utilizando un primer número de la primera pluralidad de moléculas de ADN acelular que termina en una de las posiciones genómicas del conjunto izquierdo y un segundo número de la primera pluralidad de moléculas de ADN acelular que termina en una de las posiciones genómicas del conjunto derecho. Se puede determinar un valor de separación (por ejemplo, un valor de abundancia relativa) entre el primer número y el segundo.
En una realización, se identifican los pares del primer conjunto de posiciones genómicas y del segundo conjunto de posiciones genómicas. Los pares pueden ser de posiciones más cercanas entre sí. Para cada uno de uno o más de los pares, se puede determinar una primera cantidad de moléculas de ADN acelular que termina en la primera posición genómica, y una segunda cantidad de moléculas de ADN acelular que termina en la primera posición genómica. Las primeras cantidades de moléculas de ADN acelular corresponden al primer número de la pluralidad de moléculas de ADN acelular y las segundas cantidades de moléculas de ADN acelular corresponden al segundo número de la pluralidad de moléculas de ADN acelular. Por ejemplo, las primeras cantidades pueden sumar el primer número y las segundas cantidades pueden sumar el segundo número, y el valor de separación puede determinarse directamente a partir del primer número y del segundo número. Como otro ejemplo, el valor de separación puede determinarse a partir de una pluralidad de proporciones, cada una de las cuales incluye la primera cantidad y la segunda cantidad para uno de los pares. En diversas implementaciones, se puede utilizar un promedio o una mediana de las proporciones como valor de separación. Las respectivas cantidades primera y segunda de los pares pueden utilizarse de otras maneras para determinar los valores de separación individuales utilizados para determinar el valor de separación total.
En el bloque 1570, la clasificación de la contribución proporcional del primer tipo de tejido se determina comparando el valor de separación con uno o más valores de calibración determinados a partir de una o más muestras de calibración cuyas contribuciones proporcionales del primer tipo de tejido se conocen. El bloque 1570 puede realizarse de un modo similar a otras determinaciones de las contribuciones proporcionales.
En diversas realizaciones, los conjuntos derechos e izquierdos pueden usarse como el primer conjunto de posiciones genómicas; solo se puede utilizar el conjunto izquierdo; se puede utilizar el conjunto derecho; o se pueden utilizar parte del conjunto izquierdo y parte del derecho. Para todo el conjunto de posiciones a la izquierda, hay un subconjunto de posiciones a la izquierda que tiene un conjunto correspondiente de posiciones a la derecha separadas del subconjunto de posiciones a la izquierda por un número umbral de nucleótidos. Por consiguiente, es posible utilizar el subconjunto de posiciones a la izquierda o el correspondiente subconjunto de posiciones a la derecha para realizar el cálculo.
V. USO DE POSICIONES FINALES ESPECÍFICAS DE LOS TEJIDOS
Los presentes inventores barajan la hipótesis de que los patrones de fragmentación del ADN circulante derivado de las células cancerosas, las células de la placenta y los tipos de células serían diferentes. Basándose en esta hipótesis, la coordenada de los nucleótidos terminales en uno o ambos extremos de un fragmento de ADN circulante puede utilizarse para predecir si el fragmento de ADN portador de una supuesta mutación procede realmente de un tumor. En los fragmentos de ADN plasmático pueden identificarse posiciones finales específicas del cáncer y del embarazo.
A. Ejemplo de cáncer utilizando el carcinoma hepatocelular (HCC)
A fin de ilustrar la viabilidad de esta estrategia, se analizaron los datos de secuenciación del ADN plasmático de un paciente con carcinoma hepatocelular (HCC) y de una mujer embarazada. A modo ilustrativo, el análisis se centró en el cromosoma 8. Puede aplicarse la misma estrategia al genoma completo o a cualquier otro cromosoma.
Se determinaron las coordenadas de los nucleótidos terminales en ambos extremos de cada fragmento de ADN plasmático secuenciado. Posteriormente, se contó el número de fragmentos que terminaban en cada nucleótido del cromosoma 8. Se determinó el 1 millón de nucleótidos que tenían el mayor número de fragmentos de ADN que terminaban en ellos para el caso de HCC y la mujer embarazada. Se puede considerar que el millón superior está por encima de un umbral.
La FIG. 16 es un diagrama de Venn que muestra el número de sitios de terminación frecuentes que son específicos para el caso HCC, específicos para la mujer embarazada y compartidos por ambos casos. 536.772 nucleótidos fueron específicos para el caso de h Cc .536.772 nucleótidos fueron específicos para la mujer embarazada. Los dos casos compartían 463.228 nucleótidos.
Los presentes inventores razonaron que los fragmentos de ADN plasmático con un nucleótido terminal que termina exactamente en las posiciones finales específicas del HCC 536.772 tendrían más probabilidades de proceder del tumor. Según esta suposición, el número de fragmentos de ADN plasmático secuenciados que terminan en las posiciones finales específicas del HCC puede utilizarse para indicar la presencia o ausencia de HCC u otros cánceres que tengan el mismo patrón de fragmentación del ADN plasmático. En otra realización, este parámetro también puede utilizarse para reflejar el nivel de cáncer, por ejemplo, pero sin limitación, el tamaño del tumor, el estadio del cáncer, la carga tumoral y la presencia de metástasis.
En otra realización más, el número de fragmentos que terminan en las posiciones finales específicas de1HCC puede correlacionarse con la concentración fraccional de ADN derivado del cáncer en el plasma para las muestras con una fracción de ADN tumoral conocida en el plasma. La fracción de ADN tumoral en el plasma puede determinarse mediante, por ejemplo, pero sin limitación, la cuantificación de las mutaciones del cáncer en el plasma o la magnitud de las aberraciones del número de copias en el ADN plasmático (Chan et al. Clin Chem 2013;59:211-24). Esta correlación puede utilizarse como curva de calibración (figura 1). Para pacientes con una fracción de ADN tumoral desconocida en el plasma, se puede determinar la cantidad de fragmentos de ADN que terminan en las posiciones finales específicas del HCC. Posteriormente, la fracción de ADN tumoral en el plasma puede determinarse basándose en la curva de calibración y en la cantidad de fragmentos de ADN que terminan en las posiciones finales específicas del HCC. En una implementación, la cantidad de fragmentos de ADN que terminan en las posiciones finales específicas de HCC puede normalizarse con respecto al número total de fragmentos de ADN secuenciados, el número total de lecturas alineables o el número de fragmentos de ADN alineados con determinadas regiones cromosómicas. Por tanto, la proporción de fragmentos de ADN secuenciados que terminan en posiciones específicas del cáncer puede utilizarse como parámetro.
La FIG. 17 muestra una curva de calibración que muestra la relación entre la proporción de fragmentos de ADN secuenciados que terminan en posiciones finales específicas para el cáncer y la fracción de ADN tumoral en plasma para pacientes con cáncer con fracciones conocidas de ADN tumoral en plasma. Este diagrama conceptual muestra una correlación de la curva de calibración entre la fracción de ADN tumoral y la proporción de fragmentos de ADN de la secuencia que terminan en las posiciones finales específicas del cáncer. Se puede determinar una curva de calibración ajustando los puntos de datos determinados a partir de las muestras de calibración, cuya fracción de ADN tumoral se determinó mediante otras técnicas.
En otra realización de la presente invención, se pueden determinar los patrones de fragmentación del ADN plasmático de los pacientes que padecen diferentes tipos de cáncer. Los extremos superpuestos de estos pacientes de cáncer pueden considerarse como extremos específicos del cáncer, mientras que las posiciones finales de los tipos de cáncer individuales pueden considerarse como específicas de un tipo de cáncer concreto. Para cualquier individuo sospechoso de parecer cáncer, los fragmentos de ADN plasmático secuenciados pueden compararse primero con las posiciones finales específicas del cáncer para determinar la probabilidad de que el individuo tenga un cáncer. Si el individuo es susceptible de padecer un cáncer, los fragmentos secuenciados pueden analizarse en busca de las posiciones finales específicas del tipo de cáncer para determinar el cáncer más probable que padece un individuo.
En otra realización de la presente invención, se pueden determinar las posiciones finales del ADN derivado de diferentes órganos y pueden utilizarse para determinar las contribuciones relativas del ADN de diferentes órganos al plasma.
B. Ejemplo fetal
En otra realización, esta estrategia puede utilizarse para determinar la fracción de ADN fetal en una muestra de plasma materno. Se puede establecer una curva de calibración determinando en primer lugar la correlación entre la proporción de fragmentos de ADN plasmático secuenciados que terminan en las posiciones finales específicas del embarazo y las fracciones de ADN fetal en una serie de muestras de plasma materno con una fracción de ADN fetal conocida. Las fracciones de ADN fetal pueden determinarse por varios métodos, por ejemplo, pero sin limitación la determinación de los alelos específicos del feto en la muestra, la cuantificación de objetivos en el cromosoma Y para los embarazos masculinos y el análisis de marcadores de metilación específicos del feto. Para una muestra de plasma de embarazada con una fracción de ADN fetal desconocida, se puede determinar la proporción de fragmentos de ADN plasmático secuenciados que terminan en las posiciones finales específicas del embarazo. Utilizando esta información, la fracción de ADN fetal en la muestra de ADN plasmático analizada puede determinarse basándose en la curva de calibración.
C. Kit para el uso de posiciones finales preferidas
En algunas realizaciones, se proporciona un kit para analizar el ADN de una muestra biológica que contiene una mezcla de moléculas de ADN acelular de una pluralidad de tipos de tejidos.
VI. ANÁLISIS DE LA POSICIÓN FINAL MEDIANTE POLIMORFISMOS
En algunas realizaciones, las regiones que tienen un patrón de fragmentación específico para cada tejido pueden identificarse mediante alelos específicos para cada tejido. Por ejemplo, se puede identificar un alelo específico del feto analizando una muestra de plasma materno y comparando los alelos detectados con los detectados en una muestra solo materna, como se describe en el presente documento. Puede identificarse que las posiciones genómicas que tienen una tasa elevada de moléculas de ADN fetal que terminan en ellas en relación con la tasa de los tejidos que presentan un alelo compartido (es decir, que se comparte con el feto y la madre) tienen un patrón de fragmentación específico del tejido fetal. Estas posiciones finales con preferencia fetal pueden ser o no sitios de hipersensibilidad a DNasas, por lo que se demuestra que varias regiones genómicas pueden tener amplitudes específicas de tejido para los patrones de fragmentación, y las realizaciones no se limitan a los sitios de hipersensibilidad a DNasas. Se puede hacer un análisis similar para una muestra de un sujeto que se somete a una prueba de detección de un tumor.
A. Ejemplo fetal
Las posiciones finales preferidas pueden obtenerse analizando el ADN plasmático de una mujer embarazada. Los fragmentos de ADN plasmático derivados del feto y de la madre pueden diferenciarse mediante métodos basados en polimorfismos. Los fragmentos que portan alelos específicos del feto y de la madre pueden utilizarse para determinar las posiciones finales preferidas del ADN procedente del feto y de la madre.
Para este estudio se reclutó a una mujer con un embarazo único masculino a las 38 semanas de gestación en el Departamento de Obstetricia y Ginecología, Prince of Wales Hospital, Hong Kong, habiéndose obtenido el consentimiento informado. Las muestras de sangre se centrifugaron a 1.600 g durante 10 min a 4 °C. La porción de plasma se recolectó y se volvió a centrifugar a 16.000 g durante 10 min a 4 °C para eliminar las células sanguíneas. La porción de células sanguíneas se volvió a centrifugar a 2.500 g y se eliminó el plasma residual. El ADN de las células sanguíneas y el del plasma materno se extrajo con el protocolo de sangre y fluidos corporales del QIAamp DNA Blood Mini Kit y el QIAamp DSP DNA Blood Mini Kit (Qiagen), respectivamente. El ADN de la placenta se extrajo con el QIAamp DNA Mini Kit (Qiagen) según el protocolo de tejidos del fabricante. Las bibliotecas de secuenciación se secuenciaron utilizando el protocolo de preparación de bibliotecas sin PCR de Illumina TruSeq. Los datos de la secuenciación paired-end se analizaron utilizando Short Oligonucleotide Alignment Program 2 (SOAP2) en el modo paired-end (Li et al. Bioinformatics 2009;25:1966-1967). Las lecturas paired-end se alinearon con el genoma humano de referencia sin máscara de repetición (Hg19). Se permitieron hasta 2 nucleótidos desemparejados para la alineación de cada extremo. A continuación, se analizaron las coordenadas genómicas de estos alineamientos potenciales para los 2 extremos con el fin de determinar si alguna combinación permitiría alinear los 2 extremos en el mismo cromosoma con la orientación correcta, que abarcan un tamaño de inserción <600 pb, y que se cartografía en una única localización en el genoma humano de referencia. La muestra de plasma materno se secuenció con una profundidad de cobertura de 270x de un genoma humano haploide. Las células de la sangre materna, las células de la sangre paterna y del cordón umbilical fueron secuenciadas con una cobertura del genoma humano haploide de 40*, 45* y 50*, respectivamente, utilizando el mismo protocolo de secuenciación.
Para este fin, se analizaron las secuencias finales recurrentes en el ADN plasmático materno.
1. Identificación de las posiciones finales específicas del feto
Al realizar una secuenciación de muy alta profundidad de la muestra de ADN plasmático materno utilizando una biblioteca no amplificada mediante la PCR, los presentes inventores investigaron si podría haber sitios en los genomas materno y fetal que se escindirían preferencialmente en la generación del ADN plasmático. Para demostrar este efecto, se identificaron los locus de SNP informativos para los que la madre era homocigota (genotipo indicado como AA) y el feto era heterocigoto (genotipo indicado como AB). En este ejemplo ilustrativo, el alelo B sería específico del feto y el alelo A sería compartido por la madre y el feto. En la FIG. 18 se muestra un ejemplo representativo. Como control, se muestran los resultados de la secuenciación de una muestra de ADN obtenida de células sanguíneas y fragmentada artificialmente mediante tratamiento con ultrasonidos.
Se observó un patrón de fragmentación no aleatorio en el ADN plasmático. Para el gráfico de la probabilidad de ser un extremo de los fragmentos de ADN, se observaron tres picos para cada uno de los dos grupos de fragmentos que llevan el alelo específico del feto y el compartido por la madre. Estos picos representan los puntos calientes de las posiciones finales del ADN procedente del feto y de la madre en el plasma materno, respectivamente. Las posiciones de los picos se superponen en gran medida entre estos dos grupos. Por el contrario, el patrón de fragmentación del ADN tratado con ultrasonidos parece ser aleatorio y la probabilidad de finalización del fragmento es similar en toda la región.
La FIG. 18 muestra un ejemplo ilustrativo de los patrones de fragmentación no aleatorios del ADN plasmático que portan un alelo específico del feto y un alelo compartido por la madre y el feto. En la parte superior de la figura, cada línea horizontal representa un fragmento de ADN secuenciado. Los extremos de los fragmentos de ADN representan la posición final de la lectura secuenciada. Los fragmentos se clasifican según la coordenada del nucleótido más externo de la izquierda (la coordenada genómica más pequeña). En la parte inferior de la figura, se muestra el porcentaje de fragmentos que terminan en una posición determinada. El eje X representa las coordenadas genómicas y el SNP se encuentra en el centro indicado por la línea de puntos.
Además, los presentes inventores buscaron coordenadas que tuvieran una mayor probabilidad de ser una posición final para los fragmentos de ADN plasmático. Centraron su búsqueda en los fragmentos que cubrían los SNP informativos para poder evaluar por separado los fragmentos portadores de alelos específicos del feto y los alelos compartidos por la madre y el feto. Los presentes inventores determinaron si ciertas ubicaciones dentro del genoma humano tenían una probabilidad significativamente mayor de ser una posición final de fragmentos de ADN plasmático utilizando una función de probabilidad de Poisson. Para el análisis de los SNP para los que la madre era homocigota (genotipo AA) y el feto era heterocigoto (genotipo AB), el alelo A sería el "alelo compartido" y el alelo B sería el alelo específico del feto. Se contaría el número de lecturas secuenciadas que portan el alelo compartido y el alelo específico del feto. En la distribución por tamaño molecular del ADN plasmático, se observaría un pico en 166 pb tanto para el ADN procedente del feto como para el derivado de la madre. Si la fragmentación del ADN plasmático es aleatoria, los dos extremos se distribuirían uniformemente en una región de 166 pb cadena arriba y 166 pb cadena abajo del SNP informativo.
Se puede calcular un valor de p para determinar si una posición concreta tiene una probabilidad significativamente mayor de ser un extremo para las lecturas que portan el alelo compartido o el alelo específico del feto, basándose en la función de probabilidad de Poisson.
valor de p = Poisson(Nreal, Npredicha)
donde Poisson() es la función de probabilidad de Poisson; Nreal es el número real de lecturas que terminan en el nucleótido concreto; y Npredicha es el número total de lecturas dividido entre 166. Se utilizó un valor de p <0,01 como punto de corte para definir las posiciones finales preferidas para las lecturas portadoras del alelo específico del feto o del alelo compartido. Se determinaron las posiciones finales estadísticamente significativas para los fragmentos de ADN que llevan el alelo compartido y el alelo específico del feto de forma independiente (FIG. 19). Pueden utilizarse otras distribuciones de probabilidad, por ejemplo, la distribución binomial, la distribución binomial negativa y la distribución normal.
La FIG. 19 muestra una gráfica de la probabilidad de que una coordenada genómica sea una posición final de los fragmentos de ADN plasmático materno en una región con un SNP informativo. Los resultados de las posiciones de los nucleótidos con una probabilidad significativamente mayor de ser un extremo de los fragmentos de ADN plasmático que llevan un alelo compartido y un alelo específico del feto se muestran en rojo y azul, respectivamente. El eje X representa las coordenadas genómicas y la mutación se sitúa en el centro indicado por la línea de puntos. Como se muestra, hay coordenadas que tienen una alta tasa de aparición de posiciones finales solo para el alelo específico del feto, solo para el alelo compartido, y algunos son comunes a ambos.
Los presentes inventores identificaron un total de 4.131 (conjunto A) y 10.021 (conjunto B) posiciones de nucleótidos con una probabilidad significativamente mayor de ser un extremo de fragmentos de ADN plasmático portadores de alelos específicos del feto y de alelos compartidos, respectivamente. El conjunto C fue el conjunto superpuesto y contenía 4.258 posiciones de nucleótidos (Fig. 3). Estas posiciones finales se obtuvieron a partir de regiones que abarcan un total de 1,42 Mb y cubren 4.303 SNP. Por tanto, las posiciones finales preferidas para los fragmentos específicos del feto representaron el 0,29 % de las regiones analizadas. Había 24.500, 22.942 y 31.925 fragmentos de ADN plasmático portadores de alelos específicos del feto que terminaban en las posiciones del conjunto A, del conjunto B y del conjunto C, respectivamente. Había 27.295, 158.632 y 87.804 fragmentos de ADN plasmático portadores de alelos compartidos que terminaban en las posiciones del conjunto A, del conjunto B y del conjunto C, respectivamente. Se espera que el número o la prevalencia de las posiciones finales preferidas sea mucho mayor y se produzca en otras coordenadas genómicas.
La estrategia basada en el polimorfismo, tal y como se describe en el presente documento, solo identifica las posiciones finales preferidas que están asociadas a un SNP informativo para este par fetal-materno. Por tanto, los extremos preferidos identificados representarían un subconjunto de dichos extremos en el genoma. Los presente inventores han desarrollado estrategias que no se basan en el polimorfismo para identificar los extremos preferidos. De hecho, se identificaron muchas más estrategias de finalización preferidas utilizando las estrategias no basadas en polimorfismos. Consulte otros experimentos descritos a continuación.
La FIG. 20 muestra un análisis de las posiciones finales de los fragmentos de ADN plasmático a lo largo de los SNP que eran homocigóticos en la madre y heterocigóticos en el feto. El conjunto A incluía las posiciones finales preferidas para los fragmentos portadores de alelos específicos del feto. El conjunto B incluía las posiciones finales preferidas para los fragmentos portadores de alelos compartidos. El conjunto C incluía las posiciones finales preferidas para ambos tipos de fragmentos de ADN plasmático.
Usando el mismo principio, los presentes inventores analizaron además las posiciones terminales de los fragmentos de ADN de origen materno a lo largo de los SNP que eran heterocigotos para la madre (genotipo AB) y homocigotos en el feto (genotipo AA). Los presentes inventores identificaron un total de 7.527 (conjunto X) y 18.829 (conjunto Y) posiciones de nucleótidos con una probabilidad significativamente mayor de ser una posición final de fragmentos de ADN plasmático portadores de alelos específicos del feto y de alelos compartidos, respectivamente. El conjunto Z es el conjunto superpuesto y contenía 10.534 posiciones (fig. 4). Estas posiciones finales se obtuvieron a partir de regiones que abarcan un total de 3,1 Mb y cubren 9.489 SNP. Por tanto, las posiciones finales preferidas para los fragmentos específicos de la madre representaron el 0,24 % de las regiones analizadas para esta pareja de madre y feto. Había 69.136, 82.413 y 121.607 fragmentos de ADN plasmático portadores de alelos específicos maternos que terminaban en las posiciones del conjunto X, del conjunto Y y del conjunto Z, respectivamente. Había 46.554, 245.037 y 181.709 fragmentos de ADN plasmático portadores de alelos compartidos que terminaban en las posiciones del conjunto X, del conjunto Y y del conjunto Z, respectivamente. De nuevo, este análisis se centra en las moléculas de ADN plasmático que cubren al menos un SNP informativo, los extremos preferidos identificados solo representan un subconjunto de dichos extremos no aleatorios en todo el genoma.
La FIG. 21 muestra un análisis de las posiciones finales de los fragmentos de ADN plasmático a lo largo de los SNP que eran homocigóticos en el feto y heterocigóticos en la madre. El conjunto X incluía las posiciones finales preferidas para los fragmentos portadores de alelos específicos de la madre. El conjunto Y incluía las posiciones finales preferidas para los fragmentos que llevan alelos compartidos. El conjunto Z incluía las posiciones finales preferidas para ambos tipos de fragmentos de ADN plasmático.
2. Uso de posiciones finales recurrentes para deducir la fracción de ADN fetal
T ras la identificación de las posiciones finales recurrentes de los fragmentos de ADN plasmático derivados de la madre y del feto, los presentes inventores razonaron que la abundancia relativa de ADN plasmático que termina en estos conjuntos de posiciones de nucleótidos reflejaría la fracción de ADN fetal. Para confirmar esto, los presentes inventores secuenciaron el ADN plasmático de 26 mujeres en el primer trimestre del embarazo (10~13 semanas), cada una de ellas portadora de un feto masculino. La mediana del recuento de lecturas cartografiadas fue de 16 millones (rango: 12-22 millones). La proporción de lecturas secuenciadas que se alinean con el cromosoma Y se utilizó para calcular la fracción real de ADN fetal en cada muestra de plasma. Se pudo observar una correlación positiva entre la abundancia relativa (indicada como relación F/M) del ADN plasmático con extremos fetales (conjunto A) y maternos (conjunto X) recurrentes y la fracción de ADN fetal (R = 0,63, P = 0,0004, correlación de Pearson, FIG. 22). Es interesante que, aunque las posiciones finales preferidas se identificaron a partir de SNP informativos para una pareja de feto y madre y solo representaron un subconjunto de dichos finales en el genoma, los extremos identificados también eran relevantes para otros embarazos y la correlación con la fracción fetal se logró incluso con solo este subconjunto de extremos preferidos.
La FIG. 22 muestra una correlación entre la abundancia relativa (Ratio (F/M)) de las moléculas de ADN plasmático con extremos fetales (Conjunto A) y maternos (Conjunto X) recurrentes y la fracción de ADN fetal. Cada uno de los puntos de datos puede corresponder a una muestra de calibración respectiva, por lo que se consideran puntos de datos de calibración. La línea que ajusta los puntos de datos de calibración es un ejemplo de función de calibración.
Se pueden utilizar otros conjuntos además del conjunto A y el conjunto X. Por ejemplo, se puede tomar una proporción (u otra abundancia relativa o una función de una proporción) del conjunto A con respecto al conjunto C y del conjunto A con respecto al conjunto B. Como otro ejemplo, se puede tomar una proporción del conjunto X y del conjunto Z o una proporción entre el conjunto X y el conjunto Y, lo que proporcionaría una fracción de a Dn materno, que se puede suponer que es la inversa de la fracción de ADN fetal. En dicho ejemplo, el tejido materno puede ser un primer tipo de tejido cuya contribución proporcional está determinada, aunque sea de forma implícita.
3. Uso del tamaño
La distribución del tamaño molecular de los fragmentos de ADN plasmático que terminan en las posiciones finales específicas del feto proporciona más pruebas de que las posiciones son específicas del feto. Para justificar adicionalmente que las posiciones del conjunto A y del conjunto X fueron los sitios finales preferidos para los fragmentos de ADN derivados del feto y de la madre, respectivamente, los presentes inventores compararon las distribuciones de tamaño molecular del ADN plasmático que termina en estos dos conjuntos de posiciones. Para la muestra de la que proceden estas posiciones, la distribución de tamaños fue más corta para los fragmentos que terminan en las posiciones del conjunto A que para los que terminan en las posiciones del conjunto X (FIG. 23A).
La FIG. 23A muestra las distribuciones del tamaño del ADN plasmático para los fragmentos que terminan en las posiciones finales con preferencia fetal (conjunto A) (en azul) y los fragmentos que terminan en las posiciones finales con preferencia materna (conjunto X) (en rojo). Se observó una distribución de tamaños más corta para los fragmentos que terminan en las posiciones del conjunto A en comparación con los que terminan en las posiciones del conjunto X. La FIG. 23B muestra la gráfica acumulativa de las distribuciones de tamaño para los dos conjuntos de fragmentos. La FIG. 23C muestra la diferencia de las frecuencias acumuladas de los dos conjuntos de fragmentos (AS) frente al tamaño del fragmento. La FIG. 23D muestra el AS frente al tamaño con el desplazamiento de las posiciones finales del conjunto A y del conjunto X a posiciones con coordenadas genómicas mayores de cero a 5 pb. La FIG. 23E muestra el AS frente al tamaño con el desplazamiento de las posiciones finales del conjunto A y del conjunto X de cero a 5 pb en sentido inverso (posiciones con coordenadas genómicas más menores).
Para cuantificar adicionalmente la diferencia en la distribución de tamaños, se representan las frecuencias acumuladas de las dos curvas (FIG. 23B). La diferencia en las dos curvas, representada por AS, se representa en la FIG. 23C. Observamos que la máxima diferencia se observó en 166 pb. Esto concuerda con los informes anteriores de que la diferencia máxima entre el ADN procedente del feto y el de la madre se podía observar en 166 pb (Yu et al. Proc Natl Acad Sci USA. 2014;111:8583-8). Los presentes hallazgos sugieren que existe un enriquecimiento del ADN de origen fetal para los fragmentos que terminan en las posiciones finales con preferencia fetal (conjunto A) en comparación con los que terminan en las posiciones finales con preferencia materna (conjunto X).
Además, los presentes inventores investigaron la especificidad de estas posiciones finales desplazando las posiciones finales del conjunto A y del conjunto X de 1 a 5 pb cadena arriba o cadena abajo del genoma. Los valores de AS se representan frente al tamaño molecular con el desplazamiento de las posiciones finales del conjunto A y del conjunto X en ambas direcciones (FIG. 23D y 23E). Los números positivos del desplazamiento representan el desplazamiento a una posición con una coordenada genómica mayor (FIG. 23D) y los números negativos del desplazamiento representan el desplazamiento a una posición con una coordenada genómica menor (FIG. 23E). El desplazamiento de las posiciones con preferencia fetal y materna, incluso en 1 pb, reduciría significativamente la diferencia de tamaño entre los fragmentos de ADN que terminan en estos dos conjuntos de posiciones (AS). El desplazamiento de 5 pb eliminó casi por completo la diferencia de tamaño. Estos resultados sugieren que las lecturas que terminan en esas posiciones alternativas no son tan específicas del feto o de la madre como las lecturas que terminan en esas posiciones finales preferidas identificadas por nuestro algoritmo. Estos datos apoyan aún más nuestra interpretación de que las moléculas de ADN plasmáticas o libres de células se fragmentan o se escinden de forma muy precisa en esas posiciones finales preferidas. En otras palabras, el proceso de fragmentación del ADN no aleatorio y libre de células es preciso hasta el nivel de nucleótidos específicos.
Posteriormente, los presentes inventores analizaron las lecturas secuenciadas agrupadas de las 26 muestras de plasma del primer trimestre utilizadas para el análisis de la fracción de ADN fetal. Se observó una distribución de tamaño más corta para los fragmentos que terminan en las posiciones del conjunto A en comparación con los que terminan en las posiciones del conjunto X (FIG. 24A).
La FIG. 24A muestra las distribuciones del tamaño del ADN plasmático en una muestra conjunta de ADN plasmático de 26 mujeres en el primer trimestre del embarazo para los fragmentos que terminan en las posiciones finales con preferencia fetal (conjunto A) (en azul) y los fragmentos que terminan en las posiciones finales con preferencia materna (conjunto X) (en rojo). Se observó una distribución de tamaños más corta para los fragmentos que terminan en las posiciones del conjunto A en comparación con los que terminan en las posiciones del conjunto X. La FIG. 24B muestra la gráfica acumulativa de las distribuciones de tamaño para los dos conjuntos de fragmentos. La FIG. 24C muestra la diferencia de las frecuencias acumuladas de los dos conjuntos de fragmentos (AS) frente al tamaño del fragmento. La FIG. 24D muestra el AS frente al tamaño con el desplazamiento de las posiciones del conjunto A y del conjunto X de cero a 5 pb (coordenadas genómicas mayores). La FIG. 24E muestra el AS frente al tamaño con el desplazamiento de las posiciones del conjunto A y del conjunto X de cero a 5 pb en sentido inverso (coordenadas genómicas más pequeñas). La diferencia de tamaño entre los fragmentos de a Dn plasmático que terminan en los dos conjuntos de posiciones (AS) se reduciría con el desplazamiento de estas posiciones, indicando que estas posiciones serían precisas a nivel de un solo nucleótido.
B. Ejemplo de cáncer
La misma estrategia puede aplicarse también para el análisis de las posiciones finales preferidas para los fragmentos derivados del cáncer. En este ejemplo, los presentes inventores secuenciaron el plasma (cobertura 220x), la capa leucocitaria (48x) y el tejido tumoral (45x) de un paciente que padece carcinoma hepatocelular (HCC). El perfil mutacional del paciente se obtuvo comparando los genotipos del tejido tumoral y de la capa leucocitaria. Para determinar las posiciones finales preferidas para los fragmentos de ADN plasmático derivados del cáncer, los presentes inventores analizaron los fragmentos de ADN plasmático portadores de las mutaciones cancerígenas. Como se muestra en las FIG. 24A-24E, el patrón de fragmentación del ADN plasmático en el paciente con HCC no es aleatorio. Ciertas posiciones de nucleótidos tienen una mayor probabilidad de ser un extremo de un fragmento de ADN plasmático.
1. Identificación de posiciones finales específicas para el cáncer
La FIG. 25 muestra un ejemplo ilustrativo de los patrones de fragmentación no aleatorios del ADN plasmático del paciente con HCC. En la parte superior de la figura, cada línea horizontal representa un fragmento de ADN secuenciado. Las líneas rojas y azules representan fragmentos de ADN portadores de los alelos de tipo silvestre y mutante, respectivamente. Los extremos de los fragmentos de ADN representan la posición final de la lectura secuenciada. Los fragmentos se clasifican según la coordenada del nucleótido más externo de la izquierda (la coordenada genómica más pequeña). En la parte inferior de la figura, se muestra el porcentaje de fragmentos que terminan en una posición determinada. El eje X representa las coordenadas genómicas y la mutación se sitúa en el centro indicado por la línea de puntos.
Los presentes inventores identificaron las posiciones genómicas que tienen una mayor probabilidad de ser un extremo de los fragmentos de ADN plasmático que portan alelos mutantes y alelos de tipo silvestre utilizando la función de distribución de probabilidad de Poisson, tal y como se ha descrito anteriormente. Se utilizó un valor de p de 0,01 como umbral. Lo contrario también es cierto, como se describe en la Solicitud PCT n.° PCT/CN2016/073753, es decir, cuando se identifica una molécula de ADN plasmática con un extremo específico, el alelo o la mutación del SNP en la molécula tiene más probabilidades de proceder del cáncer, estar asociada a la enfermedad o al embarazo, dependiendo del conjunto de extremos que se haya utilizado en la interpretación de los datos del ADN plasmático.
La FIG. 26 es una gráfica de la probabilidad de que una coordenada genómica sea una posición final de los fragmentos de ADN plasmático en una región con un sitio de mutación. Los resultados de las posiciones de los nucleótidos con una probabilidad significativamente mayor de ser un extremo de los fragmentos de ADN plasmático que llevan un alelo de tipo silvestre y un alelo mutante se muestran en rojo y azul, respectivamente. El eje X representa las coordenadas genómicas y la mutación se sitúa en el centro indicado por la línea de puntos. Como se muestra, hay coordenadas que tienen una alta tasa de aparición de posiciones finales solo para el alelo específico del mutante, solo para el alelo de tipo silvestre, y algunos son comunes a ambos.
La FIG. 27A muestra un análisis de las posiciones finales de los fragmentos de ADN plasmático en las posiciones genómicas en las que había mutaciones en el tejido tumoral. El conjunto E incluía las posiciones finales preferidas para los fragmentos portadores de alelos mutantes. El conjunto F incluía las posiciones finales preferidas para los fragmentos portadores de alelos de tipo silvestre. El conjunto G incluía las posiciones finales preferidas para ambos tipos de fragmentos de ADN plasmático.
2. Uso de las posiciones finales recurrentes para deducir la fracción de ADN del tumor
Como las posiciones del conjunto E eran los sitios finales preferidos para el ADN derivado del cáncer y las posiciones del conjunto F eran los sitios finales preferidos para el ADN de fondo derivado predominantemente de tejidos no tumorales, los presentes inventores barajaron la hipótesis de que la proporción entre los fragmentos que terminan en estos dos conjuntos de posiciones se correlacionaría con el ADN derivado del tumor. Por tanto, los presentes inventores analizaron el plasma de 71 pacientes con HCC cuyo plasma contenía al menos un 1 % de ADN derivado del tumor. En estos pacientes se analizó previamente la presencia de aberraciones en el número de copias del ADN plasmático y se estimaron las fracciones de ADN tumoral en función de la magnitud de las aberraciones de número de copias. (Jiang et al. Proc Natl Acad Sci USA. 2015;112:E1317-25). La relación entre los fragmentos que terminan en estos dos conjuntos de posiciones (RelaciónM/TS) se define como:
RelaciónM N.° de fr a g m e n to s de ADN plasm ático que te rm in a n en las posiciones del Conj.E/Ts = N.° de fr a g m e n to s de ADN plasm ático que te rm in a n en las posiciones del Conj.F
La FIG. 27B muestra una correlación entre la RelaciónM/TS y la fracción de ADN tumoral en el plasma de 71 pacientes con HCC. Se observó una correlación positiva entre la RelaciónM/TS y la fracción de ADN tumoral en el plasma (r = 0,53, p <0,001, correlación de Pearson). Estos resultados sugieren que el número de fragmentos que terminan en estas posiciones finales preferidas por el cáncer sería útil para predecir la cantidad de ADN derivado del tumor en el plasma de los pacientes con cáncer.
Algunas realizaciones pueden aumentar el número de fragmentos de ADN de cáncer informativos accesibles mediante la detección combinada de una variedad de cambios específicos del cáncer o asociados al mismo, por ejemplo, mutaciones de un único nucleótido, en combinación con firmas de metilación del ADN específicas para el cáncer o asociadas a él (por ejemplo, la localización de la 5-metilcitosina y la hidroximetilación), moléculas cortas de ADN plasmático específicas del cáncer o asociadas al cáncer, marcas de modificación de las histonas específicas del cáncer o asociadas al cáncer, y ubicaciones de los extremos del ADN plasmático específicas del cáncer o asociadas al cáncer. Ciertos cambios específicos o asociados al cáncer pueden utilizarse como criterios de filtrado en la identificación de mutaciones.
VII. ANALISIS DE POSICION FINAL INDEPENDIENTE DEL POLIMORFISMO
En otras realizaciones, las posiciones finales preferidas pueden obtenerse (A) comparando las posiciones finales de los fragmentos de ADN plasmático de diferentes individuos o (B) comparando las posiciones finales de los fragmentos de ADN plasmático de las muestras de un individuo tomadas en diferentes momentos.
A. Comparación entre las posiciones finales preferidas en sujetos que sufren diferentes condiciones patológicas y fisiológicas
1. Uso de conjuntos exclusivos por encima del umbral
Basándose en la función de probabilidad de la distribución de Poisson, los presentes inventores han identificado las posiciones genómicas que tenían una mayor probabilidad de ser posiciones finales de fragmentos plasmáticos para la mujer embarazada y el paciente con HCC descritos en las secciones anteriores. En este análisis, la hipótesis nula es que todos los fragmentos de ADN plasmático se fragmentarían al azar, de modo que cada posición genómica tendría la misma probabilidad de ser el final de los fragmentos de ADN plasmático. Se supuso que los fragmentos de ADN plasmático tenían un tamaño medio de 166 pb. El valor de p se calcula como
valor de p = Poisson(Nreal, Npredicha)
donde Poisson() es la función de probabilidad de Poisson; Nreal es el número real de lecturas que terminan en el nucleótido concreto; y Npredicha = --------- 3- x-- lO- - y- X--1-6-6---------, el 3 x 10q en el denominador representa el número de nucleótidos en un genoma.
Se ajustó el valor de p mediante la corrección de Benjamini y Hochberg (Bejamini et al. Journal of the Royal Statistical Society, 1995;57:289-300) para conseguir una tasa de falsos descubrimientos (FDR) esperada <1 %.
La FIG. 28A muestra el número de posiciones finales preferidas para el ADN plasmático de la mujer embarazada y del paciente con HCC. El conjunto P contenía 29 millones de posiciones finales que eran las preferidas en la mujer embarazada. El conjunto Q contenía 6 millones de posiciones finales que se preferían en el paciente con HCC. El conjunto S es el conjunto superpuesto y contiene 15 millones de posiciones finales.
La hipótesis de los presentes inventores es que los fragmentos que terminan en las posiciones finales preferidas del HCC (conjunto Q) estarían enriquecidos para el ADN derivado del cáncer en comparación con los fragmentos que terminan en las posiciones finales preferidas del embarazo (conjunto P).
Por tanto, los presentes inventores calcularon la RelaciónHCC/Emb como
N.° de f r a g m e n to s de ADN plasm ático que te rm in a n en las posiciones del Conj.Q
RelaciónHCC/Emb = N.° de f r a g m e n to s de ADN plasm ático que te rm in a n en las posiciones del Conj P
y correlacionaron esta proporción con la fracción de ADN tumoral en los 71 pacientes con HCC mencionados anteriormente.
La FIG. 28B muestra que se observó una correlación positiva entre la RelaciónHCC/Emb y la fracción de ADN tumoral en plasma para los 71 pacientes con HCC. Estos resultados sugieren que el número o la proporción de fragmentos que terminan en los sitios de terminación preferidos de una afección específica podría ser útil para detectar la afección o para cuantificar la cantidad de ADN liberado del órgano enfermo.
2. Utilización del conjunto de posiciones genómicas con mayor índice de finalización
En otra realización, los sitios de terminación preferidos pueden identificarse determinando la relación entre el número de fragmentos que terminan en dicha posición y el número de fragmentos que cubren la posición pero no terminan en ella. La FIG. 2qA ilustra el cálculo de la relación de terminación preferida (PETR).
Figure imgf000026_0001
La FIG. 29A muestra una ilustración del concepto de la PETR. Cada línea representa un fragmento de ADN plasmático. Estos fragmentos están marcados de a a g. Los fragmentos a, b, c y d terminaron en el nucleótido de interés. Los fragmentos e, f y g cubren el nucleótido de interés pero no terminan en dicha posición. En este ejemplo ilustrativo, la PETR es igual a 4/3, es decir, 1,33. En otras realizaciones, el denominador puede ser el número de fragmentos de ADN que abarcan el nucleótido, independientemente de si el fragmento de a Dn termina en la posición.
El cálculo de la PETR puede utilizarse para identificar las posiciones de los nucleótidos que son extremos preferidos en los individuos que padecen diferentes enfermedades. El siguiente ejemplo demuestra la utilidad de la PETR. Se compararon las muestras de plasma del paciente con HCC mencionado anteriormente y de un sujeto con infección crónica por el virus de la hepatitis B (VHB) pero sin cáncer (portador del VHB). Las muestras de a Dn plasmático del portador del VHB se secuenciaron con una cobertura del genoma haploide de 215x. La PETR se calculó para cada posición genómica de cada sujeto. se identificaron 7.350.067 posiciones genómicas (conjunto H) con una PETR al menos 4 veces mayor en el paciente con HCC en comparación con el portador del VHB. Estas posiciones tenían una probabilidad al menos 4 veces mayor de ser un extremo de fragmentos de ADN plasmático en el paciente con HCC en comparación con el portador del VHB. Pueden utilizarse otros múltiplos de diferencia, por ejemplo, 1,5 veces, 2 veces y 3 veces.
Las muestras de plasma de 11 pacientes de HCC independientes se secuenciaron además con una profundidad de secuenciación mucho menor. Se obtuvo una media de 28 millones de lecturas secuenciadas de estas 11 muestras de plasma. Se calculó la PETR media en las posiciones 7.350.067 del conjunto H para cada uno de estos 11 pacientes con HCC y se correlacionó con la fracción de ADN tumoral en el plasma. La fracción de ADN tumoral en el plasma se calculó a partir de la magnitud de las aberraciones del número de copias en el plasma, como se describió anteriormente (Chan et al. Proc Natl Acad Sci USA. 2015;112:E1317-25).
La FIG. 29B muestra una correlación entre la fracción de ADN tumoral en plasma con la PETR en las posiciones del conjunto H en 11 pacientes con HCC. Se pudo observar una correlación positiva entre los dos parámetros, lo que sugiere que el promedio de la PETR en las posiciones preferidas del HCC (conjunto H) sería útil para indicar la cantidad de ADN tumoral en el plasma.
3. Confirmación de que la posición final está relacionada con el hígado
Para demostrar que las posiciones finales preferidas presentes en la muestra de ADN plasmático de1HCC o en la muestra de ADN plasmático del VHB estaban relacionadas con el hígado, buscamos su presencia en muestras de plasma recogidas de pacientes antes y después de la extirpación quirúrgica de1HCC. Los datos se muestran en la tabla 1. Las muestras antes y después de la cirugía se secuenciaron con coberturas genómicas haploides de 17x y 20x, respectivamente.
Sitios de finalización Sitios de finalización preferidos por el HCC preferidos por el VHB Sitios de finalización preferidos antes de la
cirugía en HCC 1 92 16
Sitios de finalización preferidos después de la
cirugía en HCC 1 5 4
La tabla 1 muestra las posiciones finales preferidas por el HCC y las posiciones finales preferidas por el VHB en la muestra de plasma recogida antes y después de la cirugía para extirpar el tumor del hígado en el paciente con HCC.
Como puede observarse en la tabla 1, hay reducciones en el número de posiciones finales preferidas tanto por e1HCC como por el VHB. Los datos del VHB sugieren que la mayoría de las posiciones finales preferidas son de origen hepático y su reducción se debe a la disminución de la masa de células hepáticas tras la cirugía. Por lo tanto, se reduce la liberación de moléculas de ADN acelular derivadas del hígado en el plasma. Es interesante observar que en la muestra prequirúrgica hay más de 5 veces más posiciones finales preferidas por e1HCC que desaparecieron después de la cirugía. Algunos de los extremos preferidos que mostraron desaparición después de la cirugía proceden del hígado. La observación de que en la misma muestra prequirúrgica se detectaron muchas más terminaciones preferidas por el HCC que por el VHB sugiere que la mayoría de esas terminaciones son específicas de1HCC y no solo están genéricamente asociadas al hígado.
Hay una serie de aplicaciones que podrían derivarse de estos datos. Los datos indican que la detección de los extremos preferidos del ADN acelular o del ADN plasmático podría utilizarse para el seguimiento del tratamiento del cáncer. Por ejemplo, la reducción posquirúrgica de los extremos preferidos indica el éxito de la extirpación quirúrgica del HCC. Si el tumor no fue extirpado completamente o con éxito, la cantidad de extremos preferidos de ADN plasmático no mostraría una reducción sustancial después de la cirugía. Esto se debe a que los focos tumorales o metastásicos restantes serían una fuente para la liberación continuada de ADN acelular o de ADN plasmático con las posiciones finales preferidas por el HCC. Los datos muestran que el seguimiento del tratamiento basado en el análisis de los extremos preferidos del ADN acelular podría lograrse con una profundidad de secuenciación relativamente baja.
Los datos también muestran que las posiciones finales preferidas del ADN plasmático asociado a los tejidos o al cáncer podrían utilizarse para identificar el tejido de la patología, incluido el tejido que alberga el cáncer. Por ejemplo, se podrían utilizar múltiples conjuntos de extremos preferidos de ADN acelular que se derivan de diferentes órganos. Así se podrían determinar las cantidades relativas de ADN acelular procedentes de diversos tejidos. Por tanto, esto podría servir como estrategia para la deconvolución de tejidos de ADN acelular. El tejido que, según esta estrategia, presenta la mayor desviación (aumento significativo o reducción significativa) respecto a los valores de referencia establecidos a partir de las muestras de control, sería el órgano o tejido con la patología (por ejemplo, inflamación o infección viral como en el caso del portador del virus de la hepatitis B crónica) o el cáncer.
Otra prueba para demostrar que los extremos preferidos del ADN plasmático de1HCC son específicos del cáncer o del HCC, los presentes inventores estudiaron el perfil de tamaño molecular de las moléculas de ADN plasmático que muestran los extremos preferidos por el HCC o el VHB (FIG. 30).
La FIG. 30 muestra la proporción de ADN corto (<150 pb) detectado entre las moléculas de ADN plasmático que terminan con extremos preferidos por el HCC, extremos preferidos por el VHB o los extremos compartidos. La FIG. 30 muestra que las moléculas de ADN plasmático que muestran los extremos preferidos por e1HCC son generalmente mucho más cortas (alta proporción de ADN corto) que las que muestran los extremos preferidos por el VHB. Jiang et al (Jiang et al. Proc Natl Acad Sci USA. 2015;112:E1317-25) utilizaron previamente otro enfoque para demostrar que las moléculas de ADN plasmático derivadas del tumor son más cortas que el ADN no tumoral de fondo. Dado que las moléculas de ADN plasmático con los extremos preferidos por el HCC son mucho más cortas, es muy probable que sean de origen tumoral. Por tanto, se podría mejorar la posibilidad de detectar las moléculas de ADN plasmático con los extremos preferidos por el HCC con una profundidad de secuenciación aún menor, se puede enriquecer la muestra con ADN corto.
4. Tasa de finalización basada en la ventana
En otra realización, las posiciones preferentes de HCC pueden ampliarse para incluir los nucleótidos vecinos. La FIG.
31A ilustra este método. Se determinaría la relación PETR basada en la ventana (w-PETR) entre el número de fragmentos que terminan en la ventana A y los que terminan en la ventana B. El tamaño de la ventana A y de la ventana B puede ajustarse para conseguir el rendimiento deseado. El rendimiento de los diferentes tamaños de las ventanas puede obtenerse experimentalmente. Se puede ajustar el tamaño de la ventana A, por ejemplo, pero sin limitación, a 5 pb, 6 pb, 7 pb, 8 pb, 9 pb, 10 pb, 15 pb, 20 pb, 25 pb y 30 pb. El tamaño de la ventana B será mayor que el de la ventana A y puede ajustarse, por ejemplo, pero sin limitación, a 20 pb, 25 pb, 30 pb, 40 pb, 50 pb, 60 pb, 70 pb, 80 pb, 100 pb, 120 pb, 140 pb, 160 pb, 180 pb y 200 pb. En el siguiente ejemplo ilustrativo, los tamaños de la Ventana A y la Ventana B se fijaron en 20 pb y 150 pb, respectivamente.
La FIG. 31A muestra una ilustración del principio de la w-PETR. El valor de w-PETR se calcula como la relación entre el número de fragmentos de ADN que terminan dentro de la ventana A y la ventana B. La ventana A es de mayor tamaño y puede tener una amplitud de uno cuando se implementa PETR estándar. La ventana B se muestra más grande. Ambas ventanas se muestran centradas en la posición final preferida, pero se puede utilizar otro posicionamiento de las ventanas. En algunas realizaciones, la ventana A puede corresponder a una ventana final preferida.
La FIG. 31B muestra una correlación entre la fracción de ADN tumoral y el valor de la w-PETR en los 11 pacientes con HCC. Estos resultados sugieren que la w-PETR sería útil para determinar la cantidad de ADN derivado del tumor en el plasma de los pacientes con cáncer.
5. Uso de las posiciones finales más altas por muestra
Los presentes inventores compararon el millón de posiciones finales de ADN acelular más frecuentemente representadas entre los datos de una mujer embarazada, un portador crónico del virus de la hepatitis B (VHB), un paciente con cáncer de pulmón y dos con HCC. Para los pacientes con HCC, la biblioteca de secuenciación de un caso (HCC) se preparó mediante un protocolo sin PCR y la otra muestra (HCC PCR) se preparó mediante un protocolo basado en la PCR. Todas las demás muestras se preparan mediante un protocolo sin PCR. La FIG. 32 muestra la proporción de posiciones finales preferidas comúnmente compartidas detectadas en muestras de plasma de cada una de las muestras estudiadas cuando se comparan con una muestra de plasma sanguíneo del cordón umbilical (cobertura del genoma haploide 210x).
La FIG. 32 muestra la proporción de posiciones finales preferidas comúnmente compartidas detectadas en muestras de plasma de cada una de las muestras estudiadas cuando se comparan con una muestra de plasma sanguíneo del cordón umbilical (cobertura del genoma haploide 210x). Se muestran los porcentajes de los autosomas para cada uno de embarazo, HCC, VHB, cáncer de pulmón y HCC detectados utilizando la PCR.
El alto nivel de coincidencia apoya de nuevo el concepto de que la fragmentación del ADN plasmático no es un proceso aleatorio. Los datos del HCC y del HCC(PCR) muestran que el análisis de la posición final preferida podría realizarse utilizando cualquiera de los protocolos de preparación de bibliotecas con o sin PCR. Es interesante observar que todavía hay una proporción de moléculas de a Dn plasmáticas que no muestran extremos comunes. Los extremos no comunes son los extremos preferidos representativos del estado fisiológico, por ejemplo, el embarazo, el feto o la placenta para la muestra; o el estado patológico, por ejemplo, cáncer. En la FIG. 33 se muestra una comparación más detallada de los extremos preferidos del ADN plasmático.
La FIG. 33 muestra un diagrama de Venn en el que se indica el número de posiciones finales preferidas que se observan comúnmente en dos o más muestras, así como las que solo se observaron en una muestra. Se secuenció el ADN plasmático de un paciente con cáncer de pulmón con una cobertura del genoma haploide de 175x.
Cabe destacar de la FIG. 33 que 115.305 extremos preferidos son comunes en las tres muestras. Es probable que procedan de la principal fuente de ADN plasmático de fondo, por ejemplo, células sanguíneas. El análisis también muestra que había 61.035 posiciones finales preferidas observadas en las muestras de plasma del paciente con HCC y del paciente con cáncer de pulmón. Estos extremos preferidos pueden ser comunes a varios tipos de cáncer. Por tanto, son derivados del cáncer. Sin embargo, hay extremos que solo se detectaron en las moléculas de ADN plasmático del paciente con HCC (479.766 extremos) o del paciente con cáncer de pulmón (749.237 extremos) pero no en ambos. Por lo tanto, estos extremos preferidos muestran un mayor nivel de especificidad. Son específicos para un tipo de tejido canceroso concreto. Basándose en el mismo razonamiento, se pueden utilizar estrategias de extracción similares para identificar extremos específicos de los cánceres de un órgano concreto y de un tipo de histología determinado. Las moléculas de ADN plasmático que presentan las diferentes clases de extremos podrían utilizarse para diversas aplicaciones. Por ejemplo, se puede aspirar a detectar los extremos específicos de1HCC o del cáncer de pulmón para la detección directa o el cribado del tipo de cáncer específico. Se pueden utilizar los extremos comunes a las muestras de HCC y de cáncer de pulmón para detectar o cribar el cáncer en general. Se pueden utilizar los extremos comunes más genéricos como denominador para la normalización de la cantidad de extremos preferidos asociados a la enfermedad detectados. Los extremos comunes genéricos también podrían detectarse con el fin de detectar el signo de cualquier enfermedad (como un examen de salud general). Los resultados positivos de una prueba de este tipo podrían servir de alerta para visitar a un médico para una investigación más detallada.
B. Comparación entre las posiciones finales preferidas entre las muestras recogidas del individuo de la muestra pero en diferentes momentos
Las posiciones finales preferidas de una afección particular también pueden obtenerse comparando los extremos de los fragmentos de las muestras recogidas en diferentes puntos temporales. Por ejemplo, en un paciente oncológico, una muestra de plasma puede recogerse en el momento del diagnóstico y la otra muestra puede recogerse después del tratamiento (por ejemplo, tras la resección quirúrgica del tumor). La diferencia en las posiciones finales puede reflejar potencialmente la ausencia de la contribución del ADN derivado del cáncer en este último o la respuesta corporal al cáncer. En otro ejemplo, se puede hacer una comparación entre las muestras de plasma recogidas de una mujer embarazada tomadas antes y después del parto del feto.
En el siguiente ejemplo, se analizaron las muestras de plasma recogidas de 8 mujeres embarazadas. Para cada mujer embarazada, se recogió una muestra de plasma antes del parto. En 6 de las 8 mujeres, se recogió una muestra de plasma adicional en el momento del parto. Se recogieron múltiples muestras de las ocho mujeres embarazadas a partir de las 6 horas después del parto y se recogieron un total de 28 muestras de plasma después del parto. Las muestras de ADN plasmático se secuenciaron con una profundidad media de 6,49x la cobertura del genoma haploide. Las lecturas secuenciadas de las muestras recogidas antes del parto y en el momento del mismo se agruparon para el análisis de la PETR y estas lecturas se denominarán "lecturas previas al parto". Las lecturas secuenciadas de las muestras recogidas a las 6 horas del parto o más tarde se agruparon para el análisis de la PETR y estas lecturas se denominarían lecturas "postparto". Para identificar las posiciones de los nucleótidos que eran extremos preferidos para el embarazo, se recuperaron las posiciones con una PETR al menos 4 veces mayor en las lecturas "antes del parto" en comparación con las lecturas "después del parto". Se identificó un total de 45.281 sitios.
Se reclutó una cohorte independiente de 8 mujeres en el primer trimestre del embarazo, cada una de ellas portadora de un feto masculino, y se secuenció su ADN plasmático. Se obtuvo una media de 20 millones de lecturas secuenciadas de estas muestras de ADN plasmático. Se determinó la media de los valores de PETR para los 45.281 sitios para cada una de las 8 mujeres embarazadas y estos valores se correlacionaron con la fracción de ADN fetal en el plasma que se estimó a partir de la proporción de lecturas que se alineaban con el cromosoma Y (Chiu et al. BMJ 2011;342:c7401).
La FIG. 34A muestra una correlación entre la fracción de ADN fetal en el plasma y la PETR media en el conjunto de posiciones identificadas mediante la comparación entre las muestras de ADN plasmático "antes del parto" y "después del parto". Estos resultados sugieren que el conjunto de posiciones identificadas sería el preferido para el ADN procedente del feto y que el análisis de la PETR sería útil para cuantificar el ADN fetal en el plasma materno.
De manera similar a la estrategia descrita anteriormente, los presentes inventores han aplicado el análisis de w-PETR a este conjunto de posiciones preferidas para el embarazo. El tamaño de la ventana A y de la ventana B se fijó en 20 pb y 150 pb, respectivamente. En otras realizaciones, pueden utilizarse otros tamaños de la ventana.
La FIG. 34B muestra una correlación entre la fracción de ADN fetal en el plasma y el promedio de w-PETR en el conjunto de posiciones identificadas a través de la comparación entre las muestras de ADN plasmático "antes del parto" y "después del parto". Estos resultados sugieren que el análisis de w-PETR en estas posiciones preferentes del embarazo sería útil para cuantificar el ADN fetal en el plasma materno.
C. Puntos finales comunes entre la misma afección
Comparamos el millón de posiciones finales preferidas más frecuentemente observadas en el plasma de dos mujeres embarazadas (FIG. 35A).
La FIG. 35A muestra el millón de posiciones finales preferidas del ADN plasmático observadas con mayor frecuencia entre dos mujeres embarazadas a las 18 semanas (mujer embarazada 1) y a las 38 semanas de gestación (mujer embarazada 2). Los datos muestran que estas mujeres compartían 217.947 extremos preferidos. Teniendo en cuenta que ambas mujeres están embarazadas, estos extremos proceden del feto, la placenta o los órganos que tienen una mayor muerte celular (generación de ADN plasmático) durante el embarazo. Por lo tanto, estos marcadores son más útiles para el seguimiento del embarazo o del bienestar fetal.
Los presentes inventores calcularon el valor de la PETR para este conjunto de muestras. Curiosamente, se observó una correlación (r de Pearson = 0,52, valor de p <0,0001) entre los valores de PETR de las moléculas de ADN del plasma en las dos muestras de plasma materno (FIG. 35B).
La FIG. 35B muestra una comparación de los valores de PETR del millón de posiciones finales preferidas más frecuentemente observadas en el plasma de dos mujeres embarazadas. El alto grado de correlación indica una vez más que la fragmentación del a Dn en el plasma está muy orquestada. Algunos sitios de finalización son más "preferidos" que otros. Curiosamente, incluso entre el millón de sitios "más preferidos", hay un rango dinámico relativamente amplio de PETR. Si uno tuviera que elegir varios o un subconjunto de extremos preferidos para la detección selectiva, por ejemplo, para hacer pruebas de detección de enfermedades, hay que elegir los que se comparten comúnmente entre el grupo de enfermedades de interés, idealmente no se observan o son menos prevalentes en el grupo de control sin enfermedad y, en particular, en las posiciones finales con una PETR muy elevada.
VIII. MÉTODOS QUE UTILIZAN POSICIONES FINALES ESPECÍFICAS DE LOS TEJIDOS
La FIG. 36 es un diagrama de flujo de un método 3600 de análisis de una muestra biológica para determinar una clasificación de una contribución proporcional del primer tipo de tejido en una mezcla de acuerdo con las realizaciones de la presente invención. La muestra biológica incluye una mezcla de moléculas de ADN acelular de una pluralidad de tipos de tejidos que incluye un primer tipo de tejido.
En el bloque 3610, se identifica un primer conjunto de posiciones genómicas en las que los extremos de las moléculas de ADN acelular del primer tipo de tejido se producen con una frecuencia superior a un umbral. En la sección X.B se facilitan detalles adicionales acerca del bloque 3610, así como de otros bloques que realizan la identificación de las posiciones terminales preferidas. Los detalles de otros bloques de otros métodos también se pueden encontrar en la sección X.
En el bloque 3620, se analiza una primera pluralidad de moléculas de ADN acelular de la muestra biológica de un sujeto. El análisis de una molécula de ADN acelular incluye la determinación de una posición genómica en un genoma de referencia correspondiente a al menos un extremo de la molécula de ADN acelular. El bloque 3620 puede realizarse de forma similar a otros bloques para analizar moléculas de ADN acelular, por ejemplo, el bloque 1320.
En el bloque 3630, se determina que un primer número de la primera pluralidad de moléculas de ADN acelular termina dentro de una de una pluralidad de ventanas. La determinación se realiza a partir del análisis de la primera pluralidad de moléculas de ADN acelular. Cada ventana incluye al menos una del primer conjunto de posiciones genómicas.
En el bloque 3640, se calcula una abundancia relativa de la primera pluralidad de moléculas de ADN acelular que termina dentro de una de la pluralidad de ventanas. La abundancia relativa puede determinarse normalizando el primer número de la primera pluralidad de moléculas de ADN acelular mediante un segundo número de moléculas de ADN acelular. El segundo número de moléculas de ADN acelular incluye moléculas de ADN acelular que terminan en un segundo conjunto de posiciones genómicas fuera de la pluralidad de ventanas que incluyen el primer conjunto de posiciones genómicas.
Como se ha descrito para la FIG. 27A, el segundo conjunto de posiciones genómicas puede ser tal que los extremos de las moléculas de ADN acelular de un segundo tipo de tejido se produzcan a una tasa superior al umbral en la al menos una muestra adicional, donde el segundo tipo de tejido tiene una pluralidad de segundos alelos específicos del tejido en la al menos una muestra adicional. El segundo conjunto de posiciones genómicas puede determinarse utilizando moléculas de ADN acelular de la menos una muestra adicional que incluyan al menos uno de la pluralidad de segundos alelos específicos del tejido. Dado que puede excluirse el conjunto G de ambos conjuntos utilizados para determinar la FIG. 27B, las posiciones genómicas en las que los extremos de las moléculas de ADN acelular que tienen un alelo compartido entre el primer tipo de tejido y el segundo tipo de tejido ocurren en una segunda tasa por encima del umbral pueden ser excluidas del primer conjunto de posiciones genómicas y excluidas del segundo conjunto de posiciones genómicas.
En el bloque 3650, la clasificación de la contribución proporcional del primer tipo de tejido se determina comparando la abundancia relativa con uno o más valores de calibración determinados a partir de una o más muestras de calibración cuyas contribuciones proporcionales del primer tipo de tejido se conocen.
Si la contribución proporcional es alta, pueden realizarse acciones adicionales, tales como una intervención terapéutica o la obtención de imágenes del sujeto (por ejemplo, si el primer tipo de tejido corresponde a un tumor). Por ejemplo, una investigación puede utilizar modalidades de imagen, por ejemplo, tomografía computarizada (TC) o resonancia magnética (RM), del sujeto (todo el sujeto o una parte específica del cuerpo (por ejemplo, el tórax o el abdomen), o específicamente del órgano candidato) que puede realizarse para confirmar o descartar la presencia de un tumor en el sujeto. Si se confirma la presencia de un tumor, puede realizarse un tratamiento, por ejemplo, cirugía (con bisturí o con radioterapia) o quimioterapia.
El tratamiento puede proporcionarse según el nivel de cáncer determinado, las mutaciones identificadas y/o el tejido de origen. Por ejemplo, una mutación identificada (por ejemplo, en el caso de las implementaciones polimórficas) puede tratarse con un fármaco o quimioterapia particular. El tejido de origen puede utilizarse para guiar una cirugía o cualquier otra forma de tratamiento. Asimismo, el nivel de cáncer puede utilizarse para determinar la agresividad de cualquier tipo de tratamiento, que también puede determinarse en función del nivel de cáncer.
IX. DETERMINACIÓN DEL GENOTIPO
Dado que se pueden determinar las posiciones finales preferidas para un tipo de tejido concreto, las moléculas de ADN acelular que terminan en esas posiciones finales preferidas tienen una alta probabilidad de ser de ese tejido. En algunas situaciones, un tipo de tejido particular en una mezcla de ADN acelular puede tener un genotipo diferente en una posición genómica particular en relación con otros tipos de tejido. Por ejemplo, el tejido fetal o el tejido tumoral pueden tener un genotipo diferente. Dado que las moléculas de a Dn acelular tienen una alta probabilidad de ser del tipo de tejido de interés, la molécula de ADN acelular que termina en dicha posición puede analizarse para determinar un genotipo del tipo de tejido en esa posición. De esta manera, la posición final preferida puede utilizarse como filtro para identificar el ADN del tipo de tejido.
A. Genotipo fetal
La información relativa a las posiciones finales de los fragmentos de ADN plasmático secuenciados puede utilizarse para determinar qué alelo materno ha sido heredado por el feto de la mujer embarazada. En este punto, utilizamos un ejemplo hipotético para ilustrar el principio de este método. Se supone que los genotipos de la madre, el padre y el feto son AT, TT y TT, respectivamente. Para determinar el genotipo fetal, es necesario determinar si el feto ha heredado el alelo A o el T de la madre. Los presentes inventores han descrito con anterioridad un método denominado análisis de la dosis relativa de mutaciones (RMD) (Lun et al. Proc Natl Acad Sci USA 2008;105:19920-5). En este método, se compararía la dosis de los dos alelos maternos en el plasma materno. Si el feto ha heredado el alelo T materno, el feto sería homocigoto para el alelo T. En este escenario, el alelo T estaría sobrerrepresentado en el plasma materno en comparación con el alelo A. Por otro lado, si el feto ha heredado el alelo A de la madre, el genotipo del feto sería AT. En este escenario, los alelos A y T estarían presentes en aproximadamente la misma dosis en el plasma materno porque tanto la madre como el feto serían heterocigotos para AT. Por tanto, en el análisis RMD, se compararía la dosis relativa de los dos alelos maternos en el plasma materno. Las posiciones finales de las lecturas secuenciadas pueden analizarse para mejorar la precisión de la estrategia de RMD.
La FIG. 37 muestra las moléculas de ADN plasmático materno que portan diferentes alelos al alinearse con un genoma de referencia cerca de una posición final específica del feto. Las moléculas en líneas continuas proceden de la madre y las moléculas en líneas de puntos proceden del feto. Las moléculas de ADN fetal son más propensas a terminar en las posiciones finales específicas del embarazo. En una realización, las moléculas que terminan en las posiciones finales específicas del embarazo pueden tener más peso en el análisis de RMD. En otra realización, solo los fragmentos de ADN plasmático que terminan en posiciones específicas del embarazo se utilizan para el análisis posterior. Esta selección puede enriquecer potencialmente los fragmentos de ADN plasmático derivados del feto para su análisis posterior.
La FIG. 37 muestra las moléculas de ADN plasmático en una mujer embarazada cuyo genotipo es AT. Los fragmentos de ADN derivados de los tejidos maternos están en línea continua y los fragmentos de ADN derivados del feto están en línea de puntos. Es más probable que las moléculas de ADN fetal terminen en la posición final específica del embarazo.
En este ejemplo ilustrativo, las dos moléculas que terminan en la posición final específica del embarazo portan el alelo T. En una realización, solo las dos moléculas que terminan en la posición final específica del embarazo se utilizaron para el análisis posterior y el genotipo fetal se deduciría como TT. En otra realización, las dos moléculas procedentes del feto que portan el alelo T tendrían un mayor peso en el análisis RMD porque estas dos moléculas terminan en una posición final específica del embarazo. Se puede dar una ponderación diferente a las moléculas que terminan en las posiciones finales específicas del embarazo, por ejemplo, pero sin limitación, 1,1, 1,2, 1,3, 1,4, 1,5, 2, 2,5, 3 y 3,5.
A modo de ejemplo, el criterio para determinar si un locus es heterocigoto puede ser un umbral de dos alelos que aparezcan cada uno en al menos un porcentaje predeterminado (por ejemplo, el 30 % o el 40 %) de lecturas alineadas con el locus. Si un nucleótido aparece en un porcentaje suficiente (por ejemplo, el 70 % o más), se puede determinar que el locus es homocigoto en el GC.
B. Genotipo del cáncer
Se puede realizar una técnica similar para las posiciones finales específicas del cáncer. Por ejemplo, puede identificarse una posición terminal preferida del cáncer como se ha descrito anteriormente. Pueden identificarse y analizarse moléculas de ADN acelular que terminan en la posición final preferida por el cáncer. La base correspondiente (por ejemplo, alineada) a esta posición puede determinarse para cada molécula de ADN acelular de este conjunto, y los porcentajes de las bases totales pueden calcularse para cada base. Por ejemplo, se puede determinar el porcentaje de C que se observa en las moléculas de ADN acelular que terminan en esa posición. Si no se observa C en el tejido sano del sujeto, C puede identificarse como una mutación si se identifica un número suficiente de C, por ejemplo, por encima de un número umbral, que puede depender de la fracción de ADN tumoral medida en la muestra.
C. Técnicas de filtrado
Para filtrar las moléculas de ADN acelular que proceden del tejido tumoral se pueden utilizar otros criterios además de la posición final. Los otros criterios también pueden utilizarse para el escenario fetal.
La especificidad en la identificación de un genotipo de cáncer (por ejemplo, que incluya una mutación específica del cáncer) y cualquier prueba que utilice dichos genotipos (por ejemplo, el uso de la carga mutacional para determinar un nivel de cáncer) puede mejorarse aplicando criterios de filtrado a los locus en los que se hayan alineado una o más lecturas de la secuencia que tengan una mutación. A modo de ejemplo para el cáncer, se puede conseguir una alta especificidad puntuando una firma genética o genómica como positiva solo cuando existe una alta confianza en que esté asociada al cáncer. Esto podría lograrse minimizando el número de errores de secuenciación y alineación que pueden identificarse erróneamente como una mutación, por ejemplo, mediante la comparación con el perfil genómico de un grupo de controles sanos, o puede lograrse mediante la comparación con el propio ADN constitutivo de la persona o puede lograrse mediante la comparación con el perfil genómico de la persona en un momento anterior.
Pueden aplicarse varios criterios de filtrado para evaluar la probabilidad de que un fragmento de ADN acelular proceda del tumor y, por tanto, pueda considerarse un fragmento de ADN de cáncer informativo. Cada uno de los criterios de filtrado podría utilizarse individualmente, independientemente, colectivamente con igual ponderación o diferentes ponderaciones, o en serie en un orden especificado, o condicionalmente en función de los resultados de los pasos de filtrado anteriores. Para su uso condicional, puede utilizarse una estrategia bayesiana, así como una estrategia basada en árboles de clasificación o decisión. El uso individual de un criterio puede significar el uso de un solo criterio. Un uso independiente puede implicar más de un criterio de filtrado, pero cada criterio de filtrado no depende de la aplicación de otro criterio de filtrado (por ejemplo, se puede aplicar en paralelo), en contraste con una aplicación en serie en órdenes específicas. Como ejemplo de uso colectivo utilizando ponderaciones, pueden utilizarse técnicas de inteligencia artificial. Por ejemplo, el aprendizaje supervisado puede utilizar cargas mutacionales medidas de muestras con clasificaciones conocidas para entrenar cualquier modelo. Los datos de secuenciación de un gran número de individuos (por ejemplo, cientos, miles o millones) pueden utilizarse para entrenar los modelos. Indicado de un modo más sencillo, dichas muestras conocidas pueden utilizarse para determinar los valores umbral de una o más puntuaciones determinadas a partir de los criterios de filtrado para determinar si una mutación es válida o no.
Un fragmento de ADN podría recibir una mayor ponderación del carácter informativo o de la especificidad del cáncer si muestra más de un cambio específico del cáncer. Por ejemplo, muchos cánceres están globalmente hipometilados, especialmente en las regiones no promotoras. Se ha demostrado que el ADN canceroso es más corto que el ADN no canceroso en el plasma. Los fragmentos de ADN plasmático derivados del tumor tienden a fragmentarse en algunos lugares específicos. Por consiguiente, un fragmento de ADN plasmático de tamaño corto (por ejemplo, <150 pb) (Jiang et al. Proc Natl Acad Sci USA 2015; 112: E1317-1325), con uno o ambos extremos que caen en ubicaciones finales asociadas al cáncer, muestra una mutación de un solo nucleótido, y se localiza en una región no promotora, y tiene un sitio de CpG hipometilado se consideraría con mayor probabilidades de que esté asociado al cáncer. La detección del ADN hipometilado podría lograrse con el uso de la conversión del ADN en bisulfito o la secuenciación directa de una sola molécula que podría distinguir la metilcitosina de la no metilcitosina. En la presente solicitud, los presentes inventores describen procesos, protocolos y etapas para aumentar la especificidad en la identificación de fragmentos de ADN de cáncer informativos. Por ejemplo, se pueden utilizar uno o varios criterios de filtrado para aumentar la especificidad. Por ejemplo, se pueden utilizar uno o varios criterios de filtrado para aumentar la especificidad, tal como aproximadamente con una especificidad de al menos el 80 %, 90 %, el 95 % o el 99 %.
1. Uso de la localización del extremo del ADN en el plasma
Como se ha descrito anteriormente, se puede realizar el filtrado de posibles mutaciones específicas del cáncer o asociadas al cáncer o al feto, basándose en la coordenada del nucleótido terminal (posición final). Como se ha descrito anteriormente, los presentes inventores han identificado localizaciones terminales de fragmentos de ADN que no son aleatorias y que varían en función del tejido de origen. Por tanto, la localización terminal puede utilizarse para determinar la probabilidad de que una secuencia leída con una supuesta mutación proceda realmente de tejido fetal o de tejido tumoral.
Recientemente, se ha demostrado que el patrón de fragmentación del ADN plasmático no es aleatorio (Snyder et al. Cell 2016; 164: 57-68 y el documento PCT WO 2016/015058 A2). El patrón de fragmentación del ADN en el plasma está influenciado por el posicionamiento nucleosómico, los sitios de unión de factores de transcripción, los sitios de corte o hipersensibles a DNasas, los perfiles de expresión (Snyder et al. Cell 2016; 164: 57-68 y el documento PCT WO 2016/015058; Ivanov et al. BMC Genomics 2015; 16 Supl. 13:S1) y los perfiles de metilación del ADN (Lun et al. Clin Chem 2013; 59: 1583-1594) en el genoma de las células que han aportado las moléculas de ADN plasmático. Por tanto, los patrones de fragmentación son diferentes para las células de diferentes orígenes tisulares. Aunque hay regiones genómicas que muestran fragmentos más frecuentes, los lugares de corte del ADN real dentro de la región podrían seguir siendo aleatorios.
Los presentes inventores barajan la hipótesis de que los diferentes tejidos están asociados a la liberación de fragmentos de ADN plasmático que tienen diferentes sitios de corte, o ubicaciones finales. En otras palabras, incluso los lugares de corte específicos no son aleatorios. De hecho, los presentes inventores han demostrado que un subconjunto de moléculas de ADN plasmático en pacientes con cáncer muestran ubicaciones finales diferentes a las de los pacientes sin cáncer. Algunas realizaciones pueden utilizar moléculas de ADN plasmático con dichas localizaciones finales asociadas al cáncer como fragmentos de ADN de cáncer informativos, o utilizar dicha información de localización final como criterio de filtrado, por ejemplo, junto con uno o más criterios de filtrado. Por tanto, con la identificación de esas localizaciones finales del ADN plasmático asociadas al cáncer, se podría puntuar el fragmento de ADN plasmático como un fragmento de ADN canceroso informativo o atribuir una ponderación diferencial basada en la naturaleza de la localización final de dicho fragmento. Estos criterios pueden utilizarse para evaluar la probabilidad de que los fragmentos tengan su origen en un cáncer, ciertos órganos, o el cáncer de ciertos órganos. Dicha ponderación puede utilizarse para modificar la contribución de una base concreta de un fragmento de ADN determinado al porcentaje total de una base concreta vista en la posición.
Por consiguiente, la probabilidad de que un fragmento de ADN plasmático sea un fragmento de ADN de cáncer informativo sería mucho mayor si muestra una supuesta mutación y/o un cambio de metilación asociado al cáncer, así como las localizaciones finales que están asociadas al cáncer. Varias realizaciones pueden también tener en cuenta el estado de dicho fragmento y su longitud, o cualquier combinación de dichos y otros parámetros. Para un fragmento de ADN plasmático que tiene dos extremos (o potencialmente hasta cuatro extremos, como se describe en una sección siguiente), se puede modificar aún más la ponderación para identificarlo como un fragmento derivado del cáncer teniendo en cuenta si uno o ambos extremos están asociados al cáncer o provienen de un tipo de tejido asociado al cáncer. En una realización, puede utilizarse una estrategia similar basada en las ubicaciones finales para la detección de mutaciones asociadas con otras patologías o procesos biológicos (por ejemplo, mutaciones causadas por el proceso de envejecimiento o mutaciones causadas por factores mutagénicos ambientales).
También se puede utilizar una estrategia similar para identificar mutaciones de novo de un feto mediante la secuenciación del ADN en el plasma de una mujer embarazada portadora del feto. Por tanto, tras la identificación de las localizaciones finales que son específicas o relativamente específicas para la placenta, se puede atribuir una mayor ponderación a que una supuesta mutación fetal de novo sea verdadera si dicho fragmento de ADN en el plasma materno también porta una localización final específica de la placenta o enriquecida por la misma. Dado que un fragmento de ADN plasmático tiene dos extremos, se puede modificar aún más la ponderación para identificarlo como un fragmento derivado del feto teniendo en cuenta si uno o ambos extremos están asociados a la placenta.
Como se muestra en la FIG. 16, los fragmentos de ADN plasmático con nucleótidos terminales que terminan exactamente en las 536.772 posiciones finales específicas del HCC tendrían más probabilidades de proceder del tumor. Por el contrario, los fragmentos de ADN plasmático con nucleótidos terminales que terminan exactamente en las posiciones finales específicas del embarazo o en las posiciones compartidas por los dos casos tendrían menos probabilidades de proceder del tumor, siendo las posiciones finales específicas del embarazo potencialmente menos probables y a las que se les da una menor ponderación en cualquier realización que utilice ponderaciones.
Por consiguiente, la lista de posiciones finales principales que son específicas para el caso de1HCC puede utilizarse para seleccionar las mutaciones asociadas al cáncer, y la lista de posiciones finales principales que son específicas para el caso de la embarazada o compartidas por ambos casos puede utilizarse para filtrar las mutaciones falsas positivas. Se puede utilizar un procedimiento similar para identificar las mutaciones fetales y filtrar las mutaciones falsas positivas para pruebas prenatales no invasivas.
En general, para identificar dichas localizaciones finales del ADN plasmático biológicamente relevantes, las muestras de ADN plasmático de grupos de individuos con diferentes enfermedades o antecedentes epidemiológicos o perfiles fisiológicos podrían compararse con muestras de otro grupo de individuos sin dichas enfermedades o antecedentes o perfiles. En una realización, cada una de estas muestras se pudo secuenciar en profundidad para poder identificar las posiciones finales comunes de los fragmentos de ADN plasmático dentro de cada muestra. En otra realización, los datos de la secuencia del grupo de personas con perfil complementario podrían agruparse para la identificación de localizaciones finales comunes representativas de la enfermedad o del perfil fisiológico.
Cada fragmento de ADN plasmático de una muestra podría interrogarse individualmente y se le asignaría una puntuación de probabilidad en función de la localización final. La puntuación de probabilidad para una determinada localización final puede depender de la separación en una cantidad de lecturas de la secuencia (por ejemplo, un porcentaje de lecturas de la secuencia u otro valor normalizado por la profundidad de la secuenciación en las muestras) que terminan en la localización final para los individuos objetivo (por ejemplo, el cáncer) en relación con la cantidad de lecturas de la secuencia que terminan para el grupo de control. Una mayor separación conllevaría una mayor especificidad y, por tanto, se puede aplicar una mayor puntuación de probabilidad. Por consiguiente, podría realizarse la clasificación de los fragmentos de ADN plasmático con localizaciones finales específicas en probablemente asociados a la enfermedad o no, fetales o maternas, etc.
Como alternativa, los fragmentos de ADN plasmático procedentes de la misma región podrían interpretarse colectivamente, a saber, la tasa de finalización en un nucleótido concreto puede calcularse normalizando a la profundidad de secuenciación. De esta manera, se pueden identificar ciertos nucleótidos como lugares finales comunes en relación con otros lugares del genoma, por ejemplo, solo se basa en el análisis de una muestra de un tipo concreto, aunque pueden usarse más muestras. Por consiguiente, podría realizarse la clasificación de los fragmentos de ADN plasmático con localizaciones finales específicas en probablemente asociados a la enfermedad o no, fetales o maternas, etc. Para las posiciones que muestran altas frecuencias de fragmentos de ADN plasmático con dichas ubicaciones finales de a Dn plasmático biológicamente relevantes, se podría determinar que dichos locus están enriquecidos con el ADN biológicamente relevante y, por lo tanto, se incluirían como un grupo de fragmentos de ADN plasmático de alta probabilidad como asociados al cáncer o específicos del feto o asociados a otras enfermedades o procesos biológicos. El nivel de probabilidad puede basarse en lo alto que sea el índice de un determinado nucleótido en relación con otros nucleótidos, de manera similar a las comparaciones entre los distintos grupos, como se ha descrito anteriormente.
2. Resultados
A fin de ilustrar la eficacia de esta estrategia, las posibles mutaciones asociadas al cáncer se identificaron directamente a partir de los datos de secuenciación del ADN plasmático del paciente con HCC. Los cambios de un solo nucleótido que estaban presentes en las lecturas de la secuencia de al menos dos fragmentos de ADN plasmático se consideraron como posibles mutaciones asociadas al cáncer. También se secuenció el tejido tumoral y las mutaciones que estaban presentes en el tejido tumoral se consideraron verdaderas mutaciones asociadas al cáncer.
En el cromosoma 8, se identificó un total de 20.065 posibles mutaciones a partir de los datos de secuenciación del ADN plasmático del paciente con HCC sin utilizar el análisis de corte dinámico. Una variante de secuencia se consideraría una posible mutación si la variante de secuencia estuviera presente en al menos dos fragmentos de ADN secuenciados. Se identificaron 884 mutaciones somáticas verdaderas a partir del resultado de la secuenciación del tejido tumoral. Las 20.065 supuestas mutaciones incluían 802 (91 %) de las 884 mutaciones reales. Por tanto, solo el 4 % de las supuestas mutaciones eran verdaderas mutaciones somáticas en el tejido tumoral, lo que dio un PPV del 4 %.
Para mejorar la precisión de la detección de las mutaciones somáticas, obteniéndose de este modo un genotipo de cáncer, los presentes inventores utilizaron los siguientes algoritmos de filtrado basados en las posiciones de los nucleótidos terminales de las lecturas de la secuencia que portan las supuestas mutaciones. (1). Para cualquier supuesta mutación, si hay al menos una lectura de la secuencia que porte la mutación y que termine en posiciones finales específicas de HCC, la mutación se calificaría para el análisis mutacional posterior. (2). Se eliminaría una lectura de secuencia que portase una supuesta mutación pero que terminara en cualquier posición final específica del embarazo o en las posiciones compartidas por ambos casos. Una mutación se calificaría para el análisis mutacional posterior solo si hubiera dos o más lecturas de la secuencia que mostraran la misma mutación tras la eliminación de las lecturas basadas en este algoritmo.
Aplicando los algoritmos de filtrado 1 y 2 indicados anteriormente, se obtuvieron los resultados en la tabla 2. Los efectos de la aplicación de diferentes algoritmos de filtrado basándose en la posición de los nucleótidos terminales, o de los extremos, de los fragmentos de ADN portadores de las supuestas mutaciones.
Tabla 2
Figure imgf000034_0001
Hubo una mejora sustancial en el PPV al adoptar cualquiera de los tres algoritmos que requerían que las localizaciones finales fueran específicas del HCC o que el algoritmo filtrara las posiciones específicas del embarazo o las compartidas. Aplicando ambos algoritmos, el PPV aumentó al 71 %.
Se puede identificar otro número de localizaciones finales asociadas al HCC y al embarazo para cada cromosoma, o incluso para otra región genómica, o incluso para todo el genoma, por ejemplo, pero sin limitación, 0,5 millones, 2 millones, 3 millones, 4 millones, 5 millones, 6 millones, 7 millones, 8 millones, 9 millones o 10 millones. En diversas realizaciones, se pueden determinar las localizaciones finales más frecuentes en las moléculas de ADN plasmático en una o más cohortes de pacientes con cáncer, siendo cada cohorte de un tipo de cáncer. Además, las localizaciones finales más frecuentes en las moléculas de ADN plasmático pueden determinarse para los sujetos sin cáncer. En una realización, estos pacientes con cáncer y los sujetos sin cáncer pueden subdividirse en grupos con diferentes parámetros clínicos, por ejemplo, el sexo, estado de tabaquismo, la salud previa (por ejemplo, el estado de hepatitis, diabetes, peso), etc.
Como parte de la utilización de estos criterios de filtrado, el análisis estadístico puede utilizarse para identificar las posiciones que tienen mayor probabilidad de ser nucleótidos terminales o ubicaciones finales del ADN circulante para diferentes condiciones fisiológicas y patológicas. Los ejemplos de los análisis estadísticos incluyen, entre otros, la prueba de la t de Student, la prueba de Chi-cuadrado, y pruebas basadas en la distribución binomial o en la distribución de Poisson. Para estos análisis estadísticos, se pueden utilizar diferentes cortes de valores de p, por ejemplo, pero sin limitación, 0,05, 0,01, 0,005, 0,001 y 0,0001. Los puntos de corte del valor de p también pueden ajustarse para las comparaciones múltiples.
D. Método para determinar el genotipo
La FIG. 38 es un diagrama de flujo de un método 3800 de análisis de una muestra biológica para determinar un genotipo del primer tipo de tejido de acuerdo con las realizaciones de la presente invención. La muestra biológica incluye una mezcla de moléculas de ADN acelular de una pluralidad de tipos de tejidos que incluye el primer tipo de tejido. El primer tipo de tejido tiene potencialmente un genotipo diferente al de otros tipos de tejido de la pluralidad de tipos de tejido. Se pueden determinar los genotipos en múltiples posiciones genómicas.
En el bloque 3810, se identifica una primera posición genómica en la que los extremos de las moléculas de ADN acelular del primer tipo de tejido se producen a una tasa superior a un umbral. El bloque 3810 puede realizarse de un modo similar al bloque 3610. La sección X.B proporciona ejemplos adicionales para realizar el bloque 3810.
En el bloque 3820, se analiza una primera pluralidad de moléculas de ADN acelular de la muestra biológica de un sujeto. El análisis de una molécula de ADN acelular incluye la determinación de una posición genómica en un genoma de referencia correspondiente a al menos un extremo de la molécula de ADN acelular. El bloque 3620 puede realizarse de forma similar a otros bloques para analizar moléculas de ADN acelular.
En el bloque 3830, se identifica un conjunto de moléculas de ADN acelular que terminan en la primera posición genómica basándose en el análisis de la primera pluralidad de moléculas de ADN acelular. A modo de ejemplo, el conjunto puede identificarse mediante la alineación de las lecturas de la secuencia de las sondas detectadas que tienen posiciones finales conocidas. En el presente documento se proporcionan otros ejemplos.
En algunas realizaciones, puede realizarse un filtrado adicional, por ejemplo, como se ha descrito anteriormente. Por ejemplo, puede ser necesario que el tamaño de una molécula de ADN acelular sea menor que una cantidad especificada, por ejemplo, dado que el tejido fetal y el tejido tumoral son generalmente más cortos que los fragmentos de ADN de las células sanas. En una implementación, el conjunto de moléculas de ADN acelular puede filtrarse para excluir o modificar una ponderación de al menos una de las moléculas de ADN acelular que terminan en la primera posición genómica. El genotipo puede determinarse utilizando un conjunto filtrado de moléculas de ADN acelular.
En diversas realizaciones, el filtrado puede utilizar al menos uno de: el tamaño de una molécula de ADN acelular, un estado de metilación de la molécula de ADN acelular en una o más posiciones (por ejemplo, si un sitio de CpG está metilado o no), y si la molécula de ADN acelular cubre una o más posiciones genómicas en las que los extremos de las moléculas de ADN acelular del primer tipo de tejido se producen a una tasa superior a un umbral. El estado de metilación puede proporcionar una firma del primer tipo de tejido, como se ha descrito anteriormente.
En el bloque 3840, para cada molécula de ADN acelular del conjunto de moléculas de ADN acelular, se determina la base correspondiente (nucleótido) que se encuentra en la primera posición genómica. Se puede determinar el número total de moléculas con cada base y calcular un porcentaje para cada base.
En el bloque 3850, el genotipo del primer tipo de tejido en la primera posición genómica se determina utilizando las bases correspondientes que aparecen en la primera posición genómica en el conjunto de moléculas de ADN acelular. En diversas implementaciones, un alto porcentaje de una sola base (por ejemplo, por encima del 80 %, 85 % o 90 %) puede indicar que el genotipo es homocigoto para la base, mientras que dos bases con porcentajes similares (por ejemplo, entre el 30-70 %) pueden llevar a determinar que el genotipo es heterocigoto. Por consiguiente, los porcentajes de cada base pueden compararse con los valores de corte para el genotipo. En algunas realizaciones, se puede determinar un valor de corte basado en una contribución proporcional del primer tipo de tejido a la muestra.
Por tanto, en algunas realizaciones, la determinación del genotipo del primer tipo de tejido en la primera posición genómica puede incluir la determinación de una contribución porcentual para cada una de una pluralidad de bases y la comparación de cada una de las contribuciones porcentuales con uno o más valores de corte. En un ejemplo, un primer valor de corte puede corresponder a un genotipo homocigoto de una primera base cuando el porcentaje de contribución de la primera base está por encima del primer valor de corte. En otros ejemplos, un primer valor de corte y un segundo valor de corte pueden corresponder a un genotipo heterocigoto para una primera base y una segunda base cuando las contribuciones porcentuales de la primera base y la segunda base están por encima del primer valor de corte y por debajo del segundo valor de corte.
En algunas realizaciones, se puede realizar una ponderación para cada molécula de ADN acelular en el conjunto identificado en el bloque 3830. Por ejemplo, si la probabilidad de que la molécula de ADN acelular sea del primer tipo de tejido es del 80 %, la ponderación puede ser 0,8. La contribución total de todos los coeficientes de ponderación para una base concreta puede sumarse para determinar las cantidades respectivas de cada base. Las cantidades respectivas pueden utilizarse para determinar un porcentaje de contribución para cada base, donde los porcentajes pueden utilizarse para determinar el genotipo.
Por consiguiente, el filtrado puede asignar una ponderación a la molécula de ADN acelular correspondiente a una probabilidad de que la molécula de ADN acelular sea del primer tipo de tejido. Se puede determinar una suma ponderada para cada una de una pluralidad de bases (por ejemplo, solo las detectadas, que pueden ser 2, 3 o 4). En caso de que solo se detecte una base, se puede determinar un genotipo homocigoto para esa única base. Se puede determinar un porcentaje de contribución para cada una de la pluralidad de bases utilizando las sumas ponderadas, donde el genotipo se determina utilizando las contribuciones porcentuales.
X. DETALLES ADICIONALES
Varias realizaciones descritas anteriormente identifican las posiciones finales preferidas para determinados tejidos, donde algunas de las posiciones finales preferidas pueden ser contiguas, formando así una ventana final preferente. Se pueden utilizar diferentes métricas para identificar las tasas de aparición de moléculas de ADN acelular en las ventanas genómicas (por ejemplo, una posición genómica para la ventana más pequeña). A continuación se ofrecen más detalles sobre estas operaciones, así como detalles sobre la determinación de la posición final de una molécula de ADN acelular en un genoma de referencia. Estas técnicas específicas pueden utilizarse con las realizaciones descritas anteriormente.
A. Determinación de la posición final
Al secuenciar moléculas de ADN acelular, hay varias posibilidades de los patrones de terminación de los fragmentos de ADN. En general, existen cuatro configuraciones de extremos para el ADN plasmático: (A) Una molécula de ADN bicatenaria con dos extremos rasgados; (B) Una molécula de ADN bicatenario con un extremo rasgado y otro no rasgado (mostrando cada uno de los dos escenarios, ya que cualquiera de las dos cadenas puede sobresalir); (C) Una molécula de ADN bicatenario con dos extremos no rasgados, con diferentes combinaciones de extremos salientes; y (D) Una molécula de ADN monocatenario.
Para las configuraciones con extremos no rasgados, hay diferentes patrones dependiendo de si sobresale el extremo 5' o el 3' de la molécula de ADN. Para (B), las moléculas de ADN bicatenario tienen un extremo rasgado y otro no rasgado. En un ejemplo B1, el extremo 5' es protuberante y en un ejemplo B2, el extremo 3' es protuberante. Para (C), hay tres patrones posibles cuando los dos extremos no están rasgados. En (C1), el extremo 5' es protuberante a ambos lados. En (C2), el extremo 3' es protuberante a ambos lados. En (C3), el extremo 5' es protuberante en un lado y el extremo 3' es protuberante en el otro lado.
Para la secuenciación, los protocolos de secuenciación de tipo paired-end normalmente secuencian un extremo de cada una de las hebras. Por tanto, se consideran protocolos de secuenciación de ADN bicatenario. Cuando los dos extremos no están rasgados, los protocolos pueden cortar los nucleótidos o añadir nucleótidos al final para que queden al descubierto. El fragmento Klenow es una enzima que puede realizar estas operaciones. Otros protocolos en el campo utilizan protocolos de secuenciación de ADN monocatenario.
Independientemente de la técnica específica utilizada (incluido el uso de sondas), siempre que las posiciones finales sean repetibles y muestren correlación, como se muestra en el presente documento, el hecho de que se obtenga un extremo verdadero de un fragmento de ADN en la secuenciación no afecta a los resultados, ya que cualquier desplazamiento es repetible, y por lo tanto se anula. Además, se pueden utilizar ciertas técnicas para identificar una posición final, como se describe en la sección de términos.
B. Identificación de las posiciones finales específicas de los tejidos
Como se ha descrito anteriormente, en un tipo de tejido concreto, ciertas regiones genómicas presentan una mayor variación en cuanto a la probabilidad de que una molécula de ADN acelular termine en una posición determinada que otras regiones. Por ejemplo, el tejido hepático puede tener una región que es un sitio de hipersensibilidad a DNasas, pero otros tejidos no tienen esa región como sitio de hipersensibilidad a DNasas. Por consiguiente, ciertas posiciones dentro de dicha región tendrán un alto número de moléculas de ADN acelular que terminan en esas posiciones en relación con otras. A modo de ejemplo, estas posiciones pueden identificarse como máximas en una tasa de moléculas de ADN acelular para una región que se sabe que tiene una gran cantidad de escisión para un tejido concreto (por tanto, una gran amplitud en la función de probabilidad), por ejemplo, como se describe en la sección III. En otros ejemplos, se pueden identificar las posiciones genómicas en las que un pico izquierdo y un pico derecho están suficientemente separados, por ejemplo, como se describe en la sección IV.
En otros ejemplos más, una diferencia en los conjuntos de posiciones finales de alta tasa (por ejemplo, tasa por encima de un umbral) para las muestras que tienen y no tienen una condición (por ejemplo, embarazo o cáncer, posiblemente de un tipo concreto) puede utilizarse para identificar los lugares de finalización preferidos para un tipo de tejido concreto asociado a la enfermedad, por ejemplo, como se describe con el uso de diagramas de Venn en las secciones V, VI y VII. En otros ejemplos adicionales, una tasa significativamente mayor en una muestra con una afección que en otra que no la tenga puede proporcionar los lugares de terminación preferidos de un tipo de tejido concreto. En diversas realizaciones, algunas o todas estas técnicas de ejemplo pueden utilizarse conjuntamente. La tasa puede medirse por cualquier métrica de abundancia relativa.
En algunas realizaciones de los métodos anteriores, un primer conjunto de posiciones genómicas en las que los extremos de las moléculas de ADN acelular del primer tipo de tejido se producen a una tasa superior a un umbral puede identificarse de la siguiente manera. Una muestra de calibración puede analizarse de manera similar a la muestra de prueba, donde se sabe que las dos muestras de un mismo tipo (por ejemplo, plasma, suero, orina, etc.) y la muestra de calibración incluyen el primer tipo de tejido (por ejemplo, tejido fetal de una muestra de una mujer embarazada o tejido tumoral del hígado de un paciente con HCC). Un número de moléculas de ADN acelular que terminan en una ventana genómica (por ejemplo, de anchura uno o más) puede compararse con un valor de referencia para determinar si una tasa de posiciones finales está por encima de un umbral para esa posición. En algunas realizaciones, si el índice supera el valor de referencia, puede identificarse que cada una de las posiciones genómicas dentro de la ventana genómica tiene la tasa por encima del umbral cuando el número correspondiente supera el valor de referencia. Este proceso puede identificar las ventanas de finalización preferidas, que incluyen las posiciones finales preferidas.
El valor de referencia puede ser tal que solo las N ventanas genómicas superiores tengan un índice superior al umbral. Por ejemplo, el primer conjunto de posiciones genómicas puede tener los valores N más altos para los números correspondientes. A modo de ejemplo, N puede ser al menos 10.000; 50.000; 100.000, 500.000; 1.000.000; o 5.000.000.
Como otro ejemplo, el valor de referencia puede ser un número esperado de moléculas de ADN acelular que terminan dentro de la ventana genómica según una distribución de probabilidad y una longitud media de moléculas de ADN acelular en una muestra, por ejemplo, como se describe en la sección VI.A.1. Se puede determinar un valor de p utilizando el número correspondiente y el número esperado, en donde el umbral corresponde a un valor de p de corte (por ejemplo, 0,01). Que el valor de p sea inferior al valor de p de corte indica que la tasa está por encima del umbral. Como otro ejemplo más, el valor de referencia puede incluir un número medido de moléculas de ADN acelular que terminan dentro de la ventana genómica de una muestra identificada como con una cantidad reducida del primer tipo de tejido, por ejemplo, como se describe en las FIG. 29A y 29B.
Las posiciones genómicas que satisfacen el umbral de la tasa no se añaden necesariamente al primer conjunto de posiciones genómicas. Se pueden añadir otros criterios de filtrado. En las secciones VI.A.3 y IX.C se especifican ejemplos de estos criterios de filtrado. Para un criterio de filtrado de tamaño, se puede medir el tamaño (por ejemplo, la longitud o la masa) de las moléculas de ADN acelular, por ejemplo, como se describe en las Publicaciones de Patente de los Estados Unidos 2011/0276277, 2013/0040824 y 2013/0237431, incorporadas al presente documento por referencia en su totalidad. Se puede determinar un primer valor estadístico de una distribución de tamaño de las moléculas de ADN acelular que terminan dentro de una primera ventana genómica (por ejemplo, en una posición genómica cuando la ventana tiene una anchura de uno) determinada para tener la tasa por encima del umbral. Las posiciones genómicas de la primera ventana genómica pueden excluirse del primer conjunto de posiciones genómicas cuando el primer valor estadístico no supera un umbral de tamaño, por ejemplo, el tamaño medio no es lo suficientemente pequeño o no hay un número suficiente de fragmentos de ADN pequeños (por ejemplo, por debajo de un tamaño especificado) en comparación con todas las moléculas de ADN acelular o las que se encuentran en un rango mayor.
El primer valor estadístico puede compararse con un segundo valor estadístico de una distribución de tamaños para las moléculas de ADN acelular que se haya determinado que no tienen una tasa superior al umbral. Si los dos valores son similares (por ejemplo, lo que no se esperaría de un tejido fetal o tumoral), la primera ventana genómica puede excluirse de un conjunto de posiciones finales preferidas. La comparación del número correspondiente con el valor de referencia puede incluir el cálculo de una primera relación (por ejemplo, PETR) del número correspondiente y un número de moléculas de ADN acelular que cubren cualquier parte de la ventana genómica para una muestra, y que opcionalmente no termina en la ventana genómica, como se describe en la sección VII.A.2. El valor de referencia puede incluir una relación de referencia entre el número medido de lecturas que terminan dentro de la ventana genómica y un número de moléculas de ADN acelular que cubren la ventana genómica y no terminan dentro de la ventana genómica para la otra muestra. Se puede exigir que la primera relación sea mayor que un factor multiplicativo (por ejemplo, 4) de la relación de referencia.
Otro criterio de filtrado puede ser que se requiera que cada posición genómica del primer conjunto de posiciones genómicas tenga al menos un número especificado de moléculas de ADN acelular que terminen en la posición genómica. Mediante el uso de cualquiera de estas técnicas, el primer conjunto de posiciones genómicas puede comprender entre 600 y 10.000 posiciones genómicas.
En las realizaciones que toman una diferencia entre conjuntos (por ejemplo, el uso de diagramas de Venn), las posiciones genómicas cuya tasa (por ejemplo, determinada a partir de una ventana genómica) está por encima del umbral comprende un primer superconjunto, por ejemplo, como se muestra en la FIG. 28A como Conj. P y Conj. S. Se puede analizar una tercera pluralidad de moléculas de ADN acelular a partir de al menos una segunda muestra adicional que tenga una cantidad reducida del primer tipo de tejido (por ejemplo, menos o ningún tejido fetal o tejido HCC, como se representa en la FIG. 28A) para identificar un segundo superconjunto, por ejemplo, Conj. Q y Conj. S. El primer conjunto de posiciones genómicas puede incluir las posiciones genómicas que están en el primer superconjunto y que no están en el segundo, por ejemplo, Conj. P o Conj. S, dependiendo del tipo de tejido que se analice.
Como se describe en la sección VI, el primer tipo de tejido puede tener los primeros alelos específicos del tejido. Se puede hacer un recuento de la molécula de ADN acelular que termina en la posición genómica y que incluye al menos uno de la pluralidad de primeros alelos específicos del tejido. Este recuento (número) de moléculas de ADN acelular puede compararse con el valor de referencia.
C. Abundancia relativa
En este documento se ofrecen varios ejemplos de valores de abundancia relativa, por ejemplo, probabilidad de intacto (Pi), el valor de p descrito en la sección VI.A.1, y el valor de PETR determinado utilizando una ventana genómica o una posición genómica cuando la ventana es de anchura uno. Para la PETR de una posición genómica (ventana de anchura uno), se puede calcular un número correspondiente de la primera pluralidad de moléculas de ADN acelular que terminan en la posición genómica para cada posición genómica del primer conjunto de posiciones genómicas. Esto puede hacerse como parte de la determinación de que el primer número (por ejemplo, el numerador) de la primera pluralidad de moléculas de ADN acelular termina en cualquiera de la primera serie de posiciones genómicas. Un tercer número (por ejemplo, el denominador) de moléculas de ADN acelular que cubren la posición genómica y no terminan en la posición genómica puede calcularse como parte de la determinación del segundo número de moléculas de ADN acelular. Se puede determinar una primera relación entre el número correspondiente y el tercer número, y utilizar una media de las primeras relaciones como abundancia relativa.
Para w-PETR, puede calcularse un número correspondiente de moléculas de ADN acelular que terminan dentro de una primera venta (por ejemplo, la ventana A en la FIG. 31A) que incluyen la posición genómica para cada una de las posiciones genómicas del primer conjunto de posiciones genómicas. Se puede calcular un tercer número de moléculas de ADN acelular que terminan dentro de una segunda ventana (por ejemplo, de la ventana B en la FIG. 31A) que incluye la posición genómica. Como abundancia relativa, puede usarse la media de las primeras proporciones de los números correspondientes y los terceros números.
Otro ejemplo de valor de abundancia relativa es la proporción de moléculas de ADN acelular que terminan en una ventana genómica, por ejemplo, medida como una proporción de fragmentos de ADN secuenciados que terminan en una posición final preferida. Por tanto, el segundo conjunto de posiciones genómicas puede incluir todas las posiciones genómicas correspondientes a un extremo de al menos una de la primera pluralidad de moléculas de ADN acelular.
D. Valores de calibración
En diversas realizaciones, el valor o los valores de calibración pueden corresponder al valor o los valores de calibración del punto o los puntos de datos de calibración determinados a partir de la muestra o las muestras de calibración o de cualquier valor de calibración determinado a partir de ellas, por ejemplo, de una función de calibración que se aproxima a los puntos de datos de calibración. Las una o más muestras de calibración pueden o no incluir cualquier muestra adicional utilizada para determinar los lugares de finalización preferidos.
Para cada una de las una o más muestras de calibración, se puede medir la correspondiente contribución proporcional del primer tipo de tejido, por ejemplo, utilizando un alelo específico de tejido. Se puede determinar una abundancia relativa correspondiente utilizando los números correspondientes de moléculas de ADN acelular que terminan dentro de la pluralidad de ventanas correspondientes al primer conjunto de posiciones genómicas. La contribución proporcional medida y la abundancia relativa pueden proporcionar un punto de datos de calibración. Los uno o más puntos de datos de calibración pueden ser una pluralidad de puntos de datos de calibración que forman una función de calibración que se aproxima a la pluralidad de puntos de datos de calibración. Pueden encontrarse más detalles sobre el uso de los valores de calibración en la Publicación de Patente de los Estados Unidos 2013/0237431.
E. Clasificación de la contribución proporcional
En algunas realizaciones, las posiciones finales preferidas para un tejido concreto también pueden utilizarse para medir la contribución absoluta de un tipo de tejido concreto en una muestra, por ejemplo, en número de genomas por unidad de volumen (por ejemplo, por mililitro). Por ejemplo, se podría medir la concentración del tejido de interés en relación con el volumen o el peso de las muestras de ADN acelular. En una implementación, la PCR cuantitativa podría utilizarse para medir el número de moléculas de ADN acelular que terminan en uno o más extremos preferidos en una unidad de volumen o de peso de la muestra de ADN acelular extraída. Se pueden realizar mediciones similares para las muestras de calibración y, por lo tanto, se puede determinar la contribución proporcional, ya que la contribución es una concentración por unidad de volumen o de peso.
En diversas realizaciones, cuando el primer tipo de tejido corresponde al tejido tumoral, la clasificación puede seleccionarse entre un grupo que consiste en: una cantidad de tejido tumoral en el sujeto, un tamaño del tumor en el sujeto, un estadio del tumor en el sujeto, una carga tumoral en el sujeto, y la presencia de metástasis tumorales en el sujeto
XI. SISTEMA INFORMÁTICO
Cualquiera de los sistemas informáticos mencionados en este documento puede utilizar cualquier número adecuado de subsistemas. En la FIG. 39 relacionada con el aparato informático 10 se muestran ejemplos dichos subsistemas. En algunas realizaciones, un sistema informático incluye un único aparato informático, donde los subsistemas pueden ser los componentes del aparato informático. En otras realizaciones, un sistema informático puede incluir varios aparatos informáticos, siendo cada uno de ellos un subsistema, con componentes internos. Un sistema informático puede incluir ordenadores de sobremesa y portátiles, tabletas informáticas, teléfonos móviles y otros dispositivos móviles.
Los subsistemas mostrados en la FIG. 39 están interconectados a través de un bus de sistema 75. Se muestran subsistemas adicionales, como una impresora 74, teclado 78, dispositivos de almacenamiento 79, monitor 76 que está conectado a un adaptador de pantalla 82, y otros. Los dispositivos periféricos y de entrada/salida (E/S), que se acoplan al controlador de E/S 71, pueden conectarse al sistema informático mediante cualquier tipo de conexión conocida en la técnica, tal como el puerto de entrada/salida (E/S) 77 (por ejemplo, USB, FireWire®). Por ejemplo, el puerto de E/S 77 o la interfaz externa 81 (por ejemplo, Ethernet, Wi-Fi, etc.) pueden utilizarse para conectar el sistema informático 10 a una red de área amplia, como Internet, un dispositivo de entrada de ratón o un escáner. La interconexión mediante el bus de sistema 75 permite que el procesador central 73 se comunique con cada subsistema y así controlar la ejecución de diversas instrucciones procedentes de la memoria del sistema 72 o de los dispositivos de almacenamiento 79 (por ejemplo, un disco fijo, tal como un disco duro o un disco óptico), así como el intercambio de información entre subsistemas. La memoria del sistema 72 y/o los dispositivos de almacenamiento 79 pueden ser realizaciones de un medio legible por ordenador. Otro subsistema es un dispositivo de recogida de datos 85, tal como una cámara, micrófono, acelerómetro y similares. Cualquiera de los datos mencionados en el presente documento puede ser la salida de un componente a otro componente y puede ser la salida al usuario.
Un sistema informático puede incluir una pluralidad de los mismos componentes o subsistemas, por ejemplo, conectados entre sí por la interfaz externa 81 o por una interfaz interna. En algunas realizaciones, los sistemas, subsistemas o aparatos informáticos pueden comunicarse a través de una red. En dichos casos, un ordenador puede considerarse como cliente y otro ordenador como servidor, donde cada uno puede formar parte de un mismo sistema informático. Un cliente y un servidor pueden incluir cada uno varios sistemas, subsistemas o componentes.
Los aspectos de las realizaciones pueden implementarse en forma de lógica de control utilizando hardware (por ejemplo, un circuito integrado de aplicación específica o una matriz de puertas programables en campo) y/o utilizando software informático con un procesador generalmente programable de forma modular o integrada. Como se usa en el presente documento, un procesador incluye un procesador de un solo núcleo, un procesador de varios núcleos en un mismo chip integrado, o múltiples unidades de procesamiento en una sola placa de circuito o en red. Basándose en la divulgación y las técnicas proporcionadas en el presente documento, un experto habitual en la materia conocerá y percibirá otras formas y/o métodos para implementar las realizaciones de la presente invención utilizando hardware y una combinación de hardware y software.
Puede implementarse cualquiera de los componentes o las funciones de software descritos en la presente solicitud como código de software para su ejecución mediante un procesador utilizando cualquier lenguaje informático adecuado, tal como, por ejemplo, Java, C, C++, C#, Objective-C, Swift, o lenguaje de scripting como Perl o Python utilizando, por ejemplo, técnicas convencionales u orientadas a objetivos. El código de software puede almacenarse como una serie de instrucciones o comandos en un medio legible por ordenador para su almacenamiento y/o transmisión. Un medio legible por ordenador no transitorio adecuado puede incluir una memoria de acceso aleatorio (RAM), una memoria de solo lectura (ROM), un medio magnético como un disco duro o disquete o un medio óptico tal como un disco compacto (CD) o un DVD (disco digital versátil), memoria flash y similares. El medio legible por ordenador puede ser cualquier combinación de tales dispositivos de almacenamiento o transmisión.
Dichos programas también pueden codificarse y transmitirse utilizando señales portadoras adaptadas para la transmisión a través de redes cableadas, ópticas y/o inalámbricas que se ajusten a una variedad de protocolos, incluida Internet. Así, se puede crear un medio legible por ordenador utilizando una señal de datos codificada con dichos programas. Los medios legibles por ordenador codificados con el código del programa pueden empaquetarse con un dispositivo compatible o proporcionarse por separado de otros dispositivos (por ejemplo, a través de descarga de Internet). Cualquier medio legible por ordenador puede residir en o dentro de un solo producto informático (por ejemplo, un disco duro, un CD o un sistema informático completo) y puede estar presente en o dentro de diferentes productos informáticos dentro de un sistema o red. Un sistema informático puede incluir un monitor, una impresora u otro dispositivo de presentación adecuado para proporcionar a un usuario cualquiera de los resultados mencionados en el presente documento.
Cualquiera de los métodos descritos en el presente documento puede realizarse total o parcialmente con un sistema informático que incluya uno o más procesadores, que pueden configurarse para realizar las etapas. Por tanto, las realizaciones pueden dirigirse a sistemas informáticos configurados para realizar los pasos de cualquiera de los métodos descritos en el presente documento, potencialmente con diferentes componentes que realizan una etapa o un grupo de etapas respectivas. Aunque se presentan como pasos numerados, las etapas de los métodos descritos en el presente documento pueden realizarse al mismo tiempo o en un orden diferente. Además, pueden usarse partes de estas etapas con partes de otras etapas de otros métodos. Asimismo, la totalidad de una etapa o una parte de la misma puede ser opcional. Además, cualquiera de los pasos de cualquiera de los métodos puede realizarse con módulos, unidades, circuitos, u otros medios para realizar estas etapas.
Una cita de "un", "una" o "el/la" se entiende como "uno o más" a menos que se indique específicamente lo contrario. El uso de "o" pretende hacer referencia a un "o inclusivo", y no a un "o exclusivo", a menos que se indique específicamente lo contrario. La referencia a un "primer" componente no requiere necesariamente que se proporcione un segundo componente. Además, la referencia a un "primer" o un "segundo" componente no limita el componente referido a una ubicación concreta, a menos que se indique expresamente.

Claims (16)

REIVINDICACIONES
1. Un método implementado por ordenador para analizar una muestra biológica, que incluye una mezcla de moléculas de ADN acelular de diversos tipos de tejido que incluye un primer tipo de tejido, para determinar una clasificación de una contribución proporcional del primer tipo de tejido en la mezcla, comprendiendo el método:
identificar un primer conjunto de posiciones genómicas en las que los extremos de las moléculas de ADN acelular del primer tipo de tejido se producen con una frecuencia superior a un umbral;
analizar, mediante un sistema informático, una primera pluralidad de moléculas de ADN acelular de la muestra biológica de un sujeto, en donde el análisis de una molécula de ADN acelular incluye:
determinar una posición genómica en un genoma de referencia correspondiente a al menos un extremo de la molécula de ADN acelular;
basándose en el análisis de la primera pluralidad de moléculas de ADN, determinar que un primer número de la primera pluralidad de moléculas de ADN acelular termina dentro de una de una pluralidad de ventanas, incluyendo cada ventana al menos una del primer conjunto de posiciones genómicas;
calcular una abundancia relativa de la primera pluralidad de moléculas de ADN acelular que terminan dentro de una de la pluralidad de ventanas mediante la normalización del primer número de la primera pluralidad de moléculas de ADN acelular utilizando un segundo número de moléculas de ADN acelular, en donde el segundo número de moléculas de ADN acelular incluye moléculas de ADN acelular que terminan en un segundo conjunto de posiciones genómicas fuera de la pluralidad de ventanas que incluyen el primer conjunto de posiciones genómicas; y
determinar la clasificación de la contribución proporcional del primer tipo de tejido comparando la abundancia relativa con uno o más valores de calibración determinados a partir de una o más muestras de calibración cuyas contribuciones proporcionales del primer tipo de tejido se conocen.
2. El método de la reivindicación 1, en donde la identificación del primer conjunto de posiciones genómicas incluye:
analizar, mediante un sistema informático, una segunda pluralidad de moléculas de ADN acelular a partir de al menos una primera muestra adicional para identificar posiciones terminales de la segunda pluralidad de moléculas de ADN acelular, en donde se sabe que la al menos una primera muestra adicional incluye el primer tipo de tejido y es de un mismo tipo de muestra que la muestra biológica;
para cada ventana genómica de una pluralidad de ventanas genómicas:
calcular un número correspondiente de la segunda pluralidad de moléculas de ADN acelular que terminan en la ventana genómica; y
comparar el número correspondiente con un valor de referencia para determinar si la tasa de moléculas de ADN acelular que terminan en una o más posiciones genómicas dentro de la ventana genómica está por encima del umbral.
3. El método de la reivindicación 2, que comprende además:
determinar un tamaño de cada una de la segunda pluralidad de moléculas de ADN acelular, en donde la identificación del primer conjunto de posiciones genómicas incluye además:
determinar un primer valor estadístico de una distribución de tamaños de las moléculas de ADN acelular de la segunda pluralidad de moléculas de ADN acelular que terminan dentro de una primera ventana genómica determinada para tener la tasa por encima del umbral; comparar el primer valor estadístico con un umbral de tamaño; y
excluir la primera ventana genómica del primer conjunto de posiciones genómicas cuando el primer valor estadístico no supera el umbral de tamaño.
4. El método de la reivindicación 2 o 3, en donde las una o más muestras de calibración incluyen la al menos una primera muestra adicional, comprendiendo el método además:
para cada una de las una o más muestras de calibración:
medir una contribución proporcionar correspondiente del primer tipo de tejido; y
determinar una abundancia relativa correspondiente utilizando los números correspondientes de la segunda pluralidad de moléculas de ADN acelular que terminan dentro de la pluralidad de ventanas correspondientes al primer conjunto de posiciones genómicas, obteniendo de este modo un punto de datos de calibración, en donde cada punto de datos de calibración especifica la contribución proporcional medida del primer tipo de tejido para la muestra biológica adicional y la abundancia relativa correspondiente.
5. El método de una cualquiera de las reivindicaciones 2 a 4, en donde las posiciones genómicas cuya tasa de la segunda pluralidad de moléculas de ADN acelular que terminan en la posición genómica se encuentra por encima del umbral comprende un primer superconjunto y en donde la identificación del primer conjunto de posiciones genómicas incluye además:
analizar, mediante el sistema informático, una tercera pluralidad de moléculas de ADN acelular de al menos una segunda muestra adicional en la que se ha identificado que tiene una cantidad reducida del primer tipo de tejido para identificar que un segundo superconjunto de la tercera pluralidad de moléculas de ADN acelular que terminan en la posición genómica se encuentra por encima del umbral; y
identificar que el primer conjunto de posiciones genómicas incluye las posiciones genómicas que se encuentran en el primer superconjunto y que no se encuentran en el segundo superconjunto.
6. El método de una cualquiera de las reivindicaciones 2 a 5, en donde el valor de referencia incluye un número medido de moléculas de ADN acelular que terminan dentro de la ventana genómica, el número medido determinado a partir de una tercera pluralidad de moléculas de ADN acelular de al menos una segunda muestra que se ha identificado que no tiene el primer tipo de tejido.
7. El método de la reivindicación 6, que comprende además:
determinar un tamaño de cada una de la segunda pluralidad de moléculas de ADN acelular, en donde la identificación del primer conjunto de posiciones genómicas incluye además:
determinar un primer valor estadístico de una distribución de tamaños de las moléculas de ADN acelular de la segunda pluralidad de moléculas de ADN acelular que terminan en una primera posición genómica determinada para tener la tasa por encima del umbral;
determinar un segundo valor estadístico de una segunda distribución de tamaños de las moléculas de ADN acelular de la tercera pluralidad de moléculas de ADN acelular que terminan en una o más segundas posiciones genómicas determinadas para tener la tasa por encima del umbral;
comparar el primer valor estadístico con el segundo valor estadístico; y
excluir la primera posición genómica del primer conjunto de posiciones genómicas cuando el primer valor estadístico no supera el segundo valor estadístico en al menos una cantidad especificada para indicar que la primera distribución de tamaños es menor que la segunda distribución de tamaños.
8. El método de la reivindicación 6 o 7, en donde la comparación del número correspondiente con el valor de referencia incluye:
calcular una primera proporción entre el número correspondiente y un tercer número de la segunda pluralidad de moléculas de ADN acelular que abarcan la ventana genómica; y
comparar la primera proporción con el valor de referencia, incluyendo el valor de referencia una proporción de referencia del número medido de lecturas que terminan dentro de la ventana genómica y un cuarto número de la tercera pluralidad de moléculas de ADN acelular que abarcan la ventana genómica y que no terminan dentro de la ventana genómica.
9. El método de una cualquiera de las reivindicaciones 2 a 8, en donde la ventana genómica es una posición genómica y en donde el primer tipo de tejido tiene una pluralidad de primeros alelos específico de tejido y en donde el cálculo del número correspondiente de la segunda pluralidad de moléculas de ADN acelular que terminan en la posición genómica incluye:
identificar si la molécula de ADN acelular que termina en la posición genómica incluye al menos uno de la pluralidad de primeros alelos específicos del tejido;
incluir la molécula de ADN acelular en el número correspondiente cuando la molécula de ADN acelular incluye un primer alelo específico del tejido; y
no incluir la molécula de a Dn acelular en el número correspondiente cuando la molécula de ADN acelular no incluye un primer alelo específico del tejido.
10. El método de una cualquiera de las reivindicaciones anteriores, en donde el primer tipo de tejido tiene una pluralidad de primeros alelos específicos del tejido en al menos una muestra adicional, y en donde el primer conjunto de posiciones genómicas se determina utilizando moléculas de ADN acelular de la al menos una muestra adicional que incluye al menos uno de la pluralidad de primeros alelos específicos del tejido.
11. El método de la reivindicación 10, en donde el segundo conjunto de posiciones genómicas es tal que los extremos de las moléculas de ADN acelular de un segundo tipo de tejido se producen a una tasa superior al umbral en la al menos una muestra adicional, en donde el segundo tipo de tejido tiene una pluralidad de segundos alelos específicos del tejido en la al menos una muestra adicional, y en donde el segundo conjunto de posiciones genómicas se determina utilizando moléculas de ADN acelular de la al menos una muestra adicional que incluye al menos uno de la pluralidad de segundos alelos específicos de tejido.
12. El método de una cualquiera de las reivindicaciones anteriores, en donde la pluralidad de ventanas tiene una amplitud de una posición genómica y en donde la abundancia relativa se calcula mediante:
para cada posición genómica del primer conjunto de posiciones genómicas:
calcular un número correspondiente de la primera pluralidad de moléculas de ADN acelular que terminan en la posición genómica como parte de la determinación de que el primer número de la primera pluralidad de moléculas de ADN acelular terminan en una cualquiera del primer conjunto de posiciones genómicas; calcular un tercer número de la primera pluralidad de moléculas de ADN acelular que abarcan la posición genómica y que no terminan en la posición genómica como parte de la determinación del segundo número de moléculas de ADN acelular; calcular una primera relación entre el número correspondiente y el tercer número;
calcular una media de las primeras proporciones como la abundancia relativa.
13. El método de una cualquiera de las reivindicaciones anteriores, en donde la abundancia relativa se calcula mediante:
para cada posición genómica del primer conjunto de posiciones genómicas:
calcular un número correspondiente de la primera pluralidad de moléculas de ADN acelular que terminan dentro de una primera ventana que incluye la posición genómica como parte de la determinación de que el primer número de la primera pluralidad de moléculas de ADN acelular terminan dentro de una de la pluralidad de ventanas;
computar un tercer número de la primera pluralidad de moléculas de ADN acelular que termina dentro de una segunda ventana que incluye la posición genómica, siendo la segunda ventana más grande que la primera; calcular una primera relación entre el número correspondiente y el tercer número;
calcular una media de las primeras proporciones como la abundancia relativa.
14. El método de una cualquiera de las reivindicaciones anteriores, en donde el primer tipo de tejido es un tumor, y en donde la clasificación se selecciona entre un grupo que consiste en: una cantidad de tejido tumoral en el sujeto, un tamaño del tumor en el sujeto, un estadio del tumor en el sujeto, una carga tumoral en el sujeto, y la presencia de metástasis tumorales en el sujeto.
15. Un programa informático que comprende una pluralidad de instrucciones que pueden ejecutarse en un sistema informático, que cuando se ejecutan de este modo controlan el sistema informático para realizar el método de una cualquiera de las reivindicaciones anteriores.
16. Un sistema que comprende módulos que respectivamente están dispuestos para realizar el método de una cualquiera de las reivindicaciones 1 a 14.
ES16827283T 2015-07-23 2016-07-25 Análisis de los patrones de fragmentación del ADN acelular Active ES2907697T3 (es)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201562196250P 2015-07-23 2015-07-23
US201662294948P 2016-02-12 2016-02-12
PCT/CN2016/073753 WO2016127944A1 (en) 2015-02-10 2016-02-14 Detecting mutations for cancer screening and fetal analysis
PCT/CN2016/091531 WO2017012592A1 (en) 2015-07-23 2016-07-25 Analysis of fragmentation patterns of cell-free dna

Publications (1)

Publication Number Publication Date
ES2907697T3 true ES2907697T3 (es) 2022-04-26

Family

ID=57833803

Family Applications (2)

Application Number Title Priority Date Filing Date
ES21196292T Active ES2960201T3 (es) 2015-07-23 2016-07-25 Análisis de los patrones de fragmentación del ADN acelular
ES16827283T Active ES2907697T3 (es) 2015-07-23 2016-07-25 Análisis de los patrones de fragmentación del ADN acelular

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES21196292T Active ES2960201T3 (es) 2015-07-23 2016-07-25 Análisis de los patrones de fragmentación del ADN acelular

Country Status (17)

Country Link
US (5) US10453556B2 (es)
EP (3) EP3325664B1 (es)
JP (3) JP6931236B2 (es)
KR (1) KR20180031742A (es)
CN (2) CN114999567A (es)
AU (2) AU2016295616B2 (es)
CA (1) CA2993362A1 (es)
DK (2) DK3325664T3 (es)
ES (2) ES2960201T3 (es)
FI (1) FI3967775T3 (es)
HK (2) HK1247645A1 (es)
HU (2) HUE057821T2 (es)
IL (3) IL288622B2 (es)
PT (2) PT3967775T (es)
SG (1) SG10202106935UA (es)
TW (3) TWI802886B (es)
WO (1) WO2017012592A1 (es)

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6410726B2 (ja) 2012-12-10 2018-10-24 レゾリューション バイオサイエンス, インコーポレイテッド 標的化ゲノム解析のための方法
TWI813141B (zh) 2014-07-18 2023-08-21 香港中文大學 Dna混合物中之組織甲基化模式分析
KR102441391B1 (ko) 2014-07-25 2022-09-07 유니버시티 오브 워싱톤 무세포 dna를 생성하는 조직 및/또는 세포 유형을 결정하는 방법 및 이를 사용하여 질환 또는 장애를 확인하는 방법
US10364467B2 (en) * 2015-01-13 2019-07-30 The Chinese University Of Hong Kong Using size and number aberrations in plasma DNA for detecting cancer
CN114999567A (zh) 2015-07-23 2022-09-02 香港中文大学 游离dna的片段化模式的分析
RU2018121254A (ru) 2015-11-11 2019-12-16 Резолюшн Байосайенс, Инк. Высокоэффективное построение библиотек днк
US20190287645A1 (en) * 2016-07-06 2019-09-19 Guardant Health, Inc. Methods for fragmentome profiling of cell-free nucleic acids
KR102505122B1 (ko) 2016-08-25 2023-03-08 레졸루션 바이오사이언스, 인크. Dna 샘플 중 게놈 카피 변화의 검출을 위한 방법
US9850523B1 (en) 2016-09-30 2017-12-26 Guardant Health, Inc. Methods for multi-resolution analysis of cell-free nucleic acids
KR102344635B1 (ko) 2016-09-30 2021-12-31 가던트 헬쓰, 인크. 무세포 핵산의 다중-해상도 분석 방법
WO2018081130A1 (en) 2016-10-24 2018-05-03 The Chinese University Of Hong Kong Methods and systems for tumor detection
CA3039685A1 (en) 2016-11-30 2018-06-07 The Chinese University Of Hong Kong Analysis of cell-free dna in urine and other samples
TW202348802A (zh) 2017-01-25 2023-12-16 香港中文大學 使用核酸片段之診斷應用
EP3635133A4 (en) * 2017-06-09 2021-03-03 Bellwether Bio, Inc. DETERMINATION OF THE TYPE OF CANCER IN A SUBJECT BY PROBABILISTIC MODELING OF END POINTS OF CIRCULATING NUCLEIC ACID FRAGMENT
EP3635134A4 (en) * 2017-06-09 2021-03-03 Bellwether Bio, Inc. DIAGNOSTIC CANCER OR OTHER PHYSIOLOGICAL CONDITIONS USING CIRCULATING NUCLEIC ACID FRAGMENT SENTINEL END POINTS
EP3658684B1 (en) * 2017-07-26 2023-08-30 The Chinese University Of Hong Kong Enhancement of cancer screening using cell-free viral nucleic acids
US20200263170A1 (en) 2017-09-14 2020-08-20 Grail, Inc. Methods for preparing a sequencing library from single-stranded dna
WO2019067973A1 (en) 2017-09-28 2019-04-04 Grail, Inc. ENRICHMENT OF SHORT NUCLEIC ACID FRAGMENTS IN THE PREPARATION OF SEQUENCING LIBRARIES
DE202019005627U1 (de) 2018-04-02 2021-05-31 Grail, Inc. Methylierungsmarker und gezielte Methylierungssondenpanels
TW202012639A (zh) * 2018-04-24 2020-04-01 美商格瑞爾公司 使用病原體核酸負荷確定個體是否患有癌症病況的系統及方法
CA3105349A1 (en) * 2018-05-03 2019-11-07 The Chinese University Of Hong Kong Size-tagged preferred ends and orientation-aware analysis for measuring properties of cell-free mixtures
CN112805563A (zh) * 2018-05-18 2021-05-14 约翰·霍普金斯大学 用于评估和/或治疗癌症的无细胞dna
SG11202100564PA (en) * 2018-07-23 2021-02-25 Univ Hong Kong Chinese Cell-free dna damage analysis and its clinical applications
CN111742063A (zh) * 2018-07-27 2020-10-02 思勤有限公司 肝细胞癌筛查
CN113286881A (zh) 2018-09-27 2021-08-20 格里尔公司 甲基化标记和标靶甲基化探针板
ES2968457T3 (es) * 2018-12-19 2024-05-09 Univ Hong Kong Chinese Características de los extremos del ADN extracelular circulante
CN109584959B (zh) * 2018-12-27 2020-10-27 北京优迅医学检验实验室有限公司 测序深度的矫正方法及装置
CN109767813B (zh) * 2018-12-27 2021-06-22 北京优迅医学检验实验室有限公司 测序深度的矫正方法及装置
JP2022517456A (ja) * 2019-01-24 2022-03-09 イルミナ インコーポレイテッド 臓器健康および疾患をモニタリングするための方法およびシステム
JP2022519045A (ja) 2019-01-31 2022-03-18 ガーダント ヘルス, インコーポレイテッド 無細胞dnaを単離するための組成物および方法
EP3696278A1 (en) * 2019-02-13 2020-08-19 Nipd Genetics Public Company Limited Method of determining the origin of nucleic acids in a mixed sample
US11396679B2 (en) 2019-05-31 2022-07-26 Universal Diagnostics, S.L. Detection of colorectal cancer
US11001898B2 (en) 2019-05-31 2021-05-11 Universal Diagnostics, S.L. Detection of colorectal cancer
KR102452413B1 (ko) * 2019-08-19 2022-10-11 주식회사 지씨지놈 핵산 단편간 거리 정보를 이용한 염색체 이상 검출 방법
EP4020484A4 (en) * 2019-08-19 2023-08-30 Green Cross Genome Corporation METHOD FOR DETECTING A CHROMOSOME ABNORMALITY USING INFORMATION CONCERNING THE DISTANCE BETWEEN NUCLEIC ACID FRAGMENTS
US11898199B2 (en) 2019-11-11 2024-02-13 Universal Diagnostics, S.A. Detection of colorectal cancer and/or advanced adenomas
US20210189494A1 (en) * 2019-12-18 2021-06-24 The Chinese University Of Hong Kong Cell-free dna fragmentation and nucleases
EP4081655A1 (en) 2019-12-24 2022-11-02 Vib Vzw Disease detection in liquid biopsies
CN115087745A (zh) * 2020-01-08 2022-09-20 香港中文大学 无细胞样品中的双末端dna片段类型及其用途
WO2021141220A1 (ko) * 2020-01-09 2021-07-15 서울대학교 산학협력단 ATAC-seq 데이터 정규화 및 이의 활용 방법
US20210265007A1 (en) * 2020-02-05 2021-08-26 The Chinese University Of Hong Kong Molecular analyses using long cell-free fragments in pregnancy
US11475981B2 (en) 2020-02-18 2022-10-18 Tempus Labs, Inc. Methods and systems for dynamic variant thresholding in a liquid biopsy assay
US11211144B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Methods and systems for refining copy number variation in a liquid biopsy assay
US11211147B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing
CN111383757B (zh) * 2020-03-04 2023-08-25 南京亿科人群健康研究院有限公司 一种计算机辅助开发包虫病诊断试剂盒的方法
CN111575347A (zh) * 2020-05-19 2020-08-25 清华大学 构建用于同时获得血浆中游离dna甲基化和片段化模式信息的文库的方法
WO2021262770A1 (en) * 2020-06-22 2021-12-30 Children's Hospital Medical Center De novo characterization of cell-free dna fragmentation hotspots in healthy and early-stage cancers
US11530453B2 (en) 2020-06-30 2022-12-20 Universal Diagnostics, S.L. Systems and methods for detection of multiple cancer types
TW202242130A (zh) 2020-12-29 2022-11-01 比利時商比利時意志有限公司 循環轉錄因子分析
TW202242145A (zh) 2020-12-29 2022-11-01 比利時商比利時意志有限公司 核小體耗盡循環無細胞染色質片段之轉錄因子結合位點分析
WO2022271730A1 (en) 2021-06-21 2022-12-29 Guardant Health, Inc. Methods and compositions for copy-number informed tissue-of-origin analysis
WO2023056065A1 (en) 2021-09-30 2023-04-06 Guardant Health, Inc. Compositions and methods for synthesis and use of probes targeting nucleic acid rearrangements
WO2023220414A1 (en) * 2022-05-12 2023-11-16 Delfi Diagnostics, Inc. Use of cell-free dna fragmentomes in the diagnostic evaluation of patients with signs and symptoms suggestive of cancer
US20240011105A1 (en) * 2022-07-08 2024-01-11 The Chinese University Of Hong Kong Analysis of microbial fragments in plasma
CN118028462A (zh) * 2022-11-02 2024-05-14 深圳湾实验室 一种泛癌种血液诊断标志物及其应用
WO2024114678A1 (en) * 2022-11-29 2024-06-06 Centre For Novostics Fragmentomics in urine and plasma
CN117106857B (zh) * 2023-10-24 2024-02-09 北京大学 一种血浆游离染色质的检测方法、试剂盒及其应用

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CZ20013527A3 (cs) 1999-04-02 2002-10-16 Corixa Corporation Sloučeniny a způsoby pro terapii a diagnostiku karcinomu plic
US20030219765A1 (en) 2000-03-23 2003-11-27 Jose Costa Methods for evaluating cancer risk
JP2005514956A (ja) 2002-01-18 2005-05-26 ジェンザイム・コーポレーション 胎児dnaの検出および対立遺伝子の定量化のための方法
PL201608B1 (pl) 2003-06-13 2009-04-30 Cezary Cybulski Sposób i zestaw do wykrywania wysokiej genetycznie uwarunkowanej predyspozycji do raka prostaty oraz zastosowanie zmiany germinalnej w obrębie genu NBS1
EP1751306A1 (en) 2004-04-30 2007-02-14 Yale University Methods and compositions for cancer diagnosis
WO2008024009A1 (fr) 2006-08-15 2008-02-28 Institut Molekulyarnoi Genetiki Rossiiskoi Akademii Nauk (Img Ran) Niveau de transcription du gène timp3 utilisé en tant que marqueur servant à diagnostiquer le cancer du poumon non à petites cellules
EP2535425A1 (en) 2007-05-25 2012-12-19 Decode Genetics EHF. Variantes génétiques sur les chr 10q26 utilisées comme marqueurs dans l'évaluation, le diagnostic, le pronostic et le traitement d'un risque de cancer du sein
EA028642B1 (ru) 2007-07-23 2017-12-29 Те Чайниз Юниверсити Ов Гонгконг Способ пренатальной диагностики фетальной хромосомной анэуплоидии
WO2011051283A1 (en) 2009-10-26 2011-05-05 Lifecodexx Ag Means and methods for non-invasive diagnosis of chromosomal aneuploidy
CN102770558B (zh) 2009-11-05 2016-04-06 香港中文大学 由母本生物样品进行胎儿基因组的分析
EA034241B1 (ru) 2009-11-06 2020-01-21 Те Чайниз Юниверсити Ов Гонконг Способ пренатальной диагностики дисбаланса последовательности
SG10202008532PA (en) 2010-11-30 2020-10-29 Univ Hong Kong Chinese Detection of genetic or molecular aberrations associated with cancer
AU2012318371B2 (en) 2011-10-06 2018-03-22 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP2771483A1 (en) 2011-10-25 2014-09-03 ONCOTYROL - Center for Personalized Cancer Medicine GmbH Method for diagnosing a disease based on plasma-dna distribution
US9892230B2 (en) 2012-03-08 2018-02-13 The Chinese University Of Hong Kong Size-based analysis of fetal or tumor DNA fraction in plasma
WO2013177581A2 (en) 2012-05-24 2013-11-28 University Of Washington Through Its Center For Commercialization Whole genome sequencing of a human fetus
US11261494B2 (en) * 2012-06-21 2022-03-01 The Chinese University Of Hong Kong Method of measuring a fractional concentration of tumor DNA
CN110872617A (zh) 2012-09-04 2020-03-10 夸登特健康公司 检测稀有突变和拷贝数变异的系统和方法
KR102390711B1 (ko) * 2012-09-20 2022-04-26 더 차이니즈 유니버시티 오브 홍콩 혈장으로부터 태아 또는 종양 메틸롬의 비침습적 결정
US9732390B2 (en) * 2012-09-20 2017-08-15 The Chinese University Of Hong Kong Non-invasive determination of methylome of fetus or tumor from plasma
CA2902207A1 (en) 2013-02-21 2014-08-28 Toma Biosciences, Inc. Methods, compositions, and kits for nucleic acid analysis
AU2014233373B2 (en) 2013-03-15 2019-10-24 Verinata Health, Inc. Generating cell-free DNA libraries directly from blood
CN103215350B (zh) * 2013-03-26 2016-11-02 苏州贝康医疗器械有限公司 一种基于单核苷酸多态性位点的孕妇血浆中胎儿dna含量的测定方法
US10174375B2 (en) 2013-09-20 2019-01-08 The Chinese University Of Hong Kong Sequencing analysis of circulating DNA to detect and monitor autoimmune diseases
US10262755B2 (en) 2014-04-21 2019-04-16 Natera, Inc. Detecting cancer mutations and aneuploidy in chromosomal segments
EP3495496B1 (en) 2013-10-07 2020-11-25 Sequenom, Inc. Methods and processes for non-invasive assessment of chromosome alterations
US20160002717A1 (en) 2014-07-02 2016-01-07 Boreal Genomics, Inc. Determining mutation burden in circulating cell-free nucleic acid and associated risk of disease
TWI813141B (zh) 2014-07-18 2023-08-21 香港中文大學 Dna混合物中之組織甲基化模式分析
KR102441391B1 (ko) 2014-07-25 2022-09-07 유니버시티 오브 워싱톤 무세포 dna를 생성하는 조직 및/또는 세포 유형을 결정하는 방법 및 이를 사용하여 질환 또는 장애를 확인하는 방법
WO2016085876A1 (en) 2014-11-25 2016-06-02 The Broad Institute Inc. Clonal haematopoiesis
AU2015357573B2 (en) 2014-12-05 2022-04-07 Foundation Medicine, Inc. Multigene analysis of tumor samples
EP3240911B1 (en) 2014-12-31 2020-08-26 Guardant Health, Inc. Detection and treatment of disease exhibiting disease cell heterogeneity and systems and methods for communicating test results
CA2976303A1 (en) 2015-02-10 2016-08-18 The Chinese University Of Hong Kong Detecting mutations for cancer screening and fetal analysis
CA2980078C (en) 2015-03-16 2024-03-12 Personal Genome Diagnostics Inc. Systems and methods for analyzing nucleic acid
CN114999567A (zh) 2015-07-23 2022-09-02 香港中文大学 游离dna的片段化模式的分析
KR20180133374A (ko) 2015-10-22 2018-12-14 더 브로드 인스티튜트, 인코퍼레이티드 타입 vi-b crispr 효소 및 시스템
ES2967443T3 (es) 2016-07-06 2024-04-30 Guardant Health Inc Procedimientos de perfilado de fragmentoma de ácidos nucleicos sin células
US20190309374A1 (en) 2016-12-13 2019-10-10 Bellwether Bio, Inc. Determining a physiological condition in an individual by analyzing cell-free dna fragment endpoints in a biological sample
US20220259647A1 (en) 2019-07-09 2022-08-18 The Translational Genomics Research Institute METHODS OF DETECTING DISEASE AND TREATMENT RESPONSE IN cfDNA

Also Published As

Publication number Publication date
US11581063B2 (en) 2023-02-14
US11615865B2 (en) 2023-03-28
TWI730973B (zh) 2021-06-21
AU2022224861A1 (en) 2022-10-20
US20200005895A1 (en) 2020-01-02
HUE057821T2 (hu) 2022-06-28
JP2023109862A (ja) 2023-08-08
TW201718872A (zh) 2017-06-01
US20200005897A1 (en) 2020-01-02
JP2021184732A (ja) 2021-12-09
CA2993362A1 (en) 2017-01-26
JP7284522B2 (ja) 2023-05-31
HK1247645A1 (zh) 2018-09-28
EP3325664A4 (en) 2019-01-02
EP3325664B1 (en) 2021-12-29
EP4279612A3 (en) 2024-02-28
US20230197201A1 (en) 2023-06-22
TWI802886B (zh) 2023-05-21
SG10202106935UA (en) 2021-08-30
CN108026572B (zh) 2022-07-01
EP3967775A1 (en) 2022-03-16
WO2017012592A1 (en) 2017-01-26
JP2018524991A (ja) 2018-09-06
IL257055B (en) 2022-01-01
IL288622B1 (en) 2023-11-01
JP6931236B2 (ja) 2021-09-01
IL257055A (en) 2018-03-29
HUE064231T2 (hu) 2024-02-28
ES2960201T3 (es) 2024-03-01
HK1251264A1 (zh) 2019-01-25
US20170024513A1 (en) 2017-01-26
EP3325664A1 (en) 2018-05-30
PT3967775T (pt) 2023-10-10
CN108026572A (zh) 2018-05-11
DK3325664T3 (da) 2022-03-07
AU2016295616A1 (en) 2018-02-15
KR20180031742A (ko) 2018-03-28
IL288622B2 (en) 2024-03-01
FI3967775T3 (fi) 2023-09-25
TW202142697A (zh) 2021-11-16
AU2016295616B2 (en) 2022-06-02
DK3967775T3 (da) 2023-10-02
IL288622A (en) 2022-02-01
US20200005896A1 (en) 2020-01-02
EP4279612A2 (en) 2023-11-22
CN114999567A (zh) 2022-09-02
EP3967775B1 (en) 2023-08-23
US11605445B2 (en) 2023-03-14
IL305462A (en) 2023-10-01
TW202332776A (zh) 2023-08-16
US10453556B2 (en) 2019-10-22
PT3325664T (pt) 2022-03-03

Similar Documents

Publication Publication Date Title
ES2907697T3 (es) Análisis de los patrones de fragmentación del ADN acelular
JP7168247B2 (ja) 癌スクリーニング及び胎児分析のための変異検出
ES2828279T3 (es) Detección y tratamiento de enfermedades que muestran heterogeneidad celular de enfermedad y sistemas y métodos para comunicar los resultados de las pruebas
ES2894479T3 (es) Análisis mutacional de ADN de plasma para la detección de cáncer
CN106795562B (zh) Dna混合物中的组织甲基化模式分析
CN108138233B (zh) Dna混合物中组织的单倍型的甲基化模式分析
ES2968457T3 (es) Características de los extremos del ADN extracelular circulante
TW201833329A (zh) 腫瘤檢測之方法及系統
KR20220020393A (ko) 암 검출을 위한 혈장 dna의 크기 및 수 비정상의 이용 방법