ES2968457T3 - Características de los extremos del ADN extracelular circulante - Google Patents

Características de los extremos del ADN extracelular circulante Download PDF

Info

Publication number
ES2968457T3
ES2968457T3 ES19898588T ES19898588T ES2968457T3 ES 2968457 T3 ES2968457 T3 ES 2968457T3 ES 19898588 T ES19898588 T ES 19898588T ES 19898588 T ES19898588 T ES 19898588T ES 2968457 T3 ES2968457 T3 ES 2968457T3
Authority
ES
Spain
Prior art keywords
dna
motifs
terminal
sequence
cancer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES19898588T
Other languages
English (en)
Inventor
Yuk-Ming Dennis Lo
Rossa Wai Kwun Chiu
Kwan Chee Chan
Peiyong Jiang
Wing Yan Chan
Kun Sun
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese University of Hong Kong CUHK
Grail Inc
Original Assignee
Chinese University of Hong Kong CUHK
Grail Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese University of Hong Kong CUHK, Grail Inc filed Critical Chinese University of Hong Kong CUHK
Application granted granted Critical
Publication of ES2968457T3 publication Critical patent/ES2968457T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/36Gynecology or obstetrics
    • G01N2800/368Pregnancy complicated by disease or abnormalities of pregnancy, e.g. preeclampsia, preterm labour
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/38Pediatrics
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/70Mechanisms involved in disease identification
    • G01N2800/7042Aging, e.g. cellular aging
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Genetics & Genomics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Immunology (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

La presente divulgación describe técnicas para medir cantidades (por ejemplo, frecuencias relativas) de motivos finales de secuencia de fragmentos de ADN libres de células en una muestra biológica de un organismo para medir una propiedad de la muestra (por ejemplo, concentración fraccionaria de ADN clínicamente relevante) y /o determinar una condición del organismo basándose en tales mediciones. Los diferentes tipos de tejido exhiben diferentes patrones para las frecuencias relativas de los motivos finales de la secuencia. La presente divulgación proporciona diversos usos para medidas de las frecuencias relativas de motivos terminales de secuencia de ADN libre de células, por ejemplo, en mezclas de ADN libre de células de diversos tejidos. El ADN de uno de dichos tejidos puede denominarse ADN clínicamente relevante. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Características de los extremos del ADN extracelular circulante
Referencias cruzadas a solicitud relacionada
Antecedentes
Se cree que el ADN en plasma consiste en ADN extracelular circulante desprendido de múltiples tejidos del cuerpo, que incluyen, pero sin limitación, tejido hematopoyético, de cerebro, hígado, pulmón, colon, páncreas, etc. (Sunet al.,Proc Natl Acad Sci USA. 2015; 112: E5503-12; Lehmann-Wermanet al.,Proc Natl Acad Sci USA. 2016; 113: E1826-34; Mosset al.,Nat Commun. 2018; 9: 5068). Se ha demostrado que las moléculas de ADN en plasma (un tipo de moléculas de ADN extracelular circulante) se generan mediante un proceso no aleatorio, por ejemplo, su perfil de tamaño muestra valores máximos principales de 166 pb y periodicidades de 10 pb que aparecen en los valores máximos más pequeños (Loet al.,Sci Transl Med. 2010; 2:61ra91; Jianget al.,Proc Natl Acad Sci USA.
2015;112:E1317-25).
Más recientemente, se informó que un subconjunto de ubicaciones genómicas humanas (por ejemplo, posiciones en un genoma de referencia) se cortan preferentemente, generando así un fragmento de ADN en plasma que tiene posiciones finales que guardan una relación con el tejido de origen (Chanet al.,Proc Natl Acad Sci USA. 2016; 113: E8159-8168; Jianget al.,Proc Natl Acad Sci USA. 2018; doi: 10.1073/pnas.1814616115). Chandranandaet al.(BMC Med Genomics. 2015; 8: 29) utilizaron el programa informático de descubrimientode novoDREME (Bailey, Bioinformatics. 2011;27:1653-9) para extraer datos del ADN extracelular circulante en busca de motivos relacionados con la escisión de nucleasas, independientemente del tipo de tejido.
El documento WO 2018/081130 describe un método para detectar tumores en un sujeto mediante la secuenciación del ADNec de una muestra del sujeto y determinar el número de lecturas de secuenciación de acuerdo con el tamaño. El documento también se refiere a determinar la posición final de las lecturas en las secuencias genómicas, siendo el objetivo determinar el nivel de una patología en un sujeto.
Breve sumario
La presente divulgación describe técnicas para medir cantidades (por ejemplo, frecuencias relativas) de motivos terminales de la secuencia de fragmentos de ADN extracelular circulante en una muestra biológica de un organismo para medir una propiedad de la muestra (por ejemplo, concentración fraccionaria de ADN de interés clínico) y/o determinar una afección del organismo en función de dichas mediciones. Los diferentes tipos de tejido presentan diferentes patrones para las frecuencias relativas de los motivos terminales de la secuencia. La presente divulgación proporciona varios usos para medidas de las frecuencias relativas de los motivos terminales de la secuencia de ADN extracelular circulante, por ejemplo, en mezclas de ADN extracelular circulante de varios tejidos. El ADN de uno de estos tejidos puede denominarse ADN de interés clínico.
Varios ejemplos pueden cuantificar cantidades de motivos de secuencia (motivos terminales) que representan una secuencia terminal de fragmentos de ADN. Por ejemplo, las realizaciones pueden determinar frecuencias relativas de un conjunto de motivos de secuencia para secuencias terminales de fragmentos de ADN. En diversas implementaciones, los conjuntos preferidos de motivos terminales y/o patrones de motivos terminales se pueden determinar mediante un enfoque genotípico (por ejemplo, un alelo específico de tejido) o fenotípico (por ejemplo, con muestras que tienen la misma afección). Las frecuencias relativas de un conjunto preferido o que tienen un patrón particular se pueden utilizar para medir una clasificación de una propiedad (por ejemplo, concentración fraccionaria de ADN de interés clínico) de una nueva muestra o una afección (por ejemplo, la edad gestacional de un feto o un nivel de patología) del organismo. Por consiguiente, las realizaciones pueden proporcionar mediciones para informar sobre alteraciones fisiológicas, incluyendo cánceres, enfermedades autoinmunitarias, trasplante y embarazo.
Como ejemplos adicionales, los motivos terminales de la secuencia se pueden utilizar en un enriquecimiento físico y/o un enriquecimiento por ordenador de una muestra biológica para fragmentos de ADN extracelular circulante que son de interés clínico. El enriquecimiento puede utilizar motivos terminales de la secuencia que se prefieren para un tejido de interés clínico, tal como fetal, tumor o trasplante. El enriquecimiento físico puede utilizar una o más moléculas sonda que detectan un conjunto particular de motivos terminales de la secuencia de modo que la muestra biológica se enriquece para fragmentos de ADN de interés clínico. Para el enriquecimiento por ordenador, se puede identificar un grupo de lecturas de secuencia de fragmentos de ADN extracelular circulante que tienen una de un conjunto de secuencias terminales preferidas para el ADN de interés clínico. Determinadas lecturas de secuencia se pueden almacenar en función de la probabilidad de que correspondan al ADN de interés clínico, donde la probabilidad representa las lecturas de secuencia que incluyen los motivos terminales de la secuencia preferidos. Las lecturas de secuencia almacenadas se pueden analizar para determinar una propiedad del ADN de interés clínico de la muestra biológica.
Estas y otras realizaciones de la divulgación se describen en detalle a continuación. Por ejemplo, otras realizaciones se refieren a sistemas, dispositivos y medios legibles por ordenador asociados a los métodos descritos en el presente documento.
Se puede obtener una mejor comprensión de la naturaleza y las ventajas de las realizaciones de la presente divulgación con referencia a la siguiente descripción detallada y los dibujos adjuntos.
Breve descripción de los dibujos
En la figura 1 se muestran ejemplos de motivos terminales de acuerdo con realizaciones de la presente divulgación. En la figura 2 se muestra un esquema de un enfoque basado en diferencias genotípicas para analizar los patrones diferenciales de motivos terminales entre moléculas de ADN fetal y materno de acuerdo con realizaciones de la presente divulgación.
En la figura 3 se muestra un diagrama de barras de frecuencias de motivos terminales entre moléculas de ADN fetal y materno de acuerdo con realizaciones de la presente divulgación.
En la figura 4 se muestran los 10 motivos terminales principales de la figura 3 para secuencias fetales y compartidas (es decir, fetales más maternas) de acuerdo con realizaciones de la presente divulgación.
En las figuras 5A y 5B se muestran diagramas de caja de entropía entre moléculas de ADN fetal y materno en mujeres embarazadas de acuerdo con realizaciones de la presente invención.
En las figuras 6A y 6B se muestra un análisis de agrupamiento jerárquico para moléculas de ADN fetal y materno de acuerdo con realizaciones de la presente divulgación.
En las figuras 7A y 7B se muestran distribuciones de entropía que utilizan todos los motivos para mujeres embarazadas en diferentes trimestres de acuerdo con realizaciones de la presente divulgación. En las figuras 7C y 7D se muestran distribuciones de entropía que utilizan 10 motivos para mujeres embarazadas en diferentes trimestres de acuerdo con realizaciones de la presente divulgación.
En la figura 8A se muestra la entropía de todos los fragmentos en diferentes edades gestacionales. La entropía de los fragmentos de ADN en plasma en sujetos en el 3.er trimestre demostró ser más baja (valor dep= 0,06) que aquellos en el 1.er y 2.° trimestre. En la figura 8B se muestra la entropía de fragmentos procedentes del cromosoma Y en diferentes edades gestacionales. La entropía de los fragmentos procedentes del cromosoma Y en sujetos en el 3.er trimestre demostró ser más baja (valor dep= 0,01) que aquellos en el 1.er y 2^ trimestre.
En las figuras 9 y 10 se muestra la distribución de los 10 principales motivos terminales clasificados entre las moléculas de ADN fetal y materno en diferentes trimestres de acuerdo con realizaciones de la presente divulgación. En la figura 11 se muestra una frecuencia combinada de los 10 principales motivos clasificados entre moléculas fetales y compartidas a lo largo de diferentes trimestres de acuerdo con realizaciones de la presente divulgación. En la figura 12 se muestra un esquema de un enfoque basado en diferencias genotípicas para analizar los patrones diferenciales de motivos terminales entre moléculas mutantes y compartidas en el ADN en plasma de un paciente con cáncer de acuerdo con realizaciones de la presente divulgación.
En la figura 13 se muestra el contexto de los motivos terminales del ADN en plasma de moléculas mutantes y compartidas asociadas al cáncer en el carcinoma hepatocelular de acuerdo con realizaciones de la presente divulgación.
En la figura 14 se muestra un contexto radial de los motivos terminales del ADN en plasma de moléculas mutantes y compartidas asociadas al cáncer en carcinoma hepatocelular de acuerdo con realizaciones de la presente divulgación.
En la figura 15A se muestran los 10 principales motivos terminales en la diferencia clasificada de frecuencia de motivos terminales entre secuencias mutantes y compartidas en el ADN en plasma de un paciente con CHC de acuerdo con realizaciones de la presente divulgación.
En la figura 15B se muestra una frecuencia combinada para 8 motivos terminales para un paciente con CHC y una mujer embarazada de acuerdo con realizaciones de la presente divulgación.
En las figuras 16A y 16B se muestran valores de entropía para fragmentos compartidos y mutantes para diferentes conjuntos de motivos terminales para un caso de CHC de acuerdo con realizaciones de la presente divulgación. La figura 17 es una gráfica de una puntuación de diversidad de motivos (entropía) frente a una fracción de ADN tumoral circulante medida de acuerdo con realizaciones de la presente divulgación.
En la figura 18A se muestra un análisis de entropía que utiliza fragmentos específicos de donante de acuerdo con realizaciones de la presente divulgación. En la figura 18B se muestra un análisis de agolpamiento jerárquico que utiliza fragmentos específicos de donante.
La figura 19 es un diagrama de flujo que ilustra un método para estimar una concentración fraccionaria de ADN de interés clínico en una muestra biológica de un sujeto de acuerdo con realizaciones de la presente divulgación.
La figura 20 es un diagrama de flujo que ilustra un método para determinar la edad gestacional de un feto mediante el análisis de una muestra biológica de una mujer embarazada de acuerdo con realizaciones de la presente divulgación.
En la figura 21 se muestra un esquema de un enfoque fenotípico para el análisis de motivos terminales de ADN en plasma de acuerdo con realizaciones de la presente divulgación.
En la figura 22 se muestra un ejemplo del perfil de frecuencia de motivos terminales de 4 unidades entre sujetos con CHC y VHB con el uso de todas las moléculas de ADN en plasma de acuerdo con realizaciones de la presente divulgación.
En la figura 23A se muestra un diagrama de caja para la frecuencia combinada de los 10 principales motivos terminales de 4 unidades de ADN en plasma para diversos sujetos que tienen diferentes niveles de cáncer de acuerdo con realizaciones de la presente divulgación. Los niveles son control: sujetos de control sanos; VHB: portadores crónicos de hepatitis B; Cirr: sujetos con cirrosis; CHCet: CHC en estadio temprano; CHCei: CHC en estadio inmediato; y CHCea: CHC en estadio avanzado. En la figura 23B se muestra una curva de eficacia diagnóstica (ROC, del inglésReceiver Operating Characteristic)de la frecuencia combinada de los 10 principales motivos terminales de 4 unidades de ADN en plasma entre sujetos con CHC y sin cáncer de acuerdo con realizaciones de la presente divulgación.
En la figura 24A se muestra un diagrama de caja de la frecuencia del motivo CCA en diferentes grupos de acuerdo con realizaciones de la presente divulgación. En la figura 24B se muestra una curva ROC entre grupos sin CHC y con CHC que utiliza el motivo de 3 unidades (CCA) más frecuente presente en sujetos sin CHC de acuerdo con realizaciones de la presente divulgación.
En la figura 25A se muestra un diagrama de caja de valores de entropía en diferentes grupos que utiliza 256 motivos terminales de 4 unidades de acuerdo con realizaciones de la presente divulgación. En la figura 25B se muestra un diagrama de caja de valores de entropía en diferentes grupos que utiliza 10 motivos terminales de 4 unidades de acuerdo con realizaciones de la presente divulgación.
En la figura 26A se muestra un diagrama de caja de valores de entropía que utiliza motivos de 3 unidades en diferentes grupos de acuerdo con realizaciones de la presente divulgación. Se encontró que la entropía de los sujetos con c Hc que utilizaban motivos de 3 unidades (un total de 64 motivos) era significativamente mayor (valor dep<0,0001) que el de los sujetos sin CHC. En la figura 26B se muestra una curva ROC que utiliza la entropía de 64 motivos de 3 unidades entre grupos sin CHC y con CHC de acuerdo con realizaciones de la presente divulgación. Se encontró que el ABC era 0,872.
En las figuras 27A y 27B se muestran diagramas de caja de puntuaciones de diversidad de motivos (entropía) que utiliza 4 unidades en diferentes grupos de acuerdo con realizaciones de la presente divulgación.
En la figura 28 se muestra una curva de eficacia diagnóstica para diversas técnicas para discriminar controles sanos del cáncer de acuerdo con realizaciones de la presente divulgación.
En la figura 29 se muestra una curva de eficacia diagnóstica para un análisis de PDM que utiliza varias unidades de acuerdo con realizaciones de la presente divulgación.
En la figura 30 se muestra el rendimiento de una detección de cáncer basada en PDM para diversas fracciones de ADN tumoral de acuerdo con realizaciones de la presente divulgación.
En la figura 31 se muestra una curva de eficacia diagnóstica para análisis PDM, MVS y de regresión logística de acuerdo con realizaciones de la presente divulgación.
En la figura 32 se muestra un análisis de agrupamiento jerárquico para los 10 principales motivos terminales clasificados en diferentes grupos que tienen diferentes niveles de cáncer de acuerdo con realizaciones de la presente divulgación. Los diferentes grupos incluyen control: sujetos de control sanos; VHB: portadores crónicos de hepatitis B; Cirr: sujetos con cirrosis; CHCet: CHC en estadio temprano; CHCei: CHC en estadio inmediato; y CHCea: CHC en estadio avanzado.
En las figuras 33A a 33C se muestran análisis de agolpamiento jerárquico que utiliza todas las moléculas de ADN en plasma en diferentes grupos que tienen diferentes niveles de cáncer de acuerdo con realizaciones de la presente divulgación.
En la figura 34 se muestra un análisis de agrupamiento jerárquico basado en motivos de 3 unidades que utiliza todas las moléculas de ADN en plasma en diferentes grupos que tienen diferentes niveles de cáncer de acuerdo con realizaciones de la presente divulgación.
En la figura 35A se muestra un análisis de entropía que utiliza todas las moléculas de ADN en plasma entre sujetos de control sanos y pacientes que padecen LES de acuerdo con realizaciones de la presente divulgación. En la figura 35B se muestra un análisis de agrupamiento jerárquico que utiliza todas las moléculas de ADN en plasma entre sujetos de control sanos y pacientes con LES de acuerdo con realizaciones de la presente divulgación. En la figura 36 se muestra un análisis de entropía que utiliza moléculas de ADN en plasma que tienen 10 motivos terminales seleccionados entre sujetos de control sanos y pacientes que padecen LES de acuerdo con realizaciones de la presente divulgación.
En la figura 37 se muestra una curva ROC para un análisis combinado que incluye motivos terminales y número de copias o metilación de acuerdo con realizaciones de la presente divulgación.
En la figura 38A se muestra un análisis de entropía basado en 4 unidades construidas conjuntamente a partir de los extremos de fragmentos de ADN en plasma secuenciados y sus secuencias genómicas adyacentes en sujetos con CHC y sin CHC de acuerdo con realizaciones de la presente divulgación. En la figura 38B se muestra un análisis de agrupamiento basado en 4 unidades construidas conjuntamente a partir de los extremos de fragmentos de ADN en plasma secuenciados y sus secuencias genómicas adyacentes en sujetos con CHC y sin CHC de acuerdo con realizaciones de la presente divulgación.
En la figura 39 se muestra una comparación de ROC para las técnicas 140 y 160 de la figura 1 utilizadas para definir el motivo terminal del ADN en plasma de acuerdo con realizaciones de la presente divulgación.
En la figura 40 se muestra una comparación de precisiones que muestra que las regiones de cromatina abiertas específicas de tejido mejoran el poder discriminativo del motivo terminal del ADN en plasma de acuerdo con realizaciones de la presente divulgación.
En la figura 41 se muestra un análisis de motivos terminales de ADN en plasma basado en bandas de tamaño de acuerdo con realizaciones de la presente divulgación.
La figura 42 es un diagrama de flujo que ilustra un método para clasificar un nivel de patología en una muestra biológica de un sujeto de acuerdo con realizaciones de la presente divulgación.
La figura 43 es un diagrama de flujo que ilustra un método para enriquecer una muestra biológica para el ADN de interés clínico de acuerdo con realizaciones de la presente divulgación.
La figura 44 es un diagrama de flujo que ilustra un método 3700 para enriquecer una muestra biológica para el ADN de interés clínico de acuerdo con realizaciones de la presente divulgación.
En la figura 45 se muestra un gráfico ilustrativo que ilustra un aumento en la fracción de ADN fetal que utiliza el motivo terminal CCCA de acuerdo con realizaciones de la presente divulgación.
En la figura 46 se ilustra un sistema de medición de acuerdo con una realización de la presente invención.
En la figura 47 se muestra un diagrama de bloques de un sistema informático ilustrativo que puede utilizarse con los sistemas y los métodos de acuerdo con las realizaciones de la presente invención.
TÉRMINOS
Un"tejido"corresponde a un grupo de células que se agrupan como una unidad funcional. En un mismo tejido pueden encontrarse más de un tipo de células. Los distintos tipos de tejidos pueden estar formados por diferentes tipos de células (por ejemplo, hepatocitos, células alveolares o células sanguíneas), pero también pueden corresponder a tejidos de organismos diferentes (madre frente a feto) o a células sanas frente a células tumorales. Los "tejidos de referencia" pueden corresponder a los tejidos utilizados para determinar los niveles de metilación específicos de tejido. Se pueden utilizar múltiples muestras de un mismo tipo de tejido de diferentes individuos para determinar un nivel de metilación específico de tejido para ese tipo de tejido.
Una"muestra biológica"se refiere a cualquier muestra que se tome de un sujeto(por ejemplo,un ser humano (u otro animal), tal como una mujer embarazada, una persona con cáncer o una persona que se sospecha que tiene cáncer, un receptor de un trasplante de órganos o un sujeto que se sospecha que padece una enfermedad que afecta a un órgano (por ejemplo, el corazón en el infarto de miocardio, o el cerebro en el ictus, o el sistema hematopoyético en la anemia) y que contiene una o más moléculas de ácido nucleico de interés. La muestra biológica puede ser un líquido corporal, tal como sangre, plasma, suero, orina, líquido vaginal, líquido de un hidrocele (por ejemplo, de los testículos), líquidos de un lavado vaginal, líquido pleural, líquido ascítico, líquido cefalorraquídeo, saliva, sudor, lágrimas, esputo, líquido de lavado broncoalveolar, líquido galactorreico, líquido de aspiración de diferentes partes del cuerpo (por ejemplo, tiroides, mama), líquidos intraoculares (por ejemplo, el humor acuoso), etc. También pueden utilizarse muestras de heces. En diversas realizaciones, la mayor parte del ADN de una muestra biológica enriquecida para ADN extracelular circulante (por ejemplo, una muestra de plasma obtenida mediante un protocolo de centrifugación) puede ser extracelular circulante, por ejemplo, superior al 50 %, al 60 %, al 70 %, al 80 %, al 90 %, al 95 % o al 99 % del ADN puede ser extracelular circulante. El protocolo de centrifugación puede incluir, por ejemplo, 3.000g x 10 minutos, obtener la parte líquida y volver a centrifugar, por ejemplo, 30.000g durante otros 10 minutos para eliminar las células residuales. Como parte de un análisis de una muestra biológica, se pueden analizar al menos 1.000 moléculas de ADN extracelular circulante. Como otros ejemplos, se pueden analizar al menos 10.000 o 50.000 o 100.000 o 500.000 o 1.000.000 o 5.000.000 de moléculas de ADN extracelular circulante o más.
"ADN de interés clínico"puede referirse al ADN de una fuente de tejido particular que se va a medir, por ejemplo, para determinar una concentración fraccionaria de dicho ADN o para clasificar un fenotipo de una muestra (por ejemplo, plasma). Ejemplos de ADN de interés clínico son el ADN fetal en el plasma materno o el ADN tumoral en el plasma de un paciente u otra muestra con ADN extracelular circulante. Otro ejemplo incluye la medición de la cantidad de ADN asociado al injerto en el plasma, suero u orina de un paciente trasplantado. Un ejemplo adicional incluye la medición de las concentraciones fraccionarias de ADN hematopoyético y no hematopoyético en el plasma de un sujeto, o la concentración fraccionaria de fragmentos de ADN de hígado (u otro tejido) en una muestra o la concentración fraccionaria de fragmentos de ADN cerebral en el líquido cefalorraquídeo.
Una"lectura de secuencia"se refiere a una cadena de nucleótidos secuenciada de cualquier parte o de una molécula completa de ácido nucleico. Por ejemplo, una lectura de secuencia puede ser una cadena corta de nucleótidos (por ejemplo, de 20 a 150 nucleótidos) secuenciados a partir de un fragmento de ácido nucleico, una cadena corta de nucleótidos en uno o ambos extremos de un fragmento de ácido nucleico o la secuenciación de todo el fragmento de ácido nucleico que existe en la muestra biológica. Una lectura de secuencia puede obtenerse de diversos modos, por ejemplo, mediante técnicas de secuenciación o utilizando sondas, por ejemplo, en matrices de hibridación o sondas de captura, o técnicas de amplificación, como la reacción en cadena de la polimerasa (PCR) o la amplificación lineal con un único cebador o la amplificación isotérmica. Como parte de un análisis de una muestra biológica, se pueden analizar al menos 1.000 lecturas de secuencia. Como otros ejemplos, se pueden analizar al menos 10.000 o 50.000 o 100.000 o 500.000 o 1.000.000 o 5.000.000 de lecturas secuencia o más.
Una lectura de secuencia puede incluir una"secuencia terminal"asociada con el extremo de un fragmento. La secuencia terminal puede corresponder a las N bases más externas del fragmento, por ejemplo, de 2 a 30 bases en el extremo del fragmento. Si una lectura de secuencia corresponde a un fragmento completo, entonces la lectura de secuencia puede incluir dos secuencias terminales. Cuando la secuenciación por ambos extremos proporciona dos lecturas de secuencia que corresponden a los extremos de los fragmentos, cada lectura de secuencia puede incluir una secuencia terminal.
Un"motivo de secuencia"puede referirse a un patrón corto y recurrente de bases en fragmentos de ADN (por ejemplo, fragmentos de ADN extracelular circulante). Un motivo de secuencia puede aparecer en un extremo de un fragmento y, por lo tanto, ser parte de una secuencia terminal o estar incluido en ella. Un "motivo terminal" puede referirse a un motivo de secuencia para una secuencia terminal que aparece preferentemente en los extremos de los fragmentos de ADN, potencialmente para un tipo particular de tejido. Un motivo terminal también puede aparecer justo antes o justo después de los extremos de un fragmento, por lo tanto todavía corresponde a una secuencia terminal.
El término"alelos"se refiere a secuencias de ADN alternativas en el mismo locus genómico físico, lo que puede dar como resultado o no diferentes rasgos fenotípicos. En cualquier organismo diploide particular, con dos copias de cada cromosoma (excepto los cromosomas sexuales en un sujeto humano masculino), el genotipo de cada gen comprende el par de alelos presentes en ese locus, que son iguales en homocigotos y diferentes en heterocigotos. Una población o especie de organismos normalmente incluye múltiples alelos en cada locus entre varios individuos. Un locus genómico donde se encuentra más de un alelo en la población se denomina sitio polimórfico. La variación alélica en un locus se puede medir como el número de alelos (es decir, el grado de polimorfismo) presente o la proporción de heterocigotos (es decir, la tasa de heterocigosidad) en la población. Como se utiliza en el presente documento, el término"polimorfismo"se refiere a cualquier variación interindividual en el genoma humano, independientemente de su frecuencia. Ejemplos de dichas variaciones incluyen, pero sin limitación, polimorfismo de un único nucleótido, polimorfismos de repetición en tándem simples, polimorfismos de inserción y eliminación, mutaciones (que pueden provocar enfermedades) y variaciones en el número de copias. El término"haplotipo",como se utiliza en el presente documento, se refiere a una combinación de alelos en múltiples loci que se transmiten juntos en el mismo cromosoma o región cromosómica. Un haplotipo puede referirse a tan sólo un par de loci o a una región cromosómica, o a un cromosoma completo o a un brazo cromosómico.
La expresión"concentración fraccionaria de ADN fetal'se utiliza indistintamente con las expresiones"proporción de ADN fetal'y"fracción de ADN fetal',y se refiere a la proporción de moléculas de ADN fetal que están presentes en una muestra biológica (por ejemplo, muestra de plasma o suero materno) que procede del feto (Loet al.,Am Y Hum Genet. 1998;62:768-775; Lunet al.,Clin Chem. 2008; 54: 1664-1672). De manera similar, fracción tumoral o fracción de ADN tumoral puede referirse a la concentración fraccionaria de ADN tumoral en una muestra biológica.
Una"frecuencia relativa"puede referirse a una proporción (por ejemplo, un porcentaje, fracción o concentración). En particular, una frecuencia relativa de un motivo terminal particular (por ejemplo, CCGA) puede proporcionar una proporción de fragmentos de ADN extracelular circulante que están asociados con el motivo terminal CCGA, por ejemplo, por tener una secuencia terminal de CCGA.
Un"valor añadido"puede referirse a una propiedad colectiva, por ejemplo, de frecuencias relativas de un conjunto de motivos terminales. Los ejemplos incluyen una media, una mediana, una suma de frecuencias relativas, una variación entre las frecuencias relativas (por ejemplo, entropía, desviación estándar (DE), el coeficiente de variación (CV), recorrido intercuartílico (RIC) o un determinado límite de percentil (por ejemplo, percentil 95 o 99) entre diferentes frecuencias relativas), o una diferencia (por ejemplo, una distancia) de un patrón de referencia de frecuencias relativas, como puede implementarse en el agrupamiento.
Una"muestra de calibración"puede corresponder a una muestra biológica cuya concentración fraccionaria de ADN de interés clínico (por ejemplo, fracción de ADN específica de tejido) se conoce o se determina mediante un método de calibración, por ejemplo, utilizando un alelo específico para el tejido, tal como en el trasplante, en manera que un alelo presente en el genoma del donante pero ausente en el genoma del receptor puede utilizarse como marcador del órgano trasplantado. Como otro ejemplo, una muestra de calibración puede corresponder a una muestra a partir de la cual se pueden determinar motivos terminales. Una muestra de calibración puede utilizarse para ambos fines.
Un"punto de datos de calibración"incluye un"valorde calibración"y una concentración fraccionaria medida o conocida del ADN de interés clínico (por ejemplo, ADN de un tipo de tejido particular). El valor de calibración se puede determinar a partir de frecuencias relativas (por ejemplo, un valor añadido) tal como se determina para una muestra de calibración, para los cuales se conoce la concentración fraccionaria del ADN de interés clínico. Los puntos de datos de calibración pueden definirse de varias maneras, por ejemplo, como puntos individuales o como una función de calibración (también denominada curva de calibración o superficie de calibración). La función de calibración podría derivarse de una transformación matemática adicional de los puntos de datos de calibración.
Un"sitio"(también denominado"sitio genómico")corresponde a un solo sitio, que puede ser una única posición de base o un grupo de posiciones de bases correlacionadas, por ejemplo, un sitio CpG o un grupo más grande de posiciones de bases correlacionadas. Un "locus" puede corresponder a una región que incluye múltiples sitios. Un locus puede incluir únicamente un sitio, lo que haría que el locus fuera equivalente a un sitio en ese contexto.
El"índice de metilación"para cada sitio genómico (por ejemplo, un sitio CpG) puede referirse a la proporción de fragmentos de ADN (por ejemplo, determinados a partir de lecturas de secuencia o sondas) que muestran metilación en el sitio sobre el número total de lecturas que cubren ese sitio. Una "lectura" puede corresponder a información (por ejemplo, estado de la metilación en un sitio) obtenida de un fragmento de ADN. Se puede obtener una lectura utilizando reactivos (por ejemplo, cebadores o sondas) que hibriden preferentemente con fragmentos de ADN de un estado de metilación particular. Normalmente, dichos reactivos se aplican después del tratamiento con un proceso que modifica o reconoce diferencialmente las moléculas de ADN dependiendo de su estado de metilación, por ejemplo, conversión de bisulfito, o enzima de restricción sensible a la metilación, o proteínas de unión a la metilación, o anticuerpos antimetilcitosina, o técnicas de secuenciación de una sola molécula que reconocen, por ejemplo, metilcitosinas e hidroximetilcitosinas.
La"densidad de metilación"de una región puede referirse al número de lecturas en sitios dentro de la región que muestran metilación dividido por el número total de lecturas que cubren los sitios en la región. Los sitios pueden tener características específicas, por ejemplo, que son sitios CpG. Por lo tanto, la "densidad de metilación de CpG" de una región puede referirse al número de lecturas que muestran la metilación de CpG dividido por el número total de lecturas que cubren los sitios CpG en la región (por ejemplo, un sitio CpG particular, sitios CpG dentro de una isla de CpG o una región más grande). Por ejemplo, la densidad de metilación para cada grupo de 100 kb en el genoma humano se puede determinar a partir del número total de citosinas no convertidas después del tratamiento con bisulfito (que corresponde a la citosina metilada) en los sitios CpG como una proporción de todos los sitios CpG cubiertos por las lecturas de secuencia asignadas a la región de 100 kb. Este análisis también se puede realizar para otros tamaños de grupos, por ejemplo, 500 pb, 5 kb, 10 kb, 50 kb o 1 Mb, etc. Una región podría ser el genoma completo o un cromosoma o parte de un cromosoma (por ejemplo, un brazo cromosómico). El índice de metilación de un sitio CpG es el mismo que la densidad de metilación de una región cuando la región solo incluye ese sitio CpG. La "proporción de citosinas metiladas" puede referirse al número de sitios de citosina, "C", que se muestra que están metilados (por ejemplo, no convertidos después de la conversión con bisulfito) sobre el número total de restos de citosina analizados, es decir, incluyendo citosinas fuera del contexto de CpG, en la región. El índice de metilación, la densidad de metilación y la proporción de citosinas metiladas son ejemplos de "niveles de metilación". Aparte de la conversión con bisulfito, se pueden utilizar otros procesos conocidos por los expertos en la materia para consultar el estado de metilación de las moléculas de ADN, que incluyen, pero sin limitación, enzimas sensibles al estado de metilación (por ejemplo, enzimas de restricción sensibles a la metilación), proteínas de unión a metilación, secuenciación de una sola molécula utilizando una plataforma sensible al estado de metilación (por ejemplo, secuenciación de nanoporos (Schreiberet al.Proc Natl Acad Sci USA. 2013; 110: 18910-18915) y mediante el análisis en tiempo real de una sola molécula de Pacific Biosciences (Flusberget al.Nat Methods. 2010; 7: 461-465)). Un parámetro de metilación de una molécula de ADN puede corresponder a un porcentaje de sitios (por ejemplo, sitios CpG) que están metilados. El parámetro de metilación se puede especificar como un número absoluto o un porcentaje, que puede denominarse densidad de metilación de una molécula.
La expresión"profundidad de secuenciación"se refiere al número de veces que un locus está cubierto por una lectura de secuencia alineada con el locus. El locus puede ser tan pequeño como un nucleótido o tan grande como un brazo cromosómico o tan grande como todo el genoma. La profundidad de secuenciación puede expresarse como 50*, 100*, etc., donde "*" se refiere al número de veces que se cubre un locus con una lectura de secuencia. La profundidad de secuenciación también puede aplicarse a múltiples loci o a todo el genoma, en cuyo caso * puede referirse al número medio de veces que se secuencian los loci, el genoma haploide o todo el genoma. La secuenciación ultraprofunda puede referirse a una profundidad de secuenciación de al menos 100*.
Un"valor de separación"corresponde a una diferencia o una relación entre dos valores, por ejemplo, dos contribuciones fraccionarias o dos niveles de metilación. El valor de separación puede ser una simple diferencia o relación. Como ejemplos, una relación directa de x/y es un valor de separación, así como x/(x+y). El valor de separación puede incluir otros factores, por ejemplo, factores multiplicativos. Como otros ejemplos, se puede utilizar una diferencia o relación de funciones de los valores, por ejemplo, una diferencia o relación de los logaritmos neperianos (In) de los dos valores. Un valor de separación puede incluir una diferencia y una relación.
Un"valor de separación"y un"valorañadido"(por ejemplo, de frecuencias relativas) son dos ejemplos de un parámetro que proporciona una medida de una muestra que varía entre diferentes clasificaciones (estados) y, por lo tanto, se puede utilizar para determinar diferentes clasificaciones. Un valor añadido puede ser un valor de separación, por ejemplo, cuando se toma una diferencia entre un conjunto de frecuencias relativas de una muestra y un conjunto de frecuencias relativas de referencia, como se puede hacer en el agrupamiento.
El término"clasificación",como se utiliza en el presente documento, se refiere a cualquier número u otros caracteres que se asocian con una propiedad particular de una muestra. Por ejemplo, un símbolo "+" (o la palabra "positivo") podría significar que una muestra está clasificada como con eliminaciones o amplificaciones. La clasificación puede ser binaria (por ejemplo, positiva o negativa) o tener más niveles de clasificación (por ejemplo, una escala de 1 a 10 o de 0 a 1).
Los términos"límite"y"umbral'se refieren a números predeterminados utilizados en una operación. Por ejemplo, un tamaño límite puede referirse a un tamaño por encima del cual se excluyen los fragmentos. Un valor umbral puede ser un valor por encima o por debajo del cual se aplica una determinada clasificación. Cualquiera de estos términos se puede utilizar en cualquiera de estos contextos. Un límite o umbral puede ser "un valor de referencia" o proceder de un valor de referencia que sea representativo de una clasificación particular o discrimine entre dos o más clasificaciones. Dicho valor de referencia se puede determinar de varias maneras, como apreciará el experto. Por ejemplo, se pueden determinar parámetros para dos cohortes diferentes de sujetos con diferentes clasificaciones conocidas, y se puede seleccionar un valor de referencia como representativo de una clasificación (por ejemplo, una media) o un valor que se encuentra entre dos grupos de parámetros (por ejemplo, elegido para obtener una sensibilidad y especificidad deseadas). Como otro ejemplo, se puede determinar un valor de referencia en función de simulaciones estadísticas de muestras.
La expresión"nivel de cáncer1"puede referirse a si existe el cáncer (es decir, presencia o ausencia), un estadio de un cáncer, un tamaño del tumor, si hay metástasis, la carga tumoral total del organismo, la respuesta del cáncer al tratamiento y/u otra medida de la gravedad de un cáncer (por ejemplo, recaída de un cáncer). El nivel de cáncer puede ser un número u otros indicios, tales como símbolos, letras del alfabeto y colores. El nivel puede ser cero. El nivel de cáncer también puede incluir afecciones premalignas o precancerosas (estadios). El nivel de cáncer se puede utilizar de diversas maneras. Por ejemplo, el cribado puede comprobar si el cáncer está presente en una persona de la que no se sabe previamente si lo padece. La evaluación puede investigar a una persona a la que se le ha diagnosticado un cáncer para supervisar la evolución del mismo a lo largo del tiempo, estudiar la eficacia de las terapias o determinar el pronóstico. En una realización, el pronóstico se puede expresar como la probabilidad de que un paciente muera de cáncer o la probabilidad de que el cáncer progrese después de una duración o tiempo específicos, o la probabilidad de que el cáncer metastatice o del alcance de la metástasis. La detección puede significar "cribado" o puede significar comprobar si alguien, con características indicativas de cáncer (por ejemplo, síntomas u otras pruebas positivas), tiene cáncer.
Un"nivel de patología"puede referirse a la cantidad, grado o intensidad de la patología asociada con un organismo, donde el nivel puede ser como se ha descrito anteriormente para el cáncer. Otro ejemplo de patología es el rechazo de un órgano trasplantado. Otros ejemplos de patologías pueden incluir crisis autoinmunitarias (por ejemplo, nefritis lúpica que daña el riñón o esclerosis múltiple), enfermedades inflamatorias (por ejemplo, hepatitis), procesos fibróticos (por ejemplo, cirrosis), esteatosis hepática, procesos degenerativos (por ejemplo, enfermedad de Alzheimer) y daño tisular isquémico (por ejemplo, infarto de miocardio o accidente cerebrovascular). El estado de salud de un sujeto puede considerarse una clasificación de ausencia de patología.
El término "aproximadamente" puede significar dentro de un intervalo de error aceptable para el valor particular determinado por un experto en la materia, que dependerá en parte de cómo se mida o determine el valor, es decir, de las limitaciones del sistema de medida. Por ejemplo, "aproximadamente" puede significar dentro de 1 o más de 1 desviación estándar, según la practica en la materia. De manera alternativa, "aproximadamente" puede significar un intervalo de hasta el 20 %, hasta el 10 %, hasta el 5 % o hasta el 1 % de un valor dado. De manera alternativa, particularmente con respecto a los sistemas o procesos biológicos, el término "aproximadamente" puede significar dentro de un orden de magnitud, dentro de 5 veces, y más preferentemente dentro de 2 veces, de un valor. Cuando se describan valores particulares en la solicitud y en las reivindicaciones, a menos que se indique lo contrario, debe asumirse el término "aproximadamente" dentro de un intervalo de error aceptable para el valor particular. El término "aproximadamente" puede tener el significado comprendido normalmente por el experto habitual en la materia. El término "aproximadamente" puede referirse a ± 10 %. El término "aproximadamente" puede referirse a ± 5 %.
Descripción detallada
La presente divulgación describe técnicas para medir cantidades (por ejemplo, frecuencias relativas) de motivos terminales de fragmentos de ADN extracelular circulante en una muestra biológica de un organismo para medir una propiedad de la muestra y/o determinar una afección del organismo en función de dichas mediciones. Los diferentes tipos de tejido presentan diferentes patrones para las frecuencias relativas de los motivos de secuencia. La presente divulgación proporciona varios usos para las medidas de las frecuencias relativas de los motivos terminales del ADN extracelular circulante, por ejemplo, en mezclas de ADN extracelular circulante de varios tejidos. El ADN de uno de dichos tejidos puede denominarse ADN de interés clínico.
El ADN de interés clínico de un tejido particular (por ejemplo, de un feto, un tumor o un órgano trasplantado) presenta un patrón particular de frecuencias relativas, que se puede medir como un valor añadido. Otro ADN en una muestra puede presentar un patrón diferente, permitiendo así una medición de una cantidad de ADN de interés clínico en la muestra. Por consiguiente, en un ejemplo, se puede determinar una concentración fraccionaria (por ejemplo, un porcentaje) de ADN de interés clínico en función de las frecuencias relativas de los motivos terminales. La concentración fraccionaria puede ser un número, un intervalo numérico u otra clasificación, por ejemplo, elevada, media o baja, o si la concentración fraccionaria supera un umbral. En diversas implementaciones, el valor añadido podría ser una suma de frecuencias relativas para un conjunto de motivos terminales, una variación (por ejemplo, entropía, también llamada puntuación de diversidad de motivos) en frecuencias relativas en todos o en un conjunto de motivos terminales, o una diferencia (por ejemplo, distancia total) de un patrón de referencia, por ejemplo, una matriz (vector) de frecuencias relativas para muestras de calibración con una concentración fraccionaria conocida. Dicha matriz se puede considerar un conjunto de referencia de frecuencias relativas. Dicha diferencia se puede utilizar en un clasificador del que el agrupamiento jerárquico, las máquinas de vectores de soporte y la regresión logística son ejemplos. Como ejemplos, el ADN de interés clínico puede ser ADN fetal, tumoral, del órgano trasplantado o de otro tejido (por ejemplo, hematopoyético o hepático).
En otro ejemplo, se puede determinar un nivel de patología utilizando frecuencias relativas de los motivos. Un organismo que tiene diferentes fenotipos puede presentar diferentes patrones de frecuencias relativas de los motivos de los fragmentos de ADN extracelular circulante. Se puede comparar un valor añadido de frecuencias relativas de los motivos terminales con un valor de referencia para clasificar el fenotipo. En diversas implementaciones, el valor añadido puede ser una suma de frecuencias relativas, una variación en frecuencias relativas o una diferencia con respecto a un conjunto de referencia de frecuencias relativas. Los ejemplos de patologías incluyen cáncer y enfermedades autoinmunitarias, tales como LES.
En otro ejemplo, las frecuencias relativas de los motivos se pueden utilizar para determinar la edad gestacional de un feto. El valor añadido de las frecuencias relativas de los motivos terminales cambia en una muestra materna como resultado de la mayor edad gestacional del feto. Dicho valor añadido se puede determinar como se describe anteriormente y en otros sitios.
Dado que los fragmentos de ADN extracelular circulante de un determinado tejido tienen un conjunto particular de motivos terminales que se prefieren, los motivos terminales preferidos se pueden utilizar para enriquecer una muestra para ADN de un determinado tejido (ADN de interés clínico). Dicho enriquecimiento se puede realizar mediante operaciones físicas para enriquecer la muestra física. Algunas realizaciones pueden capturar y/o amplificar fragmentos de ADN extracelular circulante que tienen secuencias terminales que coinciden con un conjunto de motivos terminales preferidos, por ejemplo, mediante cebadores o adaptadores. Otros ejemplos se describen en el presente documento.
En algunas realizaciones, el enriquecimiento se puede realizar por ordenador. Por ejemplo, un sistema puede recibir lecturas de secuencia y después filtrar las lecturas en función de los motivos terminales para obtener un subconjunto de lecturas de secuencia que tengan una mayor concentración de fragmentos de ADN correspondientes del ADN de interés clínico. Si un fragmento de ADN tiene una secuencia terminal que incluye un motivo terminal preferido, se puede identificar que tiene una mayor probabilidad de provenir del tejido de interés. La probabilidad se puede determinar aún más en función de la metilación y el tamaño de los fragmentos de ADN, como se describe en el presente documento.
Dichos usos de motivos terminales pueden obviar la necesidad de un genoma de referencia, según sea necesario cuando se utilizan posiciones terminales (Chanet al.,Proc Natl Acad Sci USA. 2016; 113: E8159-8168; Jianget al.,Proc Natl Acad Sci USA. 2018; doi: 10.1073/pnas.1814616115)). Además, como el número de motivos terminales puede ser menor que el número de posiciones terminales preferidas en un genoma de referencia, se pueden recopilar mayores estadísticas para cada motivo terminal, aumentando potencialmente la precisión.
Esta capacidad de utilizar motivos terminales de la manera descrita anteriormente es sorprendente, por ejemplo, ya que Chandranandaet al.descubrieron que había una gran similitud entre los fragmentos maternos y fetales en cuanto a los patrones de nucleótidos específicos de la posición con respecto a las frecuencias de mononucleótidos para la región de 51 pb (20 pb cadena arriba/cadena abajo) alrededor de los sitios de inicio de los fragmentos (Chandranandaet al.,BMC Med Genomics. 2015; 8:29), lo que implica que el uso de su método basado en frecuencias de mononucleótidos alrededor de los extremos no pudo informar sobre el tejido de origen de los fragmentos de ADN extracelular circulante.
I. MOTIVOS TERMINALES DEL ADN EXTRACELULAR CIRCULANTE
Un motivo terminal se refiere a la secuencia terminal de un fragmento de ADN extracelular circulante, por ejemplo, la secuencia de las K bases en cada extremo del fragmento. La secuencia terminal puede ser k unidades que tiene varios números de bases, por ejemplo, 1, 2, 3, 4, 5, 6, 7, etc. El motivo terminal (o "motivo de secuencia") se refiere a la secuencia misma y no con una posición particular en un genoma de referencia. Por lo tanto, un mismo motivo terminal puede aparecer en numerosas posiciones a lo largo de un genoma de referencia. El motivo terminal puede determinarse utilizando un genoma de referencia, por ejemplo, para identificar bases justo antes de una posición inicial o justo después de una posición terminal. Dichas bases seguirán correspondiendo a extremos de fragmentos de ADN extracelular circulante, por ejemplo, tal como se identifican en función de las secuencias terminales de los fragmentos.
En la figura 1 se muestran ejemplos de motivos terminales de acuerdo con realizaciones de la presente divulgación. En la figura 1 se representan dos formas de definir motivos terminales de 4 unidades que se van a analizar. En la técnica 140, los motivos terminales de 4 unidades se construyen directamente a partir de la primera secuencia de 4 pb en cada extremo de una molécula de ADN en plasma. Por ejemplo, podrían utilizarse los primeros 4 nucleótidos o los últimos 4 nucleótidos de un fragmento secuenciado. En la técnica 160, los motivos terminales de 4 unidades se construyen conjuntamente mediante el uso de la secuencia de 2 unidades de los extremos secuenciados de los fragmentos y la otra secuencia de 2 unidades a partir de las regiones genómicas adyacentes a los extremos de ese fragmento. En otras realizaciones, se pueden utilizar otros tipos de motivos, por ejemplo, motivos terminales de 1 unidad, 2 unidades, 3 unidades, 5 unidades, 6 unidades y 7 unidades.
Como se muestra en la figura 1, se obtienen fragmentos de ADN extracelular circulante 110, por ejemplo, utilizando un proceso de purificación en una muestra de sangre, tal como mediante centrifugación. Además de los fragmentos de ADN en plasma, se pueden utilizar otros tipos de moléculas de ADN extracelular circulante, por ejemplo, del suero, orina, saliva y otras muestras extracelulares circulantes mencionadas en el presente documento. En una realización, los fragmentos de ADN pueden tener extremos romos.
En el bloque 120, los fragmentos de ADN se someten a secuenciación por ambos extremos. En algunas realizaciones, la secuenciación por ambos extremos puede producir dos lecturas de secuencia de los dos extremos de un fragmento de ADN, por ejemplo, de 30 a 120 bases por lectura de secuencia. Estas dos lecturas de secuencia pueden formar un par de lecturas para el fragmento de ADN (molécula), donde cada lectura de secuencia incluye una secuencia terminal de un extremo respectivo del fragmento de ADN. En otras realizaciones, se puede secuenciar todo el fragmento de ADN, proporcionando así una única lectura de secuencia, que incluye las secuencias terminales de ambos extremos del fragmento de ADN.
En el bloque 130, las lecturas de secuencia se pueden alinear a un genoma de referencia. Esta alineación es para ilustrar diferentes formas de definir un motivo de secuencia y puede no utilizarse en algunas realizaciones. El procedimiento de alineación se puede realizar con varios paquetes informáticos, tales como BLAST, FASTA, Bowtie, BWA, BFAST, SHRiMP, SSAHA2, NovoAlign y SOAP.
La técnica 140 muestra una lectura de secuencia de un fragmento secuenciado 141, con una alineación con un genoma 145. Considerando el extremo en 5' como el inicio, un primer motivo terminal 142 (CCCA) está al inicio del fragmento secuenciado 141. Un segundo motivo terminal 144 (TCGA) está en la cola del fragmento secuenciado 141. En una realización, dichos motivos terminales podrían aparecer cuando una enzima reconoce CCCA y después hace un corte justo antes de la primera C. Si ese es el caso, CCCA estará preferentemente al final del fragmento de ADN en plasma. Para TCGA, una enzima podría reconocerlo y después hacer un corte después de la A.
La técnica 160 muestra una lectura de secuencia de un fragmento secuenciado 161, con una alineación con un genoma 165. Considerando el extremo en 5' como el inicio, un primer motivo terminal 162 (CGCC) tiene una primera porción (CG) que aparece justo antes del inicio del fragmento secuenciado 161 y una segunda porción (CC) que es parte de la secuencia terminal para el inicio del fragmento secuenciado 161. Un segundo motivo terminal 164 (CCGA) tiene una primera porción (GA) que aparece justo después de la cola del fragmento secuenciado 161 y una segunda porción (CC) que es parte de la secuencia terminal de la cola del fragmento secuenciado 161. En una realización, dichos motivos terminales podrían aparecer cuando una enzima reconoce CGCC y después hace un corte entre de la G y la C. Si ese es el caso, CC estará preferentemente al final del fragmento de<a>D<n>en plasma y CG aparecerá justo antes, proporcionando así un motivo terminal de CGCC. En cuanto al segundo motivo terminal 164 (CCGA), una enzima puede cortar entre C y G. Si ese es el caso, CC estará preferentemente al final del fragmento de ADN en plasma. Para la técnica 160, el número de bases de las regiones del genoma adyacentes y de los fragmentos de ADN en plasma secuenciados puede variar y no está necesariamente restringido a una proporción fija, por ejemplo, en lugar de 2:2, la proporción puede ser 2:3, 3:2, 4:4, 2:4, etc.
Cuanto mayor sea el número de nucleótidos incluidos en la firma terminal del ADN extracelular circulante, mayor será la especificidad del motivo porque la probabilidad de tener 6 bases ordenadas en una configuración exacta en el genoma es menor que la probabilidad de tener 2 bases ordenadas en una configuración exacta en el genoma. Por lo tanto, la elección de la longitud del motivo terminal puede regirse por la sensibilidad y/o especificidad necesaria de la aplicación de uso prevista.
Como la secuencia terminal se utiliza para alinear la lectura de secuencia con el genoma de referencia, cualquier motivo de secuencia determinado a partir de la secuencia terminal o justo antes o después todavía se determina a partir de la secuencia terminal. Por lo tanto, la técnica 160 realiza una asociación de una secuencia terminal a otras bases, donde la referencia se utiliza como mecanismo para realizar esa asociación. Una diferencia entre las técnicas 140 y 160 sería a qué dos motivos terminales se asigna un fragmento de ADN particular, lo que afecta a los valores particulares de las frecuencias relativas. Pero, el resultado general (por ejemplo, concentración fraccionada de ADN de interés clínico, clasificación de un nivel de patología, etc.) no se vería afectado por cómo se asigna un fragmento de ADN a un motivo terminal, siempre y cuando se utilice una técnica coherente para los datos de capacitación tal como se utiliza en producción.
Los recuentos de fragmentos de ADN que tienen una secuencia terminal correspondiente a un motivo terminal particular pueden contarse (por ejemplo, almacenarse en una matriz en la memoria) para determinar frecuencias relativas. Como se describe con mayor detalle a continuación, se puede analizar una frecuencia relativa de motivos terminales para fragmentos de ADN extracelular circulante. Se han detectado diferencias en las frecuencias relativas de los motivos terminales para diferentes tipos de tejido y para diferentes fenotipos, por ejemplo, diferentes niveles de patología. Las diferencias se pueden cuantificar mediante una cantidad de fragmentos de ADN que tienen motivos terminales específicos o un patrón general, por ejemplo, una varianza (tal como entropía, también llamada puntuación de diversidad de motivos), a través de un conjunto de motivos terminales (por ejemplo, todas las combinaciones posibles de k unidades correspondientes a la longitud utilizada).
II. ENFOQUES BASADOS EN DIFERENCIAS GENOTÍPICAS
Se han identificado que diferentes tipos de tejido tienen diferentes motivos terminales. En el presente documento, se describe cómo se pueden utilizar los motivos terminales para determinar una concentración fraccionaria de ADN de interés clínico, por ejemplo, ADN fetal, ADN tumoral, ADN de un órgano trasplantado o ADN de un órgano en particular.
Para identificar motivos terminales que son preferenciales para un tipo particular de ADN de interés clínico, se pueden utilizar diferencias genotípicas para identificar un fragmento de ADN como procedente del tejido de interés clínico. Una vez que se detecta que un fragmento de ADN procede de un tejido de interés clínico, se puede determinar un motivo terminal del fragmento de ADN. Los presentes análisis de una frecuencia relativa de motivos terminales revelan que la frecuencia relativa de los motivos terminales varía para diferentes tejidos. Tal como se explica a continuación, la cuantificación de la diferencia en frecuencias relativas se puede utilizar junto con muestras de calibración, cuya concentración fraccionaria de ADN de interés clínico se conoce (por ejemplo, medida mediante una técnica separada, como un alelo específico de tejido), para determinar una clasificación de la concentración fraccionaria de ADN de interés clínico en la muestra biológica.
Aunque puede ser necesaria la medición de la concentración fraccionaria de ADN de interés clínico en las muestras de calibración, los valores de calibración resultantes (por ejemplo, como parte de una función de calibración) se pueden utilizar para determinar una concentración fraccionaria para una nueva muestra sin tener que identificar alelos que son específicos del ADN de interés clínico. De esta manera, la concentración fraccionaria se puede determinar de una manera más sólida.
A. Embarazo
La diferencia genotípica entre los genomas maternos y fetales se puede utilizar para distinguir las moléculas de ADN fetal y materno. Por ejemplo, se puede hacer uso de los sitios informativos del polimorfismo mononucleotídico (SNP, del ingléssingle nucleotide polymorphism)para los cuales la madre es homocigota (AA) y el feto es heterocigoto (AB).
En la figura 2 se muestra un esquema de un enfoque basado en diferencias genotípicas para analizar los patrones diferenciales de motivos terminales entre moléculas de ADN fetal y materno de acuerdo con realizaciones de la presente divulgación. Como se ilustra en la figura 2, se pueden determinar las moléculas 205 específicas del feto que portan los alelos específicos del feto (B). Por otra parte, se pueden determinar las moléculas compartidas 207 que portan el alelo compartido (A), lo que representaría las moléculas de ADN de origen predominantemente materno porque las moléculas de ADN fetal generalmente serían la minoría en el conjunto de ADN del plasma materno. Por tanto, cualquier propiedad molecular procedente de moléculas compartidas reflejaría las características de las moléculas de ADN de origen materno (es decir, moléculas de ADN derivadas hematopoyéticamente). Además de los alelos, se pueden utilizar otros marcadores fetales específicos (por ejemplo, marcadores epigenéticos).
Se analizaron motivos terminales de 4 unidades mediante la técnica 140 en la figura 1. Se analizaron 256 motivos terminales. Se calculó la proporción de cada motivo de 4 unidades y se compararon las frecuencias de 256 motivos mediante un diagrama de barras, representado como diagrama de barras 220. Dicho gráfico de barras proporciona una frecuencia relativa (%) con la que cada 4 unidades aparece como motivo terminal. Para facilitar la ilustración, sólo se muestran unas pocas 4 unidades. Una frecuencia relativa (también denominada a veces simplemente "frecuencia") se puede determinar mediante n.° de fragmentos de ADN que tienen el motivo terminal) / un número total de fragmentos de ADN analizados, potencialmente con un factor de 2 en el denominador, para tener en cuenta ambos extremos. Dicho porcentaje se puede considerar una frecuencia relativa ya que se refiere a una proporción de una cantidad (por ejemplo, recuento) para un primer motivo terminal con respecto a una cantidad para uno o más motivos distintos (incluido potencialmente el primer motivo terminal). Como se puede observar, un motivo terminal 222 tiene una diferencia significativa de frecuencias relativas entre fragmentos de ADN de los diferentes tipos de tejido. Dicha diferencia se puede utilizar para diversos fines, por ejemplo, para enriquecer una muestra de ADN fetal o para determinar una concentración de ADN fetal.
Los valores de las frecuencias relativas que se muestran en el diagrama de barras 220 pueden ser valores almacenados en una matriz que tiene 256 valores. Pueden existir recuentos para cada motivo terminal de un conjunto de motivos terminales, donde un recuento para un motivo terminal particular se incrementa cada vez que un nuevo fragmento de ADN tiene un motivo terminal correspondiente a ese recuento. El conjunto de motivos se puede seleccionar de varias maneras, por ejemplo, como todos los motivos terminales o un conjunto más pequeño, tal como los que aparecen con la mayor frecuencia en una muestra de referencia o los que muestran una mayor separación en una muestra de referencia.
Se pueden utilizar diversas técnicas de cuantificación para proporcionar una medida de las frecuencias relativas de una muestra, y dichas técnicas de cuantificación se pueden utilizar para clasificar una cantidad de ADN extracelular circulante a partir del ADN de interés clínico. Un ejemplo de técnica de cuantificación incluye la suma de las frecuencias relativas de un conjunto de motivos terminales, también denominada en el presente documento frecuencia combinada. Como ejemplo, dicho conjunto puede ser motivos terminales que aparecen con mayor frecuencia en un tipo de tejido particular o que se identifican por tener una separación mayor entre dos tipos de tejido. También se podría utilizar una suma ponderada. Los pesos pueden ser predeterminados o variables, por ejemplo, un peso para una frecuencia determinada puede depender de la frecuencia misma. Una entropía es un ejemplo de ello.
En otra realización, para capturar la diferencia del contexto en los motivos terminales entre las moléculas de ADN fetal y materno, se puede utilizar un análisis basado en entropía 230. La entropía es un ejemplo de varianza/diversidad. Para analizar la distribución de frecuencias de motivos (por ejemplo, para un total de 256 motivos), una definición de entropía utiliza la siguiente ecuación:
256
Entropía = ^ ~ pi **°g(p¿)
¿ = i
dondePies la frecuencia de un motivo particular; un valor de entropía más elevado indica una mayor diversidad (es decir, un mayor grado de aleatoriedad).
En este ejemplo, cuando los 256 motivos están igualmente presentes en términos de sus frecuencias, la entropía alcanzaría el valor máximo (es decir, 5,55). Por el contrario, cuando los 256 motivos tienen una distribución sesgada en sus frecuencias, la entropía disminuiría. Por ejemplo, si un motivo en particular representa el 99 % y los otros motivos constituyen el 1 % restante, la entropía disminuiría a 0,11 en esta formulación, aunque pueden utilizarse otras formulaciones, tales como sin log o simplemente utilizando el log. Por tanto, la entropía decreciente de las frecuencias de los motivos implicaría una asimetría cada vez mayor en la distribución de frecuencias entre los motivos terminales. La entropía creciente de las frecuencias de los motivos sugeriría que las frecuencias entre los motivos cambiarían hacia probabilidades iguales para esos motivos. Por consiguiente, la entropía de las frecuencias de los motivos mide cuán uniformemente están presentes las abundancias de los motivos terminales en el ADN en plasma. Cuanto mayor sea el grado de uniformidad en las frecuencias de los motivos, mayores serán los valores de entropía esperados. Dicho de otro modo, la disminución de la entropía de las frecuencias de los motivos implicaría una asimetría cada vez mayor entre los motivos terminales en términos de su frecuencia.
En varios otros ejemplos, la desviación estándar (DE), el coeficiente de variación (CV), el recorrido intercuartílico (RIC) o un determinado límite de percentil (por ejemplo, percentil 95 o 99) entre diferentes frecuencias de motivos se puede utilizar para evaluar los cambios de contexto de los patrones de los motivos terminales entre las moléculas de ADN fetal y materno. Dichos diversos ejemplos proporcionan medidas de varianza/diversidad en las frecuencias relativas para un conjunto de motivos terminales. Dada la definición de entropía en la figura 2, la entropía tendrá un valor mínimo si solo un motivo terminal tiene un recuento distinto de cero. Si aparecen otros motivos terminales en algunos fragmentos de ADN, la entropía aumentará. Si no hay selección (distribución aleatoria para todos los motivos terminales, por ejemplo, en un escenario hipotético en el que todos tienen la misma frecuencia), entonces la entropía irá al valor máximo. De esta manera, la entropía cuantifica una selectividad global de las secuencias terminales de los fragmentos de ADN extracelular circulante para motivos terminales.
En el gráfico 235 se muestran valores de entropía para las secuencias compartidas (predominantemente maternas) y las secuencias fetales. Las secuencias compartidas comprenden menos ADN fetal (potencialmente alrededor de un 5 % si la muestra original tenía un 10 % de ADN fetal) que las secuencias fetales, que tendrían casi el 100 % de ADN fetal, dentro de una tolerancia de error para las mediciones de genotipado. Dada esta separación, cuanto mayor sea la concentración de ADN fetal en una muestra, mayor será la diferencia del valor de entropía. Esta relación entre la concentración de ADN fetal y la entropía se puede utilizar para determinar la concentración de ADN fetal, por ejemplo, medida utilizando uno o más valores de calibración. Por ejemplo, se puede medir la concentración de ADN de interés clínico para una muestra de calibración mediante otra técnica (lo que da como resultado un valor de calibración), que podría no ser de aplicación general, tal como el uso de ADN del cromosoma Y para fetos masculinos o una mutación previamente identificada para tejido tumoral. Dada una medida de entropía para la muestra de calibración, una comparación de los dos valores de entropía (uno para la muestra de prueba y otro para la muestra de calibración) puede proporcionar una concentración fraccionaria para la muestra de prueba, mediante la concentración medida en la muestra de calibración. Más adelante se describen más detalles de dicho uso de los valores de calibración y funciones de calibración.
En aun otra realización, se puede emplear un análisis basado en agrupamiento 240. El eje vertical corresponde a los motivos de 4 unidades, y el eje horizontal corresponde a las diferentes muestras, por ejemplo, que tienen diferente clasificación para la concentración de ADN fetal. El color corresponde a una frecuencia relativa de un motivo de 4 unidades particular para muestras particulares, por ejemplo, teniendo las muestras de calibración rojas 242 una concentración mayor que las muestras de calibración verdes 244, que tienen un valor menor.
El análisis basado en agrupamientos puede aprovechar la suposición de que la similitud del perfil de frecuencias de 256 motivos terminales de 4 unidades sería relativamente mayor en las moléculas de ADN fetal o en las moléculas de ADN materno (es decir, propiedades moleculares en el grupo) en comparación con la similitud entre las moléculas de ADN fetal y materno (es decir, propiedades moleculares entre grupos). Por lo tanto, se esperaba que las muestras de calibración de individuos caracterizados con los motivos terminales procedentes de secuencias compartidas (por ejemplo, una mayor concentración de secuencias compartidas) fueran diferentes de las muestras de calibración de individuos caracterizados con los motivos terminales procedentes de secuencias específicas del feto (por ejemplo, una menor concentración de secuencias compartidas y, por tanto, más secuencias fetales). Cada individuo correspondía a un vector que comprendía 256 motivos terminales y sus frecuencias correspondientes (es decir, un vector de 256 dimensiones). Técnicas de agrupamiento ilustrativas incluyen, pero sin limitación, agrupamiento jerárquico, agrupamiento basado en centroides, agrupamiento basado en distribución, agrupamiento basado en densidad. Los diferentes grupos pueden corresponder a diferentes cantidades de ADN fetal en la muestra, ya que tendrán diferentes patrones de frecuencias relativas, debido a las diferencias en la frecuencia de los motivos terminales entre los fragmentos de ADN materno y fetal.
Para evaluar la diferencia de motivos terminales entre las moléculas de ADN fetal y materno, se genotiparon, respectivamente, la capa leucocitaria materna y las muestras fetales mediante una plataforma de micromatrices (Human Omni2.5, Illumina) y se secuenciaron las muestras de ADN en plasma coincidentes. Se obtuvieron muestras de sangre periférica de 10 mujeres embarazadas de cada uno de los trimestres primero (12 a 14 semanas), segundo (20 a 23 semanas) y tercero (38 a 40 semanas) y se recogieron muestras de plasma y de la capa leucocitaria materna de cada caso. Se obtuvo una mediana de 195.331 SNP informativos (intervalo: de 146.428 a 202.800) donde la madre era homocigota y el feto era heterocigoto. Las moléculas de ADN en plasma que portaban los alelos específicos del feto se identificaron como moléculas de ADN específicas del feto. Se identificaron moléculas de ADN en plasma que portaban los alelos compartidos y se creyó que eran moléculas de ADN predominantemente de origen materno. La mediana de la fracción de ADN fetal entre esas muestras fue del 17,1 % (intervalo: del 7,0 % al 46,8 %). Para cada caso se obtuvo una mediana de 103 millones (intervalo: de 52 a 186 millones) de lecturas de ambos extremos. El motivo terminal de cada molécula de ADN en plasma se determinó mediante investigación bioinformática de las secuencias de 4 unidades más cercanas al extremo del fragmento. Los resultados del análisis de este conjunto de muestras se proporcionan a continuación.
1. Diferencias en frecuencias relativas en orden de clasificación
Se razonó que los principales motivos terminales en la diferencia clasificada de frecuencia de motivos entre las moléculas de ADN fetal y materno serían útiles para detectar o enriquecer las moléculas de ADN fetal y materno. Por lo tanto, se clasificaron los motivos terminales en términos de sus diferencias de frecuencia entre las moléculas de ADN fetal y materno en una mujer embarazada con una profundidad de secuenciación de 270*. Las secuencias fetales y compartidas se identificaron de acuerdo con los SNP informativos de manera similar a la mencionada anteriormente.
En la figura 3 se muestra un diagrama de barras de frecuencias de motivos terminales entre moléculas de ADN fetal y materno de acuerdo con realizaciones de la presente divulgación. Los datos se obtuvieron de una mujer embarazada con una profundidad de secuenciación de 270*. El eje vertical corresponde al porcentaje de frecuencia para un motivo de 4 unidades dado según lo determinado a partir del número de fragmentos de ADN (según lo determinado a partir de las lecturas de secuencia) que tenían un motivo de 4 unidades dado dividido por el número total de secuencias terminales de los fragmentos de ADN analizados (por ejemplo, dos veces el número de fragmentos de ADN). El eje horizontal corresponde a las 256 4 unidades diferentes. Las 4 unidades se ordenan en frecuencia decreciente para las secuencias compartidas, con la figura 3 dividida en dos partes con una escala diferente utilizada para el eje vertical. Se pudo observar una diferencia en las frecuencias de los motivos terminales entre las moléculas de ADN fetal (aquellas que tienen un alelo específico del feto) y las moléculas de ADN materno (aquellas que tienen el alelo compartido).
En la figura 4 se muestran los 10 motivos terminales principales de la figura 3 para secuencias fetales y compartidas (es decir, fetales más maternas) de acuerdo con realizaciones de la presente divulgación. El eje vertical se desplaza y comienza con una frecuencia del 1 %. Los 10 motivos terminales principales son CCCA, CCAG, CCTG, CCAA, CCCT, CCTT, CCAT, CAAA, CCTC y CCAC. Como se puede observar, algunos motivos terminales tienen una diferencia mayor entre las secuencias compartidas y las secuencias específicas fetales que otros. Por lo tanto, para diferenciar entre ADN materno y fetal, es posible que se desee utilizar los motivos terminales que tienen las mayores diferencias en lugar de los motivos terminales que simplemente tienen la frecuencia más elevada.
2. Uso de la entropía
Para varias muestras, se analizó a continuación la entropía de las moléculas de ADN que tenían el alelo compartido y la entropía de las moléculas de ADN que tenían el alelo específico del feto. Las primeras se identifican como maternas y las segundas como fetales. Para cada muestra, se obtienen dos puntos de datos: la entropía para las moléculas de ADN fetal y la entropía para las moléculas de ADN compartidas (marcadas como "maternas").
En la figura 5A se muestra que la entropía de los motivos terminales en las moléculas de ADN fetal es menor que la de las moléculas de ADN materno (valor dep<0,0001), lo que sugiere que existe una mayor asimetría en la distribución de los motivos terminales que se originan en las moléculas de ADN materno. La entropía en la figura 5A se determina utilizando los 256 motivos, ya que en estos ejemplos se utilizó 4 unidades, para una muestra determinada y para un conjunto determinado de moléculas de ADN fetal o de ADN materno.
Similar al gráfico 235 de la figura 2, la diferencia en la entropía para los dos tipos de tejido muestra que la entropía se puede utilizar para determinar una concentración fraccionaria de ADN fetal en una mezcla (por ejemplo, plasma o suero) de fragmentos de ADN extracelular circulante. Como se ha explicado anteriormente, los conjuntos identificados como ADN fetal tienen un porcentaje más elevado (por ejemplo, cerca del 100 %) de ADN fetal que los conjuntos maternos. Los valores de entropía determinados para los tipos de conjuntos son diferentes. Por lo tanto, existe una relación entre la entropía y la concentración de ADN fetal. Esta relación se puede determinar como una función de calibración basada en mediciones (valores de calibración) de la concentración de ADN fetal de las muestras de calibración y los valores de entropía correspondientes (ejemplo de frecuencias relativas), donde un valor de calibración y una frecuencia relativa pueden formar un punto de datos de calibración. Las muestras de calibración con diferentes concentraciones de ADN fetal tendrán diferentes valores de entropía. Se puede ajustar una función de calibración a los puntos de datos de calibración de manera que una frecuencia relativa recién medida (por ejemplo, entropía) se pueda introducir en la función de calibración para proporcionar un resultado de la concentración de ADN fetal.
En la figura 5B se muestra la entropía cuando se utilizan las frecuencias relativas de los 10 motivos de la figura 4. Como se muestra, la relación cambia con secuencias fetales que tienen una entropía más elevada para este conjunto dado de 10 motivos terminales. La concentración fraccionaria de ADN fetal todavía se puede determinar, pero se utilizaría una función de calibración diferente. Por lo tanto, el conjunto de motivos utilizados para la calibración debe ser el mismo que se utilizará posteriormente, es decir, cuando se mida la concentración fraccionaria basada en la entropía u otro valor añadido de las frecuencias relativas del conjunto.
3. Agrupamiento
Además, se llevó a cabo un análisis de agrupamiento jerárquico para mujeres embarazadas, cada uno de los cuales se caracterizó por un vector de 256 dimensiones que comprende todas las frecuencias de los motivos terminales de 4 unidades. De hecho, los individuos caracterizados con motivos terminales procedentes de secuencias específicas de feto y moléculas de ADN materno se pueden agrupar en dos grupos.
En las figuras 6A y 6B se muestran análisis de agolpamiento jerárquico para moléculas de ADN fetal y materno para un embarazo en el primer trimestre e acuerdo con realizaciones de la presente divulgación. En la figura 6A se muestra un análisis de agrupamiento jerárquico basado en 256 frecuencias de motivos terminales de 4 unidades. El eje vertical corresponde a los motivos de 4 unidades y el eje horizontal corresponde a diferentes porciones (es decir, las secuencias 620 (amarilla) específicas del feto y 610 (azul) compartida) de varias muestras. El color corresponde a una frecuencia relativa de un motivo de 4 unidades particular para porciones particulares de muestras.
Las diferentes porciones (específicas del feto y compartidas) tienen diferentes concentraciones de ADN fetal y, por lo tanto, tendrían diferentes clasificaciones para la concentración de ADN fetal. Cuando dicho agrupamiento se realiza utilizando muestras de calibración, se puede medir la concentración de ADN fetal, por ejemplo, como se ha descrito en la sección de entropía anterior. Cada muestra de calibración tendría un vector correspondiente de longitud igual al número de motivos utilizados (por ejemplo, 256 para los de 4 unidades o potencialmente solo un subconjunto de 4 unidades, ya que puede haber una mayor diferencia entre las secuencias fetales y compartidas, aunque se pueden utilizar otros de k unidades).
En la figura 6B se muestra una visualización ampliada para el análisis de agrupamiento jerárquico basado en 256 frecuencias de motivos terminales de 4 unidades. Cada fila representa un tipo de motivo terminal (es decir, un motivo terminal diferente). Cada columna representa una mujer embarazada. Los colores degradados indican las frecuencias de los motivos terminales. El rojo representa la frecuencia más elevada y el verde representa la frecuencia más baja. Como se puede observar, las dos porciones (fetal y compartida) que representan muestras con diferentes concentraciones de ADN fetal se agrupan limpiamente en dos grupos separados, mostrando buena precisión para poder diferenciar muestras con diferentes niveles de concentración de ADN fetal.
4. Muestras en diferentes trimestres
Además de poder diferenciar muestras con diferentes concentraciones fraccionarias, algunas realizaciones pueden diferenciar muestras de sujetos embarazadas en diferentes edades gestacionales (por ejemplo, en qué trimestre, o solo si está en el 3.er trimestre).
En las figuras 7A y 7B se muestran distribuciones de entropía que utilizan todos los motivos para mujeres embarazadas en diferentes trimestres de acuerdo con realizaciones de la presente divulgación. De manera interesante, los valores de entropía del número de motivos terminales determinados que utilizan fragmentos específicos del feto parecieron estar asociados con las edades gestacionales (valor de p: 0,024, datos del 1.er trimestre frente a datos agrupados del 2.° y 3.er trimestres), pero los de fragmentos compartidos (predominantemente ADN materno) no parecían estar asociados con la edad gestacional (valor de p: 1, datos del 1.er trimestre frente a los datos agrupados del 2^ y 3.er trimestres). Una gestación más tardía presenta, en general, concentraciones de ADN fetal más elevadas. Por lo tanto, puede haber una correlación entre la concentración y la edad gestacional.
Para los fragmentos específicos del feto, en comparación con el primer trimestre, el segundo y tercer trimestre tienen una entropía reducida. Por lo tanto, los fragmentos fetales pueden transmitir la edad gestacional. Y, dado que los fragmentos compartidos tienen esencialmente una entropía constante (por ejemplo, debido a que son en su mayoría fragmentos maternos y/o a que los cambios asociados a la fisiología materna en los motivos terminales anulan dichas señales fetales), un cambio en la entropía de todos los fragmentos reflejará la edad gestacional debido al cambio en los fragmentos fetales. Dicha relación de la entropía entre los diferentes trimestres mostrará menos cambios debido a la existencia de los fragmentos maternos, pero la relación seguirá existiendo. Pero, cuando se pueden identificar alelos específicos del feto (por ejemplo, un feto masculino o mediante la identificación de alelos que aparecen en un porcentaje similar a una concentración esperada de ADN fetal, o mediante el uso de información del genotipo paterno), entonces existiría una relación más pronunciada (por ejemplo, como se muestra en la figura 7B).
En las figuras 7C y 7D se muestran distribuciones de entropía que utilizan 10 motivos para mujeres embarazadas en diferentes trimestres de acuerdo con realizaciones de la presente divulgación. Los 10 motivos se seleccionaron mediante una clasificación determinada a partir de los fragmentos compartidos. En estas figuras se muestra que la entropía todavía cambia en diferentes trimestres para los fragmentos específicos del feto, incluso si la relación puede ser una disminución (a diferencia del aumento en la figura 7B), debido a la selección específica de motivos.
En la figura 8A se muestra la entropía de todos los fragmentos en diferentes edades gestacionales de acuerdo con realizaciones de la presente divulgación. La entropía se determina utilizando los 256 motivos terminales de 4 unidades. La entropía de los fragmentos de ADN en plasma en sujetos en el 3.er trimestre demostró ser más baja (valor dep= 0,06) que aquellos en el 1.er y 2^ trimestre. Y, el promedio para el 2^ trimestre es inferior al del 1.er trimestre. Por lo tanto, cuando se incluyen todos los fragmentos fetales (a diferencia de los fragmentos compartidos en la figura 7A), la entropía proporciona la edad gestacional.
En la figura 8B se muestra la entropía de fragmentos procedentes del cromosoma Y en diferentes edades gestacionales. La entropía de los fragmentos procedentes del cromosoma Y en sujetos en el 3.er trimestre demostró ser más baja (valor dep =0,01) que aquellos en el 1.er y 2.° trimestre. Estas muestras, que se filtran en busca de moléculas fetales (utilizando las secuencias específicas del feto del cromosoma Y), muestran una mayor separación entre el 3.er trimestre y el 2^ trimestre.
En las figuras 9 y 10 se muestra la distribución de los 10 principales motivos terminales clasificados entre las moléculas de ADN fetal y materno en diferentes trimestres de acuerdo con realizaciones de la presente divulgación. Los 10 motivos terminales principales en la diferencia clasificada en la frecuencia de motivos entre las moléculas de ADN fetal y materno se extrajeron de un único caso de embarazada con secuenciación profunda. Estos 10 motivos terminales principales se utilizaron después para analizar cada una de las muestras.
Las proporciones de moléculas de ADN fetal y compartido que portan estos motivos terminales de interés se calcularon en una cohorte independiente compuesta por 10 mujeres embarazadas de cada uno del primer (12 a 14 semanas), segundo (20 a 23 semanas) y tercer (38 a 40 semanas) trimestre, respectivamente. Se encontró que el número de motivos terminales eran más elevados en las moléculas de ADN fetal en comparación con las moléculas compartidas, lo que sugiere que esos motivos terminales guardan una determinada relación con el tejido de origen. Por ejemplo, se encontró que la mediana del % CAAA era coherentemente mayor en las moléculas de ADN fetal que en las moléculas compartidas (principalmente maternas) en el primer (1,26 % frente a 1,11 %), segundo (1,24 % frente a 1,11 %) y tercer (1,24 % frente a 1,15 %) trimestres. Por lo tanto, un motivo terminal CAAA se puede identificar como un marcador que indica una mayor probabilidad de que un fragmento de ADN particular que tiene una secuencia terminal de CAAA sea del feto.
Determinados motivos terminales muestran una relación más pronunciada con la edad gestacional. Por ejemplo, las moléculas de ADN fetal que tienen un motivo terminal CCCA muestran un aumento continuo (monótono) con la edad gestacional, al igual que CCAG, CCTG, CCAA, CCCT y CCAC. Sin embargo, CCTT no muestra un aumento continuo ya que la mediana cae para el 2^ trimestre, y después aumenta para el 3.er trimestre.
En otra realización, se podrían combinar los 10 motivos terminales mejor clasificados para ver la diferencia entre las moléculas de ADN fetal y materno en diferentes trimestres.
En la figura 11 se muestra una frecuencia combinada de los 10 motivos mejor clasificados entre moléculas fetales y compartidas en diferentes trimestres de acuerdo con realizaciones de la presente divulgación. Como se muestra en la figura 11, se descubrió que la diferencia en la frecuencia combinada de los 10 motivos terminales mejor clasificados entre las moléculas de ADN fetal y materno fue relativamente mayor tanto en el 2^ trimestre (valor de p: 0,013) como en el 3.er trimestre (valor de p: 0,0019) en comparación con el 1.er trimestre (valor de p: 0,92). La frecuencia de las moléculas fetales aumenta de manera continua del 1.er trimestre al 2^ trimestre al 3.er trimestre, mientras que esta relación continua no se muestra en las moléculas compartidas. Esto muestra que diferentes condiciones fisiológicas (por ejemplo, edades gestacionales) afectarían a los motivos terminales procedentes de diferentes tejidos de origen.
B. Oncología
Los medios genotípicos ideados en el contexto del embarazo también podrían aplicarse en el contexto de la oncología.
En la figura 12 se muestra un esquema de un enfoque basado en diferencias genotípicas para analizar los patrones diferenciales de motivos terminales entre moléculas mutantes y compartidas en el ADN en plasma de un paciente con cáncer de acuerdo con realizaciones de la presente divulgación. Como se ilustra en la figura 12, se pueden determinar las moléculas 1205 específicas de tumor que portan los alelos específicos de tumor (B). Por otra parte, se pueden determinar las moléculas compartidas 1207 que portan el alelo compartido (A), lo que representaría las moléculas de ADN de origen predominantemente sano porque las moléculas de ADN tumoral generalmente serían la minoría en el conjunto de ADN en plasma.
Como un ejemplo, se podrían identificar las secuencias mutantes (es decir, el ADN en plasma que porta mutaciones asociadas al cáncer) y las secuencias compartidas (principalmente ADN derivado hematopoyéticamente). Las mutaciones asociadas al cáncer podrían definirse como variantes presentes en los tejidos tumorales (carcinoma hepatocelular, CHC) pero ausentes en células normales (por ejemplo, capa leucocitaria). Por ejemplo, en un paciente con CHC, suponiendo que el genotipo de los tejidos tumorales fuera "AG" en un locus genómico particular y el genotipo de las células de la capa leucocitaria fuera "AA", la "G" específicamente presente en los tejidos tumorales se consideraría mutaciones asociadas al cáncer, y la "A" se consideraría un alelo de tipo silvestre compartido. En diversas implementaciones, la secuencia mutante se puede obtener mediante la secuenciación de una biopsia de tejido del tumor o mediante el análisis de una muestra libre de células tal como plasma o suero, por ejemplo, como se describe en la publicación de patente de Estados Unidos 2014/0100121.
El perfil de frecuencia de los motivos terminales entre secuencias mutantes y secuencias compartidas se determinó en un paciente con CHC cuyo ADN en plasma se secuenció con una profundidad de 220*. El gráfico de barras 1220 proporciona una frecuencia relativa (%) de que cada 4 unidades aparece como un motivo terminal para secuencias mutantes y compartidas. Dichas frecuencias relativas se pueden determinar como se describió anteriormente para el gráfico de barras 220 de la figura 2. Como se puede observar, un motivo terminal 1222 tiene una diferencia significativa de frecuencias relativas entre fragmentos de ADN de los diferentes tipos de tejido. Dicha diferencia se puede utilizar para diversos fines, por ejemplo, para enriquecer una muestra de ADN tumoral o para determinar una concentración de ADN tumoral.
En otra realización, para capturar la diferencia del contexto en los motivos terminales entre las moléculas de ADN tumorales y compartidas, se puede utilizar un análisis basado en entropía 1230, similar al de la figura 2. El gráfico 1235 muestra valores de entropía para las secuencias compartidas y las secuencias tumorales. La diferencia en la entropía u otro parámetro de varianza puede proporcionar una concentración fraccionaria del tumor, por ejemplo, utilizando una función de calibración.
En aun otra realización, se puede realizar un análisis basado en agrupamiento 1240, similar al análisis fetal en la figura 2. Se puede determinar una clasificación para una cantidad de secuencias tumorales en una muestra en función de una nueva muestra que pertenece a un grupo de referencia cuya clasificación de fracción tumoral se conoce.
1. Diferencias en frecuencias relativas en orden de clasificación
En la figura 13 se muestra el contexto de los motivos terminales del ADN en plasma de moléculas mutantes y compartidas asociadas al cáncer en el carcinoma hepatocelular de acuerdo con realizaciones de la presente divulgación. Hubo una serie de motivos terminales que se observaron alterados entre secuencias mutantes y compartidas, por ejemplo, pero sin limitación, motivos CCCA, CCAG, CCAA, CCTG, CCTT, CCCT, CAAA, CCAT, TAAA, AAAA. En la figura 13 se muestra información similar a la de la figura 3, pero el ADN de interés clínico es el ADN tumoral en lugar del ADN fetal.
En la figura 14 se muestra un contexto radial de los motivos terminales del ADN en plasma de moléculas mutantes y compartidas asociadas al cáncer en carcinoma hepatocelular de acuerdo con realizaciones de la presente divulgación. En la circunferencia exterior se enumeran diferentes motivos terminales y la frecuencia de un motivo terminal se muestra en diferentes longitudes radiales. Los motivos terminales se clasifican por frecuencia del alelo de tipo silvestre (ts) de células no tumorales (por ejemplo, sanas). Los valores de frecuencia 1410 corresponden a los alelos ts y los valores de frecuencia 1420 corresponden al alelo mutante (mut). En esta vista radial se muestran diferencias significativas en las frecuencias relativas de los motivos terminales de las secuencias mutantes en comparación con las secuencias de tipo silvestre (compartidas).
En la figura 15A se muestran los 10 motivos terminales principales en la diferencia clasificada de frecuencias de los motivos terminales entre secuencias mutantes y compartidas en el ADN en plasma de un paciente con CHC de acuerdo con realizaciones de la presente divulgación. Los motivos terminales principales se determinan para las secuencias compartidas en una muestra de referencia. Como se muestra, los motivos terminales principales son CCCA, CCAG, CCAA, CCTG, CCTT, CCCT, CAAA, CCAT, TAAA y AAAA. La diferencia en las frecuencias relativas varía entre los motivos terminales. Por ejemplo, se encontró que el motivo (CCCA) que muestra más diferencias entre las secuencias mutantes y compartidas era del 1,9 % y del 1,6 %, respectivamente, lo que sugiere una reducción del 15 % en las secuencias mutantes para dicho motivo en relación con las secuencias compartidas (principalmente secuencias de tipo silvestre procedentes de células sanguíneas).
En la figura 15B se muestra una frecuencia combinada para 8 motivos terminales para un paciente con CHC y una mujer embarazada de acuerdo con realizaciones de la presente divulgación. La frecuencia combinada es un valor añadido ilustrativo, por ejemplo, como una suma de frecuencias relativas de un conjunto de motivos terminales. Como puede observarse, hay una separación en la frecuencia combinada para las dos clases de secuencias en cada uno de estos dos escenarios: entre las secuencias de tipo silvestre (TS) y mutante, y las materna y fetal. La separación de la frecuencia combinada entre el tipo silvestre (TS) y el mutante es mayor que la separación de las secuencias materna y fetal.
Esta frecuencia combinada muestra un comportamiento similar al de los gráficos de entropía para el análisis fetal. Por lo tanto, en la figura 15B se muestra otro ejemplo de un valor añadido de frecuencias relativas que se puede utilizar para determinar una concentración fraccionaria de ADN de interés clínico. Y, la relación ts frente a mutante en la figura 15B muestra que también se puede determinar una concentración fraccionaria de otro ADN de interés clínico (por ejemplo, ADN tumoral).
2. Uso de la entropía
En las figuras 16A y 16B se muestran valores de entropía para fragmentos compartidos y mutantes para diferentes conjuntos de motivos terminales para un caso de CHC de acuerdo con realizaciones de la presente divulgación. Al igual que con las secuencias fetales, la relación entre las entropías de los dos tipos de secuencias puede variar según el conjunto de motivos terminales utilizados. En la figura 16A se utilizan los 256 motivos terminales para 4 unidades. Debido a una distribución de frecuencia más uniforme (por ejemplo, más plana) de los fragmentos mutantes, la entropía es mayor en los fragmentos mutantes. Y, debido a una distribución de frecuencia de mayor asimetría, la entropía de los fragmentos compartidos es menor.
En la figura 16B se utilizan los 10 motivos terminales principales de 4 unidades que aparecen en el sujeto con CHC para fragmentos compartidos. La relación de las entropías es opuesta para los 10 motivos principales. En ambas figuras 16A y 16B se muestra que el análisis de calibración para determinar una concentración de ADN fetal también se puede utilizar para determinar una concentración de ADN tumoral.
Como se ha explicado anteriormente, un valor de entropía más elevado indica una mayor diversidad en el motivo terminal. Se puede utilizar una puntuación de diversidad de motivos (PDM) para estimar una concentración fraccionaria de ADN de interés clínico (por ejemplo, fetal, de trasplante o tumoral) en una muestra biológica de ADN extracelular circulante.
La figura 17 es una gráfica de una puntuación de diversidad de motivos frente a una fracción de ADN tumoral circulante medida de acuerdo con realizaciones de la presente divulgación. Para cada una de una pluralidad de muestras de calibración, se midieron puntos de datos de calibración 1705. Un punto de datos de calibración comprende una puntuación de diversidad de motivos para la muestra y una concentración fraccionaria de ADN de interés clínico, en este caso una fracción de ADN tumoral. La fracción de ADN tumoral se estimó en función de icorANC, un paquete informático que midió la fracción de ADN tumoral en el ADN en plasma aprovechando las anomalías del número de copias asociadas al cáncer (Adalsteinssonet al.2017).
Una muestra determinada puede ser una muestra de control sana sin ADN tumoral o una muestra de un paciente que tiene un tumor, donde la fracción de ADN tumoral es distinta de cero, es decir, hay ADN tumoral y otro ADN (por ejemplo, sano). Se encontró que los valores de la PDM del ADN en plasma de pacientes con CHC estaban correlacionados positivamente con las fracciones de ADN tumoral (p de Spearman: 0,597; valor de p: 0,0002). Esto se muestra con la función de calibración 1710 (una función lineal en este ejemplo).
La función de calibración 1710 se puede utilizar para determinar una fracción de ADN tumoral en nuevas muestras de prueba para las cuales se ha medido una puntuación de diversidad de motivos. La función de calibración 1710 se puede determinar mediante un ajuste funcional a los puntos de datos de calibración 1705, por ejemplo, mediante la regresión.
En algunos ejemplos, un valor calculado X de la PDM para una nueva muestra se puede utilizar como entrada en una función F(X), donde F es la función de calibración (curva). El resultado de F(X) es la concentración fraccionaria. Se puede proporcionar un intervalo de error, que puede ser diferente para cada valor de X, proporcionando así un intervalo de valores como resultado de F(X). En otros ejemplos, la concentración fraccionaria correspondiente a una medición de 0,95 para la PDM en una nueva muestra se puede determinar como la concentración promedio calculada a partir de los puntos de datos de calibración en una PDM de 0,95. Como otro ejemplo, los puntos de datos de calibración 1705 pueden utilizarse para proporcionar un intervalo de concentración fraccionaria de ADN para un valor de calibración particular, donde el intervalo se puede utilizar para determinar si la concentración fraccionaria está por encima de una cantidad umbral.
C. Trasplante
La técnica genotípica también se puede aplicar para controlar el trasplante, por ejemplo, un trasplante de hígado. Los sitios SNP donde el receptor es homocigoto y el donante es heterocigoto permitirían determinar las moléculas de ADN específicas del donante y el ADN predominantemente hematopoyético en el plasma de un paciente trasplantado.
En la figura 18A se muestra un análisis de entropía que utiliza fragmentos específicos de donante de acuerdo con realizaciones de la presente divulgación. En la figura 18B se muestra un análisis de agrupamiento jerárquico que utiliza fragmentos específicos de donante. Como se muestra en las figuras 18A y 18B, en el contexto de un trasplante de hígado, se observó que las moléculas de ADN específicas del hígado tenían propiedades diferentes de las secuencias compartidas (principalmente ADN procedente de la sangre). En general, se encontró que la entropía de los motivos terminales del ADN en plasma era menor en las moléculas de ADN específicas del donante (a Dn del hígado) en comparación con las secuencias compartidas (Figura 18A). Los individuos caracterizados con motivos terminales procedentes de moléculas de ADN específicas del hígado se agruparon mientras que los individuos caracterizados con motivos terminales procedentes de moléculas de ADN compartidas se agruparon en otro grupo.
D. Clasificación de la concentración fraccionaria
Como se ha descrito anteriormente, las frecuencias relativas de un conjunto de uno o más motivos terminales se pueden utilizar para determinar una clasificación de concentración fraccionaria de ADN de interés clínico.
La figura 19 es un diagrama de flujo que ilustra un método 1900 para estimar una concentración fraccionaria de ADN de interés clínico en una muestra biológica de un sujeto de acuerdo con realizaciones de la presente divulgación. La muestra biológica puede incluir el ADN de interés clínico y otro ADN extracelular circulante. En otros ejemplos, una muestra biológica puede no incluir el ADN de interés clínico, y la concentración fraccionaria estimada puede indicar cero o un porcentaje bajo del ADN de interés clínico. Aspectos del método 1900 y cualquier otro método descrito en el presente documento pueden realizarse mediante un sistema informático.
En el bloque 1910, se analiza una pluralidad de fragmentos de ADN extracelular circulante de la muestra biológica para obtener lecturas de secuencia. Las lecturas de secuencia pueden incluir secuencias terminales correspondientes a los extremos de la pluralidad de fragmentos de ADN extracelular circulante. Como ejemplos, las lecturas de secuencia se pueden obtener mediante técnicas de secuenciación o basadas en sondas, cualquiera de las cuales puede incluir enriquecer, por ejemplo, mediante sondas de amplificación o captura.
La secuenciación se puede realizar de diversas formas, por ejemplo, utilizando una secuenciación paralela masiva o una secuenciación de nueva generación, utilizando secuenciación de una sola molécula y/o utilizando protocolos de preparación de bibliotecas de secuenciación de ADN monocatenario o bicatenario. El experto apreciará la variedad de técnicas de secuenciación que pueden utilizarse. Como parte de la secuenciación, es posible que algunas de las lecturas de secuencia correspondan a ácidos nucleicos celulares.
La secuenciación puede ser una secuenciación dirigida como se describe en el presente documento. Por ejemplo, la muestra biológica se puede enriquecer con fragmentos de ADN de una región particular. El enriquecimiento puede incluir el uso de sondas de captura que se unen a una porción o a un genoma completo, por ejemplo, como se define mediante un genoma de referencia.
Se puede analizar un número estadísticamente significativo de moléculas de ADN extracelular circulante para proporcionar una determinación precisa de la concentración fraccionaria. En algunas realizaciones, se analizan al menos 1.000 moléculas de ADN extracelular circulante. En otras realizaciones, se pueden analizar al menos 10.000 o 50.000 o 100.000 o 500.000 o 1.000.000 o 5.000.000 de moléculas de ADN extracelular circulante o más.
En el bloque 1920, para cada uno de la pluralidad de fragmentos de ADN extracelular circulante, se determina un motivo de secuencia para cada una de una o más secuencias terminales del fragmento de ADN extracelular circulante. Los motivos de secuencia pueden incluir posiciones de N bases (por ejemplo, 1, 2, 3, 4, 5, 6, etc.). Como ejemplos, el motivo de la secuencia se puede determinar mediante el análisis de la lectura de secuencia en un extremo correspondiente al extremo del fragmento de ADN, la correlación de una señal con un motivo particular (por ejemplo, cuando se utiliza una sonda) y/o el alineamiento de una lectura de secuencia con un genoma de referencia, por ejemplo, como se describe en la figura 1.
Por ejemplo, después de la secuenciación con un dispositivo de secuenciación, las lecturas de secuencia se pueden recibir por un sistema informático, que puede estar acoplado en comunicación con un dispositivo de secuenciación que haya realizado la secuenciación, por ejemplo, a través de comunicaciones por cable o inalámbricas o a través de un dispositivo de memoria extraíble. En algunas implementaciones, se pueden recibir una o más lecturas de secuencia que incluyan ambos extremos del fragmento de ácido nucleico. La ubicación de una molécula de ADN puede determinarse cartografiando (alineando) la una o más lecturas de secuencia de la molécula de ADN con las respectivas partes del genoma humano, por ejemplo, con regiones específicas. En otras realizaciones, una sonda particular (por ejemplo, después de la PCR u otra amplificación) puede indicar una ubicación o un motivo terminal particular, tal como, por ejemplo, a través de un color fluorescente particular. La identificación puede ser que la molécula de ADN extracelular circulante corresponda a uno de un conjunto de motivos de secuencia.
En el bloque 1930, se determinan las frecuencias relativas de un conjunto de uno o más motivos de secuencia correspondientes a las secuencias terminales de la pluralidad de fragmentos de ADN extracelular circulante. Una frecuencia relativa de un motivo de secuencia puede proporcionar una proporción de la pluralidad de fragmentos de ADN extracelular circulante que tienen una secuencia terminal correspondiente al motivo de secuencia. El conjunto de uno o más motivos de secuencia se puede identificar con un conjunto de referencia de una o más muestras de referencia. No es necesario conocer la concentración fraccionaria del ADN de interés clínico para una muestra de referencia, aunque las diferencias genotípicas pueden determinarse de modo que las diferencias entre los motivos terminales del ADN de interés clínico y el otro ADN (por ejemplo, ADN sano,<a>D<n>materno o ADN de un sujeto que recibió un órgano trasplantado) puedan identificarse. Se pueden seleccionar motivos terminales particulares en función de las diferencias (por ejemplo, para seleccionar los motivos terminales con la diferencia absoluta o porcentual más elevada). A lo largo de la divulgación se describen ejemplos de frecuencias relativas.
En algunas implementaciones, los motivos de secuencia incluyen posiciones de N bases, donde el conjunto de uno o más motivos de secuencia incluye todas las combinaciones de N bases. En algún ejemplo, N puede ser un número entero igual o mayor que dos o tres. El conjunto de uno o más motivos de secuencia puede ser uno de los M (por ejemplo, 10) motivos de secuencia principales más frecuentes que aparecen en la una o más muestras de calibración u otra muestra de referencia no utilizada para calibrar la concentración fraccionaria.
En el bloque 1940, se determina un valor añadido de las frecuencias relativas del conjunto de uno o más motivos de secuencia. A lo largo de la divulgación se describen valores agregados ilustrativos, por ejemplo, incluidos un valor de entropía (una puntuación de diversidad de motivos), una suma de frecuencias relativas y un punto de datos multidimensional correspondiente a un vector de recuentos para un conjunto de motivos (por ejemplo, un vector de 256 recuentos para 245 motivos de posibles 4 unidades o 64 recuentos para 64 motivos de posibles 3 unidades). Cuando el conjunto de uno o más motivos de secuencia incluye una pluralidad de motivos de secuencia, el valor añadido puede incluir una suma de las frecuencias relativas del conjunto.
Como un ejemplo, cuando el conjunto de uno o más motivos de secuencia incluye una pluralidad de motivos de secuencia, el valor añadido puede incluir una suma de las frecuencias relativas del conjunto. Como otro ejemplo, el valor añadido puede corresponder a una variación en las frecuencias relativas. Por ejemplo, el valor añadido puede incluir un término de entropía. El término de entropía puede incluir una suma de términos, cada uno de los cuales incluye una frecuencia relativa multiplicada por un logaritmo de la frecuencia relativa. Como otro ejemplo, el valor añadido puede incluir un resultado final o intermedio de un modelo de aprendizaje automático, por ejemplo, un modelo de agrupamiento.
En el bloque 1950, se determina una clasificación de la concentración fraccionaria de ADN de interés clínico en la muestra biológica mediante la comparación del valor añadido con uno o más valores de calibración. El uno o más valores de calibración se pueden determinar a partir de una o más muestras de calibración cuya concentración fraccionaria de ADN de interés clínico se conoce (por ejemplo, se mide). La comparación puede realizarse con una pluralidad de valores de calibración. La comparación puede realizarse mediante la introducción del valor añadido en una función de calibración ajustada a los datos de calibración que proporciona un cambio en el valor añadido en relación con un cambio en la concentración fraccionaria del ADN de interés clínico en la muestra. Como otro ejemplo, uno o más valores de calibración pueden corresponder a uno o más valores añadidos de las frecuencias relativas del conjunto de uno o más motivos de secuencia que se miden utilizando fragmentos de ADN extracelular circulante en una o más muestras de calibración.
Se puede calcular un valor de calibración como un valor añadido para cada muestra de calibración. Se puede determinar un punto de datos de calibración para cada muestra, donde el punto de datos de calibración incluye el valor de calibración y la concentración fraccionaria medida para la muestra. Estos puntos de datos de calibración se pueden utilizar en el método 1900, o se pueden utilizar para determinar los puntos de datos de calibración finales (por ejemplo, como se define mediante un ajuste funcional). Por ejemplo, se podría ajustar una función lineal a los valores de calibración en función de la concentración fraccionaria. La función lineal puede definir los puntos de datos de calibración que se utilizarán en el método 1900. El nuevo valor añadido de una nueva muestra se puede utilizar como entrada a la función como parte de la comparación para proporcionar una concentración fraccionaria de salida. Por consiguiente, el uno o más valores de calibración pueden ser una pluralidad de valores de calibración de una función de calibración que se determina con concentraciones fraccionarias de ADN de interés clínico de una pluralidad de muestras de calibración.
Como otro ejemplo, el nuevo valor añadido se puede comparar con un valor añadido promedio para muestras que tienen la misma clasificación de concentraciones fraccionarias (por ejemplo, en un mismo intervalo), y si el nuevo valor añadido está más cerca de este promedio que un valor de calibración al promedio de otro clasificación, se puede determinar que la nueva muestra tiene la misma concentración que el valor de calibración más cercano. Dicha técnica se puede utilizar cuando se realiza agrupamiento. Por ejemplo, el valor de calibración puede ser un valor representativo de un grupo que corresponde a una clasificación particular de la concentración fraccionaria.
La determinación del punto de datos de calibración puede incluir la medición de una concentración fraccionaria, por ejemplo, de la siguiente manera. Para cada muestra de calibración de la una o más muestras de calibración, la concentración fraccionaria del ADN de interés clínico se puede medir en la muestra de calibración. El valor añadido de las frecuencias relativas del conjunto de uno o más motivos de secuencia se puede determinar mediante el análisis de los fragmentos de ADN extracelular circulante de la muestra de calibración como parte de la obtención de un punto de datos de calibración, determinando así uno o más valores agregados. Cada punto de datos de calibración puede especificar la concentración fraccionaria medida de ADN de interés clínico en la muestra de calibración y el valor añadido determinado para la muestra de calibración. El uno o más valores de calibración pueden ser el uno o más valores añadidos o determinarse mediante el uno o más valores añadidos (por ejemplo, cuando se utiliza una función de calibración). La medición de la concentración fraccionaria se puede realizar de varias maneras como se describe en el presente documento, por ejemplo, mediante el uso de un alelo específico del ADN de interés clínico.
En diversas realizaciones, la medición de una concentración fraccionaria del ADN de interés clínico se puede realizar utilizando un alelo específico de tejido o un marcador epigenético, o utilizando un tamaño de fragmentos de ADN, por ejemplo, como se describe en la publicación de patente de Estados Unidos 2013/0237431. Los marcadores epigenéticos específicos de tejido pueden incluir secuencias de ADN que presentan patrones de metilación de ADN específicos de tejido en la muestra.
En diversas realizaciones, el ADN de interés clínico se puede seleccionar de un grupo que consiste en ADN fetal, ADN tumoral, ADN de un órgano trasplantado y de un tipo de tejido particular (por ejemplo, de un órgano particular). El ADN de interés clínico puede ser de un tipo de tejido particular, por ejemplo, el tipo de tejido particular es hepático o hematopoyético. Cuando el sujeto es una mujer embarazada, el<a>D<n>de interés clínico puede ser tejido placentario, que corresponde al ADN fetal. Como otro ejemplo, el ADN de interés clínico puede ser a Dn tumoral procedente de un órgano que tiene cáncer.
En general, se prefiere que uno o más valores de calibración determinados a partir de una o más muestras de calibración se generen mediante un ensayo similar al utilizado para la muestra biológica (de prueba) para la cual se mide la concentración fraccionaria. Por ejemplo, se puede generar una biblioteca de secuenciación de la misma manera. Dos técnicas de procesamiento ilustrativas son GeneRead (www.qiagen.com/us/shop/sequencing/genereadsize-selection-kit/#orderinginformation) y SPRI (inmovilización reversible en fase sólida, perlas AMPura, www.beckman.hk/reagents_depr/genomic_depr/cleanup-and-size-selection/pcr). GeneRead puede eliminar el ADN corto, que son predominantemente fragmentos tumorales, lo que puede afectar las frecuencias relativas de los motivos terminales para los fragmentos de tipo silvestre y mutantes, así como para los casos fetales y de trasplante.
E. Determinación de la edad gestacional
Como se describe anteriormente en las figuras 7A, 7B y 8 a 10, los motivos de fragmentos específicos del feto se pueden utilizar para inferir la edad gestacional.
La figura 20 es un diagrama de flujo que ilustra un método 2000 para determinar la edad gestacional de un feto mediante el análisis de una muestra biológica de una mujer embarazada de acuerdo con realizaciones de la presente divulgación. La muestra biológica incluye moléculas de ADN extracelular circulante de la mujer y del feto.
En el bloque 2010, se analiza una pluralidad de fragmentos de ADN extracelular circulante de la muestra biológica para obtener lecturas de secuencia. Las lecturas de secuencia pueden incluir secuencias terminales correspondientes a los extremos de la pluralidad de fragmentos de ADN extracelular circulante. El bloque 2010 se puede realizar de manera similar al bloque 1910 de la figura 19.
Antes, después o como parte del análisis, la pluralidad de fragmentos de ADN extracelular circulante se puede identificar como procedentes del feto, por ejemplo, como se describió anteriormente para las figuras 2 y 5A. Esto puede filtrar los fragmentos de ADN en busca de fragmentos que sean fetales o probablemente fetales. Como ejemplos, la pluralidad de fragmentos de ADN extracelular circulante se puede identificar utilizando un alelo específico del feto o un marcador epigenético específico del feto. Como otro ejemplo, para cada una de las lecturas de secuencia, se puede determinar una probabilidad de que la lectura de secuencia corresponda al feto en función de una secuencia terminal de la lectura de secuencia que incluye un motivo de secuencia del conjunto de uno o más motivos de secuencia. También se pueden utilizar otros criterios, por ejemplo, como se describe en la sección II.E. La probabilidad se puede comparar con un umbral, y la lectura de secuencia se puede identificar como procedente del feto cuando la probabilidad excede el umbral. En la sección IV se pueden encontrar más detalles sobre cómo enriquecer una muestra con ADN de interés clínico.
En el bloque 2020, para cada uno de la pluralidad de fragmentos de ADN extracelular circulante, se determina un motivo de secuencia para cada una de una o más secuencias terminales del fragmento de ADN extracelular circulante. El bloque 2020 se puede realizar de manera similar al bloque 2020 de la figura 19.
En el bloque 2030, se determinan las frecuencias relativas de un conjunto de uno o más motivos de secuencia correspondientes a las secuencias terminales de la pluralidad de fragmentos de ADN extracelular circulante. Una frecuencia relativa de un motivo de secuencia puede proporcionar una proporción de la pluralidad de fragmentos de ADN extracelular circulante que tienen una secuencia terminal correspondiente al motivo de secuencia. El bloque 2030 se puede realizar de manera similar al bloque 1930 de la figura 19.
En el bloque 2040, se determina un valor añadido de las frecuencias relativas del conjunto de uno o más motivos de secuencia. El bloque 2040 se puede realizar de manera similar al bloque 1940 de la figura 19.
En el bloque 2050, se obtienen uno o más puntos de datos de calibración. Cada punto de datos de calibración puede especificar una edad gestacional (por ejemplo, el trimestre como se describe en las figuras anteriores) correspondiente a un valor añadido. Como se ha descrito anteriormente, el uno o más puntos de datos de calibración se pueden determinar a partir de una pluralidad de muestras de calibración con edades gestacionales conocidas y que incluyen moléculas de ADN extracelular circulante. En algunas implementaciones, el uno o más puntos de datos de calibración pueden ser una pluralidad de puntos de datos de calibración que forman una función de calibración que se aproxima a los valores añadidos medidos determinados a partir de las moléculas de ADN extracelular circulante en la pluralidad de muestras de calibración con edades gestacionales conocidas.
En el bloque 2060, el valor añadido se compara con un valor de calibración de al menos un punto de datos de calibración. Por ejemplo, un nuevo valor añadido de una nueva muestra se puede comparar con el promedio del 3.er trimestre como se determina en la figura 8A. Como otro ejemplo, el valor de calibración de el al menos un punto de datos de calibración puede corresponder al valor añadido medido utilizando las moléculas de ADN extracelular circulante en al menos una de la pluralidad de muestras de calibración. La comparación del valor añadido puede realizarse con una pluralidad de valores de calibración, por ejemplo, cada uno correspondiente a una de la pluralidad de muestras de calibración. La comparación puede ocurrir mediante la introducción del valor añadido en una función ajustada (función de calibración) a los datos de calibración que proporciona un cambio en el valor añadido en relación con la edad gestacional. La comparación se puede realizar de una manera similar a la descrita para el método 1900, por ejemplo, en relación al bloque 1950.
En el bloque 2070, la edad gestacional del feto se estima en función de la comparación. Por ejemplo, si el nuevo valor añadido es el más cercano al promedio del 3.er trimestre (u otro valor de calibración utilizado), entonces se puede determinar que la nueva muestra está en el 3.er trimestre. Como otro ejemplo, el nuevo valor añadido se puede comparar con una función de calibración (por ejemplo, función lineal) que se ajusta a los datos en la figura 8A u otras figuras similares. La función puede generar la edad gestacional, por ejemplo, como el valor Y de la función lineal. Otros ejemplos proporcionados en el presente documento para el uso de una función de calibración también se pueden utilizar en el contexto de la determinación de la edad gestacional.
NI. ENFOQUES DE FENOTIPO
Utilizando análisis basados en genotipos para sujetos embarazadas, sujetos con cáncer, así como trasplante de hígado, la presencia de motivos terminales de ADN en plasma corroboró la relación con el tejido de origen. Se razonó que, en pacientes con cáncer, el ADN tumoral se liberó en la circulación sanguínea, alterando así la presentación normal original de los motivos terminales del ADN en plasma. Sin embargo, no se excluyó la posibilidad de que otros aspectos de la biopatología del cáncer, por ejemplo, el microambiente tumoral (linfocitos T infiltrados, linfocitos B, neutrófilos, etc.) generarían diferentes motivos terminales, lo que ejercería influencia en el contexto de los motivos terminales. Por lo tanto, el análisis de los motivos terminales del<a>D<n>en plasma entre sujetos con cáncer y sujetos de control sin cáncer revelaría el poder de clasificar el CHC a partir de los sujetos de control.
En la figura 21 se muestra un esquema de un enfoque fenotípico para el análisis de motivos terminales de ADN en plasma de acuerdo con realizaciones de la presente divulgación. La figura 21 tiene similitudes con las figuras 2 y 12, por ejemplo, que se pueden trazar frecuencias relativas, se puede determinar un valor de varianza (por ejemplo, entropía) y se puede realizar el agrupamiento.
En la figura 21, se utilizan motivos terminales (por ejemplo, de 4 unidades) deducidos de moléculas de ADN en plasma y se comparan entre sujetos con cáncer y de control, evitando así la restricción de marcadores genotípicos y haciéndolo ampliamente aplicable en muchos escenarios clínicos, por ejemplo, en la detección de enfermedades autoinmunitarias (por ejemplo, lupus eritematoso sistémico, LES) y en trasplante. Mediante el enfoque fenotípico con el uso de todos los fragmentos de ADN en plasma secuenciados, el análisis de entropía y agrupamiento podría realizarse con procedimientos analíticos muy similares a los que se realizaron con un enfoque basado en diferencias genotípicas. En este contexto, el análisis de entropía y el análisis de agrupamiento se compararían entre sujetos de control y enfermos.
Las moléculas enfermas 2105 provienen de uno o más sujetos que se determina que tienen la enfermedad. Las moléculas de control 2107 son de uno o más sujetos que no padecen la enfermedad. Las frecuencias relativas de un conjunto de motivos terminales se determinan para los dos grupos de moléculas. El gráfico de barras 1220 proporciona una frecuencia relativa (%) de que cada 4 unidades aparece como motivo terminal para las secuencias de control y enfermas. Dichas frecuencias relativas se pueden determinar como se describió anteriormente para el gráfico de barras 220 de la figura 2. Como se puede observar, un motivo terminal 2122 tiene una diferencia significativa de frecuencias relativas entre fragmentos de ADN de los diferentes tipos de tejido. Dicha diferencia se puede utilizar para diversos fines, por ejemplo, para clasificar una nueva muestra como enferma o no enferma, o algún otro nivel de la enfermedad.
Para capturar la diferencia del contexto en los motivos terminales entre las moléculas de ADN tumorales y compartidas, se puede utilizar un análisis basado en entropía 2130, similar al de la figura 2. En el gráfico 2135 se muestran los valores de entropía para los sujetos de control y los sujetos enfermos. La diferencia en la entropía u o parámetro de varianza puede proporcionar una clasificación de un nivel de patología relacionada con la enfermedad.
En aun otra realización, se puede realizar un análisis basado en agrupamiento 2140, similar al análisis fetal en la figura 2 y el análisis del tumor en la figura 12. Se puede determinar una clasificación para un nivel de patología en función de una nueva muestra que pertenece a un grupo de referencia cuya clasificación se conoce.
Por consiguiente, en un ejemplo de un valor añadido de frecuencias relativas, cada individuo puede caracterizarse por un vector que comprende 256 frecuencias con respecto a motivos terminales de 4 unidades (es decir, un vector de 256 dimensiones). En otros ejemplos, la desviación estándar (DE), el coeficiente de variación (CV), el recorrido intercuartílico (RIC) o un determinado límite de percentil (por ejemplo, percentil 95 o 99) entre diferentes frecuencias de motivos se puede utilizar para evaluar los cambios de contexto de los patrones de los motivos terminales entre los grupos enfermos y de control. Otros ejemplos de valores añadidos también se proporcionan en otras secciones y son aplicables aquí.
A. Oncología
En algunas realizaciones, la enfermedad (patología) puede ser cáncer. Por lo tanto, algunas realizaciones pueden clasificar un nivel de cáncer.
1. Diferencias en frecuencias relativas en orden de clasificación
En la figura 22 se muestra un ejemplo del perfil de frecuencia de motivos terminales de 4 unidades entre sujetos con carcinoma hepatocelular (CHC) y el virus de la hepatitis B (VHB) con el uso de todas las moléculas de ADN en plasma de acuerdo con realizaciones de la presente divulgación. En la figura 22 se comparan las frecuencias de 256 motivos terminales en un paciente con CHC con un sujeto con VHB. Al igual que con gráficos similares, el eje vertical es la frecuencia del motivo y el eje horizontal corresponde a los respectivos motivos terminales. En la figura 22, se clasifican los motivos en orden ascendente en función de la media de la frecuencia de los motivos en sujetos sin CHC. El gráfico inferior continúa el gráfico superior, pero a una escala diferente para facilitar la ilustración.
Hubo una serie de motivos terminales que mostraban anomalías en el paciente con CHC. Por ejemplo, en comparación con el sujeto con el VHB, los 10 motivos terminales mejor clasificados (TGGG, TAAA, AAAA, GAAA, GGAG, TAGA, GCAG, TGGT, GCTG y GAGA) que mostraron un aumento de su frecuencia en el paciente con CHC tuvieron un cambio medio de 1,22 veces, con un intervalo de cambio de 1,12 a 1,35 veces; y los 10 motivos terminales mejor clasificados (CCCA, CCAG, CCAA, CCCT, CCTG, CCAC, CCAT, CCCC, CCTC y CCTT) que mostraron una disminución en su frecuencia en pacientes con CHC tuvieron un cambio medio de 1,23 veces, con un intervalo de cambio de 1,16 a 1,29 veces. Dichos conjuntos de motivos principales que muestran un aumento (o una disminución como un conjunto separado) de su frecuencia en el grupo de CHC en relación con un grupo sin cáncer se pueden utilizar para clasificar un nuevo sujeto con respecto al cáncer. Como otro ejemplo, un proceso de clasificación podría elegir todos aquellos motivos que muestren un aumento en el CHC y después clasificar esos motivos de acuerdo con el ABC entre sujetos con CHC y sin CHC en orden descendente. A continuación se eligen los 10 motivos principales según los valores del ABC.
Para probar el potencial de diagnóstico utilizando los motivos terminales del ADN en plasma, se secuenciaron 20 sujetos de control sanos (Control), 22 portadores crónicos de hepatitis B (VHB), 12 sujetos con cirrosis (Cirr), 24 con<c>Hc en etapa temprana (CHCet), 11 con CHC en etapa inmediata (CHCei) y 7 con CHC en etapa avanzada (CHCea) con una mediana de lecturas pareadas de 215 millones (intervalo: 97 a 1.681 millones).
En la figura 23A se muestra un diagrama de caja para las frecuencias combinadas de los 10 motivos terminales de 4 unidades de ADN en plasma principales para varios sujetos que tienen diferentes niveles de cáncer de acuerdo con realizaciones de la presente divulgación. Los 10 motivos terminales de 4 unidades de ADN en plasma principales se seleccionaron en función de los datos de la figura 22, es decir, en función de la frecuencia en sujetos con VHB. La frecuencia combinada es una suma de las frecuencias de los 10 motivos terminales para un sujeto determinado. Se descubrió que la frecuencia combinada de los 10 motivos terminales mejor clasificados se reducía significativamente en los pacientes con CHC en comparación con los sujetos sin cáncer (valor dep<0,0001). Es importante destacar que, mediante este análisis de motivos terminales, el 58,3 % de los pacientes con CHCet pudieron identificarse con una especificidad del 95 %. Además, se pueden detectar diferentes estadios del cáncer. Por ejemplo, el CHC avanzado tiene valores sustancialmente más bajos que el CHCet y el CHCei.
En la figura 23B se muestra una curva de eficacia diagnóstica (ROC) de las frecuencias combinadas de los 10 motivos terminales de 4 unidades de ADN en plasma principales entre sujetos con CHC y sin cáncer de acuerdo con realizaciones de la presente divulgación. Se encontró que el área bajo la curva (ABC) de la curva ROC era 0,91, lo que demuestra que los motivos terminales del ADN en plasma de hecho tenían el potencial clínico de distinguir los sujetos con CHC de los sujetos sin cáncer. En otra realización, una frecuencia combinada de siete motivos terminales que tienen la mayor separación entre los sujetos con CHC y los sujetos sin CHC proporciona un ABC de 0,92.
En la figura 24A se muestra un diagrama de caja de la frecuencia del motivo CCA en diferentes grupos de acuerdo con realizaciones de la presente divulgación. Se demostró que el motivo de 3 unidades (CCA) más frecuente en el grupo sin CHC era significativamente menor en el grupo con CHC (valor dep<0,0001). En la figura 24B se muestra una curva ROC entre grupos sin CHC y con CHC que utiliza el motivo de 3 unidades (CCA) más frecuente presente en sujetos sin CHC de acuerdo con realizaciones de la presente divulgación. Se encontró que el ABC era 0,915. Las 4 unidades más frecuente (CCCA) también proporcionan un ABC similar de 0,91.
2. Uso de entropía (puntuación de diversidad de motivos)
En la figura 25A se muestra un diagrama de caja de valores de entropía en diferentes grupos que utiliza 256 motivos terminales de 4 unidades de acuerdo con realizaciones de la presente divulgación. Se utilizaron los 256 motivos de 4 unidades. Como se muestra en la figura 25A, los valores de entropía aumentaron significativamente (valores dep<0,0001) en pacientes con CHC (media: 5,242; intervalo: 5,164 a 5,29) en comparación con sujetos sin CHC (media: 5,203; intervalo: 5,124 a 5,253). Es importante destacar que, mediante este análisis de motivos terminales, el 41,7 % de los pacientes con CHCet pudieron identificarse con una especificidad del 95 %. La entropía aumentó en general en el grupo de CHC, CHCei y CHC en estadio avanzado en comparación con el grupo sin CHC. Además, se pueden detectar diferentes estadios del cáncer. Por ejemplo, el CHC avanzado tiene valores sustancialmente más elevados que el CHCet y el CHCei.
En la figura 25B se muestra un diagrama de caja de valores de entropía en diferentes grupos que utiliza 10 motivos terminales de 4 unidades de acuerdo con realizaciones de la presente divulgación. En este punto, los sujetos con CHC tienen una entropía disminuida en relación con los sujetos sin CHC. Por lo tanto, el conjunto de motivos terminales utilizados puede alterar la relación de un aumento a una disminución. Por ejemplo, con los 10 motivos principales, hay una reducción de la entropía en el grupo de CHC. De cualquier manera, hay un poder de diagnóstico entre el grupo de CHC y el grupo sin CHC, así como entre el CHC avanzado y los estadios tempranos del CHC.
En la figura 26A se muestra un diagrama de caja de valores de entropía que utiliza motivos de 3 unidades en diferentes grupos de acuerdo con realizaciones de la presente divulgación. Se encontró que la entropía de los sujetos con CHC que utilizaban motivos de 3 unidades (un total de 64 motivos) era significativamente mayor (valor dep<0,0001) que el de los sujetos sin CHC. En la figura 26B se muestra una curva ROC que utiliza la entropía de 64 motivos de 3 unidades entre grupos sin CHC y con CHC de acuerdo con realizaciones de la presente divulgación. Se encontró que el ABC era 0,872.
Como se ha explicado anteriormente, un valor de entropía más elevado indica una mayor diversidad en el motivo terminal. Como ilustración adicional de la capacidad de las realizaciones que utilizan una puntuación de diversidad de motivos para discriminar entre varios tipos de cáncer y muestras de control (por ejemplo, sanas), se utilizaron datos de un estudio publicado.
En las figuras 27A y 27B se muestran diagramas de caja de puntuaciones de diversidad de motivos utilizando 4 unidades en diferentes grupos de acuerdo con realizaciones de la presente divulgación. Se utilizaron los 256 4 unidades para determinar las puntuaciones de diversidad de motivos. El aumento de la diversidad terminal del ADN en plasma se pudo observar en general entre varios tipos de cáncer cuando se realizó un análisis de PDM utilizando los resultados de secuenciación del ADN en plasma descargados de un estudio publicado (Songet al.2017), lo que puede reflejar el hecho de que diferentes células tumorales de diferentes sitios anatómicos arrojarían su ADN a la circulación sanguínea (Bettegowdaet al.2014). Los cánceres analizados fueron: carcinoma hepatocelular (CHC), cáncer de pulmón (CPu), cáncer de mama (CM), cáncer gástrico (CG), glioblastoma multiforme (GBM), cáncer de páncreas (CPa) y cáncer colorrectal (CCR).
Para probar más a fondo la generalización de los cambios de la PDM en diferentes tipos de cáncer, se secuenció además una cohorte independiente con 40 muestras de ADN en plasma de otros tipos de cáncer, incluidos pacientes con cáncer colorrectal (n = 10), cáncer de pulmón (n = 10), carcinoma nasofaríngeo (n = 10) y carcinoma epidermoide de cabeza y cuello (n = 10), con una mediana de 42 millones de lecturas de ambos extremos (intervalo: 19 a 65 millones). Como se muestra en la figura 27B, los valores de la PDM en el grupo de pacientes con cáncer (mediana: 0,943; intervalo: 0,939 a 0,949) fueron significativamente más elevados que el grupo de control sin cáncer (mediana: 0,941; intervalo: 0,933 a 0,946; valor dep< 0,0001, prueba de Wilcoxon para datos independientes).
En la figura 28 se muestra una curva de eficacia diagnóstica para diversas técnicas para discriminar controles sanos del cáncer de acuerdo con realizaciones de la presente divulgación. Se utilizaron un total de 129 muestras, incluidos controles sanos (n = 38), portadores del VHB (n = 17), pacientes con carcinoma hepatocelular (n = 34), cáncer colorrectal (n = 10), cáncer de pulmón (n = 10), carcinoma nasofaríngeo (n = 10) y carcinoma epidermoide de cabeza y cuello (n = 10). De manera interesante, el método basado en PDM 2801 (ABC = 0,85) pareció tener el mejor rendimiento, en comparación con otros parámetros fragmentómicos, incluido el tamaño del fragmento 2803 (ABC = 0,74, *valor dep= 0,0040; prueba de DeLong) (Yuet al.2017b), extremos preferidos del fragmento 2804 (ABC = 0,52, valor dep<0,0001) (Jianget al.2018) y señales de fragmentación extracelulares plasmáticas sensibles a la orientación, OCF, 2802 (ABC = 0,68, valor dep= 0,0013) (Sunet al.2019). El análisis combinado 2805 identificó que un sujeto tenía cáncer si una cualquiera de las técnicas clasificaba al sujeto como que tenía cáncer.
La precisión del análisis de PDM para discriminar entre cáncer y no cáncer se mantiene relativamente bien para diferentes longitudes de motivos. Se realizó un análisis utilizando la PDM para 1 unidad a 5 unidades.
En la figura 29 se muestra una curva de eficacia diagnóstica para un análisis de PDM que utiliza varias unidades de acuerdo con realizaciones de la presente divulgación. Los valores de PDM deducidos de motivos de 1 a 5 unidades también tenían el poder de distinguir a los pacientes con y sin cáncer. El análisis de 1 unidad 2901 proporciona un ABC de 0,81. El análisis de 2 unidad 2902 proporciona un ABC de 0,85. El análisis de 3 unidad 2903 proporciona un ABC de 0,85. El análisis de 4 unidad 2904 proporciona un ABC de 0,85. El análisis de 5 unidad 2905 proporciona un ABC de 0,81.
También se exploró el efecto de la fracción de ADN tumoral en el rendimiento de la detección de cáncer basada en la PDM de acuerdo con una simulación por ordenador.
En la figura 30 se muestra el rendimiento de una detección de cáncer basada en PDM para diversas fracciones de ADN tumoral de acuerdo con realizaciones de la presente divulgación. Como se muestra en la figura 30, el rendimiento de la detección del cáncer mejoró progresivamente a medida que aumentaba la fracción de ADN tumoral en el ADN en plasma. Por ejemplo, el área bajo la curva (ABC) de ROC fue solo de 0,52 para aquellos pacientes con una fracción de ADN tumoral del 0,1 %, mientras que el ABC aumentó hasta 0,9 para aquellos pacientes con una fracción de ADN tumoral del 3 %, con mayores aumentos a concentraciones más elevadas, pero ya acercándose a un máximo con una fracción tumoral del 5 %.
3. Aprendizaje automático (MVS, regresión y agrupamiento)
Paraexplorar más a fondo si se podría construir un clasificador para detectar pacientes con cáncer utilizando motivos terminales de ADN en plasma, se utilizaron los 256 motivos terminales del ADN en plasma para construir un clasificador para diferenciar pacientes con cáncer (n = 55) y sin cáncer (n = 74), respectivamente, utilizando una máquina de vectores de soporte (MVS) y regresión logística que tuvo en cuenta la magnitud y dirección de cada motivo terminal. El análisis con<m>V<s>identificó un hiperplano que discriminaba mejor entre pacientes con cáncer y sin cáncer en un lugar de 256 dimensiones, donde los puntos de datos de capacitación son las frecuencias de cada uno de los 256 motivos de 4 unidades. La regresión logística determinó coeficientes para multiplicar cada una de las 256 frecuencias y también determinó un límite para el resultado resultante de la función logística, que puede ser una suma ponderada de las frecuencias multiplicadas o recibir como entrada la suma ponderada. Dicha función logística puede ser una función sigmoidea u otra función de activación, como le resultará familiar a la persona experta.
Para minimizar el problema del sobreajuste, se adoptó el procedimiento de dejar uno fuera para evaluar su rendimiento mediante el análisis de la curva de eficacia diagnóstica (ROC). El procedimiento de dejar uno fuera se realizó de acuerdo con las siguientes etapas. Entre un tamaño de muestra de N, se dejó una muestra como muestra de prueba y se utilizaron las muestras restantes (N - 1) para capacitar el clasificador basado en MVS y regresión logística utilizando los 256 motivos terminales del ADN en plasma. Después, se utilizó el clasificador capacitado para determinar si la muestra omitida se clasificó como tomada de un sujeto con o sin cáncer. Se dejó sistemáticamente una muestra como muestra de prueba para probar el clasificador capacitado a partir de las muestras restantes. Por tanto, se pudo obtener un resultado previsto para cada muestra y la precisión se calculó a partir de los resultados previstos.
En la figura 31 se muestra una curva de eficacia diagnóstica para PDM, MVS y análisis de regresión logística de acuerdo con realizaciones de la presente divulgación. Se observó un pequeño aumento en el ABC al usar los clasificadores con 256 motivos terminales (ABC = 0,89 tanto para MVS como para regresión logística) en comparación con el análisis basado en PDM (ABC = 0,85).
Como otra técnica de aprendizaje automático, se utilizó agrupamiento basado en una frecuencia de motivos terminales.
En la figura 32 se muestra un análisis de agrupamiento jerárquico para los 10 principales motivos terminales clasificados en diferentes grupos que tienen diferentes niveles de cáncer de acuerdo con realizaciones de la presente divulgación. Como se muestra, los sujetos con CHC (CHCet: CHC en estadio temprano 3205; CHCei: CHC en estadio inmediato 3230; y CHCea: CHC en estadio avanzado 3225) generalmente se agrupan juntos, y los sujetos sin CHC (sujetos de control sanos; VHB: portadores crónicos de hepatitis B) generalmente se agrupan juntos. Por ejemplo, un grupo a la derecha es el CHC en estadio temprano 3205 (amarillo). Al centro izquierda está principalmente el control 3210, VHB 3215 y cirrosis 3220. Los distintos patrones de agrupamiento entre los grupos con y sin CHC sugirieron que los motivos terminales reflejarían la preferencia asociada a la enfermedad en los motivos terminales del ADN en plasma y sugirieron el poder de diagnóstico potencial para los motivos terminales del ADN en plasma. Se podrían utilizar otras técnicas de agrupamiento además del agrupamiento jerárquico basado en la conectividad como método estadístico, tal como el agrupamiento basado en centroides, el agrupamiento basado en distribución y el agrupamiento basado en densidad.
En las figuras 33A a 33C se muestran análisis de agrupamiento jerárquico que utiliza todas las moléculas de ADN en plasma en diferentes grupos que tienen diferentes niveles de cáncer de acuerdo con realizaciones de la presente divulgación. En la figura 33A se muestra un análisis de agrupamiento jerárquico basado en 256 frecuencias de motivos terminales de 4 unidades. En la figura 33B se muestra una visualización ampliada para el análisis de agrupamiento jerárquico basado en 256 frecuencias de motivos terminales de 4 unidades. Cada fila representa un tipo de motivo terminal. Cada columna representa una muestra individual de ADN en plasma. Los colores degradados indican las frecuencias de los motivos terminales. El rojo representa la frecuencia más elevada y el verde la más baja. En la figura 33C se muestra un análisis de componentes principales (ACP) para sujetos con CHC y sin CHC mediante motivos terminales. Los componentes principales son una combinación lineal de los 256 motivos que proporcionan la mayor variación, por ejemplo, en una suma ponderada resultante de las frecuencias.
Dado que los sujetos con CHC y sin CHC parecían formar dos grupos distintos, los motivos terminales procedentes de todas las moléculas de ADN en plasma serían parámetros importantes para diferenciar a los sujetos con CHC de los que no tienen CHC. En las figuras 33A y 33B se muestra que los sujetos con CHC 3305 (rojo) tendían a agruparse en un grupo y los sujetos sin CHC 3310 (azul) tendían a agruparse en otro grupo. En la figura 33C, el análisis ACP también mostró que los sujetos con CHC y sin CHC tendían a agruparse en dos grupos diferentes. PC1 y PC2 corresponden a diferentes combinaciones lineales (por ejemplo, promedios ponderados) de las frecuencias relativas, que pueden representar patrones de un histograma dado de frecuencias relativas. En la figura 33C se muestra que se pueden realizar combinaciones lineales (u otras transformaciones) antes de realizar un agrupamiento o utilizar valores de corte o planos de corte. Por lo tanto, se pueden utilizar frecuencias relativas transformadas para determinar el valor añadido.
En la figura 34 se muestra un análisis de agrupamiento jerárquico basado en motivos de 3 unidades que utiliza todas las moléculas de ADN en plasma en diferentes grupos que tienen diferentes niveles de cáncer de acuerdo con realizaciones de la presente divulgación. Para facilitar la ilustración, solo se muestra una parte principal del mapa de calor. Como se muestra, los sujetos con CHC (CHCet: CHC en estadio temprano 3405; CHCei: CHC en estadio inmediato 3430; y CHCea: CHC en estadio avanzado 3425) generalmente se agrupan juntos, y los sujetos sin CHC (sujetos de control sanos 3410; VHB 3415: portadores crónicos de hepatitis B; y cirrosis 3420) generalmente se agrupan juntos.
En función de la base de estos descubrimientos, los modelos de aprendizaje automático (por ejemplo, aprendizaje profundo) podrían utilizarse para capacitar el clasificador de cáncer mediante el uso de un vector de 256 dimensiones que comprende los motivos terminales del ADN en plasma, incluyendo, pero sin limitación, máquinas de vectores de soporte (MVS), árbol de decisiones, clasificación ingenua de Bayes, regresión logística, algoritmo de agrupamiento, ACP, descomposición de valores singulares (DVS), inclusión de vecinos estocásticos distribuidos en t (tSNE), red neuronal artificial, así como métodos de conjunto que construyen un conjunto de clasificadores y después clasifican nuevos puntos de datos mediante una votación ponderada de sus predicciones. Una vez que el clasificador de cáncer está capacitado en función de una "matriz basada en vectores de 256 dimensiones" que incluye una serie de pacientes con cáncer y pacientes sin cáncer, se podría predecir la probabilidad de que un nuevo paciente tenga cáncer.
En dichos usos de algoritmos de aprendizaje automático, el valor añadido puede corresponder a una probabilidad o una distancia (por ejemplo, cuando se utilizan MVS) que se puede comparar con un valor de referencia. En otras realizaciones, el valor añadido puede corresponder a un resultado anterior en el modelo (por ejemplo, una capa anterior en una red neuronal) que se compara con un límite entre dos clasificaciones o con un valor representativo de una clasificación determinada.
B. Control de enfermedades inmunitarias
En la figura 35A se muestra un análisis de entropía que utiliza todas las moléculas de ADN en plasma entre sujetos de control sanos y pacientes con LES de acuerdo con realizaciones de la presente divulgación. En la figura 35B se muestra un análisis de agrupamiento jerárquico que utiliza todas las moléculas de ADN en plasma entre sujetos de control sanos y pacientes con LES de acuerdo con realizaciones de la presente divulgación.
El análisis de anomalías del contexto global para motivos terminales de ADN en plasma, incluidos la entropía (Figura 35A, valor de p: 0,00014) y el análisis de agrupamiento (Figura 35B) ilustraron que los pacientes con LES podían distinguirse de los sujetos de control sanos. Por ejemplo, la entropía aumenta en sujetos con LES (Figura 35A). Y, en general, se forman dos grupos a la izquierda (LES 3510) y a la derecha (control/normal 3505). Por lo tanto, la enfermedad autoinmunitaria altera los patrones de fragmentación del ADN en plasma, mostrando así un poder discriminativo de los motivos terminales del ADN en plasma entre sujetos con LES y sujetos de control.
En la figura 36 se muestra un análisis de entropía que utiliza moléculas de ADN en plasma que tienen 10 motivos terminales seleccionados entre sujetos de control sanos y pacientes con LES de acuerdo con realizaciones de la presente divulgación. Se utilizaron los motivos que tenían las principales 10 frecuencias relativas más elevadas para un sujeto de control. Como ocurre con otros fenotipos, el conjunto de motivos puede afectar si la entropía de LES es mayor o menor. Dado que los 10 motivos se seleccionaron por tener los valores más elevados para el control, la entropía es mayor ya que los valores son similares entre sí (es decir, debido a la clasificación). Y, la entropía de LES es menor a medida que hay más variación, por ejemplo, ya que no están clasificados para un sujeto con LES. Puede existir una relación opuesta si los 10 motivos principales se seleccionaron con una muestra de LES. Por consiguiente, se puede determinar un nivel de una enfermedad autoinmunitaria (por ejemplo, LES) utilizando un valor añadido de frecuencias relativas.
C.Análisis sinérgico para motivos terminales y parámetros convencionales
Se probó si un análisis combinado del motivo terminal del ADN en plasma y otros parámetros (anomalías del número de copias (ANC), hipometilación e hipermetilación) mejorarían el rendimiento de la detección no invasiva del cáncer. Por ejemplo, se podría utilizar una clasificación basada en un árbol de decisiones para el análisis combinado.
En la figura 37 se muestra una curva ROC para un análisis combinado que incluye motivos terminales y número de copias o metilación para sujetos con CHC y sin CHC de acuerdo con realizaciones de la presente divulgación. El análisis de los motivos terminales utiliza una puntuación de diversidad de motivos determinada con los 356 motivos de 4 unidades. El análisis combinado identifica el cáncer si cualquiera de los análisis dio como resultado una clasificación de cáncer. El análisis combinado del motivo terminal y el análisis de metilación (ABC: 0,94) o el análisis combinado del motivo terminal y el análisis ANC (ABC: 0,93) fue superior al análisis que utilizó únicamente el motivo terminal (ABC: 0,86). El análisis de metilación utilizó el número de grupos de 1 Mb hipometilados (definidos como puntuación z de densidad de metilación <-3) que estaban por encima de los controles normales, con un número límite de grupos anómalos que discriminan entre cáncer y no cáncer. El análisis ANC utilizó el número de grupos de 1 Mb que tenían una representación de una puntuación z superior a 3 o inferior a -3, con un número límite de grupos anómalos que discriminan entre cáncer y no cáncer. Se pueden encontrar más detalles para el análisis de mutilación en la publicación de patente de Estados Unidos 2014/0080715 y para el análisis ANC en la publicación de patente de Estados Unidos 2013/0040824.
Se describe un ejemplo de clasificación basada en un árbol de decisiones. Por ejemplo, se puede utilizar un algoritmo de bosque aleatorio para deducir los límites para cada parámetro, incluidos ANC, hipometilación, hipermetilación, tamaño (por ejemplo, como se describe en la publicación de patente de Estados Unidos 2013/0237431), motivos terminales y patrones de fragmentación (por ejemplo, como se describe en las publicaciones de patente de Estados Unidos 2017/0024513 y 2019/0341127 y la solicitud de patente de Estados Unidos 16/519.912). Cada parámetro tendría un límite particular. Tomando como ejemplo un parámetro (hipometilación), un caso puede clasificarse como cáncer o no cáncer dependiendo de si el parámetro está por debajo o por encima del límite. Un parámetro representa un nodo en el árbol de decisión. Después de que una muestra recorre todos los nodos de todo el árbol, por ejemplo, la mayoría de los votos (por ejemplo, el número de nodos que indican cáncer es mayor que el que indica no cáncer) puede proporcionar la clasificación final.
D. Ejemplo de una forma alternativa para definir el motivo terminal del ADN en plasma
Para demostrar la viabilidad de utilizar una forma alternativa para definir el motivo terminal del ADN en plasma, se adoptó la técnica 160 de la figura 1 para analizar los sujetos con CHC y sin CHC, que incluye la secuenciación de 20 sujetos de control sanos (Control), 22 portadores crónicos de hepatitis B (VHB), 12 sujetos con cirrosis (Cirr), 24 con c Hc en etapa temprana (CHCet), 11 con CHC en estadio inmediato (CHCei) y 7 con CHC en estadio avanzado (CHCea).
En la figura 38A se muestra un análisis de entropía basado en 4 unidades construidas conjuntamente a partir de los extremos de fragmentos de ADN en plasma secuenciados y sus secuencias genómicas adyacentes en sujetos con CHC y sin CHC de acuerdo con realizaciones de la presente divulgación. La entropía se determinó utilizando los 256 motivos terminales. Al igual que con el análisis que definió un motivo que utiliza la técnica 140 de la figura 1, la entropía de los sujetos con CHC es diferente de la de los sujetos sin cáncer. Y, el CHC avanzado muestra una diferencia sustancial con el CHCet y el CHCei. En la figura 38B se muestra un análisis de agrupamiento basado en 4 unidades construido conjuntamente a partir de los extremos de fragmentos de ADN en plasma secuenciados y sus secuencias genómicas adyacentes en sujetos con CHC 3810 y sujetos sin CHC 3805 de acuerdo con realizaciones de la presente divulgación.
En la figura 39 se muestra una comparación de ROC para las técnicas 140 y 160 de la figura 1 utilizadas para definir el motivo terminal del ADN en plasma de acuerdo con realizaciones de la presente divulgación. Se utilizaron los mismos sujetos que en la figura 38A y se realizó un análisis de entropía utilizando 4 unidades para realizar la clasificación. El método (i) corresponde a la técnica 140, y el método (ii) corresponde a la técnica 160. En comparación con la técnica 140 en la figura 1, se observó un rendimiento ligeramente inferior (ABC: 0,815 frente a 0,856) con el uso de la técnica 160 en la figura 1.
E. Filtrado para mejorar la discriminación
Se pueden utilizar determinados criterios para filtrar fragmentos de ADN específicos (además de los motivos terminales) para proporcionar una mayor precisión, por ejemplo, sensibilidad y especificidad. Como ejemplos, el análisis de los motivos terminales puede restringirse a fragmentos de ADN que se originan en regiones de cromatina abiertas de un tejido particular, por ejemplo, según lo determinado por lecturas que se alinean total o parcialmente con una de una pluralidad de regiones de cromatina abiertas. Por ejemplo, cualquier lectura con al menos un nucleótido superpuesto con una región de cromatina abierta se puede definir como una lectura dentro de una región de cromatina abierta. La región de cromatina abierta típica tiene aproximadamente 300 pb de acuerdo con el sitio hipersensible a la ADNasa I. El tamaño de una región de cromatina abierta puede variar, dependiendo de la técnica utilizada para definir las regiones de cromatina abiertas, por ejemplo, ATAC-seq (ensayo para secuenciación de cromatina accesible por transposasa) frente a DNaseI-Seq.
Como otro ejemplo, se pueden seleccionar fragmentos de ADN de un tamaño particular para realizar el análisis de los motivos terminales. Como se muestra a continuación, esto puede aumentar la separación de un valor añadido de frecuencias relativas de los motivos terminales, aumentando así la precisión.
Un ejemplo adicional puede utilizar las propiedades de metilación de los fragmentos de ADN. El ADN fetal y tumoral generalmente está hipometilado. Las realizaciones pueden determinar un parámetro de metilación (por ejemplo, densidad) de un fragmento de ADN (por ejemplo, como una proporción o número absoluto de sitio(s) que están metilados en un fragmento de ADN). Y se pueden seleccionar fragmentos de ADN para su uso en el análisis de motivos terminales basándose en las densidades de metilación medidas. Por ejemplo, un fragmento de ADN sólo se puede utilizar si la densidad de metilación está por encima de un umbral.
También se puede utilizar para filtrar si un fragmento de ADN incluye una variación de secuencia (por ejemplo, sustitución, inserción o eliminación de bases) con respecto a un genoma de referencia.
Los distintos criterios de filtrado se pueden utilizar en combinación. Por ejemplo, es posible que sea necesario satisfacer cada criterio, o al menos un número específico de criterios. En otra implementación, se puede determinar una probabilidad de que un fragmento corresponda a ADN de interés clínico (por ejemplo, fetal, tumoral o de trasplante) y se puede imponer un umbral para la probabilidad, que debe satisfacer un fragmento de ADN antes de ser utilizado en un análisis de motivos terminales. Como ejemplo adicional, una contribución de un fragmento de ADN a un contador de frecuencia de un motivo terminal particular se puede ponderar en función de la probabilidad (por ejemplo, mediante la suma de la probabilidad de que tenga un valor menor que uno, en lugar de sumar uno). Por lo tanto, los fragmentos de ADN con motivos terminales particulares tendrían un mayor peso y/o tendrían una mayor probabilidad. Dicho enriquecimiento se describe más adelante.
1. Motivos terminales en regiones de cromatina específicas de tejido
Dado que los diferentes tejidos habrían preferido patrones de fragmentación durante la apoptosis (Chanet al.,Proc Natl Acad Sci USA. 2016;1 13:E8159-8168; Jianget al.,Proc Natl Acad Sci USA. 2018; doi:10.1073/pnas.1814616115), se razonó además que la selección de ciertas regiones genómicas para el análisis de motivos terminales del ADN en plasma mejoraría aún más el poder discriminativo en la clasificación de los pacientes enfermos y los sujetos de control. Tomando como ejemplo la detección de pacientes con CHC, se utilizaron regiones de cromatina abiertas para sangre e hígado.
En la figura 40 se muestra una comparación de precisiones que muestra que las regiones de cromatina abiertas específicas de tejido mejoran el poder discriminativo del motivo terminal del ADN en plasma para pacientes con CHC y sin cáncer de acuerdo con realizaciones de la presente divulgación. El análisis se realizó para la entropía de los 256 motivos utilizando 4 unidades y la frecuencia combinada de los 10 motivos principales. Para los resultados de cromatina abierta del hígado, se mantuvo una lectura de secuencia (es decir, no se filtró) si la lectura tenía al menos un nucleótido superpuesto con una de las regiones de cromatina abiertas del hígado.
El poder de los motivos terminales que se originan a partir de las moléculas de ADN en plasma que se superponen con las regiones de cromatina abierta del hígado da lugar al mejor rendimiento con un ABC de 0,918 con el uso de frecuencias combinadas de los 10 motivos mejor clasificados. Por el contrario, el poder de discriminación de los motivos terminales que se originan a partir de las moléculas de ADN en plasma para los 256 motivos sin ninguna selección fue el ABC mínimo de 0,855.
Por consiguiente, si un tejido en particular está siendo examinado para detectar cáncer, se pueden utilizar fragmentos de ADN de una cromatina abierta de ese tejido en particular (o al menos donde la secuencia terminal está en una región de cromatina abierta) para realizar el análisis, mientras que los fragmentos de ADN que no se encuentran en estas regiones identificadas no se utilizan. Aquí se utilizó hígado, ya que el cáncer era CHC. La ubicación de los fragmentos de ADN se puede determinar mediante la alineación de las lecturas de secuencia con un genoma de referencia, donde las regiones de cromatina abiertas se pueden identificar en la literatura o en bases de datos.
2. Análisis de motivos terminales basado en bandas de tamaño
Se demostró que las frecuencias de algunos de los motivos terminales varían de acuerdo con los intervalos de tamaño (bandas de tamaño) que se analizan, por ejemplo, el porcentaje de CCCA muestra este comportamiento. Esto implica que un análisis de motivos terminales basado en bandas de tamaño puede influir en el rendimiento del uso de motivos terminales de ADN en plasma para distinguir a los pacientes con cáncer de los sujetos sin cáncer. Para ilustrar esta posibilidad, se probó una serie de intervalos de tamaño, incluidos, pero sin limitación, de 50 a 80 pb, de 81 a 110 pb, de 111 a 140 pb, de 141 a 170 pb, de 171 a 200 pb, de 201 a 230 pb, para investigar cómo la banda de tamaño que se analiza afectaría el rendimiento diagnóstico general.
En la figura 41 se muestra un análisis de motivos terminales de ADN en plasma basado en bandas de tamaño de acuerdo con realizaciones de la presente divulgación. La clasificación utilizada, la puntuación de diversidad de motivos (entropía), se determina utilizando 256 motivos de 4 unidades. En la figura 41 se enumeran diversos intervalos, pero se pueden utilizar otros. El análisis de 50 a 80 4101 proporciona un ABC de 0,826. El análisis de 81 a 110 4102 proporciona un ABC de 0,537. El análisis de 111 a 1404103 proporciona un ABC de 0,551. El análisis de 141 a 170 4104 proporciona un ABC de 0,716. El análisis de 171 a 2004105 proporciona un ABC de 0,769. El análisis de 201 a 2304106 proporciona un ABC de 0,756.
Dichos intervalos de tamaño pueden utilizarse para técnicas que enriquecen el ADN de interés clínico. Por ejemplo, la selección de moléculas de ADN que tengan de 50 a 80 bases enriquecería la muestra en busca de ADN tumoral. Se podrían utilizar múltiples intervalos de tamaño separados, a diferencia de un intervalo de tamaño único. Dicho enriquecimiento puede ser una razón por la cual se produce una mejor ABC para un intervalo de tamaño de 50 a 80 bases frente a de 81 a 110 bases.
Los motivos terminales procedentes de moléculas de ADN en plasma dentro del intervalo de 50 a 80 pb parecieron brindar el mejor poder discriminativo para detectar CHC de sujetos sin CHC (ABC: 0,83). Por consiguiente, las realizaciones pueden filtrar fragmentos de ADN para seleccionar aquellos en un intervalo de tamaño particular y después utilizar los fragmentos de ADN seleccionados (lecturas) para determinar las frecuencias relativas y operaciones posteriores. Como ejemplos, el filtro de tamaño se puede realizar mediante separación física o mediante la determinación del tamaño utilizando las lecturas de secuencia (por ejemplo, longitud si se secuencia el fragmento completo o mediante alineamiento de ambos extremos con una referencia). Ejemplos de enriquecimiento físico para ADN corto incluyen el corte de bandas en electroforesis en gel, la recogida de eluidos en un cierto tiempo de retención durante la electroforesis capilar, tras cromatografía líquida o mediante microfluidos.
F. Clasificación de un nivel de patología
La figura 42 es un diagrama de flujo que ilustra un método 4200 para clasificar un nivel de patología en una muestra biológica de un sujeto de acuerdo con realizaciones de la presente divulgación. La muestra biológica incluye ADN extracelular circulante. Aspectos del método 4200 se pueden realizar de manera similar al método 1900 de la figura 19 y al método 2000 de la figura 20.
En el bloque 4210, se analiza una pluralidad de fragmentos de ADN extracelular circulante de la muestra biológica para obtener lecturas de secuencia. Las lecturas de secuencia incluyen secuencias terminales correspondientes a los extremos de la pluralidad de fragmentos de ADN extracelular circulante. El bloque 4210 se puede realizar de manera similar al bloque 1910 de la figura 19.
En el bloque 4220, para cada uno de la pluralidad de fragmentos de ADN extracelular circulante, se determina un motivo de secuencia para cada una de una o más secuencias terminales del fragmento de ADN extracelular circulante. El bloque 4220 se puede realizar de manera similar al bloque 1920 de la figura 19.
En el bloque 4230, se determinan las frecuencias relativas de un conjunto de uno o más motivos de secuencia correspondientes a las secuencias terminales de la pluralidad de fragmentos de ADN extracelular circulante. Una frecuencia relativa de un motivo de secuencia puede proporcionar una proporción de la pluralidad de fragmentos de ADN extracelular circulante que tienen una secuencia terminal correspondiente al motivo de secuencia. El bloque 4230 se puede realizar de manera similar al bloque 1930 de la figura 19. Por ejemplo, el conjunto de uno o más motivos de secuencia puede incluir posiciones de N bases. El conjunto de uno o más motivos de secuencia puede incluir todas las combinaciones de N bases. N puede ser un número entero igual o mayor que tres, así como cualquier otro número entero.
Como otro ejemplo, el conjunto de uno o más motivos de secuencia puede ser M motivos de secuencia principales con la mayor diferencia entre dos tipos de ADN según se determina en una o más muestras de referencia, por ejemplo, los motivos que muestran una mayor diferencia positiva (por ejemplo, los 10 principales u otro número) o todos los que muestran una mayor diferencia negativa. M puede ser un número entero igual o mayor que uno. Para los métodos 1900 y 2000, los dos tipos de ADN pueden ser el ADN de interés clínico y el otro ADN. Para el método 4200, los dos tipos de ADN pueden proceder de dos muestras de referencia que tienen clasificaciones diferentes para el nivel de patología. Como ejemplo adicional, el conjunto de uno o más motivos de secuencia puede ser uno de los M motivos de secuencia más frecuentes que aparecen en una o más muestras de referencia, por ejemplo, como se muestra en la figura 22, donde la muestra de referencia es una muestra no cancerosa, tal como una muestra con VHB.
En el bloque 4240, se determina un valor añadido de las frecuencias relativas del conjunto de uno o más motivos de secuencia. El bloque 4240 se puede realizar de manera similar al bloque 1940 de la figura 19. A lo largo de esta divulgación se describen ejemplos de un valor añadido e incluyen entropía, frecuencias combinadas, una diferencia (por ejemplo, una distancia) de un patrón de referencia de frecuencias relativas que se puede implementar en el agrupamiento o que utiliza MVS o un valor (por ejemplo, una probabilidad) determinado a partir de la diferencia, o un resultado en un modelo de aprendizaje automático (por ejemplo, una capa intermedia o final en una red neuronal) que se compara con un límite entre dos clasificaciones o con un valor representativo de una clasificación determinada.
Cuando el conjunto de uno o más motivos de secuencia incluye una pluralidad de motivos de secuencia, el valor añadido puede incluir una suma de las frecuencias relativas del conjunto. La suma puede ser una suma ponderada. Por ejemplo, el valor añadido puede incluir un término de entropía, que incluye una suma de términos que comprenden la suma ponderada. Cada término puede incluir una frecuencia relativa multiplicada por un logaritmo de la frecuencia relativa. El valor añadido puede corresponder a una variación en las frecuencias relativas.
En otro ejemplo, el valor añadido incluye un resultado final o intermedio de un modelo de aprendizaje automático. En diversas implementaciones, el modelo de aprendizaje automático utiliza agrupamiento, máquinas de vectores de soporte o regresión logística.
En el bloque 4250, se puede determinar una clasificación de un nivel de patología para el sujeto en función de una comparación del valor añadido con un valor de referencia. Como ejemplos, la patología puede ser un cáncer o un trastorno autoinmunitario. Como ejemplos, los niveles pueden ser sin cáncer, en estadio temprano, en estadio intermedio o en estadio avanzado. La clasificación puede entonces seleccionar uno de los niveles. Por consiguiente, la clasificación se puede determinar a partir de una pluralidad de niveles de cáncer que incluyen una pluralidad de estadios del cáncer. Como ejemplos, el cáncer puede ser carcinoma hepatocelular, cáncer de pulmón, cáncer de mama, cáncer gástrico, glioblastoma multiforme, cáncer de páncreas, cáncer colorrectal, carcinoma nasofaríngeo y carcinoma epidermoide de cabeza y cuello. Como un ejemplo, el trastorno autoinmunitario puede ser lupus eritematoso sistémico.
En ejemplos adicionales, el nivel de patología corresponde a una concentración fraccionaria del ADN de interés clínico asociado con la patología. Por ejemplo, el nivel de patología puede ser cáncer y el ADN de interés clínico puede ser ADN tumoral. El valor de referencia puede ser un valor de calibración determinado a partir de una muestra de calibración, como se describe para el método 1900.
En algunas realizaciones, el ADN extracelular circulante se filtra para identificar la pluralidad de fragmentos de ADN extracelular circulante. En la sección anterior se proporcionan ejemplos de filtrado. Por ejemplo, el filtrado puede basarse en una metilación (densidad o si un sitio particular está metilado), el tamaño o una región de la cual procede un fragmento de ADN. El ADN extracelular circulante se puede filtrar en busca de fragmentos de ADN de regiones de cromatina abiertas de un tejido particular.
IV. ENRIQUECIMIENTO
La preferencia de los fragmentos de ADN de un tejido particular por presentar un conjunto particular de motivos terminales se puede utilizar para enriquecer una muestra para ADN de ese tejido particular. Por consiguiente, algunas realizaciones pueden enriquecer una muestra para ADN de interés clínico. Por ejemplo, sólo se pueden secuenciar, amplificar y/o capturar fragmentos de ADN que tengan una secuencia terminal particular mediante un ensayo. Como otro ejemplo, se puede realizar el filtrado de lecturas de secuencia, por ejemplo, de forma similar a lo descrito en el apartado III.E.
A. Enriquecimiento físico
El enriquecimiento físico se puede realizar de varias maneras, por ejemplo, mediante secuenciación dirigida o PCR, como puede realizarse mediante cebadores o adaptadores particulares. Si se detecta un motivo terminal particular de una secuencia terminal, entonces se puede añadir un adaptador al final del fragmento. Después, cuando se realiza la secuenciación, sólo se secuenciarán (o al menos se secuenciarán predominantemente) fragmentos de ADN con el adaptador, proporcionando así una secuenciación dirigida.
Como otro ejemplo, se pueden utilizar cebadores que se hibridan con el conjunto particular de motivos terminales. Después, la secuenciación o amplificación se puede realizar con estos cebadores. También se pueden utilizar sondas de captura correspondientes a los motivos terminales particulares para capturar moléculas de ADN con esos motivos terminales para análisis posteriores. Algunas realizaciones pueden ligar un oligonucleótido corto al extremo de una molécula de ADN en plasma. Después, se puede diseñar una sonda de manera que solo reconozca una secuencia que sea parcialmente el motivo terminal y parcialmente el oligonucleótido ligado.
Algunas realizaciones pueden utilizar tecnología de diagnóstico basada en CRISPR, por ejemplo, utilizar un ARN guía para localizar un sitio correspondiente a un motivo terminal preferido para el ADN de interés clínico y después una nucleasa para cortar el fragmento de ADN, como se puede hacer mediante Cas-9 o Cas-12. Por ejemplo, se puede utilizar un adaptador para reconocer el motivo terminal, y después se puede utilizar CRISPR/Cas-9 o Cas-12 para cortar el híbrido motivo terminal/adaptador y crear un extremo universal reconocible para un mayor enriquecimiento de las moléculas con los extremos deseados.
La figura 43 es un diagrama de flujo que ilustra un método 4300 para enriquecer una muestra biológica para el ADN de interés clínico de acuerdo con realizaciones de la presente divulgación. La muestra biológica incluye moléculas de ADN de interés clínico y otras moléculas de ADN extracelular circulante. El método 4300 puede utilizar ensayos particulares para realizar el enriquecimiento.
En el bloque 4310, se recibe una pluralidad de fragmentos de ADN extracelular circulante de la muestra biológica. Los fragmentos de ADN de interés clínico (por ejemplo, fetal o tumoral) tienen secuencias terminales que incluyen motivos de secuencia que aparecen con una frecuencia relativa mayor que el otro ADN (por ejemplo, ADN materno, ADN sano o células sanguíneas). Como ejemplos, se pueden utilizar los datos de las figuras 3 y 13. Por lo tanto, los motivos de secuencia se pueden utilizar para enriquecer el ADN de interés clínico.
En el bloque 4320, la pluralidad de fragmentos de ADN extracelular circulante se somete a una o más moléculas sonda que detectan los motivos de secuencia en las secuencias terminales de la pluralidad de fragmentos de ADN extracelular circulante. Dicho uso de moléculas sonda puede dar como resultado la obtención de fragmentos de ADN detectados. En un ejemplo, la una o más moléculas sonda pueden incluir una o más enzimas que exploran la pluralidad de fragmentos de ADN extracelular circulante y que añaden una nueva secuencia que se utiliza para amplificar los fragmentos de ADN detectados. En otro ejemplo, la una o más moléculas sonda se pueden unir a una superficie para detectar los motivos de secuencia en las secuencias terminales mediante hibridación.
En el bloque 4330, los fragmentos de ADN detectados se utilizan para enriquecer la muestra biológica con fragmentos de ADN de interés clínico. Como un ejemplo, el uso de los fragmentos de ADN detectados para enriquecer la muestra biológica para los fragmentos de ADN de interés clínico puede incluir amplificar los fragmentos de ADN detectados. Como otro ejemplo, los fragmentos de ADN detectados se pueden capturar y los fragmentos de ADN no detectados se pueden descartar.
B. Enriquecimiento por ordenador
El enriquecimiento por ordenador puede utilizar varios criterios para seleccionar o descartar determinados fragmentos de ADN. Dichos criterios pueden incluir motivos terminales, regiones de cromatina abiertas, tamaño, variación de secuencia, metilación y otras características epigenéticas. Las características epigenéticas incluyen todas las modificaciones del genoma que no implican un cambio en la secuencia del ADN. Los criterios pueden especificar límites, por ejemplo, requiriendo determinadas propiedades, tales como un intervalo de tamaño particular, parámetros de metilación por encima o por debajo de una determinada cantidad, combinación del estado de metilación de más de un sitio CpG (por ejemplo, un haplotipo de metilación (Guoet al.,Nat Genet. 2017; 49: 635-42)), etc., o tener una probabilidad combinada superior a un umbral. Dicho enriquecimiento también puede implicar ponderar fragmentos de ADN en función de dicha probabilidad.
Como ejemplos, la muestra enriquecida se puede utilizar para clasificar una patología (como se describe anteriormente), así como para identificar mutaciones tumorales o fetales o para el recuento de marcadores para la detección de amplificación/eliminación de un cromosoma o región cromosómica. Por ejemplo, si un motivo terminal particular o un conjunto de motivos terminales están asociados con el cáncer de hígado (es decir, una frecuencia relativa más elevada que para el no cáncer u otros cánceres), entonces, las realizaciones para realizar la detección del cáncer pueden ponderar dichos fragmentos de ADN más elevado que los fragmentos de ADN que no tienen este motivo terminal preferido o este conjunto preferido de motivos terminales.
La figura 44 es un diagrama de flujo que ilustra un método 4400 para enriquecer una muestra biológica para el ADN de interés clínico de acuerdo con realizaciones de la presente divulgación. La muestra biológica incluye moléculas de ADN de interés clínico y otras moléculas de ADN extracelular circulante. El método 4400 puede utilizar criterios particulares de lecturas de secuencia para realizar el enriquecimiento.
En el bloque 4410, se analiza una pluralidad de fragmentos de ADN extracelular circulante de la muestra biológica para obtener lecturas de secuencia. Las lecturas de secuencia incluyen secuencias terminales correspondientes a los extremos de la pluralidad de fragmentos de ADN extracelular circulante. El bloque 4410 se puede realizar de manera similar al bloque 1910 de la figura 19.
En el bloque 4420, para cada uno de la pluralidad de fragmentos de ADN extracelular circulante, se determina un motivo de secuencia para cada una de una o más secuencias terminales del fragmento de ADN extracelular circulante. El bloque 4420 se puede realizar de manera similar al bloque 1920 de la figura 19.
En el bloque 4430, se identifica un conjunto de uno o más motivos de secuencia que aparecen en el ADN de interés clínico con una frecuencia relativa mayor que el otro ADN. El conjunto de motivos de secuencia se puede identificar mediante técnicas genotípicas o fenotípicas descritas en el presente documento. Se pueden utilizar muestras de calibración o de referencia para clasificar y seleccionar motivos de secuencia que sean selectivos para el ADN de interés clínico.
En el bloque 4440, se identifica un grupo de lecturas de secuencia que tienen el conjunto de uno o más motivos de secuencia en las secuencias terminales. Esto puede verse como una primera etapa de filtrado.
En el bloque 4450, se pueden almacenar lecturas de secuencia que tengan una probabilidad de corresponder al ADN de interés clínico que supera un umbral. La probabilidad se puede determinar con el conjunto de motivos terminales. Por ejemplo, para cada lectura de secuencia del grupo de lecturas de secuencia, se puede determinar una probabilidad de que la lectura de secuencia corresponda al<a>D<n>de interés clínico en función de una secuencia terminal de la lectura de secuencia que incluye un motivo de secuencia del conjunto de uno o más motivos de secuencia. La probabilidad se puede comparar con un umbral. Como un ejemplo, el umbral se puede determinar de manera empírica. Por ejemplo, se pueden probar varios umbrales para muestras en las que se puede medir una concentración de ADN de interés clínico para un grupo de lecturas de secuencia. Un umbral óptimo puede maximizar la concentración mientras se mantiene un determinado porcentaje del número total de lecturas de secuencia. El umbral podría determinarse mediante uno o más percentiles dados (5, 10, 90 o 95) de las concentraciones de uno o más motivos terminales presentes en los controles sanos o en los grupos de control expuestos a factores de riesgo etiológicos similares pero sin enfermedades. El umbral podría ser una regresión o una puntuación probabilística.
La lectura de secuencia se puede almacenar en la memoria (por ejemplo, en un archivo, tabla u otra estructura de datos) cuando la probabilidad excede el umbral, obteniendo así lecturas de secuencia almacenadas. Las lecturas de secuencia que tienen una probabilidad por debajo del umbral pueden descartarse o no almacenarse en la ubicación de memoria de las lecturas que se conservan, o un campo de una base de datos puede incluir una señal que indique que la lectura tuvo un umbral más bajo para que el análisis posterior pueda excluir dichas lecturas. Como ejemplos, la probabilidad se puede determinar mediante varias técnicas, tales como la razón de probabilidades, puntuaciones z o distribuciones de probabilidad.
En el bloque 4460, las lecturas de secuencia almacenadas se pueden analizar para determinar una propiedad del ADN de interés clínico de la muestra biológica, por ejemplo, como se describe en el presente documento, tal como se describe en otros diagramas de flujo. Los métodos 1900, 2000 y 4200 son ejemplos de ello. Por ejemplo, la propiedad del ADN de interés clínico de la muestra biológica puede ser una concentración fraccionaria del a Dn de interés clínico. Como otro ejemplo, la propiedad puede ser un nivel de patología de un sujeto del que se obtuvo la muestra biológica, donde el nivel de patología se asocia con el ADN de interés clínico. Como otro ejemplo, la propiedad puede ser una edad gestacional de un feto de una mujer embarazada de quien se obtuvo la muestra biológica.
Se pueden utilizar otros criterios para determinar la probabilidad. Los tamaños de la pluralidad de fragmentos de ADN extracelular circulante se pueden medir mediante lecturas de secuencia. La probabilidad de que una lectura de secuencia particular corresponda al ADN de interés clínico puede basarse además en el tamaño del fragmento de ADN extracelular circulante correspondiente a la lectura de secuencia particular.
También se puede utilizar la metilación. Por lo tanto, las realizaciones pueden medir uno o más estados de metilación en uno o más sitios de un fragmento de ADN extracelular circulante correspondiente a una lectura de secuencia particular. La probabilidad de que la lectura de secuencia leída corresponda al ADN de interés clínico puede basarse además en uno o más estados de metilación. Como ejemplo adicional, si una lectura está dentro de un conjunto identificado de regiones de cromatina abiertas se puede utilizar como filtro.
En la figura 45 se muestra un gráfico ilustrativo que ilustra un aumento en la fracción de ADN fetal que utiliza el motivo terminal CCCA de acuerdo con realizaciones de la presente divulgación. El eje vertical es la fracción de ADN fetal de las muestras analizadas. Los dos conjuntos de datos son para (1) todos los fragmentos que se superponen con los SNP informativos (es decir, uno con un alelo específico del feto) y (2) fragmentos que tienen un motivo terminal CCCA y se superponen con los SNP informativos. Por lo tanto, los datos de la izquierda proporcionan la fracción de ADN fetal real en toda la muestra y los datos de la derecha proporcionan los datos de una muestra enriquecida por ordenador. En este ejemplo, se puede determinar que la probabilidad está por encima del umbral cuando el motivo terminal es CCCA. Se pueden utilizar más motivos de manera similar, por ejemplo, como grupo que indica que la probabilidad está por encima de un umbral.
La mediana del aumento relativo de la fracción de ADN fetal es del 3,2 % (RIC: del 1,3 al 6,4 %). El aumento relativo de la fracción de ADN fetal se define por (b-a)/a*100, donde a es la fracción de ADN fetal original calculada por todos los fragmentos que se superponen con SNP informativos donde la madre es homocigota y el feto es heterocigoto, y b es la fracción de ADN fetal calculada por los fragmentos marcados con el motivo CCCA que está enriquecido en las moléculas de ADN fetal.
Para cualquiera de los métodos descritos en el presente documento, el motivo de secuencia para cada una de una o más secuencias terminales del fragmento de ADN extracelular circulante se puede realizar con un genoma de referencia (por ejemplo, mediante la técnica 160 de la figura 1). Dicha técnica puede incluir: alinear una o más lecturas de secuencia correspondientes al fragmento de ADN extracelular circulante con un genoma de referencia, identificar una o más bases en el genoma de referencia que son adyacentes a la secuencia terminal y utilizar la secuencia terminal y la una o más bases para determinar el motivo de la secuencia.
V. SISTEMAS ILUSTRATIVOS
En la figura 46 se ilustra un sistema de medición 4600 de acuerdo con una realización de la presente invención. El sistema como se muestra incluye una muestra 4605, tal como moléculas de ADN extracelular circulante dentro de un portamuestras 4610, donde la muestra 4605 puede ponerse en contacto con un ensayo 4608 para proporcionar una señal de una característica física 4615. Un ejemplo de un portamuestras puede ser una cubeta de flujo que incluya sondas y/o cebadores de un ensayo o un tubo a través del cual se desplace una gota (gota que incluye el ensayo). La característica física 4615 (por ejemplo, una intensidad de fluorescencia, un voltaje o una corriente), de la muestra se detecta mediante el detector 4620. El detector 4620 puede realizar una medición a intervalos (por ejemplo, intervalos periódicos) para obtener puntos de datos que conformen una señal de datos. En una realización, un convertidor de analógico a digital convierte una señal analógica del detector a una forma digital en una pluralidad de momentos. El portamuestras 4610 y el detector 4620 pueden formar un dispositivo de ensayo, por ejemplo, un dispositivo de secuenciación que realiza la secuenciación de acuerdo con las realizaciones descritas en el presente documento. Se envía una señal de datos 4625 desde el detector 4620 al sistema lógico 4630. La señal de datos 4625 puede almacenarse en una memoria local 4635, una memoria externa 4640 o un dispositivo de almacenamiento 4645.
El sistema lógico 4630 puede ser, o puede incluir, un sistema informático, un circuito Integrado para aplicaciones específicas (ASIC, por sus siglas en inglés), un microprocesador, etc. También puede incluir o estar acoplado a una pantalla (por ejemplo, un monitor, una pantalla LED, etc.) y un dispositivo de entrada para el usuario (por ejemplo, ratón, teclado, botones, etc.). El sistema lógico 4630 y los otros componentes pueden ser parte de un sistema informático independiente o conectado en red, o pueden estar directamente conectados o incorporados en un dispositivo (por ejemplo, un dispositivo de secuenciación) que incluye el detector 4620 y/o el portamuestras 4610. El sistema lógico 4630 también puede incluir un programa informático que se ejecuta en un procesador 4650. El sistema lógico 4630 puede incluir un medio informático legible que almacene instrucciones para controlar el sistema de medición 4600 para que realice cualquiera de los métodos descritos en el presente documento. Por ejemplo, el sistema lógico 4630 puede proporcionar comandos a un sistema que incluye un portamuestras 4610 de manera que se realicen secuenciaciones u otras operaciones físicas. Dichas operaciones físicas se pueden realizar en un orden particular, por ejemplo, con reactivos que se añaden y eliminan en un orden particular. Dichas operaciones físicas pueden realizarse por un sistema robótico, por ejemplo, que incluye un brazo robótico, como puede utilizarse para obtener una muestra y realizar un ensayo.
Cualquiera de los sistemas informáticos mencionados en el presente documento puede utilizar cualquier número adecuado de subsistemas. En la figura 47, en el sistema informático 10, se muestran ejemplos de dichos subsistemas. En algunas realizaciones, un sistema informático incluye un único aparato informático, donde los subsistemas pueden ser los componentes del aparato informático. En otras realizaciones, un sistema informático puede incluir varios aparatos informáticos, siendo cada uno de ellos un subsistema, con componentes internos. Un sistema informático puede incluir ordenadores de escritorio y portátiles, tabletas, teléfonos móviles y otros dispositivos móviles.
Los subsistemas mostrados en la figura 47 están interconectados a través de un bus de sistema 75. Se muestran subsistemas adicionales, tales como una impresora 74, teclado 78, dispositivo(s) de almacenamiento 79, monitor 76 (por ejemplo, una pantalla de visualización, tal como un LED), que está acoplado al adaptador de visualización 82, y otros. Los dispositivos periféricos y de entrada/salida (I/O, del inglésinput/output),que se acoplan al controlador I/O 71, pueden conectarse al sistema informático mediante cualquier tipo de medio conocido en la materia, tal como el puerto de entrada/salida (I/O) 77 (por ejemplo, USB, FireWire®). Por ejemplo, el puerto I/O 77 o la interfaz externa 81 (por ejemplo, Ethernet, Wi-Fi, etc.) se pueden utilizar para conectar el sistema informático 10 a una red de área amplia, tal como Internet, un dispositivo de entrada de ratón o un escáner. La interconexión mediante el bus de sistema 75 permite que el procesador central 73 se comunique con cada subsistema y así controlar la ejecución de diversas instrucciones procedentes de la memoria del sistema 72 o del dispositivo o los dispositivos de almacenamiento 79 (por ejemplo, un disco fijo, tal como un disco duro o un disco óptico), así como el intercambio de información entre subsistemas. La memoria del sistema 72 y/o los dispositivos de almacenamiento 79 pueden ser realizaciones de un medio legible por ordenador. Otro subsistema es un dispositivo de recogida de datos 85, tal como una cámara, micrófono, acelerómetro y similares. Cualquiera de los datos mencionados en el presente documento puede ser la salida de un componente a otro componente y puede ser la salida al usuario.
Un sistema informático puede incluir una pluralidad de los mismos componentes o subsistemas, por ejemplo, conectados entre sí por la interfaz externa 81, mediante una interfaz interna, o a través de dispositivos de almacenamiento extraíbles que pueden conectarse y desconectarse de un componente a otro componente. En algunas realizaciones, los sistemas informáticos, subsistema o aparatos pueden comunicarse a través de una red. En dichas circunstancias, un ordenador puede considerarse como cliente y otro ordenador como servidor, donde cada uno puede formar parte de un mismo sistema informático. Un cliente y un servidor pueden incluir cada uno múltiples sistemas, subsistemas o componentes.
Algunos aspectos de las realizaciones pueden implementarse en forma de lógica de control utilizando circuitos de un equipo físico (por ejemplo, un circuito integrado de aplicación específica o una matriz de puertas lógicas programables en campo) y/o utilizando programas informáticos con un procesador generalmente programable de forma modular o integrada. Como se utiliza en el presente documento, un procesador puede incluir un procesador de un solo núcleo, un procesador de varios núcleos en un mismo chip integrado, o múltiples unidades de procesamiento en una sola placa de circuito o en red, así como un equipo físico dedicado. Tomando como base la divulgación y las enseñanzas proporcionadas en el presente documento, un experto habitual en la materia conocerá y percibirá otras formas y/o métodos para implementar las realizaciones de la presente invención utilizando equipos físicos y una combinación de equipos físicos y programas informáticos.
Puede implementarse cualquiera de los componentes o las funciones de programas informáticos descritos en esta solicitud como código de programación para su ejecución mediante un procesador utilizando cualquier lenguaje informático adecuado, tal como, por ejemplo, Java, C, C++, C#, Objective-C, Swift o un lenguaje de guiones tal como Perl o Python utilizando, por ejemplo, técnicas convencionales u orientadas a objetos. El código de programación puede almacenarse como una serie de instrucciones o comandos en un medio legible por ordenador para su almacenamiento y/o transmisión. Un medio legible por ordenador no transitorio adecuado puede incluir una memoria de acceso aleatorio (RAM), una memoria de solo lectura (ROM), un medio magnético, tal como un disco duro o disquete, o un medio óptico, tal como un disco compacto (CD) o un DVD (disco digital versátil) o un disco Blu-ray, memoriaflashy similares. El medio legible por ordenador puede ser cualquier combinación de dichos dispositivos de almacenamiento o transmisión.
Dichos programas también pueden codificarse y transmitirse utilizando señales portadoras adaptadas para la transmisión a través de redes cableadas, ópticas y/o inalámbricas que se ajusten a una variedad de protocolos, incluida Internet. Así pues, se puede crear un medio legible por ordenador utilizando una señal de datos codificada con dichos programas. Los medios legibles por ordenador codificados con el código del programa pueden empaquetarse con un dispositivo compatible o proporcionarse por separado de otros dispositivos (por ejemplo, a través de descarga de Internet). Cualquier medio legible por ordenador puede residir en o dentro de un solo producto informático (por ejemplo, un disco duro, un CD o un sistema informático completo) y puede estar presente en o dentro de diferentes productos informáticos dentro de un sistema o red. Un sistema informático puede incluir un monitor, una impresora u otro dispositivo de presentación adecuado para proporcionar a un usuario cualquiera de los resultados mencionados en el presente documento.
Cualquiera de los métodos descritos en el presente documento puede realizarse total o parcialmente con un sistema informático que incluya uno o más procesadores, que pueden configurarse para realizar las etapas. Por lo tanto, las realizaciones pueden dirigirse a sistemas informáticos configurados para realizar las etapas de cualquiera de los métodos descritos en el presente documento, potencialmente con diferentes componentes que realizan una etapa o un grupo de etapas respectivas. Aunque se presentan como etapas numeradas, las etapas de los métodos del presente documento pueden realizarse al mismo tiempo o en momentos diferentes o un orden diferente. De manera adicional, pueden usarse partes de estas etapas con partes de otras etapas de otros métodos. Además, la totalidad de una etapa o partes de la misma pueden ser opcionales. De manera adicional, cualquiera de las etapas de cualquiera de los métodos puede realizarse con módulos, unidades, circuitos u otros medios de un sistema para realizar estas etapas.
Los detalles específicos de realizaciones particulares se pueden combinar de cualquier manera adecuada sin apartarse del alcance de las realizaciones de la invención. Sin embargo, otras realizaciones de la invención pueden dirigirse a realizaciones específicas relativas a cada aspecto individual, o a combinaciones específicas de estos aspectos individuales.
La descripción anterior de las realizaciones ilustrativas de la presente divulgación se ha presentado con fines ilustrativos y descriptivos. No pretende ser exhaustiva ni limitar la divulgación a la forma precisa descrita, y son posibles muchas modificaciones y variaciones a la luz de las enseñanzas anteriores.
Una cita de "un", "uno/a" o "el/la" se entiende como "uno o más" a menos que se indique específicamente lo contrario. Se entiende que el uso de "o" hace referencia a un "o inclusivo", y no a un "o exclusivo", a menos que se indique específicamente lo contrario. La referencia a un "primer" componente no requiere necesariamente que se proporcione un segundo componente. Es más, la referencia a un "primer" o un "segundo" componente no limita el componente referido a una ubicación concreta, a menos que se indique expresamente. La expresión "tomando como base" significa "basado al menos en parte en".

Claims (15)

REIVINDICACIONES
1. Un método para clasificar un nivel de una patología en una muestra biológica de un sujeto, incluyendo la muestra biológica ADN extracelular circulante, comprendiendo el método:
analizar una pluralidad de fragmentos de ADN extracelular circulante de la muestra biológica para obtener lecturas de secuencia, en donde las lecturas de secuencia incluyen secuencias terminales correspondientes a los extremos de la pluralidad de fragmentos de ADN extracelular circulante;
para cada uno de la pluralidad de fragmentos de ADN extracelular circulante, determinar un motivo de secuencia para cada una de una o más secuencias terminales del fragmento de ADN extracelular circulante; determinar frecuencias relativas de un conjunto de uno o más motivos de secuencia correspondientes a las secuencias terminales de la pluralidad de fragmentos de ADN extracelular circulante, en donde una frecuencia relativa de un motivo de secuencia proporciona una proporción de la pluralidad de fragmentos de ADN extracelular circulante que tienen una secuencia terminal correspondiente al motivo de secuencia;
determinar un valor añadido de las frecuencias relativas del conjunto de uno o más motivos de secuencia; y determinar una clasificación del nivel de la patología para el sujeto en función de una comparación del valor añadido con un valor de referencia.
2. El método de la reivindicación 1, que comprende además:
filtrar el ADN extracelular circulante para identificar la pluralidad de fragmentos de ADN extracelular circulante, en donde el filtrado se basa en un tamaño o una región de la que procede un fragmento de ADN.
3. El método de la reivindicación 2, en donde el ADN extracelular circulante se filtra en busca de fragmentos de ADN de regiones de cromatina abiertas de un tejido particular.
4. El método de una cualquiera de las reivindicaciones 1 a 3, en donde la patología es un cáncer.
5. El método de la reivindicación 4, en donde el cáncer se selecciona del grupo que consiste en carcinoma hepatocelular, cáncer de pulmón, cáncer de mama, cáncer gástrico, glioblastoma multiforme, cáncer de páncreas, cáncer colorrectal, carcinoma nasofaríngeo y carcinoma epidermoide de cabeza y cuello.
6. El método de una cualquiera de las reivindicaciones 1 a 3, en donde la patología es un trastorno autoinmunitario, en donde el trastorno autoinmunitario es lupus eritematoso sistémico.
7. El método de la reivindicación 1, en donde el nivel de la patología corresponde a una concentración fraccionaria de ADN de interés clínico asociado con la patología.
8. El método de una cualquiera de las reivindicaciones 1 a 7, en donde el conjunto de uno o más motivos de secuencia incluye posiciones de N bases, en donde el conjunto de uno o más motivos de secuencia incluye todas las combinaciones de N bases, y en donde N es un número entero igual o mayor que tres.
9. El método de una cualquiera de las reivindicaciones 1 a 7, en donde el conjunto de uno o más motivos de secuencia son M motivos de secuencia principales con la mayor diferencia entre dos tipos de ADN según se determina en una o más muestras de referencia, siendo M un número entero igual o mayor que uno.
10. El método de una cualquiera de las reivindicaciones 1 a 7, en donde el conjunto de uno o más motivos de secuencia son los M motivos de secuencia principales más frecuentes que aparecen en una o más muestras de referencia, siendo M un número entero igual o mayor que uno.
11. El método de una cualquiera de las reivindicaciones 8 a 10, en donde el conjunto de uno o más motivos de secuencia incluye una pluralidad de motivos de secuencia, y en donde el valor añadido incluye una suma de las frecuencias relativas de la pluralidad de motivos de secuencia.
12. El método de una cualquiera de las reivindicaciones 1 a 11, en donde el valor añadido corresponde a una variación en las frecuencias relativas.
13. El método de una cualquiera de las reivindicaciones 1 a 11, en donde el valor añadido incluye un resultado final o intermedio de un modelo de aprendizaje automático.
14. El método de una cualquiera de las reivindicaciones 1 a 13, en donde la determinación del motivo de secuencia para cada una de una o más secuencias terminales del fragmento de ADN extracelular circulante incluye: alinear una o más lecturas de secuencia correspondientes al fragmento de ADN extracelular circulante con un genoma de referencia;
identificar una o más bases en el genoma de referencia que son adyacentes a la secuencia terminal; y utilizar la secuencia terminal y una o más bases para determinar el motivo de secuencia.
15. Un programa informático que comprende una pluralidad de instrucciones que, cuando se ejecutan, controlan un sistema informático para realizar el método de una cualquiera de las reivindicaciones 1 a 14.
ES19898588T 2018-12-19 2019-12-19 Características de los extremos del ADN extracelular circulante Active ES2968457T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201862782316P 2018-12-19 2018-12-19
PCT/CN2019/126565 WO2020125709A1 (en) 2018-12-19 2019-12-19 Cell-free dna end characteristics

Publications (1)

Publication Number Publication Date
ES2968457T3 true ES2968457T3 (es) 2024-05-09

Family

ID=71099178

Family Applications (1)

Application Number Title Priority Date Filing Date
ES19898588T Active ES2968457T3 (es) 2018-12-19 2019-12-19 Características de los extremos del ADN extracelular circulante

Country Status (12)

Country Link
US (1) US20200199656A1 (es)
EP (2) EP3899018B1 (es)
JP (1) JP2022514879A (es)
KR (1) KR20210113237A (es)
CN (2) CN117778576A (es)
AU (1) AU2019410635A1 (es)
CA (1) CA3123474A1 (es)
DK (1) DK3899018T3 (es)
ES (1) ES2968457T3 (es)
SG (1) SG11202106114XA (es)
TW (1) TW202039860A (es)
WO (1) WO2020125709A1 (es)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110291212A (zh) * 2017-01-25 2019-09-27 香港中文大学 使用核酸片段的诊断应用
WO2021139716A1 (en) * 2020-01-08 2021-07-15 The Chinese University Of Hong Kong Biterminal dna fragment types in cell-free samples and uses thereof
TW202217009A (zh) * 2020-07-13 2022-05-01 香港中文大學 游離核酸之核酸酶相關末端標籤分析
CA3189709A1 (en) * 2020-08-19 2022-02-24 Li Weng Methods for selective cell-free nucleic acid analysis
EP4263869A1 (en) * 2020-12-15 2023-10-25 Gateway Genomics, LLC Methods, compositions, and devices for the rapid determination of fetal sex
KR20220160806A (ko) 2021-05-28 2022-12-06 주식회사 지씨지놈 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법
KR20230064172A (ko) * 2021-11-03 2023-05-10 주식회사 지씨지놈 세포유리 핵산단편 위치별 서열 빈도 및 크기를 이용한 암 진단 방법
US20230279498A1 (en) * 2021-11-24 2023-09-07 Centre For Novostics Limited Molecular analyses using long cell-free dna molecules for disease classification
US20240011105A1 (en) * 2022-07-08 2024-01-11 The Chinese University Of Hong Kong Analysis of microbial fragments in plasma
CN114898802B (zh) * 2022-07-14 2022-09-30 臻和(北京)生物科技有限公司 基于血浆游离dna甲基化测序数据的末端序列频率分布特征确定方法、评价方法及装置
US20240043935A1 (en) * 2022-07-29 2024-02-08 Centre For Novostics Limited Epigenetics analysis of cell-free dna

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6196157B2 (ja) 2010-11-30 2017-09-20 ザ チャイニーズ ユニバーシティ オブ ホンコン 癌関連の遺伝子または分子異常の検出
US9892230B2 (en) 2012-03-08 2018-02-13 The Chinese University Of Hong Kong Size-based analysis of fetal or tumor DNA fraction in plasma
US11261494B2 (en) 2012-06-21 2022-03-01 The Chinese University Of Hong Kong Method of measuring a fractional concentration of tumor DNA
US9732390B2 (en) 2012-09-20 2017-08-15 The Chinese University Of Hong Kong Non-invasive determination of methylome of fetus or tumor from plasma
KR102307424B1 (ko) * 2012-09-20 2021-09-29 더 차이니즈 유니버시티 오브 홍콩 혈장으로부터 태아 또는 종양 메틸롬의 비침습적 결정
ES2890136T3 (es) * 2014-07-18 2022-01-17 Univ Hong Kong Chinese Análisis de patrones de metilación de tejidos en una mezcla de ADN
US20170211143A1 (en) * 2014-07-25 2017-07-27 University Of Washington Methods of determining tissues and/or cell types giving rise to cell-free dna, and methods of identifying a disease or disorder using same
US11242559B2 (en) * 2015-01-13 2022-02-08 The Chinese University Of Hong Kong Method of nuclear DNA and mitochondrial DNA analysis
EP3256605B1 (en) * 2015-02-10 2022-02-09 The Chinese University Of Hong Kong Detecting mutations for cancer screening and fetal analysis
IL305462A (en) * 2015-07-23 2023-10-01 Univ Hong Kong Chinese DNA fragmentation pattern analysis suitable clean
ES2967443T3 (es) * 2016-07-06 2024-04-30 Guardant Health Inc Procedimientos de perfilado de fragmentoma de ácidos nucleicos sin células
MY195527A (en) * 2016-10-24 2023-01-30 Grail Inc Methods And Systems For Tumor Detection
EP3548632A4 (en) * 2016-11-30 2020-06-24 The Chinese University Of Hong Kong ANALYSIS OF CELLULAR DNA IN URINE AND OTHER SAMPLES
JP7296969B2 (ja) * 2018-01-12 2023-06-23 クラレット バイオサイエンス, エルエルシー 核酸を解析するための方法および組成物
AU2019263869A1 (en) 2018-05-03 2020-11-26 Grail, Inc. Size-tagged preferred ends and orientation-aware analysis for measuring properties of cell-free mixtures

Also Published As

Publication number Publication date
CA3123474A1 (en) 2020-06-25
EP3899018A4 (en) 2022-09-14
DK3899018T3 (da) 2024-01-08
CN113366122A (zh) 2021-09-07
KR20210113237A (ko) 2021-09-15
EP3899018A1 (en) 2021-10-27
AU2019410635A1 (en) 2021-06-17
EP4300500A3 (en) 2024-03-27
EP4300500A2 (en) 2024-01-03
CN113366122B (zh) 2024-01-12
WO2020125709A1 (en) 2020-06-25
SG11202106114XA (en) 2021-07-29
EP3899018B1 (en) 2023-12-06
JP2022514879A (ja) 2022-02-16
US20200199656A1 (en) 2020-06-25
CN117778576A (zh) 2024-03-29
TW202039860A (zh) 2020-11-01

Similar Documents

Publication Publication Date Title
ES2968457T3 (es) Características de los extremos del ADN extracelular circulante
ES2960201T3 (es) Análisis de los patrones de fragmentación del ADN acelular
US11783915B2 (en) Convolutional neural network systems and methods for data classification
JP7385686B2 (ja) 無細胞核酸の多重解像度分析のための方法
ES2894479T3 (es) Análisis mutacional de ADN de plasma para la detección de cáncer
US11581062B2 (en) Systems and methods for classifying patients with respect to multiple cancer classes
ES2959360T3 (es) Mejora del cribado del cáncer mediante ácidos nucleicos víricos acelulares
US11929148B2 (en) Systems and methods for enriching for cancer-derived fragments using fragment size
US20210238668A1 (en) Biterminal dna fragment types in cell-free samples and uses thereof
TW202012639A (zh) 使用病原體核酸負荷確定個體是否患有癌症病況的系統及方法
JP2023540257A (ja) がんを分類するためのサンプルの検証
WO2023093782A1 (en) Molecular analyses using long cell-free dna molecules for disease classification
TW202424208A (zh) 無細胞dna的表觀遺傳學分析