ES2989374T3 - Sistemas y procedimientos para predecir el estado de deficiencia de recombinación homóloga de una muestra - Google Patents

Sistemas y procedimientos para predecir el estado de deficiencia de recombinación homóloga de una muestra Download PDF

Info

Publication number
ES2989374T3
ES2989374T3 ES20835972T ES20835972T ES2989374T3 ES 2989374 T3 ES2989374 T3 ES 2989374T3 ES 20835972 T ES20835972 T ES 20835972T ES 20835972 T ES20835972 T ES 20835972T ES 2989374 T3 ES2989374 T3 ES 2989374T3
Authority
ES
Spain
Prior art keywords
subject
cancer
hrd
sequence reads
dna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES20835972T
Other languages
English (en)
Inventor
Joshua Sk Bell
Catherine Igartua
Benjamin Leibowitz
Timothy Taxter
Bonnie Victoria Dougherty
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tempus AI Inc
Original Assignee
Tempus AI Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tempus AI Inc filed Critical Tempus AI Inc
Application granted granted Critical
Publication of ES2989374T3 publication Critical patent/ES2989374T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Bioethics (AREA)
  • Physiology (AREA)
  • Databases & Information Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Zoology (AREA)
  • Oncology (AREA)
  • Microbiology (AREA)
  • Hospice & Palliative Care (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)

Abstract

Se proporcionan métodos, sistemas y software para un modelo de conjunto entrenado para distinguir entre cánceres con deficiencias en la vía de recombinación homóloga (cánceres HRD positivos) y cánceres sin deficiencias en la vía de recombinación homóloga (cánceres HRD negativos) basándose en datos de secuenciación de ácidos nucleicos, por ejemplo, datos de secuenciación de ARN y ADN, generados a partir de una muestra de tejido canceroso del sujeto. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Sistemas y procedimientos para predecir el estado de deficiencia de recombinación homóloga de una muestra
Campo técnico
La presente divulgación se refiere en general al uso de clasificadores de aprendizaje automático entrenados a partir de secuencias de ARN y/o ADN de tejidos cancerosos para predecir la deficiencia de recombinación homóloga.
Antecedentes
La oncología de precisión es la práctica de adaptar la terapia del cáncer al perfil genómico, epigenético y/o transcriptómico único de un tumor individual. Esto contrasta con los procedimientos convencionales para tratar a un paciente de cáncer basados meramente en el tipo de cáncer que padece el paciente, por ejemplo, tratar a todos los pacientes de cáncer de mama con una primera terapia y a todos los pacientes de cáncer de pulmón con una segunda terapia. La oncología de precisión surgió a partir de numerosas observaciones de que distintos pacientes diagnosticados con el mismo tipo de cáncer, por ejemplo, de mama, respondían de forma muy diferente a los regímenes de tratamiento habituales. Con el tiempo, los investigadores han identificado marcadores genómicos, epigenéticos y transcriptómicos que facilitan cierto nivel de predicción sobre cómo responderá un cáncer individual a una modalidad de tratamiento concreta.
La terapia dirigida a alteraciones genómicas específicas ya es el tratamiento estándar en varios tipos de tumores (por ejemplo, como se sugiere en las directrices de la National Comprehensive Cancer Network (NCCN) para el melanoma, el cáncer colorrectal y el cáncer de pulmón de células no pequeñas). Estas pocas mutaciones, bien conocidas en las directrices de la NCCN, pueden abordarse con ensayos individuales o pequeños paneles de secuenciación de nueva generación (NGS). Sin embargo, para que el mayor número de pacientes se beneficie de la oncología personalizada, deben evaluarse las alteraciones moleculares a las que pueden dirigirse las indicaciones farmacológicas no contempladas en la etiqueta, la terapia combinada o la inmunoterapia agnóstica de tejidos. Véase Schwaederle et al.
2016 JAMA Oncol. 2, 1452-1459; Schwaederle et al. 2015 J Clin Oncol. 32, 3817-3825; y Wheler et al. 2016 Cancer Res. 76, 3690-3701. Los ensayos NGS de gran tamaño también amplían las posibilidades de inscripción en ensayos clínicos. Véase Coyne et al. 2017 Curr. Probl. Cancer 41, 182-193; y Markman 2017 Oncology 31, 158,168.
El análisis genómico de los tumores se está convirtiendo rápidamente en una práctica clínica habitual para ofrecer tratamientos personalizados a los pacientes y mejorar los resultados. Véase Fernandes et al. 2017 Clinics 72, 588 594. De hecho, estudios recientes indican que la atención clínica se guía por los resultados de los ensayos de NGS en el 30-40% de los pacientes que reciben este tipo de pruebas. Véase Hirshfield et al. 2016 Oncologist 21, 1315 1325; Groisberg et al. 2017 Oncotarget 8, 39254-39267; Ross et al. JAMA Oncol. 1, 40-49; y Ross et al. 2015 Arch. Pathol. Lab Med. 139, 642-649. Cada vez hay más pruebas de que los pacientes que reciben asesoramiento terapéutico guiado por la genética obtienen mejores resultados. Véase, por ejemplo, Wheler et al. que utilizaron puntuaciones de emparejamiento (por ejemplo, puntuaciones basadas en el número de asociaciones terapéuticas y aberraciones genómicas por paciente) para demostrar que los pacientes con puntuaciones de emparejamiento más altas tienen una mayor frecuencia de enfermedad estable, mayor tiempo hasta el fracaso del tratamiento y mayor supervivencia global (2016 Cancer Res. 76, 3690-3701). Estos procedimientos pueden ser especialmente útiles en pacientes en los que ya han fracasado varias líneas de tratamiento.
El documento WO 2017/178509 A1 se refiere a un procedimiento de predicción de la sensibilidad al tratamiento con inhibidores de PARP en pacientes cancerosos que comprende la determinación del tumor con deficiencia de recombinación homóloga (HRD) mediante el arreglo de cicatrices genómicas HRD.
Las terapias dirigidas han mostrado mejoras significativas en los resultados de los pacientes, especialmente en términos de supervivencia libre de progresión. Véase Radovich et al. 2016 Oncotarget 7, 56491-56500. Los datos recientes del ensayo IMPACT, que incluyó pruebas genéticas de tumores en estadio avanzado de 3.743 pacientes y en el que aproximadamente el 19% de los pacientes recibieron terapias dirigidas emparejadas en función de la biología de su tumor, mostraron una tasa de respuesta del 16,2% en pacientes con tratamientos emparejados frente al 5,2% en pacientes con tratamientos no emparejados. Véase Bankhead. "IMPACT Trial: Support for Targeted Cancer Tx Approaches" MedPageToday. 5 de junio de 2018. En el estudio IMPACT se observó además que la supervivencia global a los tres años de los pacientes a los que se administró un tratamiento molecularmente compatible fue más del doble que la de los pacientes no compatibles (15% frente a 7%). Véase Id. y ASCO Post. "2018<a>S<c>O: IMPACT Trial Matches Treatment to Genetic Changes in the Tumor to Improve Survival Across Multiple Cancer conditions" The ASCO POST. 6 de junio de 2018. Las estimaciones de la proporción de pacientes para los que las pruebas genéticas cambian la trayectoria de su atención varían ampliamente, desde aproximadamente el 10% a más del 50%. Véase Fernandes et al. 2017 Clinics 72, 588-594.
Un ejemplo de rasgo genómico que se ha relacionado con la eficacia de determinadas terapias son las mutaciones en los genes de recombinación homóloga BRCA1, BRCA2 o PALB2. Una clase de inhibidores farmacológicos de la poli ADP ribosa polimerasa 1 (PARP1), conocidos como inhibidores de PARP (PARPi), tienen eficacia terapéutica para tratar algunos cánceres que contienen una mutación en los genes de recombinación homóloga BRCA1, BRCA2 o PALB2. PARP1 es una enzima esencial en la vía de reparación del ADN de unión de extremos mediada por microhomología (MMEJ) propensa a errores. Sharma S. et al., Cell Death Dis. 6(3):e1697 (2015). En ausencia de actividad PARP1, las horquillas de replicación del ADN se detienen al encontrarse con una rotura de cadena sencilla. El estancamiento de la horquilla acaba provocando roturas cromosómicas de doble cadena que pueden repararse mediante la reparación por recombinación homóloga (HR), mucho menos propensa a errores que la vía MMEJ.
A diferencia de otras proteínas reparadoras del ADN, que suelen ser deficientes comúnmente en las células cancerosas, se ha demostrado que PARP1 se sobreexpresa en ciertos tipos de cáncer. Se ha teorizado que el aumento de la reparación del ADN MMEJ, en relación con la reparación homóloga, da lugar a la acumulación de mutaciones genómicas, que pueden conducir al desarrollo del cáncer. Sin embargo, la eficacia de los inhibidores de PARP no se conoce por completo. Por ejemplo, no todos los cánceres con una mutación BRCA1, BRCA2 o PALB2 son sensibles a los inhibidores de PARP Además, algunos cánceres sin mutación en ninguna proteína de recombinación homóloga son sensibles a los inhibidores de PARP
La recombinación homóloga (HR) es un procedimiento de reparación del ADN normal y altamente conservado que permite el intercambio de información genética entre moléculas de ADN idénticas o estrechamente relacionadas. Las células lo utilizan sobre todo para reparar con precisión las roturas dañinas (es decir, los daños) que se producen en ambas cadenas de ADN. El daño del ADN puede deberse a fuentes exógenas (externas), como la luz ultravioleta, la radiación o los daños químicos, o a fuentes endógenas (internas), como errores en la replicación del ADN u otros procedimientos celulares que lo dañan. Las roturas de doble cadena son un tipo de daño del ADN.
La HRD es un biomarcador de la sensibilidad a los inhibidores de PARP, y se define como un estado de enfermedad que surge en los tumores a través de la pérdida de la vía de reparación del ADN por recombinación homóloga, más comúnmente a través de la inactivación bialélica de BRCA1/2. La HRD se detecta convencionalmente en los datos de secuenciación del ADN mediante el recuento de ciertas alteraciones características del número de copias a escala megabase que se acumulan con el tiempo en ausencia de reparación de la HR. Sin embargo, este procedimiento basado en el ADN puede fallar a la hora de detectar especímenes de pacientes que aún no han acumulado un gran número de lesiones genéticas, ya sea debido al azar o a una HRD reciente. Estos pacientes no detectados pueden no tener la oportunidad de que se les prescriban inhibidores de PARP u otras terapias que dañan el ADN sin un diagnóstico de HRD. Se necesita un procedimiento que detecte un mayor porcentaje de pacientes con HRD positivo.
Utilizar inhibidores de la poli (ADP-ribosa) polimerasa (PARP) en pacientes con HRD compromete dos vías de reparación del ADN, lo que provoca la muerte celular (apoptosis). La eficacia de los inhibidores de PARP mejora no sólo en los cánceres de ovario que presentan mutaciones<b>R<c>A germinales o somáticas, sino también en los cánceres en los que la HRD está causada por otras etiologías subyacentes.
La poli (ADP-ribosa) polimerasa (PARP) es una familia de proteínas implicadas en una serie de procedimientos celulares como la reparación del ADN, la estabilidad genómica y la muerte celular programada. La deficiencia de recombinación homóloga ("deficiencia de HR" o "HRD") es una deficiencia que ha demostrado aumentar la eficacia de los inhibidores de PARP (PARPi) y las terapias basadas en platino para los pacientes. Las lesiones más comunes en el ADN celular son las roturas de cadena sencilla (SSB), que se producen en decenas de miles por célula al día. Las PARP son enzimas de reparación del ADN que ayudan a reparar roturas de cadena sencilla. Cuando estas PARP no funcionan o se bloquean (por ejemplo, mediante un tratamiento con inhibidores de PARP), se producen las denominadas roturas de doble cadena (DSB). La reparación por recombinación homóloga (HRR) es la principal forma que tiene el organismo de reparar estos DSB. Si las células cancerosas tienen HRD (o, en otras palabras, HRR deficiente), la probabilidad de que la célula se recupere del DSB disminuye, lo que lleva a la célula a la apoptosis (muerte celular programada), en lugar de que la célula siga proliferando. Provocar la muerte de las células cancerosas es una forma de detener el crecimiento del cáncer de una persona.
Algunos consideran la HRD como un estado de enfermedad que surge en tumores a través de la pérdida de la vía de reparación del ADN por recombinación homóloga, comúnmente causada por la inactivación bialélica de BRCA1/2. La deficiencia suele estar señalada por una mutación en los genes BRCA, pero, como es habitual en el cáncer, hay otras formas de que un tumor presente una deficiencia de HR.
En todos los tipos de cáncer, la HRD se produce con una frecuencia aproximada del 6%. Las tasas pueden alcanzar el 30% en el caso del cáncer de ovario, y ser intermedias en los de mama, páncreas y próstata (12-13%). La HRD puede deberse a la inactivación bialélica de BRCA1, BRCA2, RADS 1C y PALB2. También se cree que la pérdida de heterocigosidad (LOH) y las deleciones (especialmente de BRCA2) son una causa importante.
Sumario
Dados los antecedentes anteriores, lo que se necesita en la técnica son formas mejoradas de predecir qué cánceres son positivos a la deficiencia de recombinación homóloga (HRD), por ejemplo, para identificar qué pacientes con cáncer tienen más probabilidades de responder favorablemente a los inhibidores de PARP y/o a la quimioterapia neoadyuvante que contiene platino. La presente divulgación aborda estas y otras necesidades proporcionando sistemas y procedimientos para evaluar resultados de secuenciación de ARN y/o ADN de tejidos cancerosos utilizando un algoritmo de aprendizaje automático entrenado para predecir el estado de recombinación homóloga de un cáncer.
La pérdida de recombinación homóloga es un determinante ampliamente reconocido de la progresión del cáncer. Sin embargo, existen pocos recursos computacionales para estimar la deficiencia de recombinación homóloga (HRD) a partir de genomas de pacientes. Canónicamente, se sabe que la HRD se produce principalmente por la pérdida bialélica de BRCA1 o de BRCA2. Aunque la pérdida bialélica es definitoria de la HRD, hay otros factores que pueden dar lugar a HRD, como la mutación de otros genes de reparación del ADN, mecanismos epigenéticos y factores desconocidos. Sin embargo, es difícil identificar los cánceres positivos para HRD que no presentan pérdida bialélica de BRCA1 o de BRCA2. Ventajosamente, la presente divulgación proporciona sistemas y procedimientos de conjuntos de HRD basados en genómica que no dependen de la detección de pérdida bialélica de BRCA1 o de BRCA2 para identificar cánceres HRD. Estas pruebas son valiosas para el diagnóstico del cáncer y podrían utilizarse para estratificar a los pacientes de cara al tratamiento con, por ejemplo, PARPi y/o quimioterapia neoadyuvante que contiene platino.
En un aspecto, se proporcionan procedimientos y sistemas para determinar el estado de la vía de recombinación homóloga de un cáncer en un sujeto de prueba. Todos o parte de estos procedimientos se llevan a cabo en un sistema informático que tiene uno o más procesadores, y memoria que almacena uno o más programas para su ejecución por el uno o más procesadores. El procedimiento incluye la obtención de una primera pluralidad de lecturas de secuencias, en forma electrónica, de una muestra de ADN del sujeto de la prueba, la muestra de ADN que comprende moléculas de ADN de un tejido canceroso del sujeto. El procedimiento también incluye la obtención de una segunda pluralidad de lecturas de secuencia, en forma electrónica, de una muestra de ARN del sujeto de ensayo, la muestra de ARN que comprende moléculas de ARN del tejido canceroso del sujeto. El procedimiento incluye determinar, basándose en la primera pluralidad de lecturas de secuencia, una primera predicción para el estado de la vía de recombinación homóloga del tejido canceroso del sujeto basándose en una medida de pérdida de heterocigosidad en todo el genoma para el tejido canceroso del sujeto. El procedimiento incluye determinar, basándose en la segunda pluralidad de lecturas de secuencia, una segunda predicción para el estado de la vía de recombinación homóloga del tejido canceroso del sujeto basándose en los niveles de expresión de una pluralidad de genes en el tejido canceroso del sujeto. El procedimiento incluye generar un constructo de datos del sujeto que comprenda (i) la primera predicción para el estado de la vía de recombinación homóloga del tejido canceroso del sujeto y (ii) la segunda predicción para el estado de la vía de recombinación homóloga del tejido canceroso del sujeto. El procedimiento incluye introducir el constructo de datos del sujeto en un modelo de conjunto entrenado para distinguir entre cánceres con deficiencias de la vía de recombinación homóloga y cánceres sin deficiencias de la vía de recombinación homóloga, determinando así el estado de la vía de recombinación homóloga del sujeto de prueba.
Otros aspectos y ventajas de la presente divulgación resultarán evidentes para los expertos en la materia a partir de la siguiente descripción detallada.
Breve descripción de los dibujos
Las Figuras 1A, 1B, y 1C ilustran colectivamente un diagrama de bloques de un ejemplo de un dispositivo informático para utilizar información derivada de la secuenciación de ADN y la secuenciación de ARN de tejido canceroso para predecir el estado de recombinación homóloga de un cáncer, de acuerdo con algunas realizaciones de la presente divulgación.
La Figura 2 ilustra un ejemplo de un entorno de diagnóstico distribuido para recopilar y evaluar datos de pacientes con fines de oncología de precisión, de acuerdo con algunas realizaciones de la presente divulgación.
La Figura 3 proporciona un diagrama de flujo de un ejemplo de procedimiento 300 para determinar el estado de recombinación homóloga de un cáncer, basado en la secuenciación del ADN y la secuenciación del ARN del tejido canceroso, de acuerdo con algunas realizaciones de la presente divulgación.
La Figura 4 proporciona un diagrama de flujo de un ejemplo de procedimiento 400 para utilizar información derivada de la secuenciación de ADN y la secuenciación de ARN de tejido canceroso para predecir el estado de recombinación homóloga de un cáncer, de acuerdo con algunas realizaciones de la presente divulgación.
Las Figuras 5A, 5B, y 5C proporcionan colectivamente un diagrama de flujo de un ejemplo de procedimiento 500 para utilizar información derivada de la secuenciación de ADN y secuenciación de ARN de tejido canceroso para predecir el estado de recombinación homóloga de un cáncer, de acuerdo con algunas realizaciones de la presente divulgación.
Las Figuras 6A, 6B y 6C ilustran componentes de ejemplo de un informe clínico, mostrando asesoramiento basado en resultados de un modelo de conjunto HRD como se describe en el presente documento, emitido para proporcionar apoyo clínico para la terapia personalizada del cáncer, de acuerdo con algunas realizaciones de la presente divulgación.
La Figura 7 ilustra curvas ROC para el rendimiento de cuatro modelos HRD individuales, un modelo HRD de conjunto y un modelo HRD basado en secuenciación de ADN, como se describe en el Ejemplo 1, y de acuerdo con algunas realizaciones de la presente divulgación.
La Figura 8 es una tabla que ilustra ejemplos de modelos de red elástica entrenados, por ejemplo, entrenados como se describe en el bloque 310 de la Figura 3, con las cinco principales métricas de rendimiento, de acuerdo con algunas realizaciones de la presente divulgación.
La Figura 9A ilustra una correlación entre las puntuaciones HRD generadas utilizando un modelo de red elástica de ejemplo entrenado para predecir si un cáncer es positivo a la deficiencia de recombinación homóloga (HRD) basado en niveles de expresión génica generados a partir de datos de ARNsec generados a partir de muestras de tumores sólidos y una puntuación HRD basada en ADN, de acuerdo con algunas realizaciones de la presente divulgación.
La Figura 9B ilustra una correlación entre las puntuaciones HRD generadas utilizando un modelo de red elástica de ejemplo entrenado para predecir si un cáncer es positivo a la deficiencia de recombinación homóloga (HRD) basado en los niveles de expresión génica generados a partir de datos de ARNsec generados a partir de muestras de tumores sólidos (eje x) y las puntuaciones de la vía ssGSEA de recombinación homóloga, de acuerdo con algunas realizaciones de la presente divulgación.
La Figura 9C ilustra correlaciones entre puntuaciones de la vía ssGSEA de recombinación homóloga y un modelo de pérdida de heterocigosidad (LOH) basado en ADN para HRD para diversos tipos de cáncer, de acuerdo con algunas realizaciones de la presente divulgación.
La Figura 10A ilustra el número de eventos de fusión determinados utilizando datos de secuenciación de ADN (izquierda) y datos de secuenciación de ARN (derecha), en cánceres BRCA de tipo silvestre (0 - estadísticas superiores reportadas) y BRCA deficientes (1 - estadísticas inferiores reportadas). Los eventos de fusión se determinaron para (i) todos los tipos de fusión, (ii) sólo deleciones, (iii) sólo duplicaciones, (iv) sólo inversiones y (v) sólo translocaciones.
La Figura 10B ilustra la asociación entre el número de eventos de fusión determinados utilizando datos de secuenciación de ADN (izquierda) y datos de secuenciación de ARN (derecha) con gwLOH, en cánceres BRCA de tipo silvestre (0 - estadística superior reportada) y BRCA deficiente (1 - estadística inferior reportada). Las asociaciones se determinaron utilizando (i) todos los tipos de fusión, (ii) sólo deleciones, (iii) sólo duplicaciones, (iv) sólo inversiones y (v) sólo translocaciones.
Las Figuras 11A y 11B ilustran las métricas para los modelos individuales de mejor rendimiento de cada tipo de datos, entrenados como se describe en el Ejemplo 6, donde el estado HRD de la verdad básica se define utilizando la inactivación bialélica (deficiencia de BRACA, al menos dos mutaciones patogénicas o eventos de pérdida de copia en BRCA1 o BRCA2) como un proxi para el estado HRD+.
Las Figuras 12A y 12B ilustran las matrices de confusión para el rendimiento de un modelo apilado en el que el estado HRD verdadero se define utilizando la inactivación bialélica (deficiencia de BRCA, al menos dos mutaciones patogénicas o eventos de pérdida de copia en BRCA1 o BRCA2) como un proxi para el estado HRD+ (Figura 12A) y las matrices de confusión para el rendimiento del modelo apilado en cohortes de un solo tipo de cáncer, utilizando de nuevo la inactivación bialélica como un proxi para el estado HRD+ (Figura 12B).
Las Figuras 13A y 13B ilustran las correlaciones entre el estado de HRD predicho por el modelo apilado y los resultados del tratamiento con PARPi, para un conjunto de datos limitado en el que se dispone de datos de secuenciación de ARN, datos de secuenciación de a Dn y resultados del tratamiento con PARPi. Las predicciones negativas de HRD se muestran en el panel superior de la Figura 13A y el gráfico izquierdo de cada par en la Figura 13B.
Las Figuras 14A, 14B, 14C, 14D, 14E, 14F, 14G, 14H, 14I, 14J, 14K, 14L, 14M, 14N, 14O 14P, 14Q, 14R, 14S, 14T y 14U ilustran matrices de confusión para el rendimiento del modelo de pérdida de heterocigosidad en todo el genoma (gwLOH) basado en datos de ADN, un modelo basado en datos de ARN, o un modelo apilado basado tanto en los modelos gwLOH y ARN, donde cada modelo es un modelo pan-cáncer o un modelo generado específicamente para una única cohorte de cáncer (véase el título del gráfico en cada figura).
La Figura 15 ilustra las curvas ROC y proporciona cálculos AUC para el rendimiento de cada modelo individual, así como el modelo de conjuntos apilado, en una cohorte de pan-cáncer, donde el estado básico verdadero de HRD se define utilizando la inactivación bialélica (deficiencia de BRCA, al menos dos mutaciones patogénicas o eventos de pérdida de copia en BRCA1 o BRCA2) como un proxi para el estado HRD+.
La Figura 16 ilustra las curvas ROC y proporciona cálculos de AUC para el rendimiento de cada modelo individual, así como el modelo de conjunto apilado, en cohortes de tipo de cáncer único, utilizando de nuevo la inactivación bialélica como un proxi para el estado HRD+.
La Figura 17 ilustra las puntuaciones F3 para el rendimiento de cada modelo individual, así como el modelo de conjunto apilado, en una cohorte de validación de pan-cáncer, donde el estado básico verdadero de HRD se define utilizando la inactivación bialélica (deficiencia de BRCA, al menos dos mutaciones patogénicas o eventos de pérdida de copia en BRCA1 o BRCA2) como un proxi para el estado HRD+.
La Figura 18 ilustra las puntuaciones F3 para el rendimiento de cada modelo individual, así como el modelo de conjunto apilado, en cohortes de validación de un solo tipo de cáncer, utilizando de nuevo la inactivación bialélica como un proxi para el estado HRD+.
Descripción detallada
La presente divulgación proporciona sistemas y procedimientos para utilizar la información derivada de la secuenciación del ARN y la secuenciación del ADN de tejido canceroso para predecir el estado de recombinación homóloga de un cáncer, con el fin de mejorar las predicciones y los resultados del tratamiento. En algunas realizaciones, los datos de secuenciación de ADN de tejido canceroso emparejado y tejido de línea germinal se utilizan conjuntamente para mejorar la precisión de las predicciones. La invención se define mediante las reivindicaciones independientes.
En algunas realizaciones, los clasificadores de conjunto, por ejemplo, que apilan predicciones de HRD hechas por separado a partir de datos de secuenciación de ARN y datos de secuenciación de ADN mejoran las predicciones del estado de HRD. Por ejemplo, como se describe en el Ejemplo 7, la utilización de un modelo de conjunto que combina predicciones del estado HRD realizadas a partir de un primer modelo entrenado con datos de transcripción de ARNm generados a partir de un tejido canceroso o un sujeto y un segundo modelo entrenado con pérdida de heterocigosidad en todo el genoma (gwLOH) determinada a partir de datos de secuenciación de ADN generados a partir de un tejido canceroso, y opcionalmente secuenciación de ADN a partir de una muestra de tejido no canceroso emparejado del sujeto, proporciona un rendimiento significativamente mejorado en relación con el rendimiento de cualquiera de los modelos por separado. Véase, por ejemplo, las métricas de rendimiento recogidas en los Ejemplos 17 y 18.
En algunas realizaciones, los sistemas y procedimientos proporcionados en el presente documento facilitan la predicción mejorada de HRD aprovechando los datos tanto de la secuenciación del ARN como de la secuenciación del ADN de muestras de tejido canceroso. En algunas realizaciones, estos datos se integran juntos en un clasificador conjunto, en el que uno o más clasificadores se entrenan frente a las características de los datos de secuenciación de ARN, uno o más clasificadores se entrenan frente a las características de los datos de secuenciación de ADN y, a continuación, un clasificador conjunto se entrena frente a la salida de uno o más clasificadores de datos de secuenciación de ARN y uno o más clasificadores de datos de secuenciación de ADN. En algunas realizaciones, los clasificadores se entrenan aún más contra el tipo de cáncer, así como las características de secuenciación de ARN y/o ADN.
Un obstáculo para el entrenamiento de un modelo para determinar el estado HRD es la relativa falta de disponibilidad de etiquetas objetivo de la verdad básica para los datos de entrenamiento. En concreto, se trata de determinar qué muestras de un conjunto de datos de entrenamiento tienen realmente HRD y responderían, por ejemplo, a la terapia PARPi y/o a la quimioterapia neoadyuvante que contiene platino, y cuáles no. En algunas realizaciones, un modelo de predicción de HRD descrito en el presente documento se entrena con un conjunto de datos en el que se utiliza un rasgo genético como un proxi para el estado de HRD, para proporcionar una etiqueta de verdad básica que permita el entrenamiento en una cohorte de entrenamiento mucho mayor. En algunas realizaciones, la pérdida bialélica de deficiencia de BRCA bialélico ya sea de BRCA1 o BRCA2 se utiliza como un proxi del estado positivo de , y el estado completamente de tipo silvestre HRD de BRCA1 y BRCA2, por ejemplo, sin variantes de nucleótido único, sin inserciones o deleciones cortas y número de copias diploide de ambos genes BRCA1 y BRCA2 se utiliza como un proxi del estado negativo de HRD. En consecuencia, se excluyen de la cohorte de formación las posibles muestras de una base de datos de cohortes de formación maestra que contengan una variante nucleotídica, inserción o deleción en un gen BRCA1 o BRCA2, o que no sean diploides para el gen BRCA1 o BRCA2, pero que no demuestren deficiencia BRCA bialélica. En algunas realizaciones, puede ser difícil determinar si cada alelo BRCA1 o BRCA2 está asociado con una variante de pérdida de función, por ejemplo, dos variantes en BRCA1 pueden estar en el mismo alelo. Estas muestras pueden excluirse o puede suponerse que presentan una pérdida bialélica de BRCA1 o BRCA2.
En consecuencia, en un aspecto, la divulgación proporciona un procedimiento para entrenar un clasificador para predecir el estado HRD de una muestra de prueba. El procedimiento incluye la selección, a partir de una base de datos más amplia que comprende datos de secuenciación de ARN y/o ADN de un tejido canceroso, de un primer subconjunto de muestras que muestran deficiencia BRCA bialélica y un segundo subconjunto de muestras que son completamente de tipo salvaje para los genes BRCA1 y BRCA2. El primer subconjunto de muestras se etiqueta como HRD positivo, y el segundo subconjunto de muestras como HRD negativo. A continuación, se entrena un modelo frente al constructo de datos, para cada una de las muestras del primer subconjunto y del segundo subconjunto, que incluyen (i) una o más características de los datos de secuenciación de ARN y/o ADN (por ejemplo, uno o más de los niveles de expresión de ARNm para una pluralidad de genes, una medida de pérdida de heterocigosidad genómica, una medida de reordenamientos genómicos y/o transcriptómicos (por ejemplo, una o más de inserciones, deleciones, fusiones génicas, inversiones, etc.), una medida de mutilación genómica, etc.), (ii) la etiqueta HRD asignada a la muestra basada en el estado BRCA de la muestra, y (iii) opcionalmente una etiqueta del tipo de cáncer para la muestra.
Definiciones.
La terminología utilizada en la presente divulgación tiene por objeto describir únicamente realizaciones particulares y no pretende ser limitativa de la invención. Tal como se utilizan en la descripción de la invención y en las reivindicaciones adjuntas, las formas singulares "una", "un" y "el" se entienden que incluyen también las formas plurales, a menos que el contexto indique claramente lo contrario. También se entenderá que el término "y/o", tal como se utiliza en el presente documento, se refiere y abarca todas y cada una de las combinaciones posibles de uno o más de los elementos enumerados asociados. Se entenderá además que los términos "comprende" y/o "que comprende", cuando se utilizan en esta especificación, especifican la presencia de características, números enteros, pasos, operaciones, elementos, y/o componentes declarados, pero no excluyen la presencia o adición de una o más características, números enteros, pasos, operaciones, elementos, componentes, y/o grupos de los mismos. Además, en la medida en que los términos "que incluye", "incluye", "que tiene", "tiene", "con" o sus variantes se utilicen en la descripción detallada y/o en las reivindicaciones, dichos términos pretenden ser inclusivos de forma similar al término "que comprende"
Tal como se utiliza en el presente documento, el término "si" puede interpretarse como "cuando" o "al" o "en respuesta a la determinación" o "en respuesta a la detección", dependiendo del contexto. Del mismo modo, la frase "si se determina" o "si se detecta [una condición o suceso declarado]" puede interpretarse en el sentido de "al determinar" o "en respuesta a la determinación" o "al detectar [la condición o suceso declarado]" o "en respuesta a la detección de [la condición o suceso declarado]", dependiendo del contexto.
También se entenderá que, aunque los términos primero, segundo, etc. pueden utilizarse en el presente documento para describir varios elementos, estos elementos no deben limitarse por estos términos. Estos términos sólo se utilizan para distinguir un elemento de otro. Por ejemplo, un primer sujeto podría denominarse segundo sujeto y, del mismo modo, un segundo sujeto podría denominarse primer sujeto, sin apartarse del alcance de la presente divulgación. El primer sujeto y el segundo sujeto son ambos sujetos, pero no son el mismo sujeto. Además, los términos "sujeto", "usuario" y "paciente" se utilizan indistintamente en el presente documento.
Como se usa aquí, el término "sujeto" se refiere a cualquier ser humano vivo o no vivo. En algunas realizaciones, un sujeto es un hombre o una mujer de cualquier etapa (por ejemplo, un hombre, una mujer o un niño).
Tal como se utilizan en el presente documento, los términos "control", "muestra de control", "referencia", "muestra de referencia", "normal" y "muestra normal" describen una muestra de un sujeto que no tiene una afección particular o que, por lo demás, está sano. En un ejemplo, un procedimiento como el aquí divulgado puede realizarse en un sujeto que tiene un tumor, donde la muestra de referencia es una muestra tomada de un tejido sano del sujeto. Se puede obtener una muestra de referencia del sujeto, o de una base de datos. La referencia puede ser, por ejemplo, un genoma de referencia que se utiliza para mapear las lecturas de secuencia obtenidas de la secuenciación de una muestra del sujeto. Un genoma de referencia puede referirse a un genoma haploide o diploide con el que pueden alinearse y compararse lecturas de secuencias de la muestra biológica y de una muestra constitucional. Un ejemplo de muestra constitucional puede ser el ADN de sangre completa o de células sanguíneas obtenidas del sujeto. En un genoma haploide, sólo puede haber un nucleótido en cada locus. Para un genoma diploide, pueden identificarse locus heterocigotos; cada locus heterocigoto puede tener dos alelos, donde cualquiera de ellos puede permitir una coincidencia para el alineamiento con el locus.
Como se usa aquí, el término "locus" se refiere a una posición (por ejemplo, un sitio) dentro de un genoma, por ejemplo, en un cromosoma particular. En algunas realizaciones, un locus se refiere a una única posición nucleotídica dentro de un genoma, es decir, en un cromosoma concreto. En algunas realizaciones, un locus se refiere a un pequeño grupo de posiciones de nucleótidos dentro de un genoma, por ejemplo, como se define por una mutación (por ejemplo, sustitución, inserción o deleción) de nucleótidos consecutivos dentro de un genoma del cáncer. Dado que las células normales de los mamíferos tienen genomas diploides, un genoma normal de mamífero (por ejemplo, un genoma humano) tendrá generalmente dos copias de cada locus en el genoma, o al menos dos copias de cada locus localizado en los cromosomas autosómicos, por ejemplo, una copia en el cromosoma autosómico materno y una copia en el cromosoma autosómico paterno.
Tal como se utiliza aquí, el término "alelo" se refiere a una secuencia particular de uno o más nucleótidos en un locus cromosómico.
Tal como se utiliza en el presente documento, el término "alelo de referencia" se refiere a la secuencia de uno o más nucleótidos en un locus cromosómico que es el alelo predominante representado en ese locus cromosómico dentro de la población de la especie (por ejemplo, la secuencia de "tipo silvestre"), o un alelo que está predefinido dentro de un genoma
Tal como se utiliza en el presente documento, el término "alelo variante" se refiere a una secuencia de uno o más nucleótidos en un locus cromosómico que no es el alelo predominante representado en ese locus cromosómico dentro de la población de la especie (por ejemplo, no es la secuencia "tipo silvestre"), o no es un alelo predefinido dentro de un genoma de referencia para la especie.
Tal como se utiliza en el presente documento, el término "variante de nucleótido único" o "SNV" se refiere a una sustitución de un nucleótido por un nucleótido diferente en una posición (por ejemplo, sitio) de una secuencia de nucleótidos, por ejemplo, una secuencia leída de un individuo. Una sustitución de una primera nucleobase X a una segunda nucleobase Y puede denotarse como "X>Y" Por ejemplo, una SNV de citosina a timina puede denotarse como "C>T"
Tal como se utiliza aquí, el término "mutación" o "variante" se refiere a un cambio detectable en el material genético de una o más células. En un ejemplo particular, se pueden encontrar una o más mutaciones en las células cancerosas, que pueden identificarlas (por ejemplo, mutaciones conductoras y pasajeras). Una mutación puede transmitirse de una célula madre a una célula hija. Una persona experta en la materia apreciará que una mutación genética (por ejemplo, una mutación conductora) en una célula progenitora puede inducir mutaciones adicionales diferentes (por ejemplo, mutaciones pasajeras) en una célula hija. Una mutación se produce generalmente en un ácido nucleico. En un ejemplo particular, una mutación puede ser un cambio detectable en uno o más ácidos desoxirribonucleicos o fragmentos de los mismos. Una mutación se refiere generalmente a nucleótidos que se añaden, suprimen, sustituyen, invierten o transponen a una nueva posición en un ácido nucleico. Una mutación puede ser una mutación espontánea o una mutación inducida experimentalmente. Una mutación en la secuencia de un tejido concreto es un ejemplo de "alelo específico de tejido." Por ejemplo, un tumor puede tener una mutación que dé lugar a un alelo en un locus que no ocurre en las células normales. Otro ejemplo de "alelo específico de tejido" es un alelo específico de feto que ocurre en el tejido fetal, pero no en el tejido materno.
Tal como se utiliza aquí, el término "pérdida de heterocigosidad" se refiere a la pérdida de una copia de un segmento (por ejemplo, incluyendo parte o la totalidad de uno o más genes) del genoma de un sujeto diploide (por ejemplo, un humano) o la pérdida de una copia de una secuencia que codifica un producto génico funcional en el genoma del sujeto diploide, en un tejido, por ejemplo, un tejido canceroso, del sujeto. Tal como se utiliza aquí, cuando se hace referencia a una métrica que representa la pérdida de heterocigosidad a través de todo el genoma del sujeto, la pérdida de heterocigosidad está causada por la pérdida de una copia de varios segmentos en el genoma del sujeto. La pérdida de heterocigosidad a través de todo el genoma puede estimarse sin secuenciar todo el genoma de un sujeto, y en la técnica se describen procedimientos para tales estimaciones basados en metodologías de secuenciación basadas en paneles de genes dirigidos. En consecuencia, en algunas realizaciones, una métrica que representa la pérdida de heterocigosidad a través de todo el genoma de un tejido de un sujeto se representa como un valor único, por ejemplo, un porcentaje o fracción del genoma. En algunos casos, un tumor se compone de varias poblaciones subclonales, cada una de las cuales puede tener un grado diferente de pérdida de heterocigosidad a través de sus respectivos genomas. Por consiguiente, en algunas realizaciones, la pérdida de heterocigosidad a través de todo el genoma de un tejido canceroso se refiere a una pérdida media de heterocigosidad a través de una población tumoral heterogénea. Tal como se utiliza en el presente documento, cuando se hace referencia a una métrica de pérdida de heterocigosidad en un gen concreto, por ejemplo, una proteína de reparación del ADN como una proteína implicada en la vía de recombinación homóloga del ADN (por ejemplo, BRCA1 o BRCA2), la pérdida de heterocigosidad se refiere a la pérdida completa o parcial de una copia del gen que codifica la proteína en el genoma del tejido y/o una mutación en una copia del gen que impide la traducción de un producto génico de longitud completa, por ejemplo, una mutación de cambio de marco o truncamiento (que crea un codón de parada prematuro en el gen) en el gen de interés. En algunos casos, un tumor se compone de varias poblaciones subclonales, cada una de las cuales puede tener un estado mutacional diferente en un gen de interés. Por consiguiente, en algunas realizaciones, la pérdida de heterocigosidad para un gen particular de interés se representa mediante un valor medio de pérdida de heterocigosidad para el gen a través de todas las poblaciones subclonales secuenciadas del tejido canceroso. En otras realizaciones, la pérdida de heterocigosidad para un gen particular de interés se representa mediante un recuento del número de incidencias únicas de pérdida de heterocigosidad en el gen de interés a través de todas las poblaciones subclonales secuenciadas del tejido canceroso (por ejemplo, el número de mutaciones únicas de cambio de marco y/o truncamiento en el gen identificadas en los datos de secuenciación).
Tal y como se utiliza aquí, el término "cáncer", "tejido canceroso" o "tumor" se refiere a una masa anormal de tejido en la que el crecimiento de la masa supera y no está coordinado con el crecimiento del tejido normal. Un cáncer o tumor puede definirse como "benigno" o "maligno" en función de las siguientes características: grado de diferenciación celular, incluida la morfología y la funcionalidad, tasa de crecimiento, invasión local y metástasis. Un tumor "benigno" puede estar bien diferenciado, tener un crecimiento característicamente más lento que un tumor maligno y permanecer localizado en el lugar de origen. Además, en algunos casos un tumor benigno no tiene la capacidad de infiltrarse, invadir o metastatizar a sitios distantes. Un tumor "maligno" puede ser poco diferenciado (anaplasia), tener un crecimiento característicamente rápido acompañado de infiltración progresiva, invasión y destrucción del tejido circundante. Además, un tumor maligno puede tener la capacidad de metastatizar a lugares distantes. Por consiguiente, una célula cancerosa es una célula que se encuentra dentro de la masa anormal de tejido cuyo crecimiento no está coordinado con el crecimiento del tejido normal. Por consiguiente, una "muestra tumoral" se refiere a una muestra biológica obtenida o derivada de un tumor de un sujeto, tal como se describe en el presente documento. Un tejido canceroso puede referirse a células sanguíneas si el cáncer es hematológico (de la sangre).
Tal como se utilizan en el presente documento, los términos "secuenciación", "determinación de secuencia" y similares tal como se utilizan en el presente documento se refieren en general a todos y cada uno de los procedimientos bioquímicos que pueden utilizarse para determinar el orden de macromoléculas biológicas como ácidos nucleicos o proteínas. Por ejemplo, los datos de secuenciación pueden incluir la totalidad o una parte de las bases nucleotídicas de una molécula de ácido nucleico, como un transcrito de ARNm o un locus genómico.
Tal como se utiliza en el presente documento, el término "lecturas de secuencias" o "lecturas" se refiere a secuencias de nucleótidos producidas por cualquier procedimiento de secuenciación descrito en el presente documento o conocido en la técnica. Las lecturas pueden generarse a partir de un extremo de los fragmentos de ácido nucleico ("lecturas de extremo único"), y a veces se generan a partir de ambos extremos de los ácidos nucleicos (por ejemplo, lecturas de extremo pareado, lecturas de extremo doble). La longitud de la lectura de la secuencia suele estar asociada a la tecnología de secuenciación concreta. Los procedimientos de alto rendimiento, por ejemplo, proporcionan lecturas de secuencias cuyo tamaño puede variar entre decenas a cientos de pares de bases (pb). En algunas realizaciones, las lecturas de secuencias tienen una longitud media, mediana o promedio de aproximadamente 15 pb a 900 pb de largo (por ejemplo, aproximadamente 20 pb, aproximadamente 25 pb, aproximadamente 30 pb, aproximadamente 35 pb, aproximadamente 40 pb, aproximadamente 45 pb, aproximadamente 50 pb, aproximadamente 55 pb, aproximadamente 60 pb, aproximadamente 65 pb, aproximadamente 70 pb, aproximadamente 75 pb, aproximadamente 80 pb, aproximadamente 85 pb, aproximadamente 90 pb, aproximadamente 95 pb, aproximadamente 100 pb, aproximadamente 110 pb, aproximadamente 120 pb, aproximadamente 130, aproximadamente 140 pb, aproximadamente 150 pb, aproximadamente 200 pb, aproximadamente 250 pb, aproximadamente 300 pb, aproximadamente 350 pb, aproximadamente 400 pb, aproximadamente 450 pb o aproximadamente 500 pb. En algunas realizaciones, las lecturas de secuencias tienen una longitud media, mediana o promedio de aproximadamente 1.000 pb, 2.000 pb, 5.000 pb, 10.000 pb o 50.000 pb o más. La secuenciación por nanoporos, por ejemplo, puede proporcionar lecturas de secuencias cuyo tamaño puede variar de decenas a cientos a miles de pares de bases. La secuenciación paralela de Illumina puede proporcionar lecturas de secuencias que no varían tanto; por ejemplo, la mayoría de las lecturas de secuencias pueden ser inferiores a 200 pb. Una lectura de secuencia (o lectura de secuenciación) puede referirse a la información de secuencia correspondiente a una molécula de ácido nucleico (por ejemplo, una cadena de nucleótidos). Por ejemplo, una secuencia leída puede corresponder a una cadena de nucleótidos (por ejemplo, aproximadamente 20 a aproximadamente 150) de una parte de un fragmento de ácido nucleico, puede corresponder a una cadena de nucleótidos en uno o ambos extremos de un fragmento de ácido nucleico, o puede corresponder a nucleótidos de todo el fragmento de ácido nucleico. Una lectura de secuencia puede obtenerse de diversas maneras, por ejemplo, utilizando técnicas de secuenciación o utilizando sondas, por ejemplo, en arreglos de hibridación o sondas de captura, o técnicas de amplificación, como la reacción en cadena de la polimerasa (PCR) o la amplificación lineal utilizando un cebador único o la amplificación isotérmica.
Tal como se utiliza en el presente documento, el término "segmento de lectura" o "lectura" se refiere a cualquier secuencia de nucleótidos, que incluye las lecturas de secuencias obtenidas de un individuo y/o las secuencias de nucleótidos derivadas de la lectura de la secuencia inicial de una muestra obtenida de un individuo. Por ejemplo, un segmento de lectura puede referirse a una lectura de secuencia alineada, una lectura de secuencia colapsada o una lectura cosida. Además, un segmento de lectura puede referirse a una base nucleotídica individual, como una variante nucleotídica única.
Tal y como se utiliza en el presente documento, el término "exoma de referencia" se refiere a cualquier exoma particular conocido, secuenciado o caracterizado, ya sea parcial o completo, de cualquier tejido de cualquier organismo o patógeno que pueda utilizarse para referenciar secuencias identificadas de un sujeto. En el buscador de genomas en línea del National Center for Biotechnology Information ("NCBI") se ofrecen ejemplos de exomas de referencia utilizados en seres humanos, así como en muchos otros organismos.
Tal como se utiliza en el presente documento, el término "genoma de referencia" se refiere a cualquier genoma particular conocido, secuenciado o caracterizado, ya sea parcial o completo, de cualquier organismo o patógeno que pueda utilizarse para referenciar secuencias identificadas de un sujeto. En el buscador de genomas en línea del National Center for Biotechnology Information ("NCBI") o de la Universidad de California, Santa Cruz (UCSC), se ofrecen ejemplares de genomas de referencia utilizados en seres humanos, así como en muchos otros organismos. Por "genoma" se refiere a la información genética completa de un organismo o patógeno, expresada en secuencias de ácidos nucleicos. Como se utiliza en el presente documento, una secuencia de referencia o genoma de referencia es a menudo una secuencia genómica ensamblada o parcialmente ensamblada de un individuo o múltiples individuos. En algunas realizaciones, un genoma de referencia es una secuencia genómica ensamblada o parcialmente ensamblada de uno o más individuos humanos. El genoma de referencia puede considerarse como un ejemplo representativo del conjunto de genes de una especie. En algunas realizaciones, un genoma de referencia comprende secuencias asignadas a cromosomas. Algunos genomas humanos de referencia ejemplares son, entre otros, NCBI build 34 (equivalente UCSC: hg16), NCBI build 35 (equivalente UCSC: hg17), N<c>B<i>build 36.1 (equivalente UCSC: hg18), GRCh37 (equivalente UCs C: hg19) y GRCh38 (equivalente UCSC: hg38).
Tal como se utiliza en el presente documento, el término "ensayo" se refiere a una técnica para determinar una propiedad de una sustancia, por ejemplo, un ácido nucleico, una proteína, una célula, un tejido o un órgano. Un ensayo (por ejemplo, un primer ensayo o un segundo ensayo) puede comprender una técnica para determinar la variación del número de copias de los ácidos nucleicos de una muestra, el estado de metilación de los ácidos nucleicos de una muestra, la distribución del tamaño de los fragmentos de los ácidos nucleicos de una muestra, el estado mutacional de los ácidos nucleicos de una muestra o el patrón de fragmentación de los ácidos nucleicos de una muestra. Para detectar cualquiera de las propiedades de los ácidos nucleicos mencionadas en el presente documento puede utilizarse cualquier ensayo conocido por una persona con conocimientos ordinarios en la técnica. Las propiedades de un ácido nucleico pueden incluir una secuencia, identidad genómica, número de copias, estado de metilación en una o más posiciones nucleotídicas, tamaño del ácido nucleico, presencia o ausencia de una mutación en el ácido nucleico en una o más posiciones nucleotídicas y patrón de fragmentación de un ácido nucleico (por ejemplo, la posición o posiciones nucleotídicas en las que se fragmenta un ácido nucleico). Un ensayo o procedimiento puede tener una sensibilidad y/o especificidad determinadas, y su utilidad relativa como herramienta de diagnóstico puede medirse utilizando la estadística ROC-AUC.
El término "clasificación" puede referirse a cualquier número(s) u otro(s) carácter(es) que se asocie(n) a una propiedad particular de una muestra. Por ejemplo, en algunas realizaciones, el término "clasificación" puede referirse a un tipo de cáncer en un sujeto o muestra, un estadio de cáncer en un sujeto o muestra, un pronóstico para un cáncer en un sujeto o muestra, una carga tumoral en un sujeto, una presencia de metástasis tumoral en un sujeto, y similares. La clasificación puede ser binaria (por ejemplo, positiva o negativa) o tener más niveles de clasificación (por ejemplo, una escala de 1 a 10 o de 0 a 1). Los términos "corte" y "umbral" pueden referirse a números predeterminados utilizados en una operación. Por ejemplo, un tamaño de corte puede referirse a un tamaño por encima del cual se excluyen los fragmentos. Un valor umbral puede ser un valor por encima o por debajo del cual se aplica una clasificación determinada. Cualquiera de estos términos puede utilizarse en cualquiera de estos contextos.
A continuación, se describen varios aspectos con referencia a aplicaciones de ejemplo a título ilustrativo. Debe entenderse que numerosos detalles específicos, relaciones y procedimientos se exponen para proporcionar una comprensión completa de las características aquí descritas. Sin embargo, una persona con conocimientos ordinarios en la materia reconocerá fácilmente que las características descritas en el presente documento pueden llevarse a la práctica sin uno o más de los detalles específicos o con otros procedimientos. Las características descritas en el presente documento no están limitadas por el orden ilustrado de los actos o eventos, ya que algunos actos pueden ocurrir en diferentes órdenes y/o simultáneamente con otros actos o eventos. Además, no todos los actos o eventos ilustrados son necesarios para implementar una metodología de acuerdo con las características descritas en el presente documento.
A continuación, se hará referencia en detalle a las realizaciones, cuyos ejemplos se ilustran en los dibujos adjuntos. En la siguiente descripción detallada, se exponen numerosos detalles específicos con el fin de proporcionar una comprensión completa de la presente divulgación. Sin embargo, será evidente para un experto en la materia que la presente divulgación puede llevarse a la práctica sin estos detalles específicos. En otros casos, no se han descrito en detalle procedimientos, procedimientos, componentes, circuitos y redes bien conocidos para no oscurecer innecesariamente aspectos de las realizaciones.
Realizaciones de sistemas de ejemplo.
Ahora que se ha proporcionado una visión general de algunos aspectos de la presente divulgación y algunas definiciones utilizadas en la presente divulgación, se describen ahora detalles de un sistema ejemplar para determinar un estado de vía de recombinación homóloga de un cáncer en un sujeto de prueba en conjunción con las Figuras 1A-C. Las Figuras 1A-C ilustran colectivamente la topología de un sistema de ejemplo para determinar un estado de la vía de recombinación homóloga de un cáncer, de acuerdo con algunas realizaciones de la presente divulgación. Ventajosamente, el sistema de ejemplo ilustrado en las Figuras 1A-C mejora los procedimientos convencionales para proporcionar apoyo clínico para la terapia personalizada del cáncer mediante la utilización de un modelo de conjunto para mejorar la clasificación del estado HRD en los cánceres, informando así las recomendaciones de tratamiento.
La Figura 1A es un diagrama de bloque que ilustra un sistema de acuerdo con algunas implementaciones. El dispositivo 100 en algunas implementaciones incluye una o más unidades 102 de procesamiento CPU(s) (también referidas como procesadores), una o más interfaces 104 de red , una interfaz 106 de usuario, por ejemplo, que incluye una pantalla 108 y/o una entrada 110 (por ejemplo, un ratón, panel táctil, teclado, etc.), una memoria 111 no persistente, una memoria 112 persistente, y uno o más buses 114 de comunicación para interconectar estos componentes. El uno o más buses 114 de comunicación incluyen opcionalmente circuitos (a veces llamados chipset) que interconectan y controlan las comunicaciones entre los componentes del sistema. La memoria 111 no persistente incluye típicamente memoria de acceso aleatorio de alta velocidad, como DRAM, SRAM, DDR RAM,<r>O<m>, EEPROM, memoria flash, mientras que la memoria persistente 112 incluye típicamente CD-ROM, discos versátiles digitales (DVD) u otro almacenamiento óptico, casetes magnéticos, cinta magnética, almacenamiento en disco magnético u otros dispositivos de almacenamiento magnético, dispositivos de almacenamiento en disco magnético, dispositivos de almacenamiento en disco óptico, dispositivos de memoria flash u otros dispositivos de almacenamiento de estado sólido no volátil. La memoria 112 persistente incluye opcionalmente uno o más dispositivos de almacenamiento ubicados remotamente de la(s) CPU(s) 102. La memoria 112 persistente , y el dispositivo o dispositivos de memoria no volátil dentro de la memoria 112 no persistente, comprenden un medio de almacenamiento legible por ordenador no transitorio. En algunas implementaciones, la memoria 111 no persistente o alternativamente el medio de almacenamiento no transitorio legible por ordenador almacena los siguientes programas, módulos y estructuras de datos, o un subconjunto de los mismos, a veces en conjunción con la memoria 112 persistente:
• un sistema 116 operativo , que incluye procedimientos para manejar varios servicios básicos del sistema y para realizar tareas dependientes del hardware;
• un módulo 118 de comunicación de red (o instrucciones) para conectar el sistema 100 con otros dispositivos y/o una red 105 de comunicación;
• una base 120 de datos de sujetos de prueba para almacenar una o más colecciones de datos de sujetos de prueba (por ejemplo, pacientes con cáncer);
• un módulo 150 clasificador de conjuntos de HRD para introducir datos de secuenciación, obtener puntuaciones de modelos a partir de los datos de secuenciación, y obtener clasificaciones del estado de HRD basadas en las puntuaciones de los modelos;
• un módulo 166 de algoritmo de curación terapéutica para obtener recomendaciones de tratamiento basadas en las clasificaciones obtenidas del módulo 150 clasificador de conjuntos HRD;
• un módulo 167 de validación de recomendaciones para validar las recomendaciones de tratamiento obtenidas del módulo 166 de algoritmo de curación terapéutica; y
• un módulo 170 de informes para generar y transmitir informes que proporcionen apoyo clínico para la terapia personalizada del cáncer.
Aunque las Figuras 1A-C representan un "sistema 100", las figuras pretenden ser más una descripción funcional de las diversas características que pueden estar presentes en los sistemas informáticos que como un esquema estructural de las implementaciones aquí descritas. En la práctica, y como reconocen los expertos en la materia, los elementos mostrados por separado podrían combinarse y algunos elementos podrían separarse. Además, aunque la Figura 1A representa ciertos datos y módulos en la memoria 111 no persistente, algunos o todos estos datos y módulos pueden estar en la memoria 112 persistente. Por ejemplo, en diversas implementaciones, uno o más de los elementos identificados anteriormente se almacenan en uno o más de los dispositivos de memoria mencionados anteriormente, y corresponden a un conjunto de instrucciones para realizar una función descrita anteriormente. No es necesario que los módulos, datos o programas (por ejemplo, conjuntos de instrucciones) identificados anteriormente se implementen como programas de software, procedimientos, conjuntos de datos o módulos independientes y, por lo tanto, se pueden combinar o reorganizar de otro modo varios subconjuntos de estos módulos y datos en diversas implementaciones.
En algunas implementaciones, la memoria 111 no persistente almacena opcionalmente un subconjunto de los módulos y estructuras de datos identificados anteriormente. Además, en algunas realizaciones, la memoria almacena módulos y estructuras de datos adicionales no descritos anteriormente. En algunas realizaciones, uno o más de los elementos identificados anteriormente se almacenan en un sistema informático, distinto al del sistema 100, que es direccionable por el sistema 100 para que el sistema 100 pueda recuperar la totalidad o una parte de dichos datos cuando sea necesario.
A efectos ilustrativos en la Figura 1A, el sistema 100 se representa como un único ordenador que incluye toda la funcionalidad para proporcionar apoyo clínico a la terapia personalizada contra el cáncer. Sin embargo, aunque se ilustra una sola máquina, el término "sistema" también incluirá cualquier conjunto de máquinas que, individual o conjuntamente, ejecuten un conjunto (o varios conjuntos) de instrucciones para llevar a cabo una o varias de las metodologías descritas en el presente documento.
Por ejemplo, en algunas realizaciones, el sistema 100 incluye uno o más ordenadores. En algunas realizaciones, la funcionalidad para proporcionar soporte clínico para la terapia personalizada contra el cáncer se extiende a través de cualquier número de ordenadores en red y/o reside en cada uno de varios ordenadores en red y/o está alojada en una o más máquinas virtuales en una ubicación remota accesible a través de la red 105 de comunicaciones. Por ejemplo, diferentes porciones de los diversos módulos y almacenes de datos ilustrados en las Figuras 1A-C pueden almacenarse y/o ejecutarse en las diversas instancias de un dispositivo de procesamiento y/o servidor de procesamiento/base de datos en el entorno 210 de diagnóstico distribuido ilustrado en la Figura 2 (por ejemplo, dispositivos 224, 234, 244 y 254 de procesamiento, servidor 262 de procesamiento y base 264 de datos).
El sistema puede operar en calidad de servidor o una máquina cliente en un entorno de red cliente-servidor, como máquina par en un entorno de red par a par (o distribuida), o como un servidor o una máquina cliente en una infraestructura o entorno de computación en nube. El sistema puede ser un ordenador personal (PC), una tableta PC, un descodificador (STB), un asistente digital personal (PDA), un teléfono móvil, un dispositivo web, un servidor, un enrutador de red, un conmutador o puente, o cualquier máquina capaz de ejecutar un conjunto de instrucciones (secuenciales o de otro tipo) que especifiquen acciones que debe realizar dicha máquina.
En otra implementación, el sistema comprende una máquina virtual que incluye un módulo para ejecutar instrucciones para realizar una o más de las metodologías divulgadas en el presente documento. En informática, una máquina virtual (VM) es una emulación de un sistema de ordenador que se basa en arquitecturas de ordenador y proporciona funcionalidades de un ordenador físico. Algunas de estas implementaciones pueden implicar hardware especializado, software o una combinación de hardware y software.
Un experto en la materia apreciará que cualquiera de un amplio arreglo de diferentes topologías de ordenador se utiliza para la aplicación y todas estas topologías están dentro del alcance de la presente divulgación.
Base de datos (120) de sujetos de ensayo
Haciendo referencia a la Figura 1B, en algunas realizaciones, el sistema (por ejemplo, sistema 100) incluye una base de datos 120 de sujetos de prueba que almacena datos para los sujetos 122-1 a 122-Q de prueba (por ejemplo, pacientes con cáncer o pacientes que se someten a pruebas de cáncer) que incluye uno o más datos 124 bibliográficos (por ejemplo, 124-1), uno o más datos 126 de secuenciación de ADN de tejido canceroso (por ejemplo, 126-1), uno o más datos 130 de secuenciación de ADN de tejido normal (por ejemplo, 130-1), uno o más datos 134 de secuenciación de ARN (por ejemplo, 134-1), y uno o más salidas 140 del clasificador de conjuntos (por ejemplo, 140-1). Estos datos son utilizados y/o generados por los diversos procedimientos almacenados en el sistema 100. En algunas realizaciones, los datos almacenados para un sujeto de prueba pueden incluir un conjunto diferente de características que los datos almacenados para otro sujeto de prueba. Además, aunque en la Figura 1B se ilustra como un único constructo de datos, se pueden almacenar diferentes conjuntos de datos del sujeto en diferentes bases de datos o módulos repartidos a través de una o más memorias del sistema.
En algunas realizaciones, la base de datos 120 de sujetos de ensayo incluye datos 124 bibliográficos. En algunas realizaciones, los datos 124 bibliográficos incluyen un tipo de cáncer del sujeto 125-1-a. En algunas realizaciones, los datos bibliográficos 124 incluyen características personales del sujeto, tales como nombre del paciente, fecha de nacimiento, sexo, etnia, dirección física, hábito de fumar, característica de consumo de alcohol, datos antropomórficos, etc. En algunas realizaciones, los datos 124 bibliográficos incluyen datos 125-1-c del historial médico del sujeto, como información sobre el diagnóstico de cáncer (por ejemplo, fecha de diagnóstico inicial, fecha de diagnóstico metastásico, estadificación del cáncer, caracterización del tumor, tejido de origen, tratamientos previos y resultados, efectos adversos de la terapia, historial de grupos de terapia, historial de ensayos clínicos, medicaciones previas y actuales, historial quirúrgico, etc.), síntomas previos o actuales, terapias previas o actuales, resultados de tratamientos previos, diagnósticos de enfermedades previas, estado diabético, diagnósticos de depresión, diagnósticos de otras enfermedades físicas o mentales, e historial médico familiar. En algunas realizaciones, los datos 124 bibliográficos incluyen características 125-1-d clínicas, tal como datos de patología, datos de imágenes médicas, resultados de pruebas de laboratorio, y datos de cultivo de tejidos y/o cultivo de organoides tisulares. En algunas realizaciones, los datos 124 bibliográficos incluyen además un registro de los tratamientos administrados al sujeto (por ejemplo, paciente) y los resultados del sujeto tras la terapia. En algunas realizaciones, los datos 124 bibliográficos se recogen de varias fuentes, que incluyen la admisión directamente del paciente, de un registro médico electrónico (EMR) o de un registro electrónico de salud (EHR) para el paciente, o curados de otras fuentes, tales como campos de varios registros de pruebas (por ejemplo, informes de secuenciación genética).
En algunas realizaciones, la base de datos 120 del sujeto de prueba incluye datos 126 de secuenciación de ADN de tejido canceroso (por ejemplo, obtenidos de biopsia de tumor de tejido sólido y/o biopsia líquida). En algunas realizaciones, los datos 126 de secuenciación de ADN de tejido canceroso incluyen una o más ejecuciones 127 de secuenciación de ADN (por ejemplo, 127-1-1,...,127-1-L). En algunas realizaciones, cada ejecución 127 de secuenciación de ADN respectiva comprende una pluralidad de lecturas 128 de secuencia (por ejemplo, 128-1-1-1,...,128-1-1-K) y/o una pluralidad de secuencias 129-1-1 alineadas (por ejemplo, como un archivo BAM).
En algunas realizaciones, la base de datos 120 del sujeto de prueba incluye datos 130 de secuenciación de ADN de tejido normal (por ejemplo, obtenidos de biopsia normal de tejido sólido y/o biopsia líquida). En algunas realizaciones, los datos de secuenciación 130 de ADN de tejido normal incluyen una o más series de secuenciación 131 de ADN (por ejemplo, 131-1-1,...,131-1-N). En algunas realizaciones, cada ejecución de secuenciación 131 de ADN respectiva comprende una pluralidad de lecturas 132 de secuencia (por ejemplo, 132-1-1-1,...,132-1-1-M) y/o una pluralidad de secuencias 133-1-1 alineadas (por ejemplo, como un archivo BAM).
En algunas realizaciones, la base de datos 120 del sujeto de prueba incluye datos de secuenciación 134 de ARN (por ejemplo, obtenidos de una biopsia de tumor de tejido sólido). En algunas realizaciones, los datos de secuenciación 134 de ARN incluyen una o más series de secuenciación 135 de ARN (por ejemplo, 135-1-1,...,135-1-P). En algunas realizaciones, cada ejecución respectiva de secuenciación 135 de ADN comprende una pluralidad de lecturas 136 de secuencia (por ejemplo, 136-1-1-1,...,136-1 -1-0), una pluralidad de secuencias 137-1-1 alineadas (por ejemplo, como un archivo BAM), y/o datos 138-1-1 de expresión (por ejemplo, obtenidos de un análisis de expresión génica de los datos de secuenciación de ARN para una pluralidad de genes).
En algunas realizaciones, los datos de secuenciación en la base de datos 120 del sujeto de prueba incluyen diferentes conjuntos de datos de secuenciación de un único sujeto, correspondientes a diferentes muestras del sujeto (por ejemplo, una muestra de tumor, una muestra de biopsia líquida, un organoide tumoral derivado de un tumor, y/o una muestra normal), y/o a muestras adquiridas en diferentes momentos (por ejemplo, mientras se monitoriza la progresión, regresión, remisión, y/o recurrencia de un cáncer en un sujeto). Cada pluralidad de lecturas de secuencias puede estar en cualquier formato de archivo adecuado (por ejemplo, BCL, FASTA, FASTQ, etc.). En algunas realizaciones, se accede a los datos de secuenciación mediante un módulo de procesamiento de datos de secuenciación, que realiza diversas operaciones de preprocesamiento, alineación del genoma y demultiplexación. En algunas realizaciones, una pluralidad de lecturas de secuencias se alinea con un constructo de referencia (por ejemplo, una secuencia de referencia y/o un genoma de referencia).
Refiriéndose a la Figura 1C, en algunas realizaciones, la base de datos 120 del sujeto de prueba incluye una o más salidas 140 del clasificador de conjunto. En algunas realizaciones, las salidas 140 del clasificador conjunto incluyen salidas derivadas de enfoques de aprendizaje automático (por ejemplo, basados al menos en parte en la evaluación de cualquier dato 124 bibliográfico relevante, datos de secuenciación 126 de ADN de tejido canceroso, datos de secuenciación 130 de ADN de tejido normal, y/o datos de secuenciación 134 de ARN, considerados solos o en combinación. En algunas realizaciones, las salidas 140 del clasificador de conjunto incluyen una puntuación 147 del modelo de conjunto HRD (por ejemplo, 147-1-1), basada en una o más salidas individuales (por ejemplo, puntuaciones del modelo). Por ejemplo, en algunas realizaciones, una puntuación 147 de modelo de conjunto HRD se basa en una cualquiera o más de un almacén 142 de modelo de expresión génica (142-1-1), una puntuación 143 de modelo de metilación (143-1-1), una puntuación 144 de modelo de pérdida de heterocigosidad en todo el genoma (144-1-1), una puntuación 145 de modelo de reordenamiento génico (145-1-1), y/o una puntuación 146 de modelo de análisis de enriquecimiento de conjunto génico de muestra única (146-1-1). En algunas realizaciones, las una o más salidas 140 del clasificador de conjunto comprenden además una pluralidad de determinaciones 141 de HRD (por ejemplo, 141-1-1,...,141-1-R), basadas en una o más salidas individuales (por ejemplo, puntuaciones del modelo).
El experto en la materia conocerá otros tipos de datos útiles para la determinación del estado HRD. La enumeración de características anterior es meramente representativa y no debe interpretarse como limitativa.
Módulo (150) clasificador de conjunto HRD
Haciendo referencia a la Figura 1A, el sistema 100 incluye además un módulo 150 clasificador de conjunto HRD para introducir datos de secuenciación, obtener puntuaciones de modelo a partir de datos de secuenciación, y obtener clasificaciones de estado HRD basadas en puntuaciones de modelo, utilizando, por ejemplo, cualquiera de los datos de sujeto almacenados en la base de datos 120 de sujeto de prueba.
En algunas realizaciones, el módulo 150 clasificador de conjunto HRD incluye un modelo 152 de expresión génica, un modelo 153 de metilación, un modelo 154 gwLOH, un modelo 155 de reordenamiento génico, un modelo 156 ssGSEA, y/o un modelo 157 de conjunto HRD. El módulo 150 clasificador de conjunto HRD y los modelos 152-157 se describen con mayor detalle a continuación con referencia a las Figuras 4 y 5A-C. Las salidas del módulo 150 clasificador de conjunto HRD y los modelos 152-157 pueden almacenarse en las salidas 140 del clasificador de conjunto.
En algunas realizaciones, uno o más modelos (por ejemplo, clasificadores) en el módulo 150 clasificador de conjunto HRD se implementa como un motor de inteligencia artificial y puede incluir modelos de refuerzo de gradiente, modelos de bosque aleatorio, redes neuronales (NN), modelos de regresión, modelos Naive Bayes, y/o algoritmos de aprendizaje automático (MLA). Un MLA o una NN pueden entrenarse a partir de un conjunto de datos de entrenamiento que incluya uno o más datos de sujetos, incluidos datos 124 bibliográficos, datos de secuenciación 126 de ADN de tejido canceroso, datos de secuenciación 130 de ADN de tejido normal, datos de secuenciación 134 de ARN, y/o salidas 140 de clasificadores de conjunto. Los MLA incluyen algoritmos supervisados (como los algoritmos en los que las características/clasificaciones del conjunto de datos están anotadas) que utilizan regresión lineal, regresión logística, árboles de decisión, árboles de clasificación y regresión, Naive Bayes, agrupación de vecinos más cercanos; algoritmos no supervisados (como los algoritmos en los que no hay características/clasificaciones anotadas en el conjunto de datos) que utilizan A priori, agrupación de medios, análisis de componentes principales, bosque aleatorio, refuerzo adaptativo; y algoritmos semisupervisados (como los algoritmos en los que se anota un número incompleto de características/clasificaciones en el conjunto de datos) que utilizan enfoques generativos (como una mezcla de distribuciones gaussianas, una mezcla de distribuciones multinomiales, modelos de Markov ocultos), separación de baja densidad, enfoques basados en gráficos (como mincut, función armónica, regularización de muchos pliegues), enfoques heurísticos o máquinas de vectores de apoyo.
Las NN incluyen campos aleatorios condicionales, redes neuronales convolucionales, redes neuronales basadas en la atención, aprendizaje profundo, redes de memoria a corto plazo a largo plazo, u otros modelos neuronales en los que el conjunto de datos de entrenamiento incluye una pluralidad de muestras tumorales, datos de expresión de ARN para cada muestra e informes de patología que abarcan datos de imagen para cada muestra.
Aunque MLA y redes neuronales identifican enfoques distintos del aprendizaje automático, los términos pueden utilizarse indistintamente en el presente documento. Así, una mención de MLA puede incluir un NN correspondiente o una mención de NN puede incluir un MLA correspondiente, a menos que se indique explícitamente lo contrario. El entrenamiento puede incluir el suministro de conjuntos de datos optimizados, el etiquetado de estos rasgos a medida que se producen en los historiales de los pacientes, y el entrenamiento del MLA para predecir o clasificar basándose en nuevas entradas. Las NN artificiales son modelos informáticos eficientes que han demostrado su eficacia en la resolución de problemas difíciles de inteligencia artificial. También se ha demostrado que son aproximadores universales, es decir, que pueden representar una gran variedad de funciones cuando se les dan los parámetros adecuados.
En algunas realizaciones, el sistema 100 incluye un módulo de entrenamiento de clasificador que incluye instrucciones para entrenar uno o más clasificadores no entrenados o parcialmente entrenados basados en datos de características de un conjunto de datos de entrenamiento. En algunas realizaciones, el sistema 100 también incluye una base de datos de datos de entrenamiento para su uso en el entrenamiento de uno o más clasificadores. En otras realizaciones, el módulo de entrenamiento del clasificador accede a un dispositivo de almacenamiento remoto que aloja datos de entrenamiento. En algunas realizaciones, los datos de entrenamiento incluyen un conjunto de características de entrenamiento, incluyendo, pero sin limitarse a, varios tipos de los datos 120 del sujeto ilustrados en la Figura 1B.
Algoritmos (166) de curación terapéutica
En algunas realizaciones, refiriéndose a la Figura 1A, el sistema 100 incluye un algoritmo 166 de curación terapéutica que ensambla variantes y características procesables tales como una determinación 141 de HRD, terapias emparejadas, y/o ensayos clínicos relevantes identificados para el sujeto. Por ejemplo, en algunas realizaciones, se cura una terapia para un sujeto basándose en una clasificación h Rd del cáncer en el sujeto, donde, cuando se determina que el cáncer en el sujeto es positivo a la deficiencia de recombinación homóloga (HRD), se administra un primer tratamiento, y cuando se determina que el cáncer en el sujeto no es positivo a la deficiencia de recombinación homóloga (HRD), se administra un segundo tratamiento distinto del primer tratamiento. En algunas realizaciones, el algoritmo 166 de curación terapéutica evalúa ciertos criterios relacionados con qué variantes y características procesables (por ejemplo, determinación 141 de HRD), terapias emparejadas y/o ensayos clínicos relevantes deben notificarse y/o si ciertas terapias emparejadas, consideradas solas o en combinación, pueden estar contraindicadas o contraindicadas para el sujeto, por ejemplo, basándose en datos bibliográficos del sujeto y/o interacciones conocidas entre fármacos. En algunas realizaciones, el algoritmo de curación terapéutica genera uno o más informes clínicos para el sujeto. En algunas realizaciones, el algoritmo de curación terapéutica genera un primer informe clínico que se comunicará a un profesional médico que trata al sujeto y un segundo informe clínico que no se comunicará al profesional médico, pero que puede utilizarse para mejorar diversos algoritmos dentro del sistema.
Módulo (167) de validación de recomendaciones
En algunas realizaciones, el sistema 100 incluye un módulo 167 de validación de recomendaciones que incluye una interfaz que permite a un clínico (por ejemplo, un patólogo) revisar, modificar y aprobar un informe clínico antes de que el informe se envíe a un profesional médico, por ejemplo, un oncólogo, que trata al paciente. Por ejemplo, en algunas realizaciones, los datos de evaluación clínica se generan, modifican y/o validan mediante la evaluación de los datos 120 del sujeto (por ejemplo, incluyendo los resultados 140 del clasificador de conjuntos) por un clínico como un oncólogo. Por ejemplo, en algunas realizaciones, un clínico (por ejemplo, en el entorno 220 clínico) utiliza el módulo 150 clasificador de conjuntos HRD, o accede directamente a la base de datos 120 de sujetos de prueba, para evaluar las salidas 140 del clasificador de conjuntos con el fin de hacer recomendaciones para el tratamiento personalizado del cáncer de un paciente. Del mismo modo, en algunas realizaciones, un clínico (por ejemplo, en el entorno 220 clínico) revisa las recomendaciones determinadas mediante algoritmos 166 de curación terapéutica y aprueba, rechaza o modifica las recomendaciones, por ejemplo, antes de que las recomendaciones se envíen a un profesional médico que trata al paciente con cáncer.
En algunas realizaciones, cada una de las una o más bases de datos de sujetos de prueba, módulos clasificadores, algoritmos de curación terapéutica, módulos de validación de recomendaciones, y/o módulos de informes están acoplados comunicativamente a un bus de datos para transferir datos entre cada módulo para su procesamiento y/o almacenamiento. En algunas realizaciones alternativas, cada una de las colecciones de características, módulo(s) de alteración, variante estructural y almacén de características están acoplados comunicativamente entre sí para la comunicación independiente sin compartir el bus de datos.
En la solicitud PCT PCT/US19/69149, titulada "A METHOD AND PROCESS FOR PREDICTING AND ANALYZING PATIENT COHORT RESPONSE, PROGRESSION, AND SURVIVAL", presentada el 31 de diciembre de 2019, se tratan más detalles sobre los sistemas y las realizaciones ejemplares de módulos y colecciones de características.
Figura 2B: Entorno clínico y de diagnóstico distribuido
En algunos aspectos, los procedimientos descritos en el presente documento para proporcionar apoyo clínico para la terapia personalizada del cáncer se realizan a través de un entorno de diagnóstico/clínico distribuido, por ejemplo, como se ilustra en la Figura 2. Sin embargo, en algunas realizaciones, los procedimientos mejorados descritos en el presente documento para predecir el estado de recombinación homóloga de un cáncer, se llevan a cabo en una única ubicación, por ejemplo, en un único sistema o entorno informático, aunque los procedimientos auxiliares que apoyan los procedimientos descritos en el presente documento, y/o los procedimientos que hacen un uso adicional de los resultados de los procedimientos descritos en el presente documento, pueden llevarse a cabo en un entorno de diagnóstico/clínico distribuido.
La Figura 2B ilustra un ejemplo de un entorno 210 diagnóstico/clínico distribuido. En algunas realizaciones, el entorno de diagnóstico/clínico distribuido está conectado a través de la red 105 de comunicación. En algunas realizaciones, una o más muestras biológicas, por ejemplo, una o más muestras de biopsia líquida, biopsia de tumor sólido, muestras de tejido normal, y/o muestras de control, se recogen de un sujeto en el entorno 220 clínico, por ejemplo, la consulta de un médico, un hospital, o una clínica médica, o en un entorno de asistencia sanitaria a domicilio (no representado). Ventajosamente, mientras que las muestras de tumores sólidos deben recogerse en un entorno clínico, las muestras de biopsia líquida pueden adquirirse de forma menos invasiva y se recogen más fácilmente fuera de un entorno clínico tradicional. En algunas realizaciones, una o más muestras biológicas, o porciones de las mismas, se procesan dentro del entorno 220 clínico donde se produjo la recogida, utilizando un dispositivo 224 de procesamiento, por ejemplo, un secuenciador de ácidos nucleicos para obtener datos de secuenciación, un microscopio para obtener datos de patología, un espectrómetro de masas para obtener datos proteómicos, etc. En algunas realizaciones, una o más muestras biológicas, o porciones de las mismas se envían a uno o más entornos externos, por ejemplo, laboratorio 230 de secuenciación, laboratorio 240 de patología, y/o laboratorio 250 de biología molecular, cada uno de los cuales incluye un dispositivo 234, 244, y 254 de procesamiento, respectivamente, para generar datos 121 biológicos para el sujeto. Cada entorno incluye un dispositivo 222, 232, 242, y 252 de comunicaciones, respectivamente, para comunicar los datos 121 biológicos sobre el sujeto a un servidor 262 de procesamiento y/o base 264 de datos, que puede estar ubicado en otro entorno, por ejemplo, el centro 260 de procesamiento/almacenamiento. Así, en algunas realizaciones, diferentes partes de los sistemas y procedimientos aquí descritos se llevan a cabo mediante diferentes dispositivos de procesamiento ubicados en diferentes entornos físicos.
En consecuencia, en algunas realizaciones, un procedimiento para proporcionar apoyo clínico para la terapia personalizada del cáncer, por ejemplo, con una metodología mejorada para predecir el estado de recombinación homóloga de un cáncer, se realiza a través de uno o más entornos, como se ilustra en la Figura 2B. Por ejemplo, en algunas realizaciones, una muestra de biopsia se recoge en el entorno 220 clínico o en un entorno de asistencia sanitaria domiciliaria. La muestra, o una parte de ella, se envía al laboratorio 230 de secuenciación, donde el secuenciador 234 genera las lecturas 123 de secuencia en bruto de los ácidos nucleicos en la muestra. Los datos 123 de secuenciación brutos se comunican, por ejemplo, desde el dispositivo 232 de comunicaciones, a la base 264 de datos en el centro 260 de procesamiento/almacenamiento, donde el servidor 262 de procesamiento extrae características de las lecturas de secuencia ejecutando uno o más de los procedimientos en el módulo 140 bioinformático, generando así características 131 genómicas para la muestra. A continuación, el servidor 262 de procesamiento puede analizar las características identificadas ejecutando uno o más de los procedimientos del módulo 160 de análisis de características, generando así la evaluación 139 clínica , que incluye un informe 139-3 clínico. Un clínico puede acceder al informe 139-3 clínico, por ejemplo, en el centro 260 de procesamiento/almacenamiento o a través de la red 105 de comunicaciones, mediante el módulo 167 de validación de recomendaciones. Tras la aprobación final, el informe 139-3 clínico se transmite a un profesional médico, por ejemplo, un oncólogo, en el entorno 220 clínico, que utiliza el informe para apoyar la toma de decisiones clínicas para el tratamiento personalizado del cáncer del paciente.
Procedimientos de ejemplo
Ahora que se han divulgado detalles de un sistema 100 para determinar un estado de vía de recombinación homóloga de un cáncer en un sujeto de prueba y/o entrenar un algoritmo para determinar un estado de la vía de recombinación homóloga de un cáncer, se divulgan a continuación detalles relativos a procedimientos y características del sistema, de acuerdo con varias realizaciones de la presente divulgación. Específicamente, a continuación, se describen procedimientos de ejemplo con referencia a las Figuras 3, 4 y 5. En algunas realizaciones, dichos procedimientos y características del sistema son llevados a cabo por los módulos 118, 150, 166, 167, y/o 170, como se ilustra en la Figura 1. En referencia a estos procedimientos, los sistemas descritos en el presente documento (por ejemplo, el sistema 100) incluyen instrucciones para determinar un estado de la vía de recombinación homóloga de un cáncer en un sujeto de prueba y/o entrenar un algoritmo para determinar un estado de la vía de recombinación homóloga de un cáncer.
La Figura 3 ilustra un ejemplo de flujo de trabajo 300 para determinar el estado de una vía de recombinación homóloga de un cáncer en un sujeto de prueba, de acuerdo con varias realizaciones de la presente divulgación. A continuación, se describen con más detalle diversas implementaciones de los pasos ilustrados en el flujo 300 de trabajo . El experto en la materia conocerá alternativas adecuadas para realizar cada uno de los pasos mostrados en el flujo de trabajo 300.
En el bloque 301, se recibe al menos un conjunto de datos de ARN, que contiene conjuntos de datos de ARN de especímenes. En un ejemplo, cada conjunto de datos de ARN de muestra se obtiene procesando una muestra de paciente humano o un organoide tumoral mediante un protocolo de secuenciación de ARN o de microarreglos de expresión. La secuenciación del ARN puede ser una secuenciación del ARN del exoma completo. En otros aspectos, puede evaluarse un panel de genes predeterminados mediante procedimientos de captura más específicos, así como ensayos qPCR o dPCR para genes individuales.
En otros aspectos, puede recibirse un conjunto de datos de líneas celulares. Este conjunto de datos puede ser especialmente útil, por ejemplo, cuando se utiliza en combinación con procedimientos de análisis de fármacos y/o análisis de material celular.
En un ejemplo, uno de los conjuntos de datos de ARN es un conjunto de datos de entrenamiento, otro es un conjunto de datos de prueba, y otro es un conjunto de datos de entrada desconocida. En una realización, el conjunto de datos de entrenamiento y el conjunto de datos de prueba incluyen conjuntos de datos de ARN de muestra (incluyendo transcriptomas de ARN-sec y/o datos de arreglos de SNP cuando estén disponibles) de The Cancer Genome Atlas (TCGA) y cada conjunto de datos de ARN de muestra en cada conjunto de datos de ARN se asocia con un tipo de cáncer y una puntuación HRD basada en ADN (Véase Knijnenburg et al. 2018 Cell Reports 23(1):239-254). En una realización, los conjuntos de datos de entrenamiento y prueba incluyen además conjuntos de datos de ARN de muestra que no están en la base de datos TCGA y cada uno de estos conjuntos de datos de ARN de muestra se asocia con un tipo de cáncer y una puntuación HRD basada en ADN. En una realización, la combinación de los conjuntos de datos de entrenamiento y prueba contiene más de 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 65, 80, 85, 90, 95, 100, 125, 150, 200, 250, 300, 400, 500, 750, 1.000, 10.000 o más conjuntos de datos de ARN de muestra.
Cada conjunto de datos de ARN de muestra puede asociarse además con datos de estado de metilación. En un ejemplo, los datos del estado de metilación pueden incluir una puntuación numérica y/o clases, por ejemplo, clases hipometiladas, normales, e hipermetiladas. En un ejemplo, las sondas de metilación utilizadas para generar datos del estado de metilación pueden elegirse en función de la distancia entre el sitio de unión de la sonda y el sitio de inicio de la transcripción (TSS) del gen, y de la concordancia entre el estado de los datos de metilación y la expresión del gen. En un ejemplo, pueden elegirse sondas de metilación que no se unan al cuerpo génico de un gen que comparta promotor con el gen objetivo.
En el bloque 302, se normalizan los conjuntos de datos de ARN de la muestra. En un ejemplo, el procedimiento de normalización se realiza de acuerdo con la solicitud de patente estadounidense N° 16/581.706.
En el bloque 303, se genera o recibe opcionalmente una puntuación HRD basada en ADN para al menos un conjunto de datos de ARN de muestra. En un ejemplo, los datos de secuenciación del ADN utilizados para generar una puntuación HRD basada en el ADN son datos de secuenciación del ADN del exoma completo. En un ejemplo, los datos de secuenciación del ADN utilizados para generar una puntuación de HRD basada en el ADN son datos de secuenciación del ADN del panel dirigido y la puntuación de HRD basada en el ADN se determina calculando el porcentaje de bases nucleotídicas cubiertas por el ensayo que tenían una pérdida detectable de heterocigosidad (LOH). En una realización, el panel dirigido se dirige a aproximadamente 500 genes.
En el bloque 304, la puntuación HRD basada en ADN de un conjunto de datos de ARN de muestra se compara opcionalmente con puntuaciones HRD basadas en ADN conocidas asociadas con el conjunto de datos de ARN de muestra.
En el bloque 305, se entrena un modelo de red elástica con los conjuntos de datos de ARN de muestra de entrenamiento y también puede entrenarse con las puntuaciones de HRD basadas en ADN generadas en el bloque 303. En un ejemplo, se entrena un modelo de red elástica independiente para cada cohorte TCGA, lo que significa que para entrenar cada modelo de red elástica se utiliza un conjunto de datos que contiene conjuntos de datos de ARN de muestra asociados con un solo tipo de cáncer (u otra característica que defina una cohorte) en la base de datos TCGA. En otro ejemplo, muchos tipos de cáncer están asociados con los conjuntos de datos de ARN de muestra de entrenamiento.
En una realización, los modelos de transcriptoma de red elástica se entrenaron para predecir puntuaciones HRD basadas en ADN derivadas de datos de arreglos de exoma y SNP para cada tipo de tumor representado en TCGA.
En un ejemplo, se entrenaron modelos de red elástica (con alfa 0, 0,25, 0,5, 0,75 o 1) utilizando datos de ARN de TCGA procesados internamente y puntuaciones de predicción de HRD basadas en ADN de la bibliografía (Knijnenburg Cell Rep 2018) para cada uno de los 33 cánceres de TCGA (el 75% de los conjuntos de datos de ARN de muestra de cada tipo de cáncer se utilizaron como datos de entrenamiento y el 25% como datos de prueba). Mientras que ciertos tipos de cáncer en los que la HRD no parece ser relevante (tiroides, melanoma) no produjeron modelos robustos, 11 tipos de tumores produjeron modelos con una precisión >70%. En particular, el cáncer de mama, de endometrio uterino y cáncer de vejiga, cada uno de los cuales tiene evidencia bibliográfica de HRD, obtuvieron los mejores resultados (87%, 83% y 82%, respectivamente).
En un ejemplo, puede utilizarse otro tipo de modelo lineal en lugar de un modelo de red elástica.
En el bloque 310, el modelo de red elástica entrenado se prueba opcionalmente utilizando el modelo entrenado para predecir un estado HRD para conjuntos de datos de ARN de muestra individuales dentro del conjunto de datos de prueba y comparando la salida del modelo para cada conjunto de datos de ARN de muestra con el estado HRD basado en ADN asociado con el conjunto de datos de ARN de muestra. En un ejemplo, los conjuntos de datos de ARN de muestra de prueba utilizados para la validación están asociados con el mismo tipo de cáncer que los conjuntos de datos de ARN de muestra de entrenamiento.
En un ejemplo, los modelos de red elástica entrenados exhiben cada uno una precisión >80% en datos de prueba retenidos y están bien potenciados para discriminar muestras deficientes de<b>R<c>A (HRD+, inactivación o deleción genética BRCA1/2 bialélica) de BRCA intacta (generalmente HRD-, BRCA1/2 de tipo silvestre).
En el bloque 315, el modelo de red elástica entrenado predice un estado HRD para al menos un conjunto de datos de ARN de muestra en el conjunto de datos desconocidos de entrada. En un ejemplo, la entrada del modelo es una matriz de expresión génica y el modelo intenta predecir una puntuación numérica HRD basada en el ADN.
En el bloque 330, se entrena un modelo de regresión logística RIDGE con los datos de estado de metilación y los conjuntos de datos de ARN de muestra en un conjunto de datos de entrenamiento. En una realización, los datos del estado de metilación están asociados a una región promotora de un gen de ADN. En un ejemplo, el promotor es el promotor del gen BRCA1.
En un ejemplo, se entrena un modelo logísti
conjuntos de datos de ARN de muestra en datos TCGA.
La metilación del promotor es un medio epigenético de inactivación un gen modificando químicamente el ADN para impedir su transcripción, en lugar de la mutación genética que cambia la propia secuencia de ADN. Este es un medio común de inactivación de BRCA1 u otros genes en tumores que pueden ser difíciles de detectar en los datos de secuenciación de ADN, pero que pueden detectarse indirectamente mediante secuenciación de ARN.
En varias realizaciones, el modelo de regresión RIDGE de metilación del promotor entrenado no utiliza los niveles de expresión del gen BRCA1 como característica. Mientras que la hipermetilación del promotor de un gen puede causar bajos niveles de expresión de ese gen, ciertas muestras con bajos niveles de expresión de genes relacionados con la vía HR tienen puntuaciones DHR muy bajas. Esto puede deberse a tumores HRD que inactivaron el BRCA1 por otros medios y regularon positivamente el gen como mecanismo compensatorio.
En un ejemplo, se puede utilizar otro tipo de modelo lineal en lugar de un modelo de regresión RIDGE.
En el bloque 340, el modelo de regresión RIDGE entrenado se prueba opcionalmente utilizando el modelo entrenado para predecir un estado de metilación para conjuntos de datos de ARN de muestra dentro del conjunto de datos de prueba y comparando la salida del modelo para un conjunto de datos de ARN de muestra con el estado de metilación actual asociado con el conjunto de datos de ARN de muestra. En un ejemplo, los conjuntos de datos de ARN de muestra de prueba utilizados para la validación están asociados cada uno con el mismo tipo de cáncer como los conjuntos de datos de ARN de muestra de entrenamiento.
En un ejemplo, la salida de un modelo lineal es una variable numérica continua denominada "predictor". En un ejemplo, para convertir la salida del predictor en una puntuación binaria (por ejemplo, 1 o 0, que representan hipermetilado y no hipermetilado, respectivamente), el predictor se compara con un valor umbral y si el predictor es superior a ese valor umbral, el predictor se categoriza como hipermetilado. En un ejemplo, la validación incluye variar los valores umbral (por ejemplo, en el rango de aproximadamente 0,1 a 0,4), analizar el rendimiento del modelo de regresión RIDGE entrenado en la categorización de los conjuntos de datos de entrenamiento que tienen estados de metilación conocidos, y calcular una puntuación F1 (por ejemplo, la media armónica de recuperación y precisión) para el modelo para cada valor umbral analizado. En un ejemplo, se selecciona el valor umbral que da como resultado la puntuación F1 más alta.
En un ejemplo, el modelo de regresión RIDGE entrenado exhibe una precisión >80% en datos de prueba retenidos y está bien potenciado para discriminar muestras deficientes de b Rc A (HRD+, inactivación o deleción genética BRCA1/2 bialélica) de B<r>CA intactos (generalmente HRD-, BRCA1/2 de tipo salvaje).
En el bloque 345, el modelo de regresión RIDGE entrenado predice un estado de metilación para al menos un transcriptoma en el conjunto de datos desconocidos de entrada. En diversas realizaciones, el estado de metilación puede ser una variable numérica en el rango de -2 a 1 o una puntuación binaria de 0 o 1.
En el bloque 350, una puntuación GSEA y/o ssGSEA (Véase Sergushichev 2016 BioRxiv doi:10.1101/060012 y Foroutan et al. 2018 BMC Bioinformatics 19:404) para al menos un conjunto de genes se recibe o generada para al menos un transcriptoma en el conjunto de datos desconocido de entrada. En un ejemplo, las puntuaciones GSEA y/o ssGSEA son generadas para un transcriptoma comparando los niveles de expresión de los genes dentro del conjunto de genes con los niveles de expresión de otros genes. En un ejemplo, sólo se reciben o generan puntuaciones ssGSEA.
En un ejemplo, el bloque 350 incluye el aprovechamiento de la colección mSigDB de conjuntos de genes anotados para realizar un análisis de enriquecimiento de conjuntos de genes de muestra única (ssGSEA) en pacientes secuenciados con Tempus, seleccionando más de cien conjuntos de genes que eran predictivos de la deficiencia de BRCA, utilizando LASSO.
En una realización, el conjunto de genes se deriva de una anotación o de experimentos biológicos específicos. En un ejemplo, la puntuación ssGSEA es una puntuación ssGSEA de conjunto de genes de cáncer de mama hereditario, en la que el conjunto de genes se deriva de comparar la expresión génica en cánceres de mama hereditarios (que están enriquecidos para la pérdida de BRCA1/2) y otros cánceres de mama.
En el bloque 360, el paso de generación de puntuación GSEA y/o ssGSEA se prueba opcionalmente generando puntuaciones GSEA y/o ssGSEA para transcriptomas individuales dentro del conjunto de datos de entrenamiento y/o prueba y calculando la correlación entre la puntuación para un transcriptoma y el estado HRD basado en ADN asociado con el transcriptoma. En un ejemplo, los transcriptomas de datos de entrenamiento y de prueba utilizados para la validación están asociados cada uno con el mismo tipo de cáncer que los conjuntos de datos de ARN de muestra desconocidos de entrada.
En el bloque 370, al menos una salida de los bloques 315, 345, y 350 se combinan en un modelo de conjunto para generar una puntuación HRD predicha de conjunto. La puntuación HRD basada en el ADN del bloque 303 también puede incorporarse al modelo de conjunto.
En una realización, el modelo de conjunto es un modelo lineal. Este modelo toma los predictores directos del modelo de red elástica, la predicción binarizada del modelo de hipermetilación por regresión RIDGE (hipermetilado o no), y la puntuación de enriquecimiento GSEA y/o ssGSEA de la vía, además de la puntuación HRD basada en el ADN (estas son las salidas 315, 345, 350 y 303 de los bloques, respectivamente).
En un ejemplo, se entrena un modelo de regresión lineal apilado, incorporando cada una de estas 4 características (salidas 315, 345, 350, y 303 de los bloques) para distinguir a las pacientes BRCA intacto de las deficientes de BRCA. En un ejemplo, este modelo apilado es muy preciso y supera a cualquier modelo individual basado en ARN o ADN, identificando a muchos pacientes que los modelos de ADN por sí solos no detectaron y que probablemente respondan a los inhibidores de PARp. El éxito de este modelo destaca el valor de la secuenciación del ARN para el tratamiento clínico del cáncer y el poder de la integración de múltiples modalidades de secuenciación para afinar el diagnóstico, informar sobre el pronóstico y ofrecer las terapias más eficaces a los pacientes.
En varias realizaciones, el modelo de conjunto tiene una penalización alfa baja (0,1, regularización L1), pondera las puntuaciones positivas HRD más altas (tiene clases desequilibradas), aumenta lambda (regularización L2), y/o binariza la salida del predictor de hipermetilación del bloque 330. El "desequilibrio de clases" se refiere a que hay más muestras HRD- que HRD+ disponibles, y la ponderación está diseñada para compensar.
En el bloque 390, el modelo de conjunto se valida opcionalmente.
En un ejemplo, un conjunto de datos de ARN de muestra y un conjunto de datos de ARN de muestra ortogonal asociado con la misma muestra se analiza mediante los sistemas y procedimientos aquí divulgados y la puntuación HRD predicha por el conjunto generada para el conjunto de datos de ARN de muestra se compara con la puntuación HRD predicha por el conjunto generada para el conjunto de datos de ARN de muestra ortogonal.
En un ejemplo, se genera un conjunto de datos de ARN de muestra ortogonal procesando una muestra mediante un procedimiento de secuenciación ortogonal para generar (por ejemplo, si se utiliza secuenciación de próxima generación para generar los conjuntos de datos de ARN de muestra recibidos en el bloque 201, se puede utilizar microarreglos como procedimiento de secuenciación ortogonal).
En otro ejemplo, un grupo de muestras con evidencia de pérdida genética de BRCA1/2 y un grupo de muestras con BRCA1/2 intacto pueden analizarse mediante los sistemas y procedimientos divulgados en el presente documento y otro procedimiento para generar curvas de características operativas del receptor (ROC) y calcular el área bajo la curva (AUC) para cada procedimiento. Aunque la HRD puede producirse por otros medios, las pacientes con pérdida genética son por definición HRD y la mayoría de las HRD están causadas por la pérdida de BRCA1/2. En este ejemplo, se demostró que el modelo integrado de ARN/ADN superaba a cualquier métrica basada en el ARN o el ADN única (véase un ejemplo en la Figura 4).
En el bloque 395, se genera un informe de estado HRD que contiene el estado HRD previsto de la muestra u organoide del paciente asociado con el conjunto de datos de ARN de la muestra. El informe de estado del HRD también puede contener la probabilidad de sensibilidad a fármacos de las células cancerosas en la muestra original, especialmente a fármacos que dañan el ADN, incluidos los inhibidores de PARP y los platinos, y pronósticos, incluida la supervivencia prevista del paciente y/o la supervivencia libre de progresión.
El informe puede ser digital (por ejemplo, disponible como un archivo digital como PDF o JPG, o accesible a través de una interfaz de usuario como un portal o sitio web) o puede ser una copia impresa (por ejemplo, impresa en papel). El informe puede entregarse a un médico, un profesional de la medicina, un paciente, un diseñador o fabricante farmacéutico, o un laboratorio de cultivo de organoides, especialmente para orientar las decisiones de tratamiento y el diseño de ensayos o experimentos clínicos.
En un ejemplo, para cada muestra de paciente en una población que recibe secuenciación de ARN, se generará una predicción de HRD basada en ARN utilizando cada uno de los tres modelos descritos anteriormente. Esto puede combinarse en un modelo de conjunto con la puntuación basada en el ADN. Los pacientes pueden recibir en el informe un indicador de si fueron positivos para h Rd y, en caso afirmativo, pueden ser emparejados con la terapia de inhibidores de PARP o la inscripción en ensayos de inhibidores de PARP, especialmente ensayos que tengan el estado de HRD positivo como criterio de inclusión. También puede recomendarse la quimioterapia basada en platino, especialmente si los inhibidores de PARP están contraindicados.
Estos sistemas y procedimientos pueden hacer coincidir los inhibidores de PARP con un mayor número de pacientes positivos para HRD que pueden beneficiarse de recibirlos, al detectar un mayor número de pacientes positivos para HRD.
En una realización, la puntuación HRD final es una variable numérica continua (por ejemplo, un número entre 1 y 100). En un ejemplo, la puntuación HRD incluye un percentil o índice de confianza, derivado de la comparación de la puntuación HRD de una única muestra con puntuaciones HRD reales o previstas asociadas con un grupo de muestras, en el que el grupo puede representar una base de datos, población, cohorte de tipo de cáncer u otra cohorte de muestras. El grupo de muestras puede representarse mediante un histograma y la posición de la muestra en dicho histograma puede indicarse, por ejemplo, mediante una línea de puntos u otro indicador. En otro ejemplo, la puntuación HRD final se clasifica como baja, media o alta comparando la puntuación HRD final con un umbral. Por ejemplo, todo lo que sea <30 es bajo, 30-60 es medio y >60 es alto. En un ejemplo, estas etiquetas son HRD negativo (bajo), HRD ambiguo (medio) y HRD positivo (alto). En un ejemplo, el informe puede incluir un tipo de cáncer para la muestra. En un ejemplo, el informe puede incluir un enlace a una cita, por ejemplo, una cita que describa los sistemas y procedimientos para calcular la puntuación HRD final divulgada en el presente documento, o una cita que describa el cálculo de la puntuación HRD en general, o una cita que describa la base para emparejar una terapia con una muestra que tenga una determinada puntuación HRD. El informe puede incluir información sobre variantes genéticas o variantes del número de copias detectadas en la muestra, especialmente en los genes BRCA o PALB2.
El informe puede incluir además una puntuación HRD basada en ADN para la muestra, y un histograma para comparar esa puntuación HRD basada en ADN con una base de datos de puntuaciones HRD basadas en ADN para muchas muestras.
El informe puede incluir además información sobre la muestra, por ejemplo, el lugar de recogida, el tipo de muestra, el tipo de tejido, el tipo de cáncer, la fecha de recogida, el porcentaje de tumor, la pureza del tumor, el procedimiento de recogida, el procedimiento de disección, el procedimiento de fijación, etc.
El informe puede incluir además información sobre el estado de metilación (por ejemplo, el nombre y/o localización genética del(los) gen(es) y/o promotor(es) asociados con el estado de metilación). El informe puede incluir además información sobre la puntuación ssGSEA (por ejemplo, el conjunto de genes utilizado para calcular la puntuación ssGSEA).
Las Figuras 6A, 6B, y 6C ilustran colectivamente ejemplos de porciones de un informe de estado de HRD, por ejemplo, como se genera en el bloque 395.
La Figura 6A ilustra un estado HRD positivo y un histograma. En este ejemplo, el punto de corte (por ejemplo, umbral) para un estado HRD negativo frente a positivo es el percentil 40 y la muestra tiene una puntuación HRD en el percentil 76 de una base de datos. La Figura 3B ilustra un estado de h Rd alto e información sobre una puntuación de HRD basada en el ADN. La Figura 3C ilustra información sobre una terapia en el informe HRD que fue emparejada en base a una puntuación HRD.
La Deficiencia de Recombinación Homóloga (HRD) es un predictor robusto de supervivencia y sensibilidad a fármacos (especialmente a terapias que inducen daño en el ADN, incluyendo inhibidores de PARP y platinos) en un número creciente de tipos de cáncer. A diferencia de las células normales, los tumores HRD son incapaces de reparar los daños inducidos por los fármacos, lo que conduce a la muerte celular. La HRD se define como la pérdida de la capacidad de reparar el daño en el ADN a través de la vía de recombinación homóloga, lo que da lugar a inestabilidad genómica y a ciertas alteraciones características del número de copias (CNA) que pueden utilizarse para diagnosticar la HRD.
Prominentemente, la HRD puede surgir de la pérdida bialélica de BRCA1 o BRCA2 a través de mutación o hipermetilación del promotor. Sin embargo, también pueden estar implicadas alteraciones en muchos otros genes de reparación del ADN, incluidos PALB2 y RAD51, y es probable que queden muchos más genes sin caracterizar que afecten al estado de HRD. De hecho, el estado BRCA por sí solo es un predictor relativamente débil del estado h Rd o de la sensibilidad a los inhibidores de PARP; en la mayoría de los casos, estas dos últimas características están más estrechamente correlacionadas.
Los procedimientos actuales de diagnóstico de HRD en una muestra pueden utilizar datos de secuencia de ADN, incluyendo la detección de variantes en BRCA1/2, variantes en otros genes relacionados con la vía HR (incluyendo PALB2 y RAD51), o CNA comúnmente causados por HRD crónica. Debido a la naturaleza estocástica de la generación de CNA, una célula puede no adquirir CNA durante algún tiempo después de volverse positiva a la deficiencia de recombinación (HRD). Incluso en el caso de las células que han adquirido CNA, las pruebas basadas en el ADN pueden no detectar las células HRD por muchas razones, por ejemplo, si los datos son escasos, si el panel de ADN no cubre el genoma completo, si el panel está sesgado hacia la detección de ciertas porciones de un genoma sobre otras, o si el resultado está cerca de un umbral. Además, el análisis de los datos de la secuencia de ADN por sí solo no detecta el silenciamiento por hipermetilación de los genes de HR, las células positivas a la deficiencia de recombinación (HRD) que no tienen variantes en genes relacionados con la vía de H<r>, o las células que no han adquirido CNA.
En contraste, cambios sustanciales en el transcriptoma pueden surgir poco después de la inducción de HRD a través del silenciamiento de BRCA1/2 en modelos celulares, sugiriendo que algunos tumores HRD que serían sensibles a los inhibidores PARP pueden exhibir sólo la firma transcripcional de HRD, no una carga sustancial de cambios en el número de copias, y pueden no ser detectados por pruebas estrictamente basadas en ADN.
En varias realizaciones, los sistemas y procedimientos aquí divulgados son uno o más algoritmos para analizar datos de ARN-sec para mejorar la precisión de la predicción de HRD en muestras, especialmente muestras de cáncer. Los sistemas y procedimientos pueden complementar la medición de la HRD basada en el ADN.
En varias realizaciones, los sistemas y procedimientos comprenden tres modelos predictivos distintos basados en el transcriptoma que, cuando se combinan con una puntuación de HRD basada en el ADN en un modelo de conjunto, generan predicciones más precisas del estado de HRD con tasas más bajas de falsos negativos.
En una realización, los sistemas y procedimientos comprenden los siguientes modelos de transcriptoma: (1) una red elástica HRD del transcriptoma entrenada en TCGA, (2) un modelo de metilación del promotor BRCA1 y (3) aproximadamente 100 puntuaciones de conjuntos de genes ssGSEA, incluida una puntuación ssGSEA de conjuntos de genes de cáncer de mama hereditario. En un ejemplo, los conjuntos de genes se seleccionan para la puntuación de conjuntos de genes ssGSEA mediante un modelo LASSO entrenado para distinguir pacientes con deficiencia de BRCA de pacientes con BRCA intacto.
En una realización, los sistemas y procedimientos incluyen modelos entrenados en datos relacionados con la sensibilidad a inhibidores PARP, incluyendo datos derivados de modelos de organoides tumorales y/o datos de pacientes RWE.
En una realización, los sistemas y procedimientos incluyen otros procedimientos de aprendizaje automático (árboles de regresión, máquinas de vectores de soporte, etc.). Los modelos de aprendizaje automático pueden entrenarse para funcionar en presencia de covariables y factores de confusión, incluyendo el lugar del tejido y la pureza del tumor.
En varias realizaciones, los sistemas y procedimientos incluyen un análisis opcional de la precisión de los modelos HRD en la predicción de la supervivencia del paciente o la respuesta a la terapia a través de tipos de tumores. Este análisis puede incorporar datos longitudinales (incluyendo diapositivas y/o datos de resultados/respuesta) para pacientes que reciben inhibidores de PARP o platinos, o inscritos en ensayos clínicos para estos fármacos. El análisis puede incluir datos generados por experimentos con organoides derivados de tumores, especialmente experimentos que determinan si los organoides que se prevé que presenten HRD se eliminan o ven reducido su crecimiento por terapias basadas en inhibidores de PARP o platino.
En varias realizaciones, los sistemas y procedimientos divulgados en el presente documento son para detectar la deficiencia de recombinación homóloga (HRD) en una muestra recibiendo un conjunto de datos derivados de la muestra y generando un estado HRD basado en el conjunto de datos. En varias realizaciones, los sistemas y procedimientos incluyen un dispositivo médico que recibe un conjunto de datos derivados de la muestra y genera un estado HRD basado en el conjunto de datos. En varias realizaciones, los sistemas y procedimientos incluyen un sistema de procesamiento de información basado en la nube que recibe un conjunto de datos derivados de la muestra y genera un estado HRD basado en el conjunto de datos. En diversas realizaciones, los sistemas y procedimientos divulgados en el presente documento incluyen además secuenciar una muestra de cáncer generando un conjunto de datos a partir de una muestra de cáncer; y
generar un estado HRD basado en el conjunto de datos. En un ejemplo, el producto sanitario es un sistema analizador genético, que incluye un secuenciador de nueva generación, un secuenciador de nanoporos, etc. En otro ejemplo, el dispositivo médico es una prueba desarrollada en laboratorio. En varias realizaciones, el conjunto de datos incluye datos de ARN, datos de ADN y/o datos de metilación. En varias realizaciones, la muestra es una muestra de cáncer de un paciente humano, un organoide, o un organoide derivado de una muestra de cáncer humano.
En varias realizaciones, los sistemas y procedimientos aquí divulgados incluyen además prescribir o emparejar una terapia a una muestra, basándose en el estado HRD de la muestra. En un ejemplo, la terapia emparejada es una terapia que daña el ADN, incluyendo un inhibidor de la poli ADP ribosa polimerasa (PARP), o una quimioterapia basada en platino.
En varias realizaciones, los sistemas y procedimientos divulgados en el presente documento incluyen además emparejar un ensayo clínico para una muestra, basándose en el estado HRD de la muestra. En un ejemplo, el ensayo clínico emparejado tiene criterios de inclusión que coinciden con el estado HRD de la muestra. En otro ejemplo, el ensayo clínico emparejado tiene criterios de exclusión que no coinciden con el estado HRD de la muestra.
En varias realizaciones, los sistemas y procedimientos divulgados en el presente documento incluyen además el diseño de un experimento para probar la sensibilidad del organoide a la terapia, emparejando una terapia basada en el estado HRD de la muestra, y diseñando un experimento para monitorear el crecimiento del organoide después de exponer el organoide a la terapia emparejada. En un ejemplo, la terapia emparejada es una terapia que daña el ADN, incluyendo un inhibidor de la poli ADP ribosa polimerasa (PARP), o una quimioterapia basada en platino.
Cabe señalar que los detalles de otros procedimientos descritos en el presente documento con respecto a otros procedimientos descritos en el presente documento (por ejemplo, los procedimientos 400 y 500) también son aplicables de manera análoga al procedimiento 300 descrito anteriormente. Por ejemplo, los detalles relativos a muestras biológicas cancerosas, muestras biológicas no cancerosas, muestras de ADN, muestras de ARN, secuenciación de ADN, secuenciación de ARN, normalización de datos, recopilación de datos, procesamiento de datos, clasificadores, conjuntos de clasificadores, sujetos de ensayo, terapias asociadas, etc., descritas anteriormente con referencia al procedimiento 300 opcionalmente tienen una o más de las características de las muestras biológicas cancerosas, muestras biológicas no cancerosas, muestras de ADN, muestras de ARN, secuenciación de ADN, secuenciación de ARN, normalización de datos, recopilación de datos, procesamiento de datos, clasificadores, conjuntos de clasificadores, sujetos de prueba, terapias asociadas, etc., descritas aquí con referencia a otros procedimientos descritos aquí (por ejemplo, los procedimientos 400 y 500). En aras de la brevedad, estos detalles no se repiten aquí.
Las Figuras 4 y 5A-C ilustran ejemplos de flujos de trabajo 400 y 500 para determinar el estado de una vía de recombinación homóloga de un cáncer, donde los pasos opcionales se indican mediante recuadros discontinuos, de acuerdo con algunas realizaciones de la presente divulgación. A continuación, se describen con más detalle varias implementaciones de los pasos ilustrados en los flujos de trabajo 400 y 500. El experto en la técnica conocerá alternativas adecuadas para realizar cada uno de los pasos mostrados en los flujos 400 y 500 de trabajo.
Haciendo referencia al Bloque 500 de la Figura 5, la presente divulgación proporciona un procedimiento para determinar un estado de la vía de recombinación homóloga de un cáncer en un sujeto de prueba. En algunas realizaciones, el cáncer es cáncer de mama, cáncer de ovario, cáncer colorrectal, cáncer de trompas de Falopio, cáncer de páncreas, cáncer peritoneal y/o cáncer de próstata. En algunas realizaciones, el cáncer está asociado a una mutación BRCA1, BRCA2, PTEN y/o PALB2.
Adquisición y preparación de muestras.
En algunas realizaciones, se genera un estado HRD predicho basado en datos de secuenciación de ARN y/o ADN de una muestra de tejido tumoral (por ejemplo, una biopsia), muestras de sangre que contienen ADN tumoral, y/o muestras normales emparejadas de un paciente. En algunas realizaciones, la muestra de tejido tumoral puede ser de un cáncer de uno de los muchos subtipos diferentes, incluyendo tumores hematológicos y sólidos. En algunas realizaciones, el tipo de muestra utilizado para el perfil genómico completo puede ser formalina fija, parafina embebida (FFPE), sangre periférica o aspirado de médula ósea. Las muestras pueden recogerse en un depósito como un tubo de ácido etilendiaminotetraacético potásico (EDTA). La muestra puede ser un bloque de tejido o una pluralidad de portaobjetos FFPE, como por ejemplo hasta 3 portaobjetos, hasta 5 portaobjetos, hasta 10 portaobjetos o hasta 20 portaobjetos. En algunas realizaciones, la muestra normal emparejada es sangre periférica o saliva.
En consecuencia, en algunas realizaciones, el procedimiento incluye la obtención de una muestra biológica del sujeto de prueba. Por ejemplo, como se ilustra en el Bloque 402 de la Figura 4, en algunas realizaciones, la adquisición de muestras comprende la obtención de una biopsia 452 de cáncer, una biopsia 456 de líquido, y/o una biopsia 454 de tejido normal (por ejemplo, sano). En algunas realizaciones, el procedimiento comprende la obtención de una pluralidad de muestras del sujeto de prueba (por ejemplo, una o más biopsias de cáncer, una o más biopsias líquidas, y/o una o más biopsias de tejido normal). Sin embargo, en otras realizaciones, los procedimientos descritos en el presente documento comienzan con la adquisición de datos de secuenciación (por ejemplo, en bruto o preprocesados) y/o constructos de datos de pacientes formadas a partir de la entrada de datos de características en un clasificador de conjunto HRD, como se describe en el presente documento.
Como se ilustra en el Bloque 404, en algunas realizaciones, una muestra biológica obtenida del sujeto de prueba se procesa para la extracción de ácidos nucleicos y/o la preparación de bibliotecas. Por ejemplo, en algunas realizaciones, una muestra de ADN se prepara a partir de una biopsia de tumor de tejido sólido del sujeto (por ejemplo, la muestra 458 de ADN de tejido canceroso se prepara a partir de la biopsia 452 de cáncer). En algunas realizaciones, una muestra de ADN se prepara a partir de una biopsia líquida del sujeto (por ejemplo, la muestra 464 de células libres de ADN se prepara a partir de la biopsia 456 líquida). En algunas realizaciones, una muestra de ARN se prepara a partir de una biopsia de tumor de tejido sólido del sujeto (por ejemplo, la muestra 460 de ARN/ADNc de tejido canceroso se prepara a partir de la biopsia 452 de cáncer).
En algunas realizaciones, una segunda muestra de ADN se prepara a partir de una biopsia normal de tejido sólido del sujeto (por ejemplo, la muestra 462 de ADN de tejido normal se prepara a partir de la biopsia 454 de tejido normal).
En algunas realizaciones, se prepara una pluralidad de muestras de cada biopsia de cáncer, biopsia líquida y/o biopsia de tejido normal respectiva. Por ejemplo, en algunas realizaciones, se prepara una pluralidad de muestras de ADN y/o muestras de ARN/ADNc a partir de una biopsia de cáncer respectiva (por ejemplo, tumor de tejido sólido). En algunas realizaciones, se prepara una pluralidad de muestras de ADN a partir de una biopsia líquida respectiva. En algunas realizaciones, se prepara una pluralidad de muestras de ADN a partir de una biopsia de tejido normal respectiva. En algunas realizaciones, se prepara una pluralidad de alícuotas de cada muestra respectiva.
En algunas realizaciones, el ADN de la línea germinal ("normal", no canceroso) puede extraerse ya sea de la sangre (por ejemplo, si un paciente tiene un cáncer que no es de la sangre) o de la saliva (por ejemplo, si un paciente tiene un cáncer de la sangre). Las muestras de sangre normal pueden recogerse de los pacientes utilizando recipientes de recogida de sangre disponibles en el mercado, por ejemplo, los tubos PAXgene Blood DNA Tubes, y las muestras de saliva pueden recogerse de los pacientes utilizando recipientes de recogida de saliva disponibles en el mercado, por ejemplo, los kits Oragene DNA Saliva Kits.
Las muestras de sangre de cáncer pueden recogerse de los pacientes (por ejemplo, en tubos de recogida EDTA). Los patólogos pueden analizar las secciones de tejido FFPE macrodiseccionadas (que pueden montarse en un portaobjetos histopatológico) de muestras de tumores sólidos para determinar la cantidad total de tumor en la muestra y el porcentaje de celularidad tumoral como relación entre el tumor y los núcleos normales. Para cada sección, el tejido de fondo puede excluirse o eliminarse de forma que la sección cumpla un umbral de pureza tumoral (en un ejemplo, al menos el 20% de los núcleos de la sección son núcleos tumorales). A continuación, se puede aislar el ADN de muestras de sangre, saliva y secciones de tejido utilizando reactivos disponibles en el mercado, incluida la proteinasa K para generar una solución líquida de ADN.
Cada solución de ADN aislado puede someterse a un protocolo de control de calidad para determinar la concentración y/o cantidad de moléculas de ADN en la solución, que puede incluir el uso de un colorante fluorescente y un lector de microplacas de fluorescencia, un espectrofluorómetro estándar, o un fluorómetro de filtro.
Para cada muestra de cáncer y cada muestra normal, las moléculas de ADN aisladas pueden ser cizalladas mecánicamente a una longitud promedio utilizando un ultrasonido (por ejemplo, un ultrasonido Covaris). Las moléculas de ADN también pueden analizarse para determinar el tamaño de sus fragmentos, lo que puede hacerse mediante técnicas de electroforesis en gel y puede incluir el uso de un dispositivo como el LabChip g X Touch.
Las bibliotecas de ADN pueden ser preparadas a partir del ADN aislado, por ejemplo, utilizando el KAPA Hyper Prep Kit, un kit de New England Biolabs (NEB), o un kit similar. La preparación de bibliotecas de ADN puede incluir la ligación de adaptadores a las moléculas de ADN. Por ejemplo, los adaptadores UDI, incluidos los adaptadores de doble extremo Roche SeqCap, o los adaptadores UMI (por ejemplo, adaptadores de longitud completa o adaptadores Y rechonchos) pueden ligarse a las moléculas de ADN.
Del mismo modo, los procedimientos para aislar ARN, por ejemplo, ARNm, a partir de muestras de tejido son conocidos en la técnica. En algunas realizaciones, el ARN aislado se transcribe inversamente en ADNc, a partir del cual se pueden preparar bibliotecas de ADNc/ARN de forma análoga a las bibliotecas de ADN descritas a continuación.
En algunas realizaciones, se utilizan adaptadores durante la construcción de la biblioteca de ADN/ADN. Los adaptadores son moléculas de ácido nucleico que pueden servir como códigos de barras para identificar moléculas de ADN/ADNc en función de la muestra de la que proceden y/o para facilitar el procesamiento bioinformático descendente y/o la reacción de secuenciación de nueva generación. La secuencia de nucleótidos en los adaptadores puede ser específica de una muestra para distinguir muestras. Los adaptadores pueden facilitar la unión de las moléculas de ADN/ADNc a moléculas de oligonucleótidos de anclaje en la celda de flujo del secuenciador y pueden servir como semilla para el procedimiento de secuenciación al proporcionar un punto de partida para la reacción de secuenciación.
Las bibliotecas de ADN/ADNc pueden amplificarse y purificarse utilizando reactivos, por ejemplo, perlas de limpieza de PCR Axygen MAG. A continuación, la concentración y/o cantidad de las moléculas de ADN/ADNc puede cuantificarse utilizando un colorante fluorescente y un lector de microplacas de fluorescencia, un espectrofluorómetro estándar o un fluorómetro de filtro.
Las bibliotecas de ADN/ADNc pueden agruparse (dos o más bibliotecas de ADN/ADNc pueden mezclarse para crear un grupo) y tratarse con reactivos para reducir la captura fuera del objetivo, por ejemplo, COT-1 Humano y/o Bloqueadores Universales IDT xGen. Las agrupaciones pueden secarse al vacío y resuspenderse. Las bibliotecas o conjuntos de ADN pueden hibridarse con un conjunto de sondas (por ejemplo, un conjunto de sondas específico para un panel que incluya aproximadamente 100, 600, 1.000, 10.000, etc. de los 19.000 genes humanos conocidos) y amplificarse con reactivos disponibles en el mercado (por ejemplo, el KAPAHiFi HotStart ReadyMix).
Las agrupaciones pueden incubarse en una incubadora, máquina de PCR, baño de agua, u otro dispositivo modulador de temperatura para permitir la hibridación de las sondas. A continuación, las agrupaciones pueden mezclarse con perlas recubiertas de estreptavidina u otro medio para capturar moléculas de sonda hibridadas de ADN/ADNc-, tal como moléculas de ADN que representen exones del genoma humano y/o genes seleccionados para un panel genético.
Las agrupaciones pueden amplificarse y purificarse más de una vez utilizando reactivos disponibles en el mercado, por ejemplo, el kit de amplificación de bibliotecas KAPA HiFi y las perlas de limpieza de PCR Axygen MAG, respectivamente. Las agrupaciones o bibliotecas de ADN/ADNc pueden analizarse para determinar la concentración o cantidad de moléculas de ADN/ADNc, por ejemplo, utilizando un colorante fluorescente (por ejemplo, cuantificación de agrupaciones PicoGreen) y un lector de microplacas de fluorescencia, un espectrofluorómetro estándar o un fluorómetro de filtro.
En un ejemplo, la preparación de una biblioteca de ADN/ADNc y/o los pasos de captura del exoma completo pueden realizarse con un sistema automatizado, utilizando un robot de manipulación de líquidos (por ejemplo, un SciClone NGSx).
Secuenciación de ácidos nucleicos.
La amplificación de la biblioteca puede realizarse en un dispositivo, por ejemplo, un C-Bot2 de Illumina, y la celda de flujo resultante que contiene bibliotecas de ADN/ADNc capturadas como objetivo amplificadas puede secuenciarse en un secuenciador de próxima generación, por ejemplo, un HiSeq 4000 de Illumina o un NovaSeq 6000 de Illumina a una profundidad objetivo única seleccionada por el usuario, por ejemplo, 300x, 400x, 500x, 10.000x, etc. Las muestras pueden evaluarse además para determinar su uniformidad, requiriéndose que cada muestra tenga el 95% de todos los pb dirigidos secuenciados a una profundidad mínima seleccionada por el usuario, por ejemplo, 300x. El secuenciador de nueva generación puede generar un archivo FASTQ, BCL u otro para cada celda de flujo o cada muestra de paciente.
En consecuencia, refiriéndose a los Bloques 502 y 504 de la Figura 5, en algunas realizaciones, el procedimiento incluye secuenciar una muestra de ADN de un tejido canceroso del sujeto de prueba y/o una muestra de ARN del tejido canceroso del sujeto de prueba.
Por ejemplo, como se ilustra en el Bloque 406 de la Figura 4, en algunas realizaciones, una o más muestras obtenidas de un tejido de un sujeto (por ejemplo, muestra 458 de ADN de tejido canceroso, muestra 460 de ARN/ADNc de tejido canceroso, muestra 462 de ADN de tejido normal, y/o muestra 464 de células libres de ADN) se procesan adicionalmente para secuenciación de ácido nucleico, alineación, y/o análisis de expresión génica. Por ejemplo, en algunas realizaciones, una muestra de ADN se secuencia utilizando una reacción de secuenciación de ADN de panel dirigido. En algunas de dichas realizaciones, la reacción de secuenciación de ADN de panel dirigido utiliza una pluralidad de sondas de ácido nucleico para enriquecer los ácidos nucleicos del tejido canceroso del sujeto, para un panel de regiones genómicas). En algunas realizaciones, una muestra de ADN se secuencia utilizando una reacción de secuenciación del genoma completo de paso bajo. En algunas realizaciones, la cobertura media de secuenciación a través del genoma es inferior a 3X, inferior a 2,5<x>, inferior a 2X, inferior a 1,5X, inferior a 1X, inferior a 0,75X o inferior. En algunas realizaciones, la reacción de secuenciación del ADN genera una pluralidad de lecturas de secuencias (por ejemplo, lecturas de ADN en bruto obtenidas de una muestra 128-1 de ADN de tejido canceroso, lecturas de ADN en bruto obtenidas de una muestra 132-1 de ADN de tejido normal (ADNn), y/o lecturas de ADN en bruto libre de células obtenidas de una muestra 128-1cf de células libres de ADN (ADNcf)).
En algunas realizaciones, una muestra de ARN se secuencia mediante una reacción de secuenciación del exoma completo. En algunas realizaciones, una muestra de ARN se secuencia mediante una reacción de secuenciación de ARN de panel dirigido. En algunas realizaciones, la reacción de secuenciación de ARN genera una pluralidad de lecturas de secuencia (por ejemplo, lecturas de ARN en bruto obtenidas de una muestra de ARN/ADNc de tejido canceroso 136-1).
En algunas realizaciones, una muestra de ADN (por ejemplo, obtenida de una biopsia de tumor de tejido sólido, una biopsia líquida y/o una biopsia de tejido normal) se secuencia mediante una reacción de secuenciación de metilación (por ejemplo, secuenciación de bisulfito). En algunas realizaciones, la reacción de secuenciación de metilación genera una pluralidad de lecturas de secuencia (por ejemplo, lecturas de ADN de metilación en bruto (ADNm) obtenidas a partir de una muestra 128-1m de ADN de tejido canceroso y/o lecturas de ADN de metilación en bruto obtenidas a partir de una muestra 128-1mcf de células libres de ADN (ADNmcf)).
En algunas realizaciones, una primera reacción de secuenciación y una segunda reacción de secuenciación se llevan a cabo utilizando diferentes alícuotas de la misma muestra (por ejemplo, una muestra de ADN que comprende las moléculas de ADN del tejido canceroso del sujeto). Por ejemplo, en algunas realizaciones, una muestra de ADN se divide en dos alícuotas, la primera alícuota se utiliza para una reacción de secuenciación de ADN (por ejemplo, panel dirigido o genoma completo), y la segunda alícuota se utiliza para una reacción de secuenciación de bisulfito.
En algunas realizaciones, una primera reacción de secuenciación y una segunda reacción de secuenciación se llevan a cabo utilizando una primera muestra correspondiente (por ejemplo, una primera muestra de ADN) y una segunda muestra correspondiente (por ejemplo, una segunda muestra de ADN obtenida de la misma biopsia de tejido que la primera muestra de ADN).
Haciendo referencia al Bloque 506 de la Figura 5, el procedimiento incluye además la obtención de una primera pluralidad de lecturas de secuencia, en forma electrónica, de una muestra de ADN del sujeto de prueba, la muestra de ADN que comprende moléculas de ADN de un tejido canceroso del sujeto (por ejemplo, lecturas 128-1 de ADN en bruto y/o lecturas 128-1cf de ADNcf en bruto). En algunas realizaciones, la primera pluralidad de lecturas de secuencias se genera a partir de una reacción de secuenciación de ADN de panel dirigido o una reacción de secuenciación de genoma completo de paso bajo. En algunas realizaciones, la primera pluralidad de lecturas de secuencia comprende al menos 10.000 lecturas de secuencia. En algunas realizaciones, la primera pluralidad de lecturas de secuencia comprende al menos 100.000 lecturas de secuencia. En algunas realizaciones, la primera pluralidad de lecturas de secuencia comprende al menos 1.000.000 lecturas de secuencia. En algunas realizaciones, la primera pluralidad de lecturas de secuencia comprende al menos 5.000.000 lecturas de secuencia. En algunas realizaciones, la primera pluralidad de lecturas de secuencia comprende al menos 10.000.000 lecturas de secuencia. En algunas realizaciones, la primera pluralidad de lecturas de secuencia incluye de 100.000 lecturas de secuencia a 100.000. 000 lecturas de secuencia. En algunas realizaciones, la primera pluralidad de lecturas de secuencia incluye de 500.000 lecturas de secuencia a 50.000.000 lecturas de secuencia.
Haciendo referencia al Bloque 508, el procedimiento incluye además obtener una segunda pluralidad de lecturas de secuencia, en forma electrónica, de una muestra de ARN del sujeto de prueba, la muestra de ARN que comprende moléculas de ARN del tejido canceroso del sujeto (por ejemplo, lecturas 136-1 de ARN sin procesar). En algunas realizaciones, la segunda pluralidad de lecturas de secuencias se genera a partir de una reacción de secuenciación del exoma completo o de una reacción de secuenciación de ARN de panel dirigido. En algunas realizaciones, la segunda pluralidad de lecturas de secuencia comprende al menos 10.000 lecturas de secuencia. En algunas realizaciones, la segunda pluralidad de lecturas de secuencia comprende al menos 100.000 lecturas de secuencia. En algunas realizaciones, la segunda pluralidad de lecturas de secuencia comprende al menos 1.000.000 lecturas de secuencia. En algunas realizaciones, la segunda pluralidad de lecturas de secuencia comprende al menos 5.000.000 lecturas de secuencia. En algunas realizaciones, la segunda pluralidad de lecturas de secuencia comprende al menos 10.000. 000 lecturas de secuencia. En algunas realizaciones, la segunda pluralidad de lecturas de secuencia incluye de 100.000 lecturas de secuencia a 100.000.000 lecturas de secuencia. En algunas realizaciones, la segunda pluralidad de lecturas de secuencia incluye de 500.000 lecturas de secuencia a 50.000.000 lecturas de secuencia.
En algunas realizaciones, el procedimiento comprende además la obtención de una tercera pluralidad de lecturas de secuencia que comprenden el estado de metilación de nucleótidos de citosina, en forma electrónica, de una muestra de ADN del sujeto de ensayo, la muestra de ADN que comprende moléculas de ADN de un tejido canceroso del sujeto (por ejemplo, lecturas 128-1m de ADNm bruto y/o lecturas 128-1mcf de ADNmcf bruto). En algunas realizaciones, la tercera pluralidad de lecturas de secuencias se generó mediante secuenciación bisulfítica. En algunas realizaciones, la primera pluralidad de lecturas de secuencias y la tercera pluralidad de lecturas de secuencias se generaron utilizando diferentes alícuotas de la misma muestra de ADN que comprende las moléculas de ADN del tejido canceroso del sujeto. En algunas realizaciones, la tercera pluralidad de lecturas de secuencia comprende al menos 10.000 lecturas de secuencia. En algunas realizaciones, la tercera pluralidad de lecturas de secuencia comprende al menos 100.000 lecturas de secuencia. En algunas realizaciones, la tercera pluralidad de lecturas de secuencia comprende al menos 1.000.000 lecturas de secuencia. En algunas realizaciones, la tercera pluralidad de lecturas de secuencia comprende al menos 5.000.000 lecturas de secuencia. En algunas realizaciones, la tercera pluralidad de lecturas de secuencia comprende al menos 10.000.000 lecturas de secuencia. En algunas realizaciones, la tercera pluralidad de lecturas de secuencias incluye de 100.000 lecturas de secuencias a 100.000.000 lecturas de secuencias. En algunas realizaciones, la tercera pluralidad de lecturas de secuencias incluye de 500.000 lecturas de secuencias a 50.000.000 lecturas de secuencias.
En algunas realizaciones, el procedimiento comprende además la obtención de una cuarta pluralidad de lecturas de secuencia, en forma electrónica, de una segunda muestra de ADN del sujeto de prueba, la segunda muestra de ADN que comprende moléculas de ADN de un tejido no canceroso (por ejemplo, normal) del sujeto (por ejemplo, lecturas 132-1 de ADNn en bruto). En algunas realizaciones, la cuarta pluralidad de lecturas de secuencias comprende al menos 10.000 lecturas de secuencias. En algunas realizaciones, la cuarta pluralidad de lecturas de secuencias comprende al menos 100.000 lecturas de secuencias. En algunas realizaciones, la cuarta pluralidad de lecturas de secuencias comprende al menos 1.000.000 lecturas de secuencias. En algunas realizaciones, la cuarta pluralidad de lecturas de secuencias comprende al menos 5.000.000 lecturas de secuencias. En algunas realizaciones, la cuarta pluralidad de lecturas de secuencias comprende al menos 10.000.000 lecturas de secuencias. En algunas realizaciones, la cuarta pluralidad de lecturas de secuencias incluye desde 100.000 lecturas de secuencias hasta 100.000.000 lecturas de secuencias. En algunas realizaciones, la cuarta pluralidad de lecturas de secuencias incluye desde 500.000 lecturas de secuencias hasta 50.000.000 lecturas de secuencias.
En algunas realizaciones, refiriéndose de nuevo al Bloque 406, una pluralidad de lecturas de secuencia (por ejemplo, la primera, tercera, y/o cuarta pluralidad de lecturas de secuencia (ADN)) se alinea con una secuencia de referencia y/o un genoma de referencia (por ejemplo, secuencias 129-1 de ADN alineadas, secuencias 129-1cf de ADNcf alineadas , secuencias 129-1m de ADNm alineadas , secuencias 129-1mcf, de ADNmc alineadas y/o secuencias 133 1) de ADNn alineadas.
En algunas realizaciones, una pluralidad de lecturas de secuencia (por ejemplo, la segunda pluralidad de lecturas de secuencia (ARN)) se utiliza para realizar un análisis de expresión génica (por ejemplo, datos 138-1 de expresión de secuencia). En algunas realizaciones, el análisis de la expresión génica comprende análisis del transcriptoma, análisis de la expresión de conjuntos de genes (GSEA), microarreglos, ARNsec, qPCR, y/o hibridación fluorescente in situ .
En algunas realizaciones, una pluralidad de lecturas de secuencia (por ejemplo, lecturas de secuencia en bruto, secuencias alineadas y/o datos de expresión de secuencia) se almacena en un almacén de datos. Por ejemplo, refiriéndose a la Figura 1B, en algunas realizaciones, el almacén de datos es un constructo de datos de sujeto para cada sujeto 122 en una base de datos 120 de sujetos de prueba. En algunas realizaciones, la obtención de una pluralidad de lecturas de secuencias (por ejemplo, la primera, segunda, tercera y/o cuarta pluralidad de lecturas de secuencias) comprende la obtención de la pluralidad de lecturas de secuencias de un almacén de datos. En algunas realizaciones, la obtención de una pluralidad de secuencias comprende la obtención de una pluralidad de lecturas de secuencias en bruto. En algunas realizaciones, la obtención de una pluralidad de lecturas de secuencias comprende la obtención de una pluralidad de secuencias alineadas y/o datos de expresión de secuencias.
Modelo de puntuación.
Haciendo referencia al Bloque 510 de la Figura 5, el procedimiento incluye además determinar, basándose en la primera pluralidad de lecturas de secuencia, una primera predicción para el estado de la vía de recombinación homóloga del tejido canceroso del sujeto basándose en una medida de pérdida de heterocigosidad en todo el genoma para el tejido canceroso del sujeto.
Por ejemplo, como se ilustra en el Bloque 408 de la Figura 4, la determinación de la primera predicción comprende la obtención de una puntuación de modelo utilizando un modelo. En algunas realizaciones, la puntuación del modelo comprende la obtención de una pluralidad de secuencias 129-1 de ADN alineadas (por ejemplo, de una muestra de ADN de tejido canceroso), la aplicación de la pluralidad de secuencias de ADN alineadas a un modelo 154 de pérdida de heterocigosidad en todo el genoma (gwLOH), y la obtención de una puntuación del modelo 144 gwLOH, obteniendo así la primera predicción basada en la medida de gwLOH para el tejido canceroso del sujeto.
Refiriéndose al Bloque 524, en algunas realizaciones, el procedimiento incluye además la obtención de una cuarta pluralidad de lecturas de secuencia, en forma electrónica, de una segunda muestra de ADN del sujeto de prueba, la segunda muestra de ADN que comprende moléculas de ADN de un tejido no canceroso del sujeto (como se ha descrito anteriormente; véase "Secuenciación de ácido nucleico"), y la determinación de la primera predicción basada en la primera pluralidad de lecturas de secuencia y la cuarta pluralidad de lecturas de secuencia.
Por ejemplo, como se ilustra en el Bloque 408, en algunas realizaciones, la puntuación del modelo comprende obtener una pluralidad de secuencias 129-1 de ADN alineadas (por ejemplo, de una muestra de ADN de tejido canceroso) y una pluralidad de secuencias 133-1 de ADNn alineadas (por ejemplo, de una muestra de ADN de tejido normal), aplicando la pluralidad de secuencias de ADN alineadas y la pluralidad de secuencias de ADNn alineadas a un modelo 154 de pérdida de heterocigosidad en todo el genoma (gwLOH), y obteniendo una puntuación de modelo 144 gwLOH, obteniendo así la primera predicción basada en la medida de gwLOH para el tejido canceroso del sujeto y el tejido no canceroso del sujeto.
En algunas realizaciones, la determinación de la primera predicción se basa además en un tipo de cáncer del tejido canceroso del sujeto.
Haciendo referencia al Bloque 526, en algunas realizaciones, la determinación de la primera predicción incluye además determinar una primera probabilidad de que el tejido canceroso del sujeto sea positivo a la deficiencia de recombinación homóloga (HRD) basándose en una primera medida de pérdida de heterocigosidad en todo el genoma que no tiene en cuenta deleciones de brazo entero o cromosoma entero, determinar una segunda probabilidad de que el tejido canceroso del sujeto sea positivo a la deficiencia de recombinación homóloga (HRD) basándose en una segunda medida de la pérdida de heterocigosidad en todo el genoma que excluye regiones del genoma del tejido canceroso del sujeto que se ha determinado que tienen deleciones en todo el brazo o en todo el cromosoma, y determinar la primera predicción para el estado de la vía de recombinación homóloga del tejido canceroso del sujeto basándose en al menos la primera probabilidad y la segunda probabilidad.
Haciendo referencia al Bloque 512, el procedimiento incluye además determinar, basándose en la segunda pluralidad de lecturas de secuencia, una segunda predicción para el estado de la vía de recombinación homóloga del tejido canceroso del sujeto basándose en los niveles de expresión de una pluralidad de genes en el tejido canceroso del sujeto.
Por ejemplo, como se ilustra en el Bloque 408, en algunas realizaciones, la puntuación del modelo comprende obtener datos de expresión de secuencia 138-1 (por ejemplo, de una muestra de ARN/ADNc de tejido canceroso), aplicar los datos de expresión de secuencia a un modelo 152 de expresión génica, y obtener una puntuación de modelo 142 de expresión génica, obteniendo así la segunda predicción basada en la medida de los niveles de expresión de una pluralidad de genes en el tejido canceroso del sujeto.
En algunas realizaciones, la determinación de la segunda predicción se basa en valores de expresión, determinados a partir de la segunda pluralidad de lecturas de secuencia, para al menos 100 genes. En algunas realizaciones, la determinación de la segunda predicción se basa en los valores de expresión, determinados a partir de la segunda pluralidad de lecturas de secuencias, para al menos 1.000 genes. En algunas realizaciones, la determinación de la segunda predicción se basa en valores de expresión, determinados a partir de la segunda pluralidad de lecturas de secuencia, para al menos 10, al menos 20, al menos 50, al menos 100, al menos 200, al menos 300, al menos 400, al menos 500, al menos 600, al menos 700, al menos 800, al menos 900, al menos 1.000, al menos 2.000, al menos 3.000, al menos 4.000, al menos 5.000, al menos 10.000, al menos 20.000, o al menos 30.000 genes.
Refiriéndose al Bloque 514, el procedimiento incluye generar un constructo de datos del sujeto que comprende (i) la primera predicción para el estado de la vía de recombinación homóloga del tejido canceroso del sujeto y (ii) la segunda predicción para el estado de la vía de recombinación homóloga del tejido canceroso del sujeto. En algunas realizaciones, el constructo de datos del sujeto se almacena para cada sujeto 122 en una base de datos 120 del sujeto de prueba.
Haciendo referencia al Bloque 516, en algunas realizaciones, el procedimiento incluye además determinar, basándose en la primera pluralidad de lecturas de secuencia, una tercera predicción para el estado de la vía de recombinación homóloga del tejido canceroso del sujeto basándose en una medida de reordenamientos de todo el genoma para el tejido canceroso del sujeto. El constructo de datos del sujeto comprende además la tercera predicción del estado de la vía de recombinación homóloga del tejido canceroso del sujeto. En algunas realizaciones, la medida de reordenamientos de todo el genoma es una medida de inserciones de secuencias, deleciones de secuencias, inversiones de secuencias y translocaciones de secuencias identificadas en la primera pluralidad de lecturas de secuencias. En algunas realizaciones, la determinación de la tercera predicción se basa además en un tipo de cáncer del tejido canceroso del sujeto.
Haciendo referencia al Bloque 518, en algunas realizaciones, el procedimiento incluye además determinar, basándose en la segunda pluralidad de lecturas de secuencia, una tercera predicción para el estado de la vía de recombinación homóloga del tejido canceroso del sujeto basándose en una medida de reordenamientos de todo el transcriptoma para el tejido canceroso del sujeto. El constructo de datos del sujeto comprende además la tercera predicción del estado de la vía de recombinación homóloga del tejido canceroso del sujeto. En algunas realizaciones, la medida de reordenamientos en todo el transcriptoma es una medida de inserciones de secuencias, deleciones de secuencias, inversiones de secuencias, y translocaciones de secuencias identificadas en la segunda pluralidad de lecturas de secuencias.
Por ejemplo, como se ilustra en el Bloque 408, la puntuación del modelo comprende obtener una pluralidad de secuencias 137-1 de ARN alineadas (por ejemplo, de una muestra de ARN/ADNc de tejido canceroso), aplicar la pluralidad de secuencias de ARN alineadas a un modelo 155 de reordenamiento génico, y obtener una puntuación de modelo 145 de reordenamiento génico, obteniendo así la tercera predicción basada en la medida de reordenamientos de todo el transcriptoma para el tejido canceroso del sujeto.
Haciendo referencia al Bloque 522, en algunas realizaciones, el procedimiento incluye además determinar, basándose en la segunda pluralidad de lecturas de secuencia, una cuarta predicción para el estado de la vía de recombinación homóloga del tejido canceroso del sujeto basándose en una pluralidad de puntuaciones de análisis de enriquecimiento de conjuntos de genes de muestra única (ssGSEA) para el perfil transcripcional del tejido canceroso del sujeto. El constructo de datos del sujeto comprende además la cuarta predicción del estado de la vía de recombinación homóloga del tejido canceroso del sujeto. En algunas realizaciones, la pluralidad de puntuaciones de análisis de enriquecimiento de conjuntos de genes de muestra única (ssGSEA) es de al menos 10 puntuaciones ssGSEA. En algunas realizaciones, la pluralidad de puntuaciones de análisis de enriquecimiento de conjuntos de genes de muestra única (ssGSEA) es de al menos 50 puntuaciones ssGSEA. En algunas realizaciones, la pluralidad de puntuaciones de análisis de enriquecimiento de conjuntos de genes de muestra única (ssGSEA) es de al menos 100 puntuaciones ssGSEA. En algunas realizaciones, la pluralidad de puntuaciones de análisis de enriquecimiento de conjuntos de genes de muestra única (ssGSEA) es de al menos 1.000 puntuaciones ssGSEA. En algunas realizaciones, la pluralidad de puntuaciones de análisis de enriquecimiento de conjuntos de genes de muestra única (ssGSEA) es de al menos 20, al menos 50, al menos 100, al menos 200, al menos 300, al menos 400, al menos 500, al menos 600, al menos 700, al menos 800, al menos 900, al menos 1.000, al menos 2.000, al menos 3.000, al menos 4.000, al menos 5.000, al menos 10.000, al menos 20.000 o al menos 30.000 puntuaciones ssGSEA.
Por ejemplo, como se ilustra en el Bloque 408, la puntuación del modelo comprende obtener datos 138-1 de expresión de secuencia (por ejemplo, de una muestra de ARN/ADNc de tejido canceroso), aplicar los datos de expresión de secuencia a un modelo GSEA de muestra única 156, y obtener una puntuación de modelo 146 ssGSEA, obteniendo así la cuarta predicción basada en el perfil transcripcional del tejido canceroso del sujeto.
En algunas realizaciones, la determinación de la cuarta predicción se basa además en un tipo de cáncer del tejido canceroso del sujeto.
Haciendo referencia al Bloque 520, en algunas realizaciones, el procedimiento incluye además la obtención de una tercera pluralidad de lecturas de secuencia que comprenden el estado de metilación de nucleótidos de citosina, en forma electrónica, de una muestra de ADN del sujeto de la prueba, la muestra de ADN que comprende moléculas de ADN de un tejido canceroso del sujeto (como se ha descrito anteriormente; véase "Secuenciación de ácidos nucleicos"). Basándose en la tercera pluralidad de lecturas de secuencias, se determina una quinta predicción para el estado de la vía de recombinación homóloga del tejido canceroso del sujeto, basándose en un patrón de metilación genómica del tejido canceroso. El constructo de datos del sujeto comprende además una o más puntuaciones de metilación (por ejemplo, la quinta predicción) para el tejido canceroso.
En algunas realizaciones, la tercera pluralidad de lecturas de secuencia se obtiene utilizando una secuenciación de metilación (por ejemplo, secuenciación de bisulfito). En algunas realizaciones, la tercera pluralidad de lecturas de secuencia se alinea con una secuencia de referencia (por ejemplo, un genoma de referencia). En algunas realizaciones, la tercera pluralidad de lecturas de secuencias comprende un patrón de metilación genómica, basado en un alineamiento de la tercera pluralidad de lecturas de secuencias con el genoma de referencia.
En algunas realizaciones, la quinta predicción para el estado de la vía de recombinación homóloga del tejido canceroso del sujeto comprende una o más puntuaciones de metilación para el tejido canceroso. En algunas realizaciones, una puntuación de metilación en la una o más puntuaciones de metilación es un valor beta y/o un valor M (véase, por ejemplo, Du et al., "Comparison of Beta-value and M-value methods for quantifying methylation levels by microarray analysis," BMC Bioinf. 2020, 11:587.
En algunas realizaciones, el patrón de metilación genómica del tejido canceroso comprende un patrón de metilación para una región promotora de un gen de recombinación homóloga. En algunas realizaciones, el patrón de metilación genómica del tejido canceroso comprende un patrón de metilación para al menos 100 regiones genómicas. En algunas realizaciones, el patrón de metilación genómica del tejido canceroso comprende un patrón de metilación para al menos 1.000 regiones genómicas. En algunas realizaciones, el patrón de metilación genómica del tejido canceroso comprende un patrón de metilación para al menos 10, al menos 20, al menos 50, al menos 100, al menos 200, al menos 300, al menos 400, al menos 500, al menos 600, al menos 700, al menos 800, al menos 900, al menos 1.000, al menos 2.000, al menos 3.000, al menos 4.000, al menos 5.000, al menos 10.000, o al menos 50.000 regiones genómicas.
En algunas realizaciones, la determinación de la quinta predicción se basa además en un tipo de cáncer del tejido canceroso del sujeto.
Por ejemplo, como se ilustra en el Bloque 408, la puntuación del modelo comprende la obtención de secuencias 129-1m alineadas de ADN de metilación (ADNm) (por ejemplo, de una muestra de ADN de tejido canceroso). En algunas realizaciones, la pluralidad de secuencias 129-1m de ADNm alineadas y la pluralidad de secuencias 129-1 de ADN alineadas se obtienen a partir de una primera alícuota y una segunda alícuota, respectivamente, de una muestra de ADN respectiva que comprende moléculas de ADN de un tejido canceroso del sujeto. En algunas realizaciones, la pluralidad de secuencias de ADNm alineadas se aplica a un modelo 153 de metilación, y se obtiene una puntuación 143 del modelo de metilación 143, obteniéndose así la quinta predicción basada en el patrón de metilación genómica del tejido canceroso utilizando la tercera pluralidad de lecturas de secuencias.
En algunas realizaciones, un modelo utilizado para obtener una o más puntuaciones de modelo (por ejemplo, un modelo de expresión génica, un modelo de metilación, un modelo gwLOH, un modelo de reordenamiento génico, y/o un modelo ssGSEA) es un algoritmo de regresión logística, un algoritmo de red neuronal, un algoritmo de máquina de vectores de soporte, un algoritmo Naive Bayes, un algoritmo de vecino más cercano, un algoritmo de árboles potenciados, un algoritmo de bosque aleatorio, un algoritmo de árbol de decisión, un algoritmo de regresión logística multinomial, un modelo lineal, o un algoritmo de regresión lineal.
Predicción de HRD.
Haciendo referencia al Bloque 528 de la Figura 5, el procedimiento incluye además introducir el constructo de datos del sujeto en un modelo de conjunto entrenado para distinguir entre cánceres con deficiencias de la vía de recombinación homóloga y cánceres sin deficiencias de la vía de recombinación homóloga, determinando así el estado de la vía de recombinación homóloga del sujeto de prueba.
Por ejemplo, refiriéndose al Bloque 410 de la Figura 4, un procedimiento para la deficiencia de la vía de recombinación homóloga (HRD) comprende introducir un constructo de datos del sujeto en un modelo 157 de conjunto HRD. El modelo 157 de conjunto HRD proporciona una clasificación 147 HRD, que determina si el cáncer en el sujeto de prueba es positivo a la deficiencia de recombinación homóloga (HRD) o no es positivo a la deficiencia de recombinación homóloga (HRD).
En algunas realizaciones, el constructo de datos del sujeto incluye la primera predicción para el estado de la vía de recombinación homóloga del tejido canceroso del sujeto (por ejemplo, la puntuación 144 del modelo gwLOH). En algunas realizaciones, el constructo de datos del sujeto incluye la segunda predicción para el estado de la vía de recombinación homóloga del tejido canceroso del sujeto (por ejemplo, la puntuación 142 del modelo de expresión génica).
En algunas realizaciones, el constructo de datos del sujeto incluye una tercera predicción para el estado de la vía de recombinación homóloga del tejido canceroso del sujeto basada en una medida de reordenamientos de todo el genoma para el tejido canceroso del sujeto utilizando la primera pluralidad de lecturas de secuencia (por ejemplo, lecturas de secuencia de ADN).
En algunas realizaciones, el constructo de datos del sujeto incluye una tercera predicción para el estado de la vía de recombinación homóloga del tejido canceroso del sujeto basada en una medida de reordenamientos de todo el transcriptoma para el tejido canceroso del sujeto (por ejemplo, la puntuación 145 del modelo de reordenamiento de genes) utilizando la segunda pluralidad de lecturas de secuencias (por ejemplo, lecturas de secuencias de ARN).
En algunas realizaciones, el constructo de datos del sujeto comprende una cuarta predicción basada en una pluralidad de puntuaciones de análisis de enriquecimiento de conjuntos de genes de muestra única (ssGSEA) para el perfil transcripcional del tejido canceroso del sujeto (por ejemplo, la puntuación 146 del modelo ssGSEA) utilizando la segunda pluralidad de lecturas de secuencia (por ejemplo, lecturas de secuencia de ARN).
En algunas realizaciones, el constructo de datos del sujeto comprende una quinta predicción para el estado de la vía de recombinación homóloga del tejido canceroso del sujeto (por ejemplo, la puntuación 143 del modelo de metilación) basada en un patrón de metilación genómica del tejido canceroso, utilizando la tercera pluralidad de lecturas de secuencia (por ejemplo, lecturas de secuencia de ADN de metilación).
El meta-aprendizaje o aprendizaje de conjuntos es una estrategia de desarrollo de algoritmos de inteligencia artificial que combina múltiples clases de algoritmos de forma eficiente para realizar una tarea de clasificación. Véase, por ejemplo, Zhou, 2012, "Ensemble Methods: Foundations and Algorithms", Chapman Hall; Vilalta y Drissi, "A Perspective View and Survey of Meta-Learning", Artificial Intelligence Review 18(2):77-95; Chan y Stolfo, 1995, "A comparative evaluation of voting and meta-learning on partitioned data", ponencia presentada en ICML1995; y Seewald y Fürnkranz, "An Evaluation of Grading Classifiers", en Hoffmann et al., Advances in Intelligent Data Analysis: 4a Conferencia Internacional, IDA 2001 Cascais, Portugal, 13-15 de septiembre de 2001 Proc. Springer Berlin Heidelberg; 2001:115-24.
Los algoritmos de aprendizaje de predicción binaria que comprenden algoritmos de instancia única que utilizan números relativamente pequeños (por ejemplo, 100 casos por grupo o menos) son propensos al sobreajuste. Véase Rokach, 2010, Pattern Classification Using Ensemble Methods, World Scientific Publishing Co., Inc.; y Frey et al., 2014, "Big Data Deep Phenotyping: Contribution of the IMIA Genomic Medicine Working Group," Yearbook of Medical Informatics 9(1):206-211. Hay múltiples formas de mejorar estas situaciones, incluida la mejora de los algoritmos individuales. Entre ellas se incluyen el embolsamiento, el refuerzo o ambos. En algunas realizaciones, los clasificadores se mejoran utilizando múltiples aprendices independientes, evaluando los resultados de cada aprendiz basándose en estimaciones de concordancia, ejecutando la tarea de predicción y recopilando los resultados finales basándose en las aproximaciones de los aprendices individuales. Véase, por ejemplo, Breiman, "Bagging predictors", Machine Learning 24(2): 123-140; Freund, 1995, "Boosting a weak learning algorithm by majority", Inf. Comput.
121(2):256-285; Alceu et al., 2014 "Dynamic selection of classifiers-A comprehensive review", Pattern Recogn.
47(11):3665-3680; y Micha et al., 2014 "A survey of multiple classifier systems as hybrid systems, Inf. Fusión 16:3-17.
En algunas realizaciones, los modelos de conjunto comprenden una o más cadenas de clasificadores (por ejemplo, modelos o aprendices), donde la salida de un primer clasificador se utiliza como entrada en un segundo clasificador en la cascada de clasificación descendente. Mediante el uso de una combinación de clasificadores, se puede utilizar una población de pacientes relativamente pequeña para producir un clasificador conjunto entrenado que tenga un alto grado de precisión. Esto es ventajoso porque puede ser difícil obtener grandes poblaciones de entrenamiento, como cuando la adquisición de muestras implica procedimientos invasivos, acceso limitado a los pacientes y/o muestras raras o valiosas.
Así, en algunas realizaciones, se emplea una estrategia de aprendizaje de conjunto (por ejemplo, un modelo de conjunto) para la clasificación del estado de la vía de recombinación homóloga de un sujeto de prueba. En algunas realizaciones, el modelo de conjunto comprende un procedimiento de votación por mayoría y/o un procedimiento de concordancia. En algunas realizaciones, el modelo de conjunto comprende además un enfoque de validación cruzada k-plegamiento para evaluar el sesgo inducido por la muestra y las tasas de error.
En algunas realizaciones, el modelo de conjunto incorpora entradas (por ejemplo, puntuaciones de modelo) obtenidas de uno o más modelos (por ejemplo, un modelo de expresión génica, un modelo de metilación, un modelo gwLOH, un modelo de reordenamiento de genes, y/o un modelo ssGSEA), donde cada modelo respectivo en el uno o más modelos es un algoritmo de regresión logística, un algoritmo de red neuronal, un algoritmo de máquina de vector de soporte, un algoritmo Naive Bayes, un algoritmo de vecino más cercano, un algoritmo de árboles potenciados, un algoritmo de bosque aleatorio, un algoritmo de árbol de decisión, un algoritmo de regresión logística multinomial, un modelo lineal, o un algoritmo de regresión lineal. En algunas realizaciones, la clasificación HRD se obtiene utilizando un procedimiento de votación.
Aplicaciones posteriores.
Haciendo referencia al Bloque 530, en algunas realizaciones, el procedimiento incluye además, cuando se determina que el cáncer en el sujeto de prueba es positivo a la deficiencia de recombinación homóloga (HRD), tratar el cáncer administrando un inhibidor de poli ADP ribosa polimerasa (PARP) al sujeto de prueba, y, cuando se determina que el cáncer en el sujeto de prueba no es positivo a la deficiencia de recombinación homóloga (HRD), tratar el cáncer con una terapia que no incluye la administración de un inhibidor de PARP al sujeto de prueba.
En algunas realizaciones, el inhibidor de PARP se selecciona del grupo que consiste en olaparib, veliparib, rucaparib, niraparib y talazoparib. En algunas realizaciones, el inhibidor de PARP es olaparib, veliparib, rucaparib, niraparib, talazoparib, pamiparib, 2X-121/Stenoparib, CEP-9722, CEP-8983, E7016, iniparib, y/o 3-aminobenzamida. En algunas realizaciones, el tratamiento con el inhibidor de PARP se administra en combinación con radioterapia.
En algunas realizaciones, el inhibidor de PARP se administra como monoterapia, por ejemplo, en ausencia de cualquier otro tratamiento contra el cáncer. En algunas realizaciones, el inhibidor de PARP se administra en combinación con una quimioterapia. En algunas realizaciones, el inhibidor de PARP se administra en combinación con una inmunoterapia. En algunas realizaciones, el inhibidor de PARP se administra en combinación con un inhibidor de una vía de señalización oncogénica descendente o alternativa. El inhibidor de PARP y la segunda terapia no inhibidora de PARP pueden administrarse al mismo tiempo (simultáneamente), cada tratamiento puede solaparse sólo parcialmente en el tiempo (escalonado), o un régimen de terapia puede terminar antes de que empiece el otro. Tanto los PARPi como los no PARPi pueden ser los primeros.
En algunas realizaciones, cuando se predice que el cáncer es HRD positivo, se administra al sujeto una terapia combinada que incluye un inhibidor de PARP y una segunda terapia no inhibidora de PARP, por ejemplo, una quimioterapia, una inmunoterapia, un inhibidor de la vía de señalización o radiación; y cuando se predice que el cáncer es HRD negativo, se administra al sujeto sólo la segunda terapia no inhibidora de PARP, por ejemplo, una quimioterapia, una inmunoterapia, un inhibidor de la vía de señalización o radiación.
En algunos aspectos, se genera un informe, por ejemplo, para proporcionar apoyo clínico para la terapia personalizada del cáncer a un profesional médico, que incluye los resultados del estado HRD determinados según los procedimientos descritos en el presente documento. En algunas realizaciones, el informe incluye información completa sobre el perfil genómico, como información sobre el estado mutacional del cáncer de un paciente, así como una estimación del estado de HRD. En algunos aspectos, los genes notificados en la información del perfil genómico completo pueden destacarse como subyacentes o relacionados de otro modo con la estimación del estado de HRD. El número de tales genes puede estar entre 1-5, entre 1-10, entre 1-20, entre 1-30, entre 1-40, entre 1-50, y así sucesivamente. En algunos aspectos, los genes notificados como mutados en la información del perfil genómico completo pueden resaltarse como alteraciones de la línea germinal o somáticas, cuando se detecten.
Cabe señalar que los detalles de otros procedimientos descritos en el presente documento con respecto a otros procedimientos descritos en el presente documento (por ejemplo, los procedimientos 300 y 500) también son aplicables de manera análoga al procedimiento 400 descrito anteriormente. Por ejemplo, los detalles relativos a muestras biológicas cancerosas, muestras biológicas no cancerosas, muestras de ADN, muestras de ARN, secuenciación de ADN, secuenciación de ARN, normalización de datos, recopilación de datos, procesamiento de datos, clasificadores, conjuntos de clasificadores, sujetos de ensayo, terapias asociadas, etc., descritas anteriormente con referencia al procedimiento 400 opcionalmente tienen una o más de las características de las muestras biológicas cancerosas, muestras biológicas no cancerosas, muestras de ADN, muestras de ARN, secuenciación de ADN, secuenciación de ARN, normalización de datos, recopilación de datos, procesamiento de datos, clasificadores, conjuntos de clasificadores, sujetos de prueba, terapias asociadas, etc., descritas aquí con referencia a otros procedimientos descritos aquí (por ejemplo, los procedimientos 300 y 500). En aras de la brevedad, estos detalles no se repiten aquí. A continuación, se proporcionan más detalles relativos a diversas realizaciones de muestras biológicas cancerosas, muestras biológicas no cancerosas, muestras de ADN, muestras de ARN, secuenciación de ADN, secuenciación de ARN, normalización de datos, recopilación de datos, procesamiento de datos, clasificadores, conjuntos de clasificadores, sujetos de ensayo, terapias asociadas, etc., que son aplicables de forma análoga al procedimiento 400.
De manera similar, los detalles de otros procedimientos descritos en el presente documento con respecto a otros procedimientos descritos en el presente documento (por ejemplo, los procedimientos 300 y 400) también son aplicables de manera análoga al procedimiento 500 descrito anteriormente. Por ejemplo, los detalles relativos a muestras biológicas cancerosas, muestras biológicas no cancerosas, muestras de ADN, muestras de ARN, secuenciación de ADN, secuenciación de ARN, normalización de datos, recopilación de datos, procesamiento de datos, clasificadores, conjuntos de clasificadores, sujetos de ensayo, terapias asociadas, etc., descritas anteriormente con referencia al procedimiento 500 opcionalmente tienen una o más de las características de las muestras biológicas cancerosas, muestras biológicas no cancerosas, muestras de ADN, muestras de ARN, secuenciación de ADN, secuenciación de ARN, normalización de datos, recopilación de datos, procesamiento de datos, clasificadores, conjuntos de clasificadores, sujetos de prueba, terapias asociadas, etc., descritas aquí con referencia a otros procedimientos descritos aquí (por ejemplo, los procedimientos 300 y 400). En aras de la brevedad, estos detalles no se repiten aquí. A continuación, se proporcionan más detalles relativos a diversas realizaciones de muestras biológicas cancerosas, muestras biológicas no cancerosas, muestras de ADN, muestras de ARN, secuenciación de ADN, secuenciación de ARN, normalización de datos, recopilación de datos, procesamiento de datos, clasificadores, conjuntos de clasificadores, sujetos de ensayo, terapias asociadas, etc., que son aplicables de forma análoga al procedimiento 500.
FASTQ y alineación
Cuando un tejido normal emparejado está disponible para un paciente, se realiza una prueba de secuenciación emparejada tumor-normal. El ADN se extrae del tejido normal, normalmente sangre o saliva. A continuación, se secuencian, además del ADN extraído del tejido tumoral. Estas dos secuencias, una para el tejido tumoral, y otra para el tejido normal, producen dos archivos de salida FASTQ. El formato FASTQ es un formato basado en texto para almacenar tanto una secuencia biológica, como la secuencia de nucleótidos, como sus correspondientes puntuaciones de calidad. Estos archivos FASTQ se analizan para determinar qué variantes genéticas o cambios en el número de copias están presentes en la muestra. Se ejecuta un flujo de trabajo específico del panel "emparejado" para analizar conjuntamente los archivos FASTQ emparejados tumor-normal. Cuando no se dispone de una muestra normal compatible, los archivos FASTQ del tejido tumoral se analizan en el modo "sólo tumor".
Si dos o más muestras de pacientes se procesan simultáneamente en la misma celda de flujo del secuenciador, una diferencia en la secuencia de los adaptadores utilizados para cada muestra de paciente podría servir al propósito de un código de barras para facilitar la asociación de cada lectura con la muestra de paciente correcta y colocarla en el archivo FASTQ correcto.
En aras de la eficacia, los resultados de la secuenciación de extremo pareado de cada aislado se incluyen en un par dividido de archivos FASTQ. Las secuencias directa (Lectura 1) e inversa (Lectura 2) de cada aislado tumoral y normal se almacenan por separado, pero en el mismo orden y con el mismo identificador.
En varias realizaciones, el procedimiento bioinformático puede filtrar los datos FASTQ de cada aislado. Dicho filtrado puede incluir la corrección o enmascaramiento de errores del secuenciador y la eliminación (recorte) de secuencias o bases de baja calidad, secuencias adaptadoras, contaminaciones, lecturas quiméricas, secuencias sobrerrepresentadas, sesgos causados por la preparación, amplificación o captura de bibliotecas y otros errores. Las lecturas enteras, los nucleótidos individuales o los nucleótidos múltiples que probablemente contengan errores pueden descartarse en función de la calificación de calidad asociada a la lectura en el archivo FASTQ, la tasa de error conocida del secuenciador y/o una comparación entre cada nucleótido de la lectura y uno o más nucleótidos de otras lecturas que se hayan alineado con la misma ubicación en el genoma de referencia. El filtrado puede realizarse en parte o en su totalidad mediante diversas herramientas de software, por ejemplo, una herramienta de software como Skewer (véase doi.org/10.1186/1471-2105-15-182). Los archivos FASTQ pueden analizarse para evaluar rápidamente el control de calidad y las lecturas, por ejemplo, mediante un software de control de calidad de datos de secuenciación como AfterQC, Kraken, RNA-SeQC, FastQC, (véase Illumina, BaseSpace Labs o la página web en URL illumina.com/products/by-type/informatics-products/basespace-sequence-hub/apps/fastqc.html), u otro programa de software similar. En el caso de las lecturas de extremo pareado, las lecturas pueden fusionarse.
En un análisis normal de tumor específico de panel emparejado, se analiza cada archivo FASTQ, uno para el tumor, y uno de normal (si está disponible). En el análisis de sólo tumor, sólo se dispone de FASTQ de tumor para el análisis.
Cada lectura de la(s) FASTQ puede alinearse con una ubicación en el genoma humano que tenga la secuencia que mejor coincida con la secuencia de nucleótidos de la lectura. Existen muchos programas de software diseñados para alinear lecturas, por ejemplo, Novoalign (Novocraft, Inc.), Bowtie, Burrows Wheeler Aligner (BWA), programas que utilizan un algoritmo Smith-Waterman, etc. La alineación puede dirigirse utilizando un genoma de referencia (por ejemplo, hg19, GRCh38, hg38, GRCh37, otros genomas de referencia desarrollados por el Consorcio de Referencia del Genoma, etc.) comparando las secuencias de nucleótidos en cada lectura con porciones de la secuencia de nucleótidos en el genoma de referencia para determinar la porción de la secuencia del genoma de referencia que es más probable que corresponda a la secuencia en la lectura. El alineamiento puede generar un archivo SAM, que almacena las localizaciones del inicio y final de cada lectura según coordenadas en el genoma de referencia y la cobertura (número de lecturas) para cada nucleótido en el genoma de referencia. Los archivos SAM pueden convertirse en archivos BAM, los archivos BAM pueden clasificarse, y las lecturas duplicadas pueden marcarse para su eliminación, lo que da como resultado archivos BAM sin duplicados. Este procedimiento produce un archivo BAM de tumor, y un archivo BAM normal (cuando está disponible). En diversas realizaciones, los archivos BAM pueden analizarse para detectar variantes genéticas y otras características genéticas, incluidas variantes de nucleótido único (SNV), variantes de número de copias (CNV), reordenamientos de genes, etc. En varios aspectos, las variantes genéticas y características genéticas detectadas pueden analizarse como una forma de control de calidad. Por ejemplo, un patrón de variantes o características genéticas detectadas puede indicar un problema relacionado con la muestra, el procedimiento de secuenciación, y/o el procedimiento bioinformático, por ejemplo, contaminación de la muestra, etiquetado incorrecto de la muestra, un cambio en los reactivos, un cambio en el procedimiento de secuenciación y/o el procedimiento bioinformático, etc.
Localización de SNV e indels
Tras la alineación, se pueden utilizar herramientas como SamBAMBA para marcar y filtrar duplicados en los bams ordenados. Se utilizan paquetes de software como freebayes y pindel para llamar variantes utilizando los archivos BAM ordenados como entrada, junto con los archivos de lecho del genoma y del panel que contienen los objetivos génicos a analizar como referencia. Se genera un archivo VCF (formato de llamada de variantes) en bruto, que muestra las ubicaciones en las que la base nucleotídica de la muestra no coincide con la base nucleotídica de esa posición en el genoma de referencia. Se utilizan paquetes de software como vcfbreakmulti y vt para normalizar las variantes polimórficas de múltiples nucleótidos en el archivo VCF en bruto y se obtiene un archivo VCF normalizado de variantes. Los SNV de los VCF se anotan utilizando SNPEff para obtener información sobre la transcripción, los efectos de la mutación y la prevalencia en las bases de datos de 1.000 genomas. Las variantes del EGFR se denominan por separado mediante la realineación de los archivos fastq tumorales y normales en el cr. 7 utilizando speedseq. Los duplicados se marcan utilizando herramientas como Sambamba, y la llamada de variante se realiza de forma análoga a los pasos descritos para otros cromosomas.
Determinación de la variante del número de copias
En varias realizaciones, los sistemas y procedimientos incluyen procedimientos de análisis de número de copias para calcular las características genómicas utilizadas para estimar el estado de HRD. Por ejemplo, en algunas realizaciones, para evaluar el número de copias, se pueden utilizar archivos BAM sin duplicar y un VCF generado a partir de la canalización de llamadas de variantes para calcular la profundidad de lectura y la variación en SNV de línea germinal heterocigótica entre el tumor y las muestras normales. Si no se dispone de una muestra normal emparejada, puede utilizarse la comparación entre una muestra tumoral y un conjunto de controles normales emparejados por procedimiento. Se puede aplicar una segmentación binaria circular y se pueden seleccionar segmentos con relaciones log2 altamente diferenciales entre el tumor y su comparador (normal emparejado o grupo normal). El número de copias entero aproximado puede evaluarse a partir de una combinación de cobertura diferencial en regiones segmentadas y una estimación de la mezcla estromal (por ejemplo, la pureza tumoral, o la porción de una muestra que es tumoral frente a no tumoral) generada por el análisis de SNV de línea germinal heterocigóticos.
Determinación de la pérdida de heterocigosidad
En algunas realizaciones, LOH se determina mediante el uso de un algoritmo de llamada de número de copias. En primer lugar, la pureza del tumor y los estados de copia en el genoma tumoral pueden estimarse utilizando un algoritmo de maximización de expectativas (EM). La estimación de los estados de copia y la pureza tumoral puede implicar los siguientes pasos: 1) Alineación y normalización de las lecturas 2) Cálculo de las frecuencias y desviaciones de los alelos B 3) Estimación preliminar de la pureza tumoral 4) Segmentación genómica, y 5) Perfeccionamiento de la estimación inicial de la pureza tumoral y estimación de los estados de copia y LOH mediante el algoritmo EM. Sin embargo, se conocen otros procedimientos para estimar la pérdida de heterocigosidad en todo el genoma que pueden utilizarse para generar datos de características para los modelos de conjuntos HRD descritos en el presente documento en la técnica.
Alineación y normalización de la lectura. Para calcular la cobertura del objetivo de la sonda, las lecturas secuenciadas de una muestra de tejido tumoral pueden alinearse con el genoma humano de referencia y normalizarse por longitud y profundidad y contenido de GC. Las lecturas del tejido normal también pueden procesarse de forma similar, cuando se disponga de ellas. Si no se dispone de un individuo normal emparejado, se puede utilizar un grupo normal, formado por coberturas leídas de individuos sanos normales de los que no se sabe si padecen cáncer. Para seleccionar un grupo normal con el mismo sexo, se puede realizar un paso de estimación del sexo asignando las variantes al cromosoma X junto con las coberturas del cromosoma X. Del conjunto normal, pueden elegirse los vecinos más cercanos, por ejemplo, mediante la aplicación de un paso de selección PCA. Sus valores de cobertura pueden utilizarse para normalizar las coberturas de los tumores. Esta selección PCA aumenta la sensibilidad de la detección de CNV somáticas. Por último, la cobertura de lectura puede expresarse como la relación entre la cobertura tumoral y la cobertura normal y transformarse en log2.
Cálculo de las frecuencias y desviaciones de los alelos B. Las variantes heterocigotas contienen información útil sobre el número de copias y la LOH. Estas variantes pueden extraerse de las llamadas de variantes somáticas y de línea germinal realizadas con freebayes y pindel. Las desviaciones de la frecuencia alélica B (BAF) respecto a los valores normales esperados se calculan para cada SNP heterocigoto, y también se representan como el logaritmo de la relación de probabilidades BAF. Si una variante es normal en la línea germinal, la desviación BAF con respecto a la normal debería ser cercana a 0. Para una variante que muestra LOH, BAF se desvía significativamente de 0.
Estimación preliminar de la pureza del tumor. Las estimaciones iniciales de la pureza tumoral pueden obtenerse a partir de variantes somáticas y datos BAF, para utilizarlos como entrada para el algoritmo EM. En teoría, el VAF máximo de una variante somática debería ser igual a la pureza del tumor. Esta es la estimación somática de la pureza del tumor. A partir de los datos BAF, para una variante que muestra el logaritmo de la relación de probabilidades superior a 2 es claramente LOH, ya que tales desviaciones significativas sólo se esperan cuando se pierde una copia, o copianeutral. El doble del VAF máximo posible para dicha variante debería, en teoría, igualar la pureza tumoral, y corresponde a la estimación BAF. Estas dos estimaciones se promedian para formar la estimación inicial de la pureza tumoral.
Segmentación genómica. Se realiza una segmentación bivariante del genoma utilizando las relaciones de cobertura del tumor al normal y los datos del logaritmo de probabilidades BAF. Se realiza una serie de pruebas T rodantes en todo el genoma utilizando un algoritmo similar a la segmentación binaria circular para identificar las secciones del genoma en las que se observa un cambio significativo en el número de copias. De este modo, todo el genoma se divide en segmentos, cada uno de los cuales tiene un perfil de número de copias distinto. Los parámetros de ramificación de segmentación y umbral de poda controlan el grado de segmentación y detección de segmentos focales, y están optimizados para los datos Tempus.
Refinamiento de la estimación inicial de la pureza del tumor y estimación de los estados de copia y LOH mediante el algoritmo EM. A partir de las conjeturas iniciales sobre la pureza del tumor, se itera sobre un rango de valores de pureza del tumor, desde la mitad de la pureza del tumor hasta el valor máximo posible, para estimar los estados de copia mejor ajustados para cada segmento genómico. Para cada estimación de pureza tumoral y segmento genómico, se calcula la relación logarítmica esperada y el BAF para cada estado de copia que va de 0 a 20, permitiendo únicamente combinaciones significativas de estados de copia. A continuación, se calcula la probabilidad de la cobertura y la BAF observadas a partir de estas expectativas de la función de densidad de probabilidad bivariante y se construye una matriz de probabilidad. El estado de copia con la máxima probabilidad se devuelve a partir de esta matriz. Este procedimiento se itera en todos los segmentos, y se construye un mapa de estado del segmento que mejor se ajusta a la copia. La repetición de este paso para todas las purezas tumorales genera una matriz de probabilidad de la pureza tumoral, y la pureza tumoral con el menor error de modelo y la máxima probabilidad se devuelve como estimación final. Una vez que se dispone de las asignaciones del estado de copia para todos los segmentos genómicos, a los segmentos con número de copia menor de 0 se les asigna LOH. Estos segmentos son, ya sea, una pérdida de 1 copia, una copia neutra o un LOH de orden superior, dependiendo de la pureza del tumor.
Pureza del tumor
Para calcular la pureza del tumor, se obtuvo una estimación inicial de la pureza del tumor a partir de las variantes somáticas y las frecuencias de alelos B de la línea germinal, que luego se refinó utilizando un algoritmo codicioso que evalúa la probabilidad de la pureza del tumor dada la relación logarítmica de la cobertura normal del tumor y las desviaciones de la frecuencia de alelos B de la expectativa normal. El algoritmo itera a través de un rango de purezas tumorales que rodean la estimación inicial para devolver la pureza tumoral con la máxima probabilidad.
Pérdida de heterocigosidad
Para estimar la pérdida de heterocigosidad (LOH) en todo el genoma, se evaluó cada SNP para LOH basándose en la fracción alélica variante de la línea germinal y la desviación de las frecuencias alélicas B de la expectativa normal. Se utilizó un sistema binario 0/1 para asignar no LOH/LOH y se obtuvo la proporción media de bases genómicas bajo LOH. El número de bases sometidas a LOH puede dividirse por el número total de bases analizadas utilizando un procedimiento de número de copias, como el procedimiento descrito en esta patente, para determinar una estimación de la proporción de LOH en todo el genoma. En un ejemplo, la estimación de la proporción de LOH en todo el genoma puede representar LOH en la muestra somática (cáncer) que puede no estar presente en la muestra de línea germinal (normal).
Clasificadores
Generalmente, muchos algoritmos de clasificación diferentes encuentran uso en los sistemas y procedimientos descritos en el presente documento. Por ejemplo, en algunas realizaciones, el modelo es un algoritmo de red neuronal, un algoritmo de máquina de vectores de soporte, un algoritmo Naive Bayes, un algoritmo de vecino más cercano, un algoritmo de árboles potenciados, un algoritmo de bosque aleatorio, un algoritmo de árbol de decisión, un algoritmo de regresión logística multinomial, un modelo lineal, o un algoritmo de regresión lineal.
En algunas realizaciones, el algoritmo de clasificación utilizado en los sistemas y procedimientos descritos en el presente documento es un algoritmo de bosque aleatorio. En algunas realizaciones, el procedimiento de clasificación entrenado comprende un flujo clasificador entrenado. En algunas realizaciones, a modo de ejemplo no limitativo, el flujo clasificador entrenado es un árbol de decisión. Los algoritmos de árbol de decisión adecuados para su uso como modelos de clasificación descritos en el presente documento se describen, por ejemplo, en Duda, 2001, Pattern Classification, John Wiley & Sons, Inc., Nueva York, 395-396, que se incorpora al presente documento por referencia. Los procedimientos basados en árboles dividen el espacio de características en un conjunto de rectángulos y, a continuación, ajustan un modelo (como una constante) en cada uno de ellos. En algunas realizaciones, el árbol de decisión es una regresión de bosque aleatorio. Un algoritmo específico que puede utilizarse como modelo de clasificación es un árbol de clasificación y regresión (CART). Otros ejemplos de algoritmos específicos de árboles de decisión que pueden utilizarse como clasificadores son, pero no se limitan a, ID3, C4.5, MART y Random Forests. CART, ID3 y C4.5 se describen en Duda, 2001, Pattern Classification, John Wiley & Sons, Inc., Nueva York. 396 408 y 411-412, que se incorpora por referencia. CART, MART y C4.5 se describen en Hastie et al., 2001, The Elements of Statistical Learning, Springer-Verlag, Nueva York, capítulo 9, que se incorpora por referencia en su totalidad. Los bosques aleatorios se describen en Breiman, 1999, "Random Forests--Random Features", Informe técnico 567, Departamento de Estadística, U.C. Berkeley, septiembre de 1999.
En algunas realizaciones, los organoides tumorales con diversos estados de LOH de BRCA, mutaciones patogénicas y mediciones de LOH en todo el genoma pueden cultivarse y tratarse con inhibidores de PARP para obtener una respuesta in vitro al fármaco PARP Las muestras podrían abarcar una amplia gama de cohortes de cáncer. Las líneas celulares tumorales que se espera que sean sensibles a la PARP pueden ensayarse junto con controles negativos que no tengan mutaciones HRD. Los datos de resultados PARP pueden utilizarse para refinar las características de entrada en el clasificador de bosque aleatorio. Podría obtenerse información adicional a partir de las firmas mutacionales y otros genes de la vía HRD. Véase, por ejemplo, Gulhan DC, Lee JJ, Melloni GEM, Cortés-Ciriano I, Park PJ, "Detecting the mutational signature of homologous recombination deficiency in clinical samples", Nat Genet, 51(5):912-19 (2019).
En una realización alternativa, en lugar de o además de entrenar un clasificador de bosque aleatorio para generar llamadas HRD, los sistemas y procedimientos utilizan lógica de negocio. Por ejemplo, en algunas realizaciones, un conjunto de reglas de negocio, como se ilustra en la Figura 10, se utiliza en los sistemas y procedimientos descritos en el presente documento.
En algunas realizaciones, el algoritmo de clasificación utilizado en los sistemas y procedimientos descritos en el presente documento es un algoritmo de regresión. El algoritmo de regresión puede ser de cualquier tipo. Por ejemplo, en algunas realizaciones, el algoritmo de regresión es una regresión logística. Los algoritmos de regresión logística se divulgan en Agresti, An Introduction to Categorical Data Analysis, 1996, capítulo 5, pp. 103-144, John Wiley & Son, Nueva York. En algunas realizaciones, el algoritmo de regresión es una regresión logística con regularización lasso, L2 o de red elástica.
En algunas realizaciones, el algoritmo de clasificación utilizado en los sistemas y procedimientos aquí descritos es una red neuronal. Ejemplos de algoritmos de redes neuronales, incluidos los algoritmos de redes neuronales convolucionales, se divulgan, por ejemplo, en Vincent et al., 2010, "Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion", J Mach Learn Res 11, pp. 3371-3408; Larochelle et al., 2009, "Exploring strategies for training deep neural networks", J Mach Learn Res 10, pp. 1-40; y Hassoun, 1995, Fundamentals of Artificial Neural Networks, Massachusetts Institute of Technology.
En algunas realizaciones, el algoritmo de clasificación utilizado en los sistemas y procedimientos aquí descritos es una máquina de vectores de soporte (SVM). Se describen ejemplos de algoritmos SVM, por ejemplo, en Cristianini y Shawe-Taylor, 2000, "An Introduction to Support Vector Machines", Cambridge University Press, Cambridge; Boser et al., 1992, "A training algorithm for optimal margin classifiers", en Proceedings of the 5th Annual ACM Workshop on Computational Learning Theory, ACM Press, Pittsburgh, Pa., págs. 142-152; Vapnik, 1998, Statistical Learning Theory, Wiley, Nueva York; Mount, 2001, Bioinformatics: sequence and genome analysis, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, Nueva York; Duda, Pattern Classification, segunda edición, 2001, John Wiley & Sons, Inc., págs. 259, 262-265; y Hastie, 2001, The Elements of Statistical Learning, Springer, Nueva York; y Furey et al., 2000, Bioinformatics 16, 906-914. Cuando se utilizan para la clasificación, las SVM separan un conjunto dado de datos binarios etiquetados del conjunto de entrenamiento con un hiperplano que se aleja al máximo de los datos etiquetados. Para los casos en los que no es posible una separación lineal, las SVM pueden funcionar en combinación con la técnica de los "kernels", que realiza automáticamente una asignación no lineal a un espacio de características. El hiperplano encontrado por la SVM en el espacio de características corresponde a un límite de decisión no lineal en el espacio de entrada. En algunas realizaciones, el modelo aprendido por máquina incluye un clasificador de regresión logística. En otras realizaciones, el modelo de aprendizaje automático o aprendizaje profundo puede ser uno de un árbol de decisión, un conjunto (por ejemplo, bagging, boosting, bosque aleatorio), una máquina de refuerzo de gradiente, una regresión lineal, Naive Bayes o una red neuronal El modelo HRD incluye ponderaciones aprendidas para las características que se ajustan durante el entrenamiento. El término "pesos" se utiliza aquí de forma genérica para representar la cantidad aprendida asociada a cualquier característica de un modelo, independientemente de la técnica de aprendizaje automático que se utilice. En algunas realizaciones, la puntuación de un indicador de cáncer se determina introduciendo valores para características derivadas de una o más secuencias de ADN (o lecturas de secuencias de ADN de las mismas) en un modelo de aprendizaje automático o aprendizaje profundo.
En algunas realizaciones, por ejemplo, cuando el modelo de evaluación HRD es una red neuronal (por ejemplo, una red neuronal convencional o convolucional), la salida de un clasificador de enfermedad es una clasificación, por ejemplo, cáncer positivo o cáncer negativo. Sin embargo, en algunas realizaciones, con el fin de proporcionar un valor continuo o semicontinuo para la salida del modelo, en lugar de una clasificación, una capa oculta de una red neuronal, por ejemplo, la capa oculta justo antes de la capa de salida, se utiliza como la salida del modelo de clasificación.
En consecuencia, en algunas realizaciones, el modelo incluye (i) una capa de entrada para recibir valores para la pluralidad de características genotípicas, donde la pluralidad de características genotípicas incluye un primer número de dimensiones, y (ii) una capa de incrustación que incluye un conjunto de pesos, donde la capa de incrustación recibe directa o indirectamente la salida de la capa de entrada, y donde una salida de la capa de incrustación es un conjunto de puntuación del modelo que tiene un segundo número de dimensiones que es menor que el primer número de dimensiones, y (iii) una capa de salida que recibe directa o indirectamente el conjunto de puntuación del modelo de la capa de incrustación. En algunas realizaciones, la salida del clasificador es una salida de un conjunto de neuronas asociadas con una capa oculta en una red neuronal denominada capa de incrustación. En tales realizaciones, cada neurona en la capa de incrustación se asocia con un peso y una función de activación y la salida consiste en la salida de cada función de activación. En algunas realizaciones, la función de activación de una neurona en la capa de incrustación es unidad rectificada lineal (ReLU), tanh, o la función de activación sigmoide. En algunas realizaciones, las neuronas de la capa de incrustación están totalmente conectadas a cada una de las entradas de la capa de entrada. En algunas realizaciones, cada neurona de la capa de salida está totalmente conectada a cada neurona de la capa de incrustación. En algunas realizaciones, cada neurona de la capa de salida está asociada a una función de activación Softmax. En algunas realizaciones, una o más de las capas de incrustación y de salida no están completamente conectadas.
Informe del paciente
En algunas realizaciones, se genera un informe del paciente basado en la salida del clasificador. El informe puede presentarse a un paciente, médico, personal médico o investigador en una copia digital (por ejemplo, un objeto JSON, un archivo pdf o una imagen en un sitio web o portal), una copia impresa (por ejemplo, impresa en papel u otro medio tangible) o en otro formato.
En algunas realizaciones, el informe incluye información relacionada con el estado HRD de la muestra, variantes genéticas detectadas, otras características de la muestra de un paciente, y/o registros clínicos. El informe puede incluir además ensayos clínicos para los que el paciente es elegible, terapias que pueden corresponder al paciente y/o efectos adversos predichos si el paciente recibe una terapia determinada, basándose en el estado HRD, las variantes genéticas detectadas, otras características de la muestra y/o los registros clínicos. En un ejemplo, si se predice que una muestra de un paciente tiene HRD, el paciente puede ser emparejado con inhibidores de PARP, quimioterapia basada en platino y/o terapias adicionales que dañen el ADN.
Los resultados incluidos en el informe y/o los resultados adicionales (por ejemplo, de la canalización bioinformática) pueden utilizarse para analizar una base de datos clínicos, especialmente para determinar si existe una tendencia que muestre que una terapia ralentizó la progresión del cáncer en otros pacientes con resultados iguales o similares a los de la muestra. Los resultados también pueden utilizarse para diseñar experimentos con organoides tumorales. Por ejemplo, un organoide puede modificarse genéticamente para que tenga las mismas características que la muestra y puede observarse después de la exposición a una terapia para determinar si la terapia puede reducir la tasa de crecimiento del organoide y, por lo tanto, es probable que reduzca la tasa de crecimiento del paciente asociado con la muestra.
En este ejemplo, la información HRD puede ser almacenada en un objeto de informe, tal como un objeto JSON, para su posterior procesamiento y/o visualización. Por ejemplo, la información del objeto de informe puede utilizarse para preparar un informe de laboratorio clínico para su envío al médico que lo solicita. La información puede proporcionarse como una combinación de texto, imágenes y/o audio. En la Figura11se presenta un ejemplo de visualización de texto e imágenes que indican información sobre HRD.
En algunas realizaciones, el informe también incluye un listado de variantes genéticas relacionadas con los genes de la vía de reparación del ADN por recombinación homóloga y/o genes que interactúan con esta vía. La Figura 12 muestra un ejemplo de visualización de este listado.
Terapia
En algunos aspectos, los sistemas y procedimientos aquí divulgados pueden usarse como diagnóstico de acompañamiento. Por ejemplo, en algunas realizaciones, un médico puede utilizar un estado HRD estimado para tomar la decisión de tratar un cáncer con un inhibidor de PARP.
La Tabla 2 enumera varios inhibidores de PARP y la aprobación de la FDA o el estado del ensayo clínico de cada inhibidor de PARP para varios tipos de cáncer en 2019. Esta tabla ilustra la amplia utilidad potencial de los inhibidores de PARP en pacientes que han dado positivo en la prueba de HRD.
Tabla 2. Ejemplo de inhibidores de PARP
En algunos aspectos, un estado HRD estimado puede ser utilizado por un clínico para tomar la decisión de tratar un cáncer con la adición de platino a la quimioterapia neoadyuvante estándar. Añadir un agente de platino a la quimioterapia de combinación estándar aumenta la toxicidad del tratamiento, por lo que los pacientes se beneficiarán de una HRD estimada que indique si su cáncer tiene más probabilidades de ser tratado mediante la combinación de un agente de platino y quimioterapia de combinación estándar.
En algunos aspectos, los inhibidores de PARP han sido aprobados para el tratamiento de cánceres que albergan específicamente alteraciones de la línea germinal. Por ejemplo, olaparib está aprobado para el cáncer de ovario de línea germinal BRCA positivo (gBRCA) tratado con al menos 3 regímenes de quimioterapia previos y talozaparib está aprobado para el cáncer de mama localizado o metastásico gBRCA positivo HER2 negativo. La detección de variantes de la línea germinal en BRCA u otros genes relacionados con las vías de reparación del ADN puede ayudar al médico a decidir la prescripción de PARPi.
Aplicación mediante una plataforma sanitaria digital y de laboratorio
Los procedimientos y sistemas aquí descritos en el presente documento pueden utilizarse en combinación con o como parte de una plataforma de atención sanitaria digital y de laboratorio que generalmente está dirigida a la atención médica y la investigación. Debe entenderse que son posibles muchos usos de los procedimientos y sistemas descritos anteriormente, en combinación con dicha plataforma. Un ejemplo de dicha plataforma se describe en la Solicitud de Patente EE.UU. No. 16/657.804, titulada "Data Based Cancer Research and Treatment Systems and Methods", y presentada el 18/10/2019.
Por ejemplo, una implementación de una o más realizaciones de los procedimientos y sistemas descritos anteriormente puede incluir microservicios que constituyan una plataforma de atención sanitaria digital y de laboratorio que admita la determinación del estado de HRD. Las realizaciones pueden incluir un único microservicio para ejecutar y entregar la determinación del estado del HRD o pueden incluir una pluralidad de microservicios, cada uno con una función particular, que implementen conjuntamente una o más de las realizaciones anteriores. En un ejemplo, un primer microservicio puede ejecutar el cálculo de características genómicas con el fin de entregar características a un segundo microservicio para entrenar un modelo HRD. Del mismo modo, el segundo microservicio puede ejecutar el entrenamiento de un modelo HRD para entregar un modelo HRD entrenado a un tercer microservicio de acuerdo con una realización, más arriba. Un tercer microservicio puede utilizar un modelo HRD entrenado para analizar los datos asociados con una muestra para determinar la probabilidad de que la muestra tenga HRD.
Cuando las realizaciones anteriores se ejecutan en uno o más microservicios con o como parte de una plataforma de atención sanitaria digital y de laboratorio, uno o más de dichos microservicios pueden formar parte de un sistema de gestión de pedidos que orquesta la secuencia de eventos según sea necesario en el momento adecuado y en el orden adecuado necesario para instanciar las realizaciones anteriores. Un sistema de gestión de pedidos basado en microservicios se divulga, por ejemplo, en Solicitud de Patente Provisional de EE.UU. No. 62/873.693, titulada "Adaptive Order Fulfillment and Tracking Methods and Systems", presentada el 7/12/2019.
Por ejemplo, continuando con los anteriores primer y segundo microservicios, un sistema de gestión de pedidos puede notificar al primer microservicio que se ha recibido un pedido para la determinación del estado HRD y que está listo para su procesamiento. El primer microservicio puede ejecutar y notificar al sistema de gestión de pedidos una vez que la entrega de la determinación del estado del HRD esté lista para el segundo microservicio. Además, el sistema de gestión de pedidos puede identificar que se cumplen los parámetros de ejecución (requisitos previos) para el segundo microservicio, incluido que el primer microservicio ha finalizado, y notificar al segundo microservicio que puede continuar procesando el pedido para determinar el estado HRD de acuerdo con una realización, más arriba.
Cuando la plataforma de atención sanitaria digital y de laboratorio incluye además un sistema analizador genético, el sistema analizador genético puede incluir paneles dirigidos y/o sondas de secuenciación. Un ejemplo de panel dirigido se describe, por ejemplo, en la Solicitud de Patente Provisional de EE.UU. No. 62/902.950, titulada "System and Method for Expanding Clinical Options for Cancer Patients using Integrated Genomic Profiling", y presentada el 19/09/19. En un ejemplo, los paneles dirigidos pueden permitir la entrega de resultados de secuenciación de próxima generación para la determinación del estado de HRD de acuerdo con una realización, más arriba. Un ejemplo de diseño de sondas de secuenciación de nueva generación se describe, por ejemplo, en la Solicitud de Patente Provisional de EE.UU. No. 62/924,073, titulada "Systems and Methods for Next Generation Sequencing Uniform Probe Design", y presentada el 21/10/19.
Cuando la plataforma de atención sanitaria digital y de laboratorio incluya además una canalización bioinformática, los procedimientos y sistemas descritos anteriormente podrán utilizarse tras la terminación o la finalización sustancial de los sistemas y procedimientos utilizados en la canalización bioinformática. Por ejemplo, el procedimiento bioinformático puede recibir resultados de secuenciación genética de nueva generación y devolver un conjunto de archivos binarios, como uno o más archivos BAM, que reflejen los recuentos de lecturas de ADN y/o ARN alineados con un genoma de referencia. Los procedimientos y sistemas descritos anteriormente pueden utilizarse, por ejemplo, para ingerir los recuentos de lecturas de ADN y/o ARN y producir como resultado una determinación del estado de HRD.
Cuando la plataforma de atención sanitaria digital y de laboratorio incluye además un normalizador de datos de ARN, cualquier recuento de lecturas de ARN puede normalizarse antes de las realizaciones de procesamiento descritas anteriormente. Un ejemplo de un normalizador de datos de ARN se divulga, por ejemplo, en la Solicitud de Patente de EE.UU. No. 16/581.706, titulada "Methods of Normalizing and Correcting RNA Expression Data" (Procedimientos de normalización y corrección de datos de expresión de ARN), y presentada el 24/9/19.
Cuando la plataforma de atención sanitaria digital y de laboratorio incluye además un deconvolucionador de datos genéticos, puede utilizarse cualquier sistema y procedimiento de deconvolucionador para analizar datos genéticos asociados con una muestra que tenga dos o más componentes biológicos para determinar la contribución de cada componente a los datos genéticos y/o determinar qué datos genéticos estarían asociados con cualquier componente de la muestra si se purificara. Un ejemplo de deconvolucionador de datos genéticos se divulga, por ejemplo, en la solicitud de patente de EE:UU. No. 16/732.229 y PCT19/69161, ambas tituladas "Transcriptome Deconvolution of Metastatic Tissue Samples", y presentadas el 31/12/19, Solicitud de Patente Provisional de EE.UU. No. 62/924.054, titulada "Calculating Cell-type RNA Profiles for Diagnosis and Treatment", y presentada el 21/10/19, y la Solicitud de Patente Provisional de EE.UU. No. 62/944.995, titulada "Rapid Deconvolution of Bulk RNA Transcriptomes for Large Data Sets (Including Transcriptomes of Specimens Having Two or More Tissue Types)", y presentada el 12/6/19.
Cuando la plataforma de atención sanitaria digital y de laboratorio incluye además un llamador de expresión de ARN automatizado, los niveles de expresión de ARN pueden ajustarse para expresarse como un valor relativo a un nivel de expresión de referencia, lo que a menudo se hace para preparar múltiples conjuntos de datos de expresión de ARN para el análisis con el fin de evitar artefactos causados cuando los conjuntos de datos tienen diferencias porque no se han generado utilizando los mismos procedimientos, equipos y/o reactivos. Un ejemplo de llamador automatizado de expresión de ARN se divulga, por ejemplo, en la Solicitud de Patente Provisional de EE.UU. No. 62/943.712, titulada "Systems and Methods for Automating RNA Expression Calls in a Cancer Prediction Pipeline", y presentada el 12/4/19.
La plataforma de atención sanitaria digital y de laboratorio puede incluir además uno o más motores de comprensión para proporcionar información, características o determinaciones relacionadas con un estado de enfermedad que pueden basarse en datos genéticos y/o clínicos asociados con un paciente y/o muestra. Los motores de conocimiento ejemplares pueden incluir un motor de tumor de origen desconocido, un motor de pérdida de homocigosidad (LOH) del antígeno leucocitario humano (HLA), un motor de carga mutacional tumoral, un motor de estado de PD-L1, un motor de deficiencia de recombinación homóloga, un motor de informe de activación de vías celulares, un motor de infiltración inmunitaria, un motor de inestabilidad de microsatélites, un motor de estado de infección por patógenos, y así sucesivamente. Un ejemplo de motor de tumor de origen desconocido se divulga, por ejemplo, en la Solicitud de Patente Provisional de EE.UU. No. 62/855.750, titulada "Systems and Methods for Multi-Label Cancer Classification", y presentada el 31/5/19. Un ejemplo de motor HLA LOH se describe, por ejemplo, en la Solicitud de Patente Provisional de EE.UU. No. 62/889.510, titulada "Detección de la pérdida de heterocigosidad del antígeno leucocitario humano", y presentada el 20/8/19. Un ejemplo de motor de carga mutacional tumoral (TMB) se describe, por ejemplo, en la Solicitud de Patente Provisional de EE.UU. No. 62/804.458, titulada "Assessment of Tumor Burden Methodologies for Targeted Panel Sequencing", y presentada el 2/12/19. Un ejemplo de motor de estado PD-L1 se divulga, por ejemplo, en la Solicitud de Patente Provisional de EE.UU. No. 62/854.400, titulada "A Pan-Cancer Model to Predict The PD-L1 Status of a Cancer Cell Sample Using RNA Expression Data and Other Patient Data", y presentada el 30/5/19. Un ejemplo adicional de un motor de estado PD-L1 se divulga, por ejemplo, en la Solicitud de Patente Provisional de EE.UU. No. 62/824.039, titulada "PD-L1 Prediction Using H&E Slide Images", y presentada el 26/3/19. Los sistemas y procedimientos divulgados en el presente documento son un ejemplo de motor de deficiencia de recombinación homóloga. Un motor alternativo de deficiencia de recombinación homóloga se divulga, por ejemplo, en la Solicitud de Patente Provisional de EE.UU. No. 62/804.730, titulada "An Integrative Machine-Learning Framework to Predict Homologous Recombination Deficiency", y presentada el 2/12/19. Un ejemplo de motor de informes de activación de vías celulares se divulga, por ejemplo, en la Solicitud de Patente Provisional de EE.UU. No. 62/888.163, titulada "Cellular Pathway Report", y presentada el 16/8/19. Un ejemplo de motor de infiltración inmunitaria se divulga, por ejemplo, en la Solicitud de Patente de los Estados Unidos N° 16/533,676, titulada "A Multi-Modal Approach to Predicting Immune Infiltration Based on Integrated RNA Expression and Imaging Features", y presentada el 8/6/19. Un ejemplo adicional de un motor de infiltración inmunitaria se divulga, por ejemplo, en la solicitud de patente estadounidense N.° 62/804.509, titulada "Evaluación integral del sistema inmunitario del ARN para la identificación de pacientes con un microambiente tumoral inmunológicamente activo", y presentada el 2/12/19. Un ejemplo de un motor MSI se divulga, por ejemplo, en la solicitud de patente estadounidense N.° 16/653.868, titulada "Microsatellite Instability Determination System and Related Methods", y presentada el 15/10/19. Otro ejemplo de motor MSI se divulga, por ejemplo, en la Solicitud de Patente Provisional de EE.UU. No. 62/931.600, titulada "Systems and Methods for Detecting Microsatellite Instability of a Cancer Using a Liquid Biopsy", y presentada el 11/6/19.
Cuando la plataforma de atención sanitaria digital y de laboratorio incluye además un motor de generación de informes, los procedimientos y sistemas descritos anteriormente pueden utilizarse para crear un informe resumido del perfil genético de un paciente y los resultados de uno o más motores de comprensión para su presentación a un médico. Por ejemplo, el informe puede proporcionar al médico información sobre el grado en que la muestra secuenciada contenía tejido tumoral o normal de un primer órgano, un segundo órgano, un tercer órgano, y así sucesivamente. Por ejemplo, el informe puede proporcionar un perfil genético para cada uno de los tipos de tejido, tumores u órganos de la muestra. El perfil genético puede representar secuencias genéticas presentes en el tipo de tejido, tumor u órgano y puede incluir variantes, niveles de expresión, información sobre productos génicos u otra información que pueda derivarse del análisis genético de un tejido, tumor u órgano. El informe puede incluir terapias y/o ensayos clínicos emparejados basados en una parte o la totalidad del perfil genético o hallazgos y resúmenes del motor de información. Por ejemplo, las terapias pueden emparejarse según los sistemas y procedimientos divulgados en la Solicitud de Patente Provisional de<e>E.UU. No. 62/804.724, titulada "Therapeutic Suggestion Improvements Gained Through Genomic Biomarker Matching Plus Clinical History", presentada el 2/12/2019. Por ejemplo, los ensayos clínicos pueden emparejarse según los sistemas y procedimientos divulgados la Solicitud de Patente Provisional de EE.UU. No.
62/855.913, titulada "Systems and Methods of Clinical Trial Evaluation", presentada el 31/5/2019.
El informe puede incluir una comparación de los resultados con una base de datos de resultados de muchas muestras. Un ejemplo de procedimientos y sistemas para comparar resultados con una base de datos de resultados se divulga en la Solicitud de Patente Provisional de EE.UU. No. 62/786.739, titulada "A Method and Process for Predicting and Analyzing Patient Cohort Response, Progression and Survival", y presentada el 31/12/18. La información puede utilizarse, a veces junto con información similar de muestras adicionales y/o información sobre la respuesta clínica, para descubrir biomarcadores o diseñar un ensayo clínico.
Cuando la plataforma de atención sanitaria digital y de laboratorio incluye además la aplicación de una o más de las realizaciones del presente documento a organoides desarrollados en relación con la plataforma, los procedimientos y sistemas pueden utilizarse para evaluar más a fondo los datos de secuenciación genética derivados de un organoide para proporcionar información sobre el grado en que el organoide que fue secuenciado contenía un primer tipo de célula, un segundo tipo de célula, un tercer tipo de célula, y así sucesivamente. Por ejemplo, el informe puede proporcionar un perfil genético para cada uno de los tipos celulares de la muestra. El perfil genético puede representar secuencias genéticas presentes en un determinado tipo de célula y puede incluir variantes, niveles de expresión, información sobre productos génicos u otra información que pueda derivarse del análisis genético de una célula. El informe puede incluir terapias emparejadas basadas en una parte o en toda la información deconvolucionada. Estas terapias pueden probarse en el organoide, derivados de ese organoide, y/u organoides similares para determinar la sensibilidad de un organoide a esas terapias. Por ejemplo, los organoides pueden cultivarse y probarse de acuerdo con los sistemas y procedimientos divulgados en la solicitud de patente de Estados Unidos N.° 16/693,117, titulada "Tumor Organoid Culture Compositions, Systems, and Methods", presentada el 22/11/2019; Solicitud de Patente Provisional de EE.UU. No. 62/924,621, titulada "Systems and Methods for Predicting Therapeutic Sensitivity", presentada el 22/10/2019; y la Solicitud de Patente Provisional de EE.UU. No. 62/944.292, titulada "Large Scale Phenotypic Organoid Analysis", presentada el 5/12/2019.
Cuando la plataforma de atención sanitaria digital y de laboratorio incluye además la aplicación de una o más de las anteriores en combinación con o como parte de un dispositivo médico o una prueba desarrollada en laboratorio que está generalmente dirigida a la atención e investigación médicas, dicha prueba desarrollada en laboratorio o los resultados del dispositivo médico pueden mejorarse y personalizarse mediante el uso de inteligencia artificial. Un ejemplo de pruebas desarrolladas en laboratorio, especialmente aquellas que pueden mejorarse mediante inteligencia artificial, se divulga, por ejemplo, en la solicitud de patente provisional estadounidense N.° 62/924,515, titulada "Artificial Intelligence Assisted Precision Medicine Enhancements to Standardized Laboratory Diagnostic Testing", y presentada el 22/10/19.
Debe entenderse que los ejemplos anteriores son ilustrativos y no limitan los usos de los sistemas y procedimientos descritos en el presente documento en combinación con una plataforma de atención sanitaria digital y de laboratorio.
Ejemplos.
Ejemplo 1 - Entrenamiento de un modelo conjunto de predicción de HRD
Se entrenó un modelo de conjunto apilado de regresión lineal del estado HRD contra los resultados de (i) un modelo de red elástica entrenado para predecir si un cáncer es positivo a la deficiencia de recombinación homóloga (HRD) basado en niveles de expresión génica generados a partir de datos de ARNsec generados a partir de muestras de tumores sólidos, (ii) un modelo de red elástica entrenado para predecir una probabilidad de que un cáncer sea positivo a la deficiencia de recombinación homóloga (HRD) basado en puntuaciones de enriquecimiento ssGSEA, (iii) un modelo de regresión logística RIDGE entrenado para predecir un estado de metilación del promotor binarizado basado en conjuntos de datos de ARN de muestra, y (iv) un modelo entrenado para predecir un estado HRD basado en el porcentaje de bases nucleotídicas secuenciadas que tenían pérdida detectable de heterocigosidad (LOH) en datos de secuenciación de ADN de un tejido canceroso. El procedimiento de conjunto se entrenó frente a los datos de la base de datos TCGA, etiquetando las muestras de variantes BRCA1/2 bialélicas como HRD positivas, las muestras BRCA1/2 de tipo salvaje (que no contienen mutaciones o deleciones BRCA1 o BRCA2) como HRD negativas, y excluyendo las muestras que tienen una única mutación BRCA1 o BRCA2. Se entrenó un modelo separado, utilizando el mismo conjunto de datos y la convención de etiquetado HRD, para predecir si un cáncer es positivo a la deficiencia de recombinación homóloga (HRD) basándose en una estimación de la pérdida de heterocigosidad en todo el genoma.
La Figura 7 ilustra curvas ROC para el rendimiento de cada modelo individual, así como el modelo de conjunto, en una cohorte de validación dejada fuera de la cohorte de entrenamiento. Además, se evaluó el rendimiento de un modelo de HRD basado en secuenciación de ADN, como se describe en Knijnenburg et al., Cell Reports, 23(1):239-54 (2018), frente a la cohorte de validación.
El modelo de conjunto aumentó la capacidad de detectar la HRD integrando los tres modelos independientes basados en el ARN y una puntuación basada en el ADN en un modelo apilado. Este modelo integrado de ADN/ARN (por ejemplo, como se ha descrito anteriormente y con más detalle en referencia al bloque 370 de la Figura 3) supera a cada modelo individual, así como al modelo basado en el ADN descrito en Knijnenburg et al. (Supra).
Ejemplo 2 - Evaluación de un modelo del estado del HRD basado en la expresión génica
Se entrenaron varios modelos elásticos para predecir si un cáncer es positivo a la deficiencia de recombinación homóloga (HRD) frente a niveles de expresión génica generados a partir de datos de ARNsec de tipos de cáncer únicos: Media de BRCA, UCEC, BLCA, STAD y SARC: Cáncer de mama, carcinoma de endometrio del cuerpo uterino, cáncer de vejiga, adenocarcinoma de estómago y sarcoma, respectivamente. La figura 8 muestra las cinco principales métricas de rendimiento para cada uno de estos modelos de red elástica.
Ejemplo 3 - Correlación entre un modelo del estado del HRD basado en la expresión génica y un modelo de HRD basado en el ADN validado previamente
La Figura 9A ilustra la correlación entre las puntuaciones HRD generadas utilizando un modelo de red elástica de ejemplo entrenado para predecir si un cáncer es positivo a la deficiencia de recombinación homóloga (HRD) basado en niveles de expresión génica generados a partir de datos de ARNsec generados a partir de muestras de tumores sólidos y la puntuación HRD basada en ADN descrita en Knijnenburg et al. (Supra). El eje x muestra la puntuación HRD basada en el ADN para una muestra y el eje y muestra la puntuación HRD generada para el modelo HRD de expresión génica. El panel superior muestra los resultados de los datos de prueba y el panel inferior muestra los resultados de los datos de entrenamiento.
Ejemplo 4 - Correlación entre un modelo del estado del HRD basado en la expresión génica y las puntuaciones de las vías ssGSEA
La Figura 9B ilustra la correlación entre las puntuaciones HRD generadas utilizando un modelo de red elástica de ejemplo entrenado para predecir si un cáncer es positivo a la deficiencia de recombinación homóloga (HRD) basado en niveles de expresión génica generados a partir de datos ARNsec generados a partir de muestras de tumores sólidos (eje x) y puntuaciones de vías ssGSEA de recombinación homóloga para varias clases de cáncer, como se indica en la leyenda (eje y).
Ejemplo 5 - Correlaciones entre las puntuaciones de la vía ssGSEA y un modelo HRD basado en el ADN validado previamente
La Figura 9C ilustra correlaciones entre puntuaciones de la vía ssGSEA de recombinación homóloga y el modelo entrenado para predecir un estado HRD basado en el porcentaje de bases nucleotídicas secuenciadas que tenían pérdida detectable de heterocigosidad (LOH) en datos de secuenciación de ADN, para varios tipos de cáncer etiquetados. El eje x muestra la puntuación del modelo LOH para una muestra y el eje y muestra la puntuación de la vía ssGSEA de recombinación homóloga.
Ejemplo 6 - Entrenamiento de un procedimiento conjunto para determinar el estado de una vía de recombinación homóloga de un cáncer
Un obstáculo para el entrenamiento de un modelo para determinar el estado HRD es la relativa falta de disponibilidad de etiquetas objetivo de la verdad básica para los datos de entrenamiento. En concreto, se trata de determinar qué muestras de un conjunto de datos de entrenamiento tienen realmente HRD y responderían, por ejemplo, a la terapia PARPi y/o a la quimioterapia neoadyuvante que contiene platino, y cuáles no.
Una etiqueta de datos de entrenamiento que facilitaría esto es una etiqueta de sensibilidad PARPi, pero actualmente no hay suficientes respuestas/resultados PARPi disponibles para pacientes u organoides tumorales todavía. En su lugar, se utilizó la deficiencia de BRCA (pérdida bialélica de BRCA1 o BRCA2) y/o la pérdida de heterocigosidad en todo el genoma (gwLOH) como sustituto, con el fin de etiquetar cada muestra de los datos de entrenamiento como HRD positivo o HRD negativo. Las etiquetas de cáncer para cada una de las muestras también se utilizaron en el entrenamiento del modelo de conjunto, ya que parte de la variabilidad en los perfiles transcripcionales y la pérdida de heterocigosidad es atribuible al tipo de cáncer, más que al estado HRD del cáncer.
A modo de ejemplo, los modelos entrenados de esta manera pueden ser modelos apilados que utilizan salidas de uno o más de los siguientes módulos: un modelo de transcriptoma (nivel de expresión de ARN), un modelo de metilación de todo el genoma y/o a nivel de promotor (por ejemplo, BRCA), un modelo de pérdida de heterocigosidad en todo el genoma (gwLOH), un modelo de reordenamiento génico (por ejemplo, incluyendo una o más fusiones génicas, inserciones intergénicas, deleciones intergénicas e inversiones), y un modelo de ssGSEA de puntuaciones de enriquecimiento/vías.
Se entrenaron modelos individuales del estado HRD para cada una de estas características biológicas. Se entrenaron dos modelos de expresión de ARN, utilizando conjuntos de entrenamiento de diferentes. Las muestras sólo se utilizaron para el entrenamiento si eran completamente de tipo silvestre para BRCA1 y BRCA2 (sin variantes de nucleótido único, sin inserciones o deleciones cortas y número de copias diploide), que se tratan como negativas, y las muestras con inactivación bialélica (BRCA deficiente, al menos dos mutaciones patogénicas o eventos de pérdida de copia en BRCA1 o BRCA2) se tratan como positivas.
Las Figuras 11Ay 11B ilustran métricas para los modelos individuales de mejor rendimiento de cada tipo de datos, entrenados como se describe en el Ejemplo 6, donde el estado HRD de la verdad básica se define usando inactivación bialélica (BRCA deficiente, al menos dos mutaciones patogénicas o eventos de pérdida de copia en BRCA1 o BRCA2) como un proxi para el estado HRD+.
Las Figuras 12A y 12B ilustran matrices de confusión para el rendimiento de un modelo apilado donde el estado HRD de la verdad básica se define utilizando inactivación bialélica (BRCA deficiente, al menos dos mutaciones patogénicas o eventos de pérdida de copia en BRCA1 o BRCA2) como un proxi para el estado HRD+ (Figura 12A) y matrices de confusión para el rendimiento del modelo apilado en cohortes de tipo de cáncer único, de nuevo usando inactivación bialélica como un proxi para el estado HRD+ (Figura 12B).
Las Figuras 13A y 13B ilustran las correlaciones entre el estado HRD predicho por el modelo apilado y los resultados del tratamiento con PARPi, para un conjunto de datos limitado en el que se dispone de datos de secuenciación de ARN, datos de secuenciación de ADN y resultados del tratamiento con PARPi. Las predicciones negativas de HRD se muestran en el panel superior de la Figura 13A y el gráfico izquierdo de cada par en la Figura 13B.
La Figura 10A ilustra el número de eventos de fusión determinados utilizando datos de secuenciación de ADN (izquierda) y datos de secuenciación de ARN (derecha), en cánceres BRCA de tipo silvestre (0 - estadística superior reportada) y BRCA deficiente (1 - estadística inferior reportada). Los eventos de fusión se determinaron para (i) todos los tipos de fusión, (ii) sólo deleciones, (iii) sólo duplicaciones, (iv) sólo inversiones y (v) sólo translocaciones.
La Figura 10B ilustra la asociación entre el número de eventos de fusión determinados utilizando datos de secuenciación de ADN (izquierda) y datos de secuenciación de ARN (derecha) con gwLOH, en cánceres BRCA de tipo silvestre (0 - estadística superior reportada) y BRCA deficiente (1 - estadística inferior reportada). Las asociaciones se determinaron utilizando (i) todos los tipos de fusión, (ii) sólo deleciones, (iii) sólo duplicaciones, (iv) sólo inversiones y (v) sólo translocaciones.
Ejemplo 7 - Entrenamiento de un modelo de conjunto para determinar el estado de la vía de recombinación homóloga de un cáncer
Canónicamente, se sabe que la HRD es principalmente el resultado de la pérdida bialélica de BRCA1 o de BRCA2. Aunque la pérdida bialélica es definitoria de la HRD, hay otros factores que pueden dar lugar a HRD, como la mutación de otros genes de reparación del ADN, mecanismos epigenéticos y factores desconocidos.
Un modelo de conjunto para predecir el estado HRD de un cáncer fue entrenado como un modelo apilado utilizando salidas de un modelo de transcriptoma (nivel de expresión de ARN) del estado HRD y un modelo de Pérdida de heterocigosidad en todo el genoma (gwLOH). Las muestras sólo se utilizaron para el entrenamiento si eran completamente de tipo silvestre para BRCA1 y BRCA2 (sin variantes de nucleótido único, sin inserciones o deleciones cortas y número de copias diploide), que se tratan como negativas, y las muestras con inactivación bialélica (BRCA deficiente, al menos dos mutaciones patogénicas o eventos de pérdida de copia en BRCA1 o BRCA2) se tratan como positivas. Aunque no se espera que todas las muestras BRCA WT sean negativas, sí se espera que todas las muestras BRCA deficientes sean positivas. Aunque imperfecto en este sentido, el estado BRCA es el proxi ortogonal más robusto disponible para HRD con una larga historia de uso en el campo. Las etiquetas de cáncer para cada una de las muestras también se utilizaron en el entrenamiento del modelo de conjunto, ya que parte de la variabilidad en los perfiles transcripcionales y la pérdida de heterocigosidad es atribuible al tipo de cáncer, más que al estado HRD del cáncer.
Las muestras para los datos de entrenamiento también se eligieron en base a tener al menos un 30% de pureza final del tumor, para asegurar una fuerte señal del transcriptoma tumoral y un cálculo preciso del GWLOH%.
Para afinar en la señal transcriptómica de HRD, los ~20.000 genes para los que se dispone de datos de ARNsec a nivel transcriptómico se priorizaron en función de cuáles tenían los valores absolutos de coeficiente más altos de una regresión logística entrenada en subconjuntos de los datos de entrenamiento. Tras la priorización de características, el modelo del transcriptoma era libre de seleccionar entre los genes con mayor prioridad. El número de características seleccionadas se ajustó, junto con el peso de la clase y la intensidad de la regularización, para maximizar la sensibilidad global del modelo
Las Figuras 14A-14C ilustran matrices de confusión para el rendimiento de cada modelo individual, así como el modelo de conjunto apilado, en una cohorte de pan cáncer, donde el estado HRD de la verdad básica se define usando inactivación bialélica (BRCA deficiente, al menos dos mutaciones patogénicas o eventos de pérdida de copia en BRCA1 o BRCA2) como un proxi para el estado HRD+, como se describió anteriormente. Las Figuras 14D-14U 16 ilustran las matrices de confusión para el rendimiento de cada modelo individual, así como el modelo de conjuntos apilado, en cohortes de un solo tipo de cáncer, utilizando de nuevo la inactivación bialélica como sustituto del estado HRD+.
La Figura 15 ilustra las curvas ROC y proporciona cálculos AUC para el rendimiento de cada modelo individual, así como el modelo de conjunto apilado, en una cohorte de pan cáncer, donde el estado HRD de la verdad básica se define utilizando la inactivación bialélica (BRCA deficiente, al menos dos mutaciones patogénicas o eventos de pérdida de copia en BRCA1 o BRCA2) como un proxi para el estado HRD+, como se describió anteriormente. La Figura 16 ilustra las curvas ROC y proporciona cálculos de AUC para el rendimiento de cada modelo individual, así como el modelo de conjunto apilado, en cohortes de tipo de cáncer único, utilizando de nuevo la inactivación bialélica como un proxi para el estado HRD+.
La Figura 17 ilustra las puntuaciones F3 para el rendimiento de cada modelo individual, así como el modelo conjunto apilado, en una cohorte de validación de pan cáncer, donde el estado HRD de la verdad básica se define utilizando la inactivación bialélica (BRCA deficiente, al menos dos mutaciones patogénicas o eventos de pérdida de copia en BRCA1 o BRCA2) como un proxi para el estado HRD+, como se describió anteriormente. La Figura 18 ilustra las puntuaciones F3 para el rendimiento de cada modelo individual, así como el modelo de conjunto apilado, en cohortes de validación de un solo tipo de cáncer, utilizando de nuevo la inactivación bialélica como un proxi para el estado HRD+.
Referencias citadas y realizaciones alternativas
Otro aspecto de la presente divulgación proporciona un sistema informático que comprende uno o más procesadores, y un medio no transitorio legible por ordenador que incluye instrucciones ejecutables por ordenador que, cuando se ejecutan por el uno o más procesadores, hacen que los procesadores realicen un procedimiento de acuerdo con cualquiera de las realizaciones divulgadas en el presente documento, y/o cualquier combinación, modificación, sustitución, adición o supresión de las mismas como será evidente para un experto en la materia.
Otro aspecto de la presente divulgación proporciona un medio de almacenamiento no transitorio legible por ordenador que tiene almacenadas en el mismo instrucciones de código de programa que, cuando son ejecutadas por un procesador, hacen que el procesador realice el procedimiento según cualquiera de las realizaciones divulgadas en el presente documento, y/o cualquier combinación, modificación, sustitución, adición o supresión de las mismas que sea evidente para un experto en la materia.
La presente invención puede implementarse como un producto de programa de ordenador que comprende un mecanismo de programa de ordenador incrustado en un medio de almacenamiento legible por ordenador no transitorio. Por ejemplo, el producto de programa de ordenador podría contener los módulos de programa mostrados en cualquier combinación en la Figura 1 y/o como se describe en otras partes de la aplicación. Estos módulos de programa pueden almacenarse en un CD-ROM, DVD, producto de almacenamiento en disco magnético, llave USB o cualquier otro producto no transitorio de almacenamiento de datos o programas legibles por ordenador.
Las realizaciones se eligieron y describieron para explicar mejor los principios de la invención y sus aplicaciones prácticas, a fin de permitir a otros expertos en la materia utilizar mejor la invención y las diversas realizaciones con diversas modificaciones que se adapten al uso particular contemplado. La divulgación debe limitarse únicamente por los términos de las reivindicaciones adjuntas, junto con todo el alcance de los equivalentes a los que tienen derecho dichas reivindicaciones.

Claims (18)

REIVINDICACIONES
1. Un procedimiento para determinar si un sujeto de prueba tiene deficiencia de recombinación homóloga (HRD), el procedimiento que comprende:
en un sistema informático que tiene uno o más procesadores, y memoria que almacena uno o más programas para ejecución por el uno o más procesadores:
(A) obtener una primera pluralidad de lecturas de secuencias, en forma electrónica, de una muestra de ADN del sujeto de ensayo, la muestra de ADN comprende moléculas de ADN de un tejido canceroso del sujeto;
(B) obtención de una segunda pluralidad de lecturas de secuencias, en forma electrónica, de una muestra de ARN del sujeto de ensayo, la muestra de ARN que comprende moléculas de ARN del tejido canceroso del sujeto;
(C) determinar, basándose en la primera pluralidad de lecturas de secuencias, una primera predicción para un estado de la vía de recombinación homóloga del tejido canceroso del sujeto basándose en una medida de pérdida de heterocigosidad en todo el genoma para el tejido canceroso del sujeto, donde el procedimiento comprende además obtener una cuarta pluralidad de lecturas de secuencias, en forma electrónica, de una segunda muestra de ADN del sujeto de prueba, la segunda muestra de ADN comprende moléculas de ADN de un tejido no canceroso del sujeto, y la determinación (C) se basa en la primera pluralidad de lecturas de secuencias y la cuarta pluralidad de lecturas de secuencias mediante la determinación de una fracción de alelos variantes de la línea germinal y la desviación de la frecuencia de alelos B de la expectativa normal de cada SNP tanto en la primera pluralidad de lecturas de secuencias como en la cuarta pluralidad de lecturas de secuencias;
(D) determinar, basándose en la segunda pluralidad de lecturas de secuencias, una segunda predicción del estado de la vía de recombinación homóloga del tejido canceroso del sujeto basándose en los niveles de expresión de una pluralidad de genes en el tejido canceroso del sujeto;
(E) determinar, basándose en la segunda pluralidad de lecturas de secuencias, una tercera predicción para el estado de la vía de recombinación homóloga del tejido canceroso del sujeto basándose en una medida de reordenamientos de todo el transcriptoma para el tejido canceroso del sujeto;
(F) generar una construcción de datos del sujeto que comprenda (i) la primera predicción del estado de la vía de recombinación homóloga del tejido canceroso del sujeto, (ii) la segunda predicción del estado de la vía de recombinación homóloga del tejido canceroso del sujeto, y (iii) la tercera predicción del estado de la vía de recombinación homóloga del tejido canceroso del sujeto; e
(G) introducir la construcción de datos del sujeto en un modelo de conjunto de HRD que distinga entre cánceres con deficiencias de la vía de recombinación homóloga y cánceres sin deficiencias de la vía de recombinación homóloga, determinando así si el sujeto de ensayo tiene HRD.
2. El procedimiento de la reivindicación 1, en el que la medida de reordenamientos de todo el transcriptoma es una medida de inserciones de secuencias, deleciones de secuencias, inversiones de secuencias y translocaciones de secuencias identificadas en la segunda pluralidad de lecturas de secuencias o la medida de reordenamientos de todo el genoma es una medida de inserciones de secuencias, deleciones de secuencias, inversiones de secuencias y translocaciones de secuencias identificadas en la primera pluralidad de lecturas de secuencias.
3. El procedimiento de la reivindicación 1 o 2, en el que la determinación de la tercera predicción se basa además en un tipo de cáncer del tejido canceroso del sujeto.
4. El procedimiento de una cualquiera de las reivindicaciones 1-3, en el que:
el procedimiento comprende además determinar, basándose en la segunda pluralidad de lecturas de secuencias, una cuarta predicción para el estado de la vía de recombinación homóloga del tejido canceroso del sujeto basándose en una pluralidad de puntuaciones de análisis de enriquecimiento de conjuntos de genes de muestra única (ssGSEA) para el perfil transcripcional del tejido canceroso del sujeto; y
la construcción de datos del sujeto comprende además la cuarta predicción del estado de la vía de recombinación homóloga del tejido canceroso del sujeto.
5. El procedimiento de la reivindicación 4, en el que la determinación de la cuarta predicción se basa además en un tipo de cáncer del tejido canceroso del sujeto.
6. El procedimiento de cualquiera de las reivindicaciones 1-5, en el que:
el procedimiento comprende además la obtención de una tercera pluralidad de lecturas de secuencias que comprenden el estado de metilación de los nucleótidos de citosina, en forma electrónica, de una muestra de ADN del sujeto de ensayo, la muestra de ADN que comprende moléculas de ADN de un tejido canceroso del sujeto; determinar, basándose en la tercera pluralidad de lecturas de secuencias, una quinta predicción para el estado de la vía de recombinación homóloga del tejido canceroso del sujeto basándose en un patrón de mutilación genómica del tejido canceroso; y
la construcción de datos del sujeto comprende además una o más puntuaciones de metilación para el tejido canceroso.
7. El procedimiento de la reivindicación 6, en el que el procedimiento comprende además generar la tercera pluralidad de lecturas de secuencias por secuenciación bisulfítica.
8. El procedimiento de la reivindicación 6 o 7, en el que la primera pluralidad de lecturas de secuencias y la tercera pluralidad de lecturas de secuencias se generaron utilizando diferentes alícuotas de la misma muestra de ADN que comprende las moléculas de ADN del tejido canceroso del sujeto y el patrón de metilación genómica del tejido canceroso comprende un patrón de metilación para una región promotora de un gen de recombinación homóloga.
9. El procedimiento de cualquiera de las reivindicaciones 6-8, en el que (i) el patrón de metilación genómica del tejido canceroso comprende un patrón de metilación para al menos 100 regiones genómicas o al menos 1.000 regiones genómicas y opcionalmente (ii) la determinación de la cuarta predicción se basa además en un tipo de cáncer del tejido canceroso del sujeto.
10. El procedimiento de cualquiera de las reivindicaciones 1-9, en el que la primera pluralidad de lecturas de secuencias se genera a partir de una reacción de secuenciación de ADN de panel dirigido o una reacción de secuenciación de genoma completo de paso bajo.
11. El procedimiento de cualquiera de las reivindicaciones 1-10, en el que
(i) la muestra de ADN se prepara a partir de una biopsia tumoral de tejido sólido del sujeto o de una biopsia líquida del sujeto,
(ii) la primera pluralidad de lecturas de secuencias comprende al menos 10.000 lecturas de secuencias, (iii) la segunda pluralidad de lecturas de secuencias se genera a partir de una reacción de secuenciación del exoma completo o de una reacción de secuenciación de ARN de panel dirigido,
(iv) la segunda pluralidad de lecturas de secuencias comprende al menos 10.000 lecturas de secuencias, y (v) la muestra de ARN se prepara a partir de una biopsia de tumor de tejido sólido del sujeto.
12. El procedimiento de cualquiera de las reivindicaciones 1-11, en el que:
la determinación (C) se basa además en un tipo de cáncer del tejido canceroso del sujeto.
13. El procedimiento de cualquiera de las reivindicaciones 1-12, en el que la determinación (C) comprende: determinar una primera probabilidad de que el tejido canceroso del sujeto sea positivo a la deficiencia de recombinación homóloga (HRD) basándose en una primera medida de pérdida de heterocigosidad en todo el genoma que no tenga en cuenta las deleciones cromosómicas de todo el brazo o todo el cromosoma; determinar una segunda probabilidad de que el tejido canceroso del sujeto sea HRD positivo basándose en una segunda medida de pérdida de heterocigosidad en todo el genoma que excluye la pérdida de heterocigosidad debida a la pérdida de todo el brazo o de todo el cromosoma; y
determinar la primera predicción para el estado de la vía de recombinación homóloga del tejido canceroso del sujeto basándose en al menos la primera probabilidad y la segunda probabilidad.
14. El procedimiento de cualquiera de las reivindicaciones 1-13, en el que (i) la determinación (D) se basa en valores de expresión, determinados a partir de la segunda pluralidad de lecturas de secuencias, para al menos 100 genes o al menos 1.000 genes y opcionalmente (ii) la determinación (C) se basa además en un tipo de cáncer del tejido canceroso del sujeto.
15. El procedimiento de cualquiera de las reivindicaciones 1-14, en el que el tejido canceroso del sujeto (i) está libre de una variante del gen BRCA1 y una variante del gen BRCA2 o (ii) no tiene más de una variante del gen BRCA1 o BRCA2.
16. El procedimiento de cualquiera de las reivindicaciones 1-15, en el que el cáncer es cáncer de mama, cáncer de ovario, cáncer colorrectal o cáncer de próstata.
17. Un sistema informático que comprende:
uno o más procesadores; y
un medio no transitorio legible por ordenador que incluye instrucciones ejecutables por ordenador que, cuando son ejecutadas por uno o más procesadores, hacen que los procesadores realicen el procedimiento según cualquiera de las reivindicaciones 1-14.
18. Un medio de almacenamiento no transitorio legible por ordenador que tiene almacenadas instrucciones de código de programa que, cuando se ejecutan por un procesador, hacen que el procesador realice el procedimiento según cualquiera de las reivindicaciones 1-14.
ES20835972T 2019-12-10 2020-12-10 Sistemas y procedimientos para predecir el estado de deficiencia de recombinación homóloga de una muestra Active ES2989374T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201962946347P 2019-12-10 2019-12-10
PCT/US2020/064312 WO2021119311A1 (en) 2019-12-10 2020-12-10 Systems and methods for predicting homologous recombination deficiency status of a specimen

Publications (1)

Publication Number Publication Date
ES2989374T3 true ES2989374T3 (es) 2024-11-26

Family

ID=74125712

Family Applications (1)

Application Number Title Priority Date Filing Date
ES20835972T Active ES2989374T3 (es) 2019-12-10 2020-12-10 Sistemas y procedimientos para predecir el estado de deficiencia de recombinación homóloga de una muestra

Country Status (6)

Country Link
US (3) US11164655B2 (es)
EP (1) EP4073805B1 (es)
AU (2) AU2020398913A1 (es)
CA (1) CA3160566A1 (es)
ES (1) ES2989374T3 (es)
WO (1) WO2021119311A1 (es)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4150113A1 (en) 2020-05-14 2023-03-22 Guardant Health, Inc. Homologous recombination repair deficiency detection
EP3945525A1 (en) * 2020-07-27 2022-02-02 Sophia Genetics S.A. Methods for identifying chromosomal spatial instability such as homologous repair deficiency in low coverage next-generation sequencing data
US12165311B2 (en) * 2020-11-04 2024-12-10 Samsung Sds America, Inc. Unsupervised representation learning and active learning to improve data efficiency
WO2022147468A1 (en) 2020-12-31 2022-07-07 Tempus Labs, Inc. Systems and methods for detecting multi-molecule biomarkers
WO2022272310A1 (en) * 2021-06-25 2022-12-29 Foundation Medicine, Inc. System and method of classifying homologous repair deficiency
CA3234439A1 (en) 2021-10-11 2023-04-20 Alessandra Breschi Methods and systems for detecting alternative splicing in sequencing data
CN114067908B (zh) * 2021-11-23 2022-09-13 深圳吉因加医学检验实验室 一种评估单样本同源重组缺陷的方法、装置和存储介质
WO2023146389A1 (en) * 2022-01-28 2023-08-03 Cancer Research Malaysia Gene signatures for classifying homologous recombination deficiency
US12450089B1 (en) * 2022-05-02 2025-10-21 Form Bio Inc. Systems and methods for parallel processing of computational modules of a computational workflow
CN114944188B (zh) * 2022-05-19 2026-02-06 广州微远基因科技有限公司 样本同源性判定模型及其建立方法和应用
WO2023245082A2 (en) * 2022-06-14 2023-12-21 The Regents Of The University Of California Methods and systems for detecting homologous recombination deficiency in cancer therapies
US12566999B1 (en) 2022-08-08 2026-03-03 Form Bio Inc. Systems and methods for training a machine learning model to determine confidence values for potential workflow outputs generated by a computational workflow
CN116030261A (zh) * 2023-03-29 2023-04-28 浙江省肿瘤医院 Mri影像多组学评估乳腺癌同源重组修复缺陷的方法
EP4447056A1 (en) 2023-04-13 2024-10-16 Tempus AI, Inc. Systems and methods for predicting clinical response
CN116703896B (zh) * 2023-08-02 2023-10-24 神州医疗科技股份有限公司 一种基于多模态的前列腺癌与增生预测系统及构建方法
WO2025250836A1 (en) * 2024-05-29 2025-12-04 Omniseq, Inc. Ai-based multi-omics data processing for detection of genomic instability
CN119943440B (zh) * 2025-01-03 2025-11-18 复旦大学附属肿瘤医院 组织来源预测模型的构建及应用

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130029926A1 (en) 2009-11-05 2013-01-31 Myriad Genetics, Inc. Compositions and methods for determing cancer susceptibility
EP3693475A1 (en) 2013-04-05 2020-08-12 Myriad Genetics, Inc. Methods and materials for assessing homologous recombination deficiency
JP6877334B2 (ja) 2014-08-15 2021-05-26 ミリアド・ジェネティックス・インコーポレイテッド 相同組換え欠損を評価するための方法および材料
WO2017165270A1 (en) 2016-03-21 2017-09-28 Myriad Genetics, Inc. Homologous recombination deficiency to predict neoadjuvant chemotherapy necessity in bladder cancer
WO2017178509A1 (en) * 2016-04-12 2017-10-19 Xentech Methods for predicting sensibility to treatment with parp inhibitors in cancerous patients
FR3072170B1 (fr) 2017-10-05 2020-10-16 Spade Dispositif de surveillance pour la detection, en continu, de defauts dans une section de canalisation et systeme de surveillance equipe d’au moins deux dispositifs de surveillance

Also Published As

Publication number Publication date
CA3160566A1 (en) 2021-06-17
AU2020398913A1 (en) 2022-06-16
US11164655B2 (en) 2021-11-02
US20220028482A1 (en) 2022-01-27
AU2025279622A1 (en) 2026-01-15
EP4073805B1 (en) 2024-07-17
WO2021119311A1 (en) 2021-06-17
US20230114581A1 (en) 2023-04-13
EP4073805A1 (en) 2022-10-19
US20210172024A1 (en) 2021-06-10

Similar Documents

Publication Publication Date Title
ES2989374T3 (es) Sistemas y procedimientos para predecir el estado de deficiencia de recombinación homóloga de una muestra
JP7689557B2 (ja) 相同組換え欠損を推定するための統合された機械学習フレームワーク
JP7805394B2 (ja) がんの進化の検出および診断
EP4008005B1 (en) Methods and systems for detecting microsatellite instability of a cancer in a liquid biopsy assay
ES3043308T3 (en) Systems and methods for using sequencing data for pathogen detection
US20250061972A1 (en) Molecular response and progression detection from circulating cell free dna
ES2923602T3 (es) Detección y tratamiento de enfermedades que muestran heterogeneidad celular de enfermedad y sistemas y métodos para comunicar los resultados de las pruebas
JP2023507252A (ja) パッチ畳み込みニューラルネットワークを用いる癌分類
US20220215900A1 (en) Systems and methods for joint low-coverage whole genome sequencing and whole exome sequencing inference of copy number variation for clinical diagnostics
JP2022544604A (ja) がん検体において細胞経路調節不全を検出するためのシステム及び方法
ES2990062T3 (es) Sistemas y métodos para determinar si un sujeto tiene una condición de cáncer utilizando aprendizaje por transferencia
JP2023540257A (ja) がんを分類するためのサンプルの検証
US12584176B2 (en) Integrated machine-learning framework to estimate homologous recombination deficiency
WO2025096464A1 (en) Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing