ES2821300T3 - Predicción de pronóstico para el melanoma de cáncer - Google Patents

Predicción de pronóstico para el melanoma de cáncer Download PDF

Info

Publication number
ES2821300T3
ES2821300T3 ES16203301T ES16203301T ES2821300T3 ES 2821300 T3 ES2821300 T3 ES 2821300T3 ES 16203301 T ES16203301 T ES 16203301T ES 16203301 T ES16203301 T ES 16203301T ES 2821300 T3 ES2821300 T3 ES 2821300T3
Authority
ES
Spain
Prior art keywords
expression
melanoma
level
prognosis
markers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES16203301T
Other languages
English (en)
Inventor
Michael Alan Black
Jonathan Cebon
Parry John Guilford
Thomas John
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ludwig Institute for Cancer Research Ltd
Pacific Edge Ltd
Original Assignee
Ludwig Institute for Cancer Research Ltd
Pacific Edge Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ludwig Institute for Cancer Research Ltd, Pacific Edge Ltd filed Critical Ludwig Institute for Cancer Research Ltd
Application granted granted Critical
Publication of ES2821300T3 publication Critical patent/ES2821300T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P35/00Antineoplastic agents
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/16Primer sets for multiplex assays

Landscapes

  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Immunology (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Hospice & Palliative Care (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Oncology (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • General Chemical & Material Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Animal Behavior & Ethology (AREA)
  • Veterinary Medicine (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

Un método para determinar el pronóstico de melanoma en un paciente con melanoma en estadio IIIB o en estadio IIIC, que comprende las etapas de: (i) determinar el nivel de expresión de marcadores de pronóstico de melanoma (MPM) en una muestra de tumor de melanoma del paciente, comprendiendo los MPM cada uno de los cinco marcadores: proteína del factor 8 de glóbulo de grasa de leche-EGF (MFGE8); isocitrato deshidrogenasa 1 (NADP+) soluble (IDH1); receptor alfa de tipo 2 similar a inmunoglobina emparejado (PILRA); complejo mayor de histocompatibilidad, clase 1, E (HLA-E); y dominio de tiorredoxina que contiene 5 (TXNDCS); y (ii) aplicar un modelo predictivo, establecido mediante la aplicación de un método predictivo a los niveles de expresión de cada uno de dichos MPM en muestras tumorales pronósticamente buenas y malas; y (iii) establecer un pronóstico.

Description

DESCRIPCIÓN
Predicción de pronóstico para el melanoma de cáncer
Solicitud relacionada
Esta solicitud reivindica la ventaja de la Solicitud de Patente Provisional de Nueva Zelanda No. 555363 presentada el 24 de mayo de 2007.
Campo de la invención
Esta invención se refiere a métodos y composiciones para determinar el pronóstico de cáncer, en particular menlanoma, en un paciente. Específicamente, esta invención se refiere al uso de marcadores genéticos y proteómicos para determinar el pronóstico de cáncer, tal como melanoma, basado en firmas pronósticas.
Antecedentes de la invención
En los países industrializados, la incidencia del melanoma ha aumentado constantemente en los últimos 25 años, siendo la incidencia en Australia la más alta del mundo1. Aunque la "epidemia de melanoma" percibida probablemente esté constituida por una mayor detección de melanomas delgados2, el melanoma afecta a grupos de edad predominantemente más jóvenes, lo que resulta en una pérdida de años de vida productiva superada solo por las neoplasias malignas de la infancia y el cáncer testicular34 El melanoma no responde en gran medida a la quimioterapia citotóxica5, a los agentes biológicos67 y a las diversas estrategias de vacunación8. Un pequeño subgrupo de pacientes parece beneficiarse de las quimioterapias biológicas y/o citotóxicas, pero la identificación de estos pacientes a priori es actualmente imposible, la cual requiere la exposición de muchos pacientes a toxicidades sustanciales con una baja probabilidad de beneficio.
Una vez que el melanoma se ha metastatizado en los ganglios linfáticos locales, el 70% de los pacientes morirá en los 5 años siguientes9. El subgrupo de pacientes con una supervivencia prolongada representa una cohorte única. Ninguna terapia adyuvante actual ofrece un beneficio de supervivencia global, y mientras algunos clínicos ofrecen interferón a para mejorar la supervivencia sin enfermedad, muchos centros internacionales no ofrecen ningún tratamiento adyuvante activo fuera de los ensayos clínicos. La predicción de qué pacientes es probable que respondan bien, independientemente del uso de terapias adyuvantes, evitaría una toxicidad innecesaria y permitiría el desarrollo de mejores estrategias terapéuticas dirigidas a aquellos que tienen más probabilidades de obtener beneficios. Una mejor estratificación de los pacientes en ensayos clínicos adyuvantes reduciría los errores de tipo I y de tipo II. La actualización de 12 años después del estudio ECOG 1684 y otros estudios aleatorios han demostrado que el interferón-a mejora la TTP pero no la supervivencia global en el melanoma en estadio NI51011. La heterogeneidad inherente dentro de las poblaciones de pacientes, que ahora son bien reconocidas pero que no pueden ser controladas, puede haber confundido los efectos prometedores sobre la supervivencia observada en el estudio ECOG 168410 inicial y otros estudios más pequeños de fase II. Estratificar a los pacientes más propensos a la recaída puede equilibrar esta heterogeneidad y permitir que los tratamientos sean comparados con mayor precisión.
Existe una necesidad de nuevas herramientas para predecir el pronóstico del melanoma. Esta invención proporciona métodos basados en marcadores de pronóstico del melanoma, para ayudar en el pronóstico y el tratamiento del cáncer.
Mandruzzato et al33 desvela una firma de la expresión génica asociada con la supervivencia en melanoma metastásico. Alonso et al34 desvela que la progresión en melanoma cutáneo maligno se asocia con distintos perfiles de expresión usando un estudio basado en micromatriz de tejidos. John et al35 desvela alteraciones genéticas de pronóstico identificadas por análisis de micromatriz en melanoma en estadio III. Linette et al36 desvela biomarcadores en enfermedad de melanoma en estadio III y IV.
Sumario de la invención
Se describe en este documento un conjunto de genes marcadores identificados para ser expresados diferencialmente en melanomas con un buen pronóstico y melanomas con un mal pronóstico. Este conjunto de genes puede utilizarse para generar firmas de pronósticos, que comprenden dos o más marcadores, capaces de predecir la velocidad de progresión del melanoma en un paciente.
Los marcadores individuales se pueden expresar diferencialmente dependiendo de si el tumor progresa rápidamente o no. La exactitud de la predicción se puede mejorar combinando los marcadores juntos en una firma pronóstica, proporcionando pruebas individuales mucho más eficaces que los ensayos de un solo gen. También está prevista la aplicación de técnicas, tales como estadísticas, aprendizaje de máquinas, inteligencia artificial y minería de datos a las firmas de pronósticos para generar modelos de predicción. En otra realización, los niveles de expresión de los marcadores de una firma pronóstica particular en el tumor de un paciente pueden aplicarse entonces al modelo de predicción para determinar el pronóstico.
En ciertas realizaciones, el nivel de expresión de los marcadores puede establecerse utilizando procedimientos de micromatrices, reacción en cadena de polimerasa cuantitativa (qPCR) o inmunoensayos.
Específicamente, la presente invención proporciona un método para determinar el pronóstico del melanoma en un paciente con melanoma en estadio IIIB o estadio IIIC, que comprende las etapas de:
(i) determinar el nivel de expresión de un marcador de pronóstico de melanoma (MPM) en una muestra de tumor de melanoma del paciente, comprendiendo los MPM cada uno de los cinco marcadores: proteína del factor 8 del glóbulo de grasa de la leche-EGF (MFGE8); isocitrato deshidrogenasa 1 (NADP+) soluble (IDH1), receptor alfa de tipo 2 similar a inmunoglobina emparejado (PILRA); complejo mayor de histocompatibilidad, clase 1, E (HLA-E); y dominio de tiorredoxina que contiene 5 (TXNDCS)
(ii) aplicar un modelo predictivo, establecido mediante la aplicación de un método predictivo a los niveles de expresión de cada uno de dichos MPM en las muestras de tumor pronósticamente buenas y malas,
(iii) establecer un pronóstico.
También se desvela un método para determinar la idoneidad de un paciente de melanoma para un ensayo de fármaco, que comprende las etapas de:
(i) determinar el nivel de expresión de un MPM, o de una firma de pronóstico que comprende dos o más MPM, en una muestra de melanoma tumoral del paciente,
(ii) aplicar un modelo predictivo, establecido mediante la aplicación de un método predictivo a los niveles de las expresiones del MPM o de la firma predictiva en las muestras de tumor pronósticamente buenas y malas, (iii) establecer la idoneidad del paciente al ensayo.
Los MPM descritos en este documento se pueden seleccionar de la tabla 1. El método predictivo se selecciona del grupo consistente en modelos lineales, máquinas vectoriales de apoyo, redes neuronales, árboles de clasificación y regresión, métodos de aprendizaje conjunto, análisis discriminante, método del vecino más cercano, redes bayesianas, análisis de componentes independientes.
La determinación del nivel de expresión de un MPM o una firma pronóstica puede llevarse a cabo detectando el nivel de expresión de ARNm de cada gen, por ejemplo usando el método qPCR usando un cebador directo y un cebador inverso. La determinación del nivel de expresión de un MPM o una firma de pronóstico también puede llevarse a cabo detectando el nivel de expresión de ADNc de cada gen, por ejemplo usando un nucleótido complementario a al menos una porción de dicho ADNc. Además, el nivel de expresión de un MPM o una firma pronóstica puede determinarse detectando el nivel de expresión de la proteína de cada marcador o detectando el nivel de expresión del péptido de cada marcador, por ejemplo utilizando un anticuerpo dirigido contra cada marcador, tal como un anticuerpo monoclonal o un anticuerpo monoclonal o un antisuero policlonal. Se podría utilizar un método de inmunoensayo de tipo sándwich o ensayo ELISA.
También se desvela una firma de pronóstico para determinar el riesgo de progresión de melanoma, que comprende dos o más marcadores de pronóstico de melanoma (MPM). Los MPM de la firma de pronóstico se pueden seleccionar de la tabla 1.
También se desvela un dispositivo para determinar el pronóstico del melanoma, que comprende:
un sustrato que tiene una o más localizaciones sobre el mismo, teniendo cada localización dos o más oligonucleótidos sobre el mismo, cada oligonucleótido seleccionado de uno o más MPM.
Los dos o más oligonucleótidos pueden ser los MPM seleccionados de la tabla 1.
La presente invención también proporciona el uso de un reactivo para detectar la expresión de un MPM, o de una firma pronóstica que comprende dos o más MPM, en la fabricación de un kit para predecir el pronóstico del melanoma en un paciente. Los MPM se pueden seleccionar de la tabla 1.
El reactivo puede detectar el nivel de expresión de uno o más MPMs mediante la detección de la expresión de ARNm de MPM o ADNc de MPM. El reactivo puede ser un oligonucleótido complementario de al menos una porción del ARNm o ADNc de MPM. Alternativamente, el reactivo puede detectar el nivel de expresión de uno o más MPMs mediante la detección de la expresión de una proteína o péptido MPM. El reactivo puede ser un anticuerpo, tal como un anticuerpo monoclonal de antisuero policlonal.
El kit puede ser adecuado para realizar un inmunoensayo tipo sándwich o un ensayo ELISA.
Breve descripción de las figuras
Esta invención se describe con referencia a realizaciones específicas de la misma y con referencia a las figuras, en las que:
La figura 1 representa los 22 genes utilizados para construir puntuaciones predictivas ("marcadores de melanoma"). Los genes se seleccionaron usando una prueba de Mann-Whitney.
La Figura 2 muestra los agolpamientos de Ontología Genética de los genes expresados diferencialmente y el significado asociado. Las ontologías más significativas están determinadas por el número de genes que se superponen entre las categorías, es decir, la probabilidad de que sea una co-incidencia que estos muchos genes estaban en ambas la lista de genes y la categoría.
Figura 3. Esquema experimental que comprende un conjunto de entrenamiento y dos independientes aplicados al Conjunto de Validación A usando el qPS y el Conjunto B usando el aPS. El conjunto de entrenamiento se utilizó para desarrollar genes predictivos que luego se aplicaron al Conjunto de Validación A utilizando el qPS y el Conjunto B utilizando el aPS.
La Figura 4 representa el ARN usado para crear el ADNc de referencia usado tanto en los experimentos de matriz como en la forma de un comparador en los ensayos de qPCR.
La figura 5 representa los ensayos usados para qPCR usando sondas de biblioteca de sonda universal.
La figura 6 representa las características del paciente para el conjunto de prueba y el conjunto de validación A. La figura 7 representa el análisis de los componentes principales utilizando todos los genes (A) y los genes expresados diferencialmente (B), demostrando la capacidad de los 15 genes para segregar los grupos pronósticos buenos (cuadros rellenos) de los malos (cuadros sin rellenar). Estos genes se utilizaron para desarrollar la matriz y qPCR basada en los predictores.
La Figura 8 representa la aplicación de los aPS (a-b) y qPS (c-d) en el conjunto de entrenamiento demostrando su correlación con TTP y la supervivencia global. El aPS utiliza solo los 15 genes con la mayor correlación entre los datos de matriz y los datos qPCR y el qPS utiliza los cinco genes con la mayor capacidad para separar los dos grupos.
La Figura 9 representa el algoritmo de regresión logística qPS aplicado al conjunto de entrenamiento y al conjunto de validación A. Se dibuja una línea horizontal en valores medios.
La figura 10 representa la distribución de las puntuaciones de qPS de los grupos pronósticos buenos y malos del tercer conjunto independiente.
Descripción detallada
Definiciones
Antes de describir las realizaciones de la invención en detalle, será útil proporcionar algunas definiciones de los términos utilizados en la presente memoria.
El término “marcador” se refiere a una molécula que está asociada cuantitativa o cualitativamente con la presencia de un fenómeno biológico. Los ejemplos de “marcadores” incluyen un polinucleótido, tal como un gen o fragmento génico, fragmento de ARN o ARN; o un producto génico que incluye un polipéptido tal como un péptido, oligopéptido, proteína o fragmento de proteína; o cualquier metabolito relacionado, por productos, o cualquier otra molécula identificadora, tal como anticuerpos o fragmentos de anticuerpos, estén relacionados directa o indirectamente con un mecanismo subyacente al fenómeno. Los marcadores de la invención incluyen las secuencias de nucleótidos (por ejemplo, secuencias de GenBank) como se describen en este documento, en particular, las secuencias de longitud completa, cualquier secuencia de codificación, cualquier fragmento o cualquier complemento de la misma y cualquier marcador medible de la misma como se definió anteriormente.
El término "MPM" o las expresiones "marcador de pronóstico de melanoma" o "miembro de la familia de MPM" se refieren a un marcador con una expresión alterada que está asociada con un pronóstico particular, por ejemplo, una probabilidad más alta o más baja de que un cáncer progrese a un estadio más avanzado, como se describe en este documento, pero puede excluir moléculas que son conocidas en la técnica anterior para asociarse con el pronóstico del melanoma. Debe entenderse que el término MPM no requiere que el marcador sea específico solo para melanomas. Más bien, la expresión de un MPM puede ser alterada en otros tipos de tumores, incluyendo tumores malignos.
Las expresiones "firma pronóstica", "firma" y similares se refieren a un conjunto de dos o más marcadores, por ejemplo MPM, que cuando se analizan juntos como un conjunto permiten la determinación o predicción de un evento, por ejemplo el resultado del pronóstico del melanoma. El uso de una firma que comprende dos o más marcadores reduce el efecto de la variación individual y permite una predicción más robusta. Los ejemplos no limitativos de MPMs se ponen en cuarto lugar en XX. En el contexto de la presente invención, la referencia a "al menos uno", "al menos dos", "al menos cinco", etc., de los marcadores enumerados en cualquier conjunto particular (por ejemplo, cualquier firma) significa una cualquiera o cualquiera y todas las combinaciones de los marcadores enumerados.
La expresión "método de predicción" se define para abarcar el género más amplio de métodos de los campos de la estadística, el aprendizaje automático, la inteligencia artificial y la minería de datos, que se pueden utilizar para especificar un modelo de predicción. La expresión incluye también cualquier método adecuado para predecir un resultado, e incluye los métodos de no solo usar análisis complejos de marcadores múltiples, sino también la comparación directa de la expresión de un solo marcador o firma con la de un tejido de control, o con un umbral predeterminado, con el fin de predecir un resultado. Éstos se discuten más adelante en la sección Descripción detallada.
La expresión "modelo de predicción" se refiere al modelo matemático específico obtenido aplicando un método de predicción a una colección de datos. En los ejemplos detallados en el presente documento, tales conjuntos de datos consisten en mediciones de la actividad génica en muestras de tejido tomadas de pacientes con melanoma con un pronóstico bueno o malo, para el cual se conoce la clase (buena o mala) de cada muestra. Estos modelos pueden ser usados para (1) clasificar una muestra de estado de pronóstico desconocido como uno de bueno o malo, o (2) hacer una predicción probabilística (es decir, producir una proporción o porcentaje que se interprete como una probabilidad) que representa la probabilidad de que la muestra desconocida tenga un buen pronóstico, basado en la medición de los niveles de expresión de ARNm o de los productos de expresión, de una colección específica de genes, en la muestra desconocida. Los detalles exactos de cómo se combinan estas mediciones específicas de genes para producir clasificaciones y predicciones probabilísticas dependen de los mecanismos específicos del método de predicción utilizado para construir el modelo. La expresión también incluye cualquier modelo adecuado para predecir un resultado, e incluye los modelos no solo utilizando análisis complejos de marcadores múltiples, sino también modelos que implican la comparación directa de la expresión de un solo marcador o firma con la de un tejido de control, o con un umbral predeterminado, con el fin de predecir un resultado.
"Sensibilidad", "especificidad" (o "selectividad") y "tasa de clasificación", cuando se aplican para describir la eficacia de los modelos de predicción, significan lo siguiente:
"Sensibilidad" significa la proporción de muestras verdaderamente positivas que también se predice (por el modelo) que son positivas. En una prueba para el pronóstico del melanoma, sería la proporción de tumores que tienen un buen pronóstico predicho por el modelo de ser buenos. "Especificidad" o "selectividad" significa la proporción de muestras verdaderamente negativas que también se predice (por el modelo) que son negativas. En una prueba para el pronóstico del melanoma, esto equivale a la proporción de muestras que tienen un mal pronóstico que se predicen por malos por el modelo. "Tasa de clasificación" es la proporción de todas las muestras que se clasifican correctamente por el modelo de predicción (sea como positivo o negativo).
Como se usa en la presente memoria, “anticuerpos” y términos similares se refieren a moléculas de inmunoglobulina y porciones inmunológicamente activas de moléculas de inmunoglobulina (Ig), es decir, moléculas que contienen un sitio de unión a antígeno que se une específicamente (inmunorreacciona con) un antígeno. Estos incluyen, pero no se limitan a, fragmentos policlonales, monoclonales, quiméricos, de cadena sencilla, Fc, Fab, Fab' y Fab2 y una biblioteca de expresión de Fab. Las moléculas de anticuerpo se relacionan con cualquiera de las clases IgG, IgM, IgA, IgE e IgD, que difieren entre sí por la naturaleza de la cadena pesada presente en la molécula. Éstas incluyen también subclases, tales como IgG1, IgG2 y otras. La cadena ligera puede ser una cadena kappa o una cadena lambda. La referencia en este documento a anticuerpos incluye una referencia a todas las clases, subclases y tipos. También se incluyen anticuerpos quiméricos, por ejemplo, anticuerpos monoclonales o fragmentos de los mismos que son específicos de más de una fuente, por ejemplo, una secuencia de ratón o humana. Se incluyen además anticuerpos de camélidos, anticuerpos de tiburón o nanocuerpos.
Los términos "cáncer" y "canceroso" se refieren o describen la condición fisiológica en mamíferos que se caracteriza típicamente por crecimiento celular anormal o no regulado. El cáncer y la patología del cáncer pueden asociarse, por ejemplo, con metástasis, interferencia con el funcionamiento normal de las células vecinas, liberación de citoquinas u otros productos secretores a niveles anormales, supresión o agravación de la respuesta inflamatoria o inmunológica, neoplasia, premalignidad, malignidad, invasión de tejidos u órganos circundantes o lejanos, tales como ganglios linfáticos, etc. Se incluyen específicamente los melanomas.
El término “melanoma” se refiere a un tumor que se origina a partir de melanocitos que se encuentran en la piel, pero también otros sitios tales como superficies mucosas bucales y anogenitales, esófago, meninges y el ojo. Estos tumores son capaces de hacer metástasis en cualquier órgano.
Las expresiones “expresado diferencialmente” y “expresión diferencial” y frases similares se refieren a un marcador génico cuya expresión se activa a un nivel más alto o más bajo en un sujeto (por ejemplo, muestra de prueba) que tiene una afección, específicamente cáncer, tal como melanoma, en relación con su expresión en un sujeto de control (por ejemplo, muestra de referencia). Los términos también incluyen marcadores cuya expresión es activada a un nivel más alto o más bajo en diferentes etapas de la misma condición; en enfermedades con buen o mal pronóstico; o en células con niveles más altos o más bajos de proliferación. Un marcador expresado diferencialmente puede ser activado o inhibido al nivel del polinucleótido o al nivel de polipéptido, o puede estar sujeto a un empalme alternativo para dar como resultado un producto polipéptido diferente. Dichas diferencias pueden ser evidenciadas por un cambio en los niveles de ARNm, expresión superficial, secreción u otro reparto de un polipéptido, por ejemplo.
La expresión diferencial puede incluir una comparación de la expresión entre dos o más marcadores (por ejemplo, genes o sus productos génicos); o una comparación de las relaciones de la expresión entre dos o más marcadores (por ejemplo, genes o sus productos génicos); o una comparación de dos productos procesados de manera diferente (por ejemplo, transcritos o polipéptidos) del mismo marcador, que difieren entre sujetos normales y sujetos enfermos; o entre varias etapas de la misma enfermedad; o entre enfermedades que tienen un buen o mal pronóstico; o entre células con niveles de proliferación más altos y más bajos; o entre tejido normal y tejido enfermo, específicamente cáncer, o melanoma. La expresión diferencial incluye diferencias tanto cuantitativas como cualitativas en el patrón de expresión temporal o celular en un gen o sus productos de expresión entre, por ejemplo, las células normales y enfermas, o entre células que han sufrido diferentes estados de enfermedad o estadios de enfermedad, o células con diferentes niveles de proliferación
El término “expresión” incluye la producción de polinucleótidos y polipéptidos, en particular, la producción de ARN (por ejemplo ARNm) de un gen o porción de un gen e incluye la producción de un polipéptido codificado por un ARN o gen o porción de un gen, y la aparición de un material detectable asociado con la expresión. Por ejemplo, la formación de un complejo, por ejemplo, a partir de una interacción polipéptido-polipéptido, interacción polipéptidonucleótido, o similar, se incluye dentro del alcance del término "expresión". Otro ejemplo es la unión de un ligando de unión, tal como una sonda de hibridación o anticuerpo, a un gen u otro polinucleótido u oligonucleótido, un polipéptido o un fragmento de proteína, y la visualización del ligando de unión. Así, la intensidad de un punto en un micromatriz, en una transferencia de hibridación, tal como una transferencia de Northern, o en una inmunotransferencia, tal como una transferencia de Western, o en una matriz de perlas, o por análisis de PCR, se incluye dentro del término "expresión" de la molécula biológica subyacente.
Las expresiones "umbral de expresión" y "umbral de expresión definido" se usan indistintamente y se refieren al nivel de un marcador en cuestión fuera del cual el polinucleótido o polipéptido sirve como marcador predictivo para la supervivencia del paciente. El umbral dependerá del modelo predictivo establecido derivado experimentalmente de estudios clínicos tales como los descritos en los Ejemplos a continuación. Dependiendo del modelo de predicción utilizado, el umbral de expresión se puede establecer para alcanzar la máxima sensibilidad, o para una especificidad máxima, o para un error mínimo (tasa de clasificación máxima). Por ejemplo, se puede establecer un umbral más alto para conseguir errores mínimos, pero esto puede resultar en una sensibilidad más baja. Por lo tanto, para cualquier modelo predictivo dado, se usarán estudios clínicos para establecer un umbral de expresión que generalmente alcance la sensibilidad más alta mientras que tiene una tasa de error mínima. La determinación del umbral de expresión para cualquier situación está dentro del conocimiento de los expertos en la técnica.
La expresión "supervivencia a largo plazo" se utiliza en este documento para referirse a la supervivencia durante al menos 5 años, más preferiblemente durante al menos 8 años, lo más preferiblemente durante al menos 10 años después de la cirugía u otro tratamiento.
El término "micromatriz" se refiere a una disposición ordenada o no ordenada de agentes de captura, preferiblemente polinucleótidos (por ejemplo, sondas) o polipéptidos sobre un sustrato. Véase, por ejemplo, Microarray Analysis, M. Schena, John Wiley & Sons, 2002; Microarray Biochip Technology, M. Schena, ed., Eaton Publishing. 2000; Guide to Analysis of DNA Microarray Data, S. Knudsen, John Wiley & Sons, 2004; y Protein Microarray Technology, D. Kambhampati, ed. John Wiley & Sons. 2004.
El término "oligonucleótido" se refiere a un polinucleótido, típicamente una sonda o cebador, que incluye, sin limitación, desoxirribonucleótidos monocatenarios, ribonucleótidos monocatenarios o bicatenarios, híbridos de ARN:ADN y ADNs de doble hebra. Los oligonucleótidos, tales como los oligonucleótidos de sonda de ADN de cadena sencilla, se sintetizan a menudo mediante métodos químicos, por ejemplo utilizando sintetizadores de oligonucleótidos automatizados que están comercialmente disponibles, o mediante una variedad de otros métodos, incluyendo sistemas de expresión in vitro, técnicas recombinantes y expresión en células y organismos.
El término "polinucleótido", cuando se usa en singular o plural, se refiere generalmente a cualquier polirribonucleótido o polidesoxirribonucleótido, que puede ser ARN o ADN no modificado o ARN o ADN modificado. Esto incluye, sin limitación, ADN de cadena sencilla y doble, ADN que incluye regiones monocatenarias y bicatenarias, ARN de cadena sencilla y doble, y ARN que incluyen regiones monocatenarias y bicatenarias, moléculas híbridas que comprenden ADN y ARN que pueden ser monocatenarias o, más típicamente, bicatenarias o incluir regiones monocatenarias y bicatenarias. También se incluyen regiones de triple cadena que comprenden ARN o ADN o ARN y ADN. Se incluyen específicamente ARNm, ADNc, y ADN genómicos, y cualquier fragmento de los mismos. El término incluye ADN y ARN que contienen una o más bases modificadas, tales como bases tritiadas, o bases inusuales, tales como inosina. Los polinucleótidos de la invención pueden abarcar secuencias codificantes o no codificantes, o secuencias de sentido o antisentido. Se entenderá que cada referencia a un término "polinucleótido" o similar, en la presente memoria, incluirá las secuencias de longitud completa así como cualquier fragmento, derivado o variante del mismo.
"Polipéptido", como se usa en el presente documento, se refiere a una secuencia de oligopéptido, péptido o proteína, o fragmento de la misma, y a moléculas naturales, recombinantes, sintéticas o semisintéticas. Cuando se dice "polipéptido" en la presente memoria para referirse a una secuencia de aminoácidos de una molécula de proteína de origen natural, "polipéptido" y términos similares, no pretende limitar la secuencia de aminoácidos a la secuencia completa de aminoácidos nativa para la molécula de longitud total. Se entenderá que cada referencia a un "polipéptido" o similar, en la presente memoria descriptiva, incluirá la secuencia de longitud completa, así como cualquier fragmento, derivado o variante del mismo.
El término "pronóstico" se refiere a una predicción del resultado médico, por ejemplo, un resultado malo o bueno (por ejemplo, probabilidad de supervivencia a largo plazo); un pronóstico negativo o un resultado deficiente, incluye una predicción de recaída, progresión de la enfermedad (por ejemplo, crecimiento o metástasis tumoral, o resistencia a fármacos) o mortalidad; un pronóstico positivo o un buen resultado incluye una predicción de remisión de la enfermedad (por ejemplo, estado sin enfermedad), mejoramiento (por ejemplo, regresión del tumor) o estabilización. El término "proliferación" se refiere a los procesos que conducen al aumento del tamaño celular o del número de células, y puede incluir uno o más de: crecimiento de tumores o células, angiogénesis, inervación y metástasis. El término "qPCR" o "QPCR" se refiere a la reacción cuantitativa en cadena de la polimerasa, tal como se describe, por ejemplo, en PCR Technique: Quantitative PCR, JW Larrick, ed., Eaton Publishing, 1997, y A-Z of Quantitative PCR, S. Bustin ed., IUL Press. 2004.
El término "tumor" se refiere a todo el crecimiento y la proliferación de células neoplásicas, ya sean malignas o benignas, y todas las células y tejidos precancerosos y cancerosos.
La "rigor" de las reacciones de hibridación es fácilmente determinable por cualquier experto en la técnica y generalmente es un cálculo empírico dependiente de la longitud de la sonda, la temperatura de lavado y la concentración de sales. En general, las sondas más largas requieren temperaturas más altas para el recocido apropiado, mientras que las sondas más cortas necesitan temperaturas más bajas. La hibridación depende generalmente de la capacidad del ADN desnaturalizado para reanudarse cuando las hebras complementarias están presentes en un entorno por debajo de su temperatura de fusión. Cuanto más alto sea el grado de homología deseada entre la sonda y la secuencia hibridable, mayor será la temperatura relativa que puede utilizarse. Como resultado, se deduce que las temperaturas relativas más altas tenderían a hacer las condiciones de reacción más rigurosas, mientras que las temperaturas más bajas no tanto. Detalles adicionales y explicación de la rigurosidad de las reacciones de hibridación se encuentran, por ejemplo, en Ausubel et al., Current Protocols in Molecular Biology, Wiley Interscience Publishers, (1995).
"Condiciones rigurosas" o "condiciones de alta rigurosidad", como se definen en este documento, típicamente: (1) emplean baja fuerza iónica y alta temperatura para el lavado, por ejemplo cloruro sódico 0,015 M/citrato sódico 0,0015 M/dodecil sulfato sódico al 0,1% a 50°C; (2) emplean un agente desnaturalizante durante la hibridación, tal como formamida, por ejemplo, formamida al 50% (v/v) con albúmina de suero bovino al 0,1%/Ficoll al 0,1%/polivinilpirrolidona al 0,1%/tampón fosfato de sodio 50 mM a pH 6,5 con cloruro de sodio 750 mM, citrato sódico 75 mM a 42°C; o (3) emplean formamida al 50%, SSC 5X (NaCl 0,75 M, citrato de sodio 0,075 M), fosfato sódico 50 mM (pH 6,8), pirofosfato sódico al 0,1%. 5X, solución de Denhardt, ADN de esperma de salmón sonicado (50 |ig/ml), SDS al 0,1% y sulfato de dextrano al 10% a 42°C, con lavados a 42°C en SSC 0,2X (cloruro sódico/citrato sódico) y formamida al 50% a 55°C, seguido de un lavado de alta rigurosidad que comprende 0,1 X SSC que contiene EDTA a 55°C.
Las "condiciones moderadamente rigurosas" pueden identificarse como se describe en Sambrook et al. Molecular Cloning: A Laboratory Manual, Nueva York: Cold Spring Harbor Press, 1989, e incluyen el uso de la solución de lavado y las condiciones de hibridación (por ejemplo, temperatura, fuerza iónica y % de SDS) menos estrictas que las descritas anteriormente. Un ejemplo de condiciones moderadamente rigurosas es la incubación durante la noche a 37°C en una solución que comprende: 20% de formamida, 5X SSC (NaCl 150 mM, citrato trisódico 15 mM), fosfato sódico 50 mM (pH 7,6), 5x Solución de Denhardt, sulfato de dextrano al 10% y ADN de esperma de salmón cortado desnaturalizado a 20 mg/ml, seguido por lavado de los filtros en 1X SSC a aproximadamente 37-50°C. El experto en la técnica reconocerá cómo ajustar la temperatura, la fuerza iónica, etc. según sea necesario para acomodar factores tales como la longitud de la sonda y similares.
La práctica de la presente invención empleará, a menos que se indique lo contrario, técnicas convencionales de biología molecular (incluyendo técnicas recombinantes), microbiología, biología celular y bioquímica, que están dentro de la experiencia en la técnica. Tales técnicas se explican completamente en la literatura, tales como Molecular Cloning: A Laboratory Manual, 2a edición. Sambrook et al., 1989; Oligonucleotide Synthesis. MJ Gait, ed., 1984; Animal Cell Culture, R.I. Freshney, ed., 1987; Methods in Enzymology, Academic Press, Inc.; Handbook of Experimental Immunology, 4a edición. D. M. Weir y CC. Blackwell. Eds BlackWell Science Inc., 1987; Gene Transfer Vectors for Mammalian Cells. J. M. Miller y M. P. Calos. Eds., 1987; Current Protocols in Molecular Biology. F. M. Ausubel et al., Eds., 1987; y PCR: The Polymerase Chain Reaction, Mullis et al., Eds. 1994.
Descripción de las realizaciones de la invención
La presente invención describe el uso de micromatrices para identificar y determinar el papel pronóstico específico de marcadores y firmas pronósticos específicos en melanoma. Los estudios basados en micromatrices mostrados en este documento establecen marcadores que pueden usarse para predecir un pronóstico bueno o malo para un paciente con melanoma. En particular, los estudios basados en micromatrices y análisis de qPCR mostrados en el presente documento indican que los genes expresados diferencialmente particulares pueden usarse como firmas pronósticas que están asociadas con un pronóstico particular. Por lo tanto, la invención puede utilizarse para identificar pacientes que puedan presentar una enfermedad agresiva.
Se describen en este documento marcadores para la determinación del pronóstico de enfermedad. Usando los métodos descritos en este documento, se ha encontrado que los marcadores están asociados con el pronóstico del melanoma, y pueden usarse para predecir el resultado. El análisis por micromatriz de muestras tomadas de pacientes con diversas etapas de melanoma ha llevado al sorprendente descubrimiento de que patrones específicos de expresión de marcador se asocian con el pronóstico del cáncer. Por lo tanto, la presente descripción proporciona un conjunto de genes, esbozados en la Tabla 1, que se expresan diferencialmente en melanomas con un resultado bueno o malo. Los genes esbozados en la Tabla 1 proporcionan un conjunto de marcadores de pronóstico del melanoma (MPM).
Una disminución en ciertos marcadores pronósticos de melanoma (MPM), por ejemplo, puede ser indicativa de un pronóstico particular. Por el contrario, un aumento en otros MPM es indicativo de un pronóstico particular. Un pronóstico particular puede incluir la velocidad de progresión de la enfermedad. Se puede determinar una disminución o aumento de la expresión, por ejemplo, mediante la comparación de una muestra de ensayo, por ejemplo, una muestra de tumor de un paciente, con una muestra de referencia, por ejemplo, una muestra asociada con un pronóstico conocido. En particular, se podría usar una o más muestras de pacientes con buen pronóstico como muestra de referencia.
Por ejemplo, para obtener un pronóstico, los niveles de expresión en la muestra de un paciente (por ejemplo, la muestra de tumor) se pueden comparar con las muestras del paciente o pacientes con un resultado conocido. Si la muestra del paciente muestra un aumento o una disminución de la expresión de uno o más MPMs que se compara con las muestras con mal resultado (una rápida progresión de la enfermedad), entonces hay un pronóstico malo. Si la muestra del paciente muestra la expresión de uno o más MPMs que es comparable a las muestras con buen resultado (una progresión lenta de la enfermedad) entonces hay un pronóstico positivo, o buen pronóstico.
Como ejemplos adicionales, los niveles de expresión de una firma pronóstica que comprende dos o más MPM de una muestra de paciente (por ejemplo, una muestra de tumor) se pueden comparar con muestras de cánceres que se sabe que tienen un pronóstico bueno o malo. Si la muestra del paciente muestra una expresión aumentada o disminuida de los MPM en comparación con muestras con buen pronóstico y/o expresión comparable a muestras de mal pronóstico, entonces hay un pronóstico negativo. Si la muestra del paciente muestra una expresión de MPM que es comparable a muestras de buen pronóstico y/o expresión inferior o superior a muestras con un pronóstico malo, entonces hay un pronóstico positivo o bueno.
Como una aproximación, se puede aplicar un método de predicción a un panel de marcadores, por ejemplo el panel de MPM esbozado en la Tabla 1, con el fin de generar un modelo predictivo. Esto implica la generación de una firma pronóstica, que comprende dos o más MPM.
Los MPM descritos en la Tabla 1 proporcionan por lo tanto un conjunto útil de marcadores para generar firmas de predicción para determinar el pronóstico del cáncer y establecer un régimen de tratamiento o modalidad de tratamiento específico para ese tumor. En particular, un pronóstico positivo puede ser utilizado por un paciente para decidir seguir opciones de tratamiento particulares. Un pronóstico negativo puede ser utilizado por un paciente para decidir terminar el tratamiento o perseguir tratamientos altamente agresivos o experimentales. Además, un paciente puede elegir tratamientos basándose en su pronóstico predicho por la expresión de marcadores pronósticos (por ejemplo, MPM).
Los niveles de MPM pueden detectarse en el tejido tumoral, tejido proximal al tumor, muestras de ganglios linfáticos, muestras de sangre, muestras de suero, muestras de orina o muestras fecales, usando cualquier técnica adecuada, y pueden incluir, pero no se limitan a, sondas de oligonucleótidos, PCR cuantitativa, o anticuerpos contra los marcadores. Se apreciará que analizando la presencia y las cantidades de expresión de una pluralidad de MPMs en forma de firmas de predicción, y construyendo una firma pronóstica, se aumentará la sensibilidad y la precisión del pronóstico. Por lo tanto, se pueden usar marcadores múltiples de acuerdo con la presente invención para determinar el pronóstico de un cáncer.
La invención incluye el uso de material de biopsia embebido en parafina archivado para el ensayo de los marcadores en el conjunto, y por lo tanto es compatible con el tipo de material de biopsia más ampliamente disponible. También es compatible con varios métodos diferentes de recolección de tejido tumoral, por ejemplo, mediante biopsia de núcleo o aspiración con aguja fina. En ciertos aspectos, el ARN se aísla de una muestra de tejido cancerígeno fijado, embebido en cera, del paciente. El aislamiento puede realizarse mediante cualquier técnica conocida en la técnica, por ejemplo a partir de tejido de biopsia de núcleo o células de aspiración con aguja fina.
En un aspecto, la presente descripción se refiere a un método para predecir un pronóstico, por ejemplo, la probabilidad de la supervivencia a largo plazo de un paciente de cáncer después del tratamiento, que comprende determinar el nivel de expresión de uno o más marcadores pronósticos o sus productos de expresión en una muestra obtenida del paciente, normalizado frente al nivel de expresión de otros transcritos de ARN o sus productos en la muestra, o de un conjunto de referencia de transcriptos de ARN o sus productos de expresión.
En divulgaciones específicas, el marcador pronóstico es uno o más marcadores enumerados en la Tabla 1 o se incluye como una o más de las firmas pronósticas derivadas de los marcadores enumerados en la Tabla 1.
En otras divulgaciones, los niveles de expresión de los marcadores pronósticos o sus productos de expresión se determinan, por ejemplo, para los marcadores enumerados en la Tabla 1 y una firma pronóstica derivada de los marcadores enumerados en la Tabla 1. En otra divulgación, el método comprende la determinación de los niveles de expresión de un conjunto completo de marcadores de pronóstico o sus productos de expresión, por ejemplo, para los marcadores enumerados en la Tabla 1, o una firma pronóstica derivada de los marcadores enumerados en la Tabla 1.
En una divulgación adicional, la invención se refiere a una matriz (por ejemplo, micromatriz) que comprende polinucleótidos que se hibridan con dos o más marcadores, por ejemplo, para los marcadores enumerados en la Tabla 1, o una firma pronóstica derivada de los marcadores enumerados en la Tabla 1. En divulgaciones particulares, la matriz comprende polinucleótidos que se hibridan con una firma de pronóstico derivada de los marcadores enumerados en la Tabla 1. En otra divulgación específica, la matriz comprende polinucleótidos que hibridan con el conjunto completo de marcadores, por ejemplo, para los marcadores enumerados en la Tabla 1. Para estas matrices, los polinucleótidos pueden ser ADNc, u oligonucleótidos, y la superficie sólida sobre la que se muestran puede ser vidrio, por ejemplo. Los polinucleótidos pueden hibridar con uno o más de los marcadores como se describen en el presente documento, por ejemplo, a las secuencias de longitud completa, a cualquier secuencia codificante, a cualquier fragmento o a cualquier complemento del mismo. En aspectos particulares, un aumento o disminución en los niveles de expresión de uno o más MPM indica una menor probabilidad de supervivencia a largo plazo, por ejemplo, debido a la recurrencia del cáncer, mientras que la ausencia de un aumento o disminución en los niveles de expresión de uno o más MPM indica Una mayor probabilidad de supervivencia a largo plazo sin recurrencia del cáncer.
Figure imgf000009_0001
continuación
Figure imgf000010_0001
Enfoques generales para la detección de marcadores pronósticos
Los siguientes enfoques son métodos no limitativos que pueden usarse para detectar los marcadores de proliferación, incluyendo miembros de la familia MPM: enfoques de micromatrices usando sondas oligonucleotídicas selectivas para un MPM; QPCR en tiempo real en muestras tumorales usando cebadores y sondas específicas de MPM; QPCR en tiempo real en muestras de ganglios linfáticos, sangre, suero, fecal u orina utilizando cebadores y sondas específicas de MPM; ensayos inmunológicos ligados a enzimas (ELISA); inmunohistoquímica utilizando anticuerpos anti-marcador; y análisis de matriz o datos qPCR utilizando computadoras.
Otros métodos útiles incluyen transferencia Northern e hibridación in situ (Parker y Barnes, Methods in Molecular Biology 106: 247 - 283 (1999)); ensayos de protección de RNasa (Hod. BioTechniques 13: 852 - 854 (1992)); reacción en cadena de la polimerasa de transcripción inversa (RT-PCR, Weis y col., Trends in Genetics 8: 263-264 (1992)); análisis en serie de la expresión génica (SAGE, Velculescu et al., Science 270: 484 - 487 (1995); y Velculescu et al., Cell 88: 243 - 51 (1997)), tecnología MassARRAY (Sequenom, San Diego, CA) y el análisis de la expresión génica mediante secuenciación de firma paralela masiva (MPSS, Brenner y col., Nature Biotechnology 18: 630-634 (2000)). Alternativamente, pueden emplearse anticuerpos que pueden reconocer complejos específicos, incluyendo dúplex de ADN, dúplex de ARN y dúplex híbrido de ADN-ARN o dúplex de ADN-polipéptido.
Los datos primarios pueden recogerse y el análisis de cambio de pliegues puede realizarse, por ejemplo, mediante la comparación de los niveles de expresión de marcadores en tejido tumoral y tejido no tumoral; por comparación de los niveles de expresión del marcador a niveles determinados en tumores recurrentes y tumores no recurrentes; por comparación de los niveles de expresión de marcador a niveles determinados en tumores con o sin metástasis; por comparación de los niveles de expresión de marcador a niveles determinados en tumores de etapas diferentes; o mediante la comparación de los niveles de expresión de marcador a niveles determinados en células con diferentes niveles de proliferación. Se determina un pronóstico negativo o positivo basado en este análisis. Un análisis adicional de la expresión del marcador tumoral incluye hacer coincidir los marcadores que muestran una expresión aumentada o disminuida con los perfiles de expresión de tumores de melanoma conocidos para proporcionar un pronóstico.
Un umbral para concluir que la expresión se incrementa dependerá del marcador particular y también del modelo predictivo particular que se va a aplicar. El umbral se fija generalmente para alcanzar la sensibilidad y la selectividad más altas con la tasa de error más baja, aunque pueden ser deseables variaciones para una situación clínica particular. El umbral deseado se determina analizando una población de tamaño suficiente teniendo en cuenta la variabilidad estadística de cualquier modelo predictivo y se calcula a partir del tamaño de la muestra utilizada para producir el modelo predictivo. Lo mismo se aplica a la determinación de un umbral para concluir que la expresión se reduce. Se puede apreciar que se pueden seleccionar otros umbrales, o métodos para establecer un umbral, para concluir que se ha producido una expresión aumentada o disminuida sin apartarse del alcance de esta invención. También es posible que un modelo de predicción pueda producir como resultado un valor numérico, por ejemplo una puntuación, valor de probabilidad o probabilidad. En estos casos, es posible aplicar umbrales a los resultados producidos por modelos de predicción, y en estos casos se aplican principios similares a los que se usan para establecer umbrales para los valores de expresión.
Una vez que se ha obtenido el nivel de expresión, o el resultado de un modelo de predicción, de una firma predictiva en una muestra de tumor, entonces se puede determinar la probabilidad de que el cáncer se repita.
A partir de los marcadores identificados, pueden utilizarse firmas pronósticas que comprenden uno o más MPM para determinar el pronóstico de un cáncer, comparando el nivel de expresión de uno o más marcadores con la firma pronóstica descrita. Mediante la comparación de la expresión de uno o más de los MPM en una muestra de tumor con la firma pronóstica descrita, puede determinarse la probabilidad de que el cáncer se repita. La comparación de los niveles de expresión de la firma pronóstica para establecer un pronóstico se puede hacer aplicando un modelo predictivo como se describió anteriormente.
Determinar la probabilidad de que el cáncer se repita es de gran valor para el médico. Una alta probabilidad de que un tumor no responda al tratamiento significa que debe considerarse un tratamiento de dosis más larga o más alta o que no se puede administrar tratamiento en absoluto. Un pronóstico exacto también es beneficioso para el paciente. Permite al paciente, junto con sus parejas, familiares y amigos tomar decisiones sobre el tratamiento, así como decisiones sobre sus cambios en el futuro y en el estilo de vida. Por lo tanto, la invención también proporciona un método que establece un régimen de tratamiento para un cáncer particular basado en el pronóstico establecido comparando la expresión de los marcadores en una muestra de tumor con la firma de expresión diferencial.
Se apreciará que la selección del marcador, o la construcción de una firma de pronóstico, no tiene que estar restringida a los MPM descritos en la Tabla 1 de esta memoria, pero podría implicar el uso de uno o más MPM de las firmas reveladas, o una nueva firma puede establecerse utilizando los MPM seleccionados de las listas de marcadores reveladas. El requisito de cualquier firma es que prediga la probabilidad de una progresión rápida de la enfermedad con suficiente precisión como para ayudar a un médico a establecer un régimen de tratamiento.
PCR de transcripción Inversa (RT-PCR)
De las técnicas mencionadas anteriormente, el método cuantitativo más sensible y flexible es la RT-PCR, que puede utilizarse para comparar los niveles de ARN en diferentes poblaciones de muestra, en tejidos normales y tumorales, con o sin tratamiento farmacológico, para caracterizar patrones de expresión, para discriminar entre ARN estrechamente relacionados, y para analizar la estructura del ARN.
Para la RT-PCR, el primer paso es el aislamiento del ARN de una muestra diana. El material de partida es típicamente ARN total aislado a partir de tumores humanos o líneas celulares tumorales, y tejidos o líneas celulares normales correspondientes, respectivamente. El ARN se puede aislar de una variedad de muestras, tales como muestras de tumor de mama, pulmón, colon (por ejemplo, intestino grueso o intestino delgado), piel, colorrectal, gástrico, esofágico, anal, rectal, próstata, cerebro, hígado, páncreas, bazo, timo, testículo, ovario, útero, etc., de tumores primarios o líneas celulares tumorales y de muestras agrupadas de donantes sanos. Si la fuente de ARN es un tumor, el ARN puede extraerse, por ejemplo, de muestras de tejido congeladas o archivadas, embebidas en parafina y fijadas (por ejemplo, fijadas con formalina).
El primer paso en el perfil de expresión génica por RT-PCR es la transcripción inversa de la plantilla de ARN en ADNc, seguido por su amplificación exponencial en una reacción de PCR. Las dos transcriptasas inversas más comúnmente usadas son la transcriptasa inversa del virus de la mieloblastosis aviar (AMV - RT) y la transcriptasa inversa del virus de la leucemia murina de Moloney (MMLV - RT). El paso de transcripción inversa es normalmente cebado usando cebadores específicos, hexámeros aleatorios, o cebadores de oligo-dT, dependiendo de las circunstancias y el objetivo del perfilado de expresión. Por ejemplo, el ARN extraído puede ser transcrito inversamente utilizando un kit de PCR GeneAmp RNA (Perkin Elmer, CA, EE.UU.), siguiendo las instrucciones del fabricante. El ADNc derivado se puede utilizar entonces como plantilla en la reacción de PCR subsiguiente.
Aunque la etapa de PCR puede utilizar una variedad de ADN polimerasas ADN-dependientes termoestables, emplea típicamente la ADN polimerasa Taq, que tiene una actividad de nucleasa 5'-3' pero carece de una actividad de endonucleasa de corrección 3'- 5'. Por lo tanto, la PCR TaqMan (q) utiliza típicamente la actividad de nucleasa 5' de la polimerasa Taq o Tth para hidrolizar una sonda de hibridación unida a su amplicón diana, pero puede usarse cualquier enzima con actividad de 5' nucleasa equivalente.
Se usan dos cebadores de oligonucleótidos para generar un amplicón típico de una reacción de PCR. Un tercer oligonucleótido, o sonda, está diseñado para detectar la secuencia de nucleótidos situada entre los dos cebadores de PCR. La sonda no es extensible por la enzima ADN polimerasa Taq y está marcada con un colorante fluorescente indicador y un colorante fluorescente extintor. Cualquier emisión inducida por láser procedente del colorante indicador se inactiva mediante el colorante de inactivación cuando los dos colorantes están situados juntos como están en la sonda. Durante la reacción de amplificación, la enzima Taq ADN polimerasa divide la sonda de una manera dependiente de la plantilla. Los fragmentos de sonda resultantes se disocian en la solución, y la señal procedente del colorante indicador liberado está libre del efecto de extinción del segundo fluoróforo. Se libera una molécula de colorante indicador para cada nueva molécula sintetizada, y la detección del colorante indicador no inactivado proporciona la base para la interpretación cuantitativa de los datos.
El TaqMan RT-PCR se puede realizar utilizando un equipo comercialmente disponible, tal como, por ejemplo, el sistema de detección de secuencias ABI PRISM 7700 (Perkin-Elmer-Applied Biosystems, Foster City, CA, EE.UU.) o Lightcycler (Roche Molecular Biochemicals, Mannheim, Alemania). En una realización preferida, el procedimiento de la nucleasa 5' se ejecuta en un dispositivo de PCR cuantitativa en tiempo real tal como el sistema de detección de secuencias ABI PRISM 7700tam. El sistema consta de un termociclador, láser, dispositivo de carga acoplada (CCD), cámara y computadora. El sistema amplifica muestras en un formato de 96 pocillos en un termociclador. Durante la amplificación, la señal fluorescente inducida por el láser se recoge en tiempo real a través de cables de fibra óptica para los 96 pozos y se detecta en el CCD. El sistema incluye un software para ejecutar el instrumento y para analizar los datos.
Los datos del ensayo de nucleasa 5' se expresan inicialmente como Ct, o el ciclo umbral. Como se discutió anteriormente, los valores de fluorescencia se registran durante cada ciclo y representan la cantidad de producto amplificada hasta ese punto en la reacción de amplificación. El punto en el que la señal fluorescente se registra primero como estadísticamente significativo es el ciclo de umbral.
Para minimizar los errores y el efecto de la variación entre muestras, la RT-PCR se realiza generalmente utilizando un estándar interno. El patrón interno ideal se expresa a un nivel constante entre diferentes tejidos, y no se ve afectado por el tratamiento experimental. Los ARN más utilizados para normalizar los patrones de expresión génica son los ARNm para los genes de limpieza gliceraldehído-3-fosfato-deshidrogenasa (GAPDH) y actina.
PCR cuantitativa en tiempo real (qPCR)
Una variación más reciente de la técnica de RT-PCR es la PCR cuantitativa en tiempo real, que mide la acumulación de productos de PCR a través de una sonda fluorigénica marcada doble (es decir, sonda TaqMan). La PCR en tiempo real es compatible tanto con la PCR cuantitativa competitiva como con la PCR cuantitativa comparativa. La primera utiliza un competidor interno para cada secuencia objetivo para la normalización, mientras que la última utiliza un gen de normalización contenido dentro de la muestra, o un gen de limpieza para la RT-PCR. Se proporcionan más detalles, por ejemplo, por Held et al., Genome Research 6: 986 - 994 (1996).
Los niveles de expresión pueden determinarse usando tejidos fijados, embebidos en parafina, como fuente de ARN. De acuerdo con un aspecto de la presente invención, los cebadores y sondas de PCR se diseñan basándose en las secuencias de intrón presentes en el gen a amplificar. En esta realización, la primera etapa en el diseño de cebador/sonda es la delineación de las secuencias de intrón dentro de los genes. Esto puede hacerse mediante software disponible públicamente, tal como el software DNA BLAT desarrollado por Kent. W J Genome Res. 12 (4): 656 - 64 (2002). O por el software BLAST incluyendo sus variaciones. Los pasos subsiguientes siguen métodos bien establecidos de cebador de PCR y diseño de sonda.
Con el fin de evitar las señales no específicas, es útil para enmascarar secuencias repetitivas dentro de los intrones en el diseño de los cebadores y las sondas. Esto puede lograrse fácilmente usando el programa Repeat Masker disponible en línea a través del Baylor College of Medicine, que filtra secuencias de ADN contra una biblioteca de elementos repetitivos y devuelve una secuencia problema en la que los elementos repetitivos están enmascarados. Las secuencias enmascaradas pueden utilizarse entonces para diseñar secuencias de cebador y sonda usando cualquier paquete de diseño de cebador/sonda comercialmente, o de otro modo públicamente, disponible tal como Primer Express (Applied Biosystems); ensayo por diseño MGB (Applied Biosystems); Primer3 (Steve Rozen y Helen J. Skaletsky (2000) Primer3 en la WWW para usuarios generales y para programadores biólogos en: Krawetz S, Misener S (eds) Bioinformatics Methods and Protocols: Methods in Molecular Biology. Humana Press. Totowa, NJ. pp. 365 - 386).
Los factores más importantes considerados en el diseño del cebador de PCR incluyen la longitud del cebador, la temperatura de fusión (Tm), y el contenido de G/C, la especificidad, las secuencias de cebador complementarias y la secuencia del extremo 3'. En general, los cebadores óptimos de PCR tienen generalmente 17-30 bases de longitud, y contienen aproximadamente 20-80%, tales como, por ejemplo, aproximadamente 50-60% de bases G C. Temperaturas de fusión entre 50 y 80°C, por ejemplo, de aproximadamente 50 a 70°C, son típicamente preferidas. Para obtener más directrices para el cebador de PCR y el diseño de la sonda véase, por ejemplo, Dieffenbach, C. W. y col., General Concepts for PCR Primer Design in: PCR Primer, A Laboratory Manual. Cold Spring Harbor Laboratory Press. Nueva York, 1995, pp. 133-155; Innis y Gelfand, Optimization of PCRs in: PCR Protocols, A Guide to Methods and Applications, CRC Press. London, 1994, págs. 5-11; y Plasterer, T. N. Primer select: Primer Primer and probe design. Methods Mol. Biol. 70: 520 - 527 (1997).
Análisis de micromatrices
La expresión diferencial también puede ser identificada, o confirmada usando la técnica de micromatrices. Por lo tanto, el perfil de expresión de los MPM se puede medir en tejido tumoral fresco o embebido en parafina, utilizando la tecnología de las micromatrices. En este método, las secuencias polinucleotídicas de interés (incluyendo ADNc y oligonucleótidos) se colocan en placas, o matrices, sobre un sustrato de microchip. Las secuencias en matrices (es decir, sondas de captura) se hibridan entonces con polinucleótidos específicos de células o tejidos de interés (es decir, dianas). Al igual que en el método de RT-PCR, la fuente de ARN es típicamente ARN total aislado a partir de tumores humanos o líneas celulares tumorales, y los correspondientes tejidos o líneas celulares normales. De este modo, el ARN puede aislarse de una variedad de tumores primarios o líneas celulares tumorales. Si la fuente de ARN es un tumor primario, el ARN puede extraerse, por ejemplo, de muestras de tejido congeladas o embebidas y fijadas en parafina (FFPE) fijadas en formalina (por ejemplo, fijadas en formalina), que se preparan y conservan rutinariamente en la práctica clínica diaria.
En una realización específica de la técnica de micromatrices, los insertos amplificados por PCR de clones de ADNc se aplican a un sustrato. El sustrato puede incluir hasta 1, 2, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, o 75 secuencias de nucleótidos. En otros aspectos, el sustrato puede incluir al menos 10.000 secuencias de nucleótidos. Las secuencias micromatrizadas, inmovilizadas en el microchip, son adecuadas para la hibridación en condiciones rigurosas. Como otras realizaciones, las dianas para las micromatrices pueden tener al menos 50, 100, 200, 400, 500, 1000 o 2000 bases de longitud; o 50 -100, 100 - 200, 100 - 500, l00 - 1000, 100 - 2000 o 500 - 5000 bases de longitud. Como realizaciones adicionales, las sondas de captura para las micromatrices pueden ser al menos 10, 15, 20, 25, 50, 75, 80 o 100 bases de longitud; o 10-15, 10-20, 10 - 25, 10 - 50. 10-75, 10 - 80, o 20-80 bases de longitud.
Las sondas de ADNc marcadas fluorescentemente pueden generarse mediante la incorporación de nucleótidos fluorescentes por transcripción inversa del ARN extraído de los tejidos de interés. Las sondas de ADNc marcadas aplicadas al chip se hibridan con especificidad a cada punto del ADN en la matriz. Después de un lavado riguroso para eliminar las sondas no específicamente unidas, el chip es escaneado por microscopía láser confocal o por otro método de detección, tal como una cámara CCD. La cuantificación de la hibridación de cada elemento en forma de matriz permite la evaluación de la abundancia del ARNm correspondiente. Con fluorescencia de doble color, las sondas de ADNc marcadas separadamente generadas a partir de dos fuentes de ARN se hibridan en parejas con la matriz. La abundancia relativa de las transcripciones de las dos fuentes correspondientes a cada gen especificado se determina así simultáneamente.
La escala miniaturizada de la hibridación proporciona una evaluación conveniente y rápida del patrón de expresión para un gran número de genes. Se ha demostrado que tales métodos tienen la sensibilidad requerida para detectar transcritos raros, que se expresan en unas pocas copias por célula, y detectan reproduciblemente diferencias al menos aproximadamente dos veces en los niveles de expresión (Schena et al., Proc. Natl. Acad. Sci. USA 93 (2): 106 - 149 (1996)). El análisis de micromatrices puede ser realizado por equipos disponibles comercialmente, siguiendo los protocolos del fabricante, tales como, por ejemplo, utilizando la tecnología Affymetrix GenChip, la tecnología de micromatriz Illumina o la tecnología de micromatrices de Incyte. El desarrollo de métodos de micromatrices para el análisis a gran escala de la expresión génica hace posible buscar sistemáticamente marcadores moleculares de la clasificación del cáncer y la predicción de resultados en una variedad de tipos de tumores.
Aislamiento, purificación y amplificación de ARN
Los métodos generales para la extracción del ARNm son bien conocidos en la técnica y se describen en libros de texto convencionales de biología molecular, incluyendo Ausubel et al., Current Protocols of Molecular Biology, John Wiley and Sons (1997). Los métodos para la extracción de ARN de tejidos embebidos en parafina se describen, por ejemplo, en Rupp y Locker, Lab Invest. 56: A67 (1987), y De Sandres et al., BioTechniques 18: 42044 (1995). En particular, el aislamiento del ARN se puede realizar usando el kit de purificación, el sistema tampón, y la proteasa de los fabricantes comerciales, tales como Qiagen, según las instrucciones del fabricante. Por ejemplo, el ARN total de células en cultivo puede aislarse usando mini-columnas Qiagen RNeasy. Otros kits de aislamiento de ARN comercialmente disponibles incluyen el Kit de Purificación de ADN y ARN Completo MasterPure (EPICENTER (D, Madison, WT) y el Kit de Aislamiento de ARN de Bloque de Parafina (Ambion. Ca ). El ARN total de muestras de tejido se puede aislar usando ARN Stat-60 (Tel-Test). El ARN preparado a partir de un tumor puede aislarse, por ejemplo, mediante centrifugación en gradiente de densidad de cloruro de cesio.
Los pasos de un protocolo representativo para perfilar la expresión génica usando tejidos fijados embebidos en parafina como la fuente de ARN, incluyendo el aislamiento de ARNm, la purificación, la extensión del cebador y la amplificación, se dan en varios artículos publicados en revistas (por ejemplo, TE Godfrey y col. J. Molec. Diagnostics 2: 84 - 91 (2000); K. Specht et al., Am. J. Pathol. 158:419 - 29 (2001)). En resumen, un proceso representativo comienza con el corte de aproximadamente secciones de espesor 10 pm de muestras de tejido tumoral embebidas en parafina. A continuación, se extrae el ARN y se eliminan la proteína y el ADN. Después del análisis de la concentración de ARN, se pueden incluir etapas de reparación y/o amplificación de ARN, si es necesario, y el ARN es transcrito inversamente usando promotores específicos de genes seguido de RT-PCR. Finalmente, los datos se analizan para identificar las mejores opciones de tratamiento disponibles para el paciente sobre la base del patrón de expresión génica característico identificado en la muestra de tumor examinada.
Inmunohistoquímica y proteómica
Los métodos inmunohistoquímicos son también adecuados para detectar los niveles de expresión de los marcadores de proliferación de la presente invención. De este modo, se utilizan anticuerpos o antisueros, preferiblemente antisueros policlonales, y lo más preferiblemente anticuerpos monoclonales específicos para cada marcador, para detectar la expresión. Los anticuerpos pueden detectarse por marcaje directo de los propios anticuerpos, por ejemplo, con marcadores radiactivos, marcadores fluorescentes, marcadores de haptenos tales como biotina o una enzima tal como peroxidasa de rábano picante o fosfatasa alcalina. Alternativamente, el anticuerpo primario no marcado se usa junto con un anticuerpo secundario marcado, que comprende antisueros, antisueros policlonales o un anticuerpo monoclonal específico para el anticuerpo primario. Los protocolos y kits de inmunohistoquímica son bien conocidos en la técnica y están comercialmente disponibles.
La proteómica puede usarse para analizar los polipéptidos presentes en una muestra (por ejemplo, tejido, organismo o cultivo celular) en un cierto punto del tiempo. En particular, pueden usarse técnicas proteómicas para evaluar los cambios globales de expresión de polipéptidos en una muestra (también denominada proteómica de expresión). El análisis proteómico incluye típicamente: (1) separación de polipéptidos individuales en una muestra mediante electroforesis en gel 2-D (2-D PAGE); (2) identificación de los polipéptidos individuales recuperados del gel, por ejemplo, por espectrometría de masas o secuenciación N-terminal, y (3) análisis de los datos usando bioinformática. Los métodos proteómicos son suplementos valiosos para otros métodos de perfiles de expresión génica, y pueden usarse solos o en combinación con otros métodos para detectar los productos de los marcadores de proliferación descritos en el presente documento.
Una vez que se ha evaluado el nivel de expresión de uno o más marcadores pronósticos en una muestra de tumor, se puede determinar la probabilidad de que el cáncer responda al tratamiento. Los inventores han identificado una serie de marcadores que se expresan diferencialmente en los melanomas que responden al tratamiento (buen pronóstico) en comparación con los melanomas que no responden al tratamiento (mal pronóstico) en los conjuntos de datos del paciente. Los marcadores se exponen en la Tabla 1 y en el ejemplo siguiente.
Selección de genes expresados diferencialmente.
Una aproximación a la selección de los genes considerados significativos implicaba simplemente mirar el "cambio de pliegue" de un determinado gen entre los dos grupos de interés. Mientras que este enfoque se centra en los genes que parecen cambiar de forma más espectacular, la consideración de las estadísticas básicas nos lleva a darnos cuenta de que si la varianza (o nivel de ruido) es bastante alto (como se ve a menudo en los experimentos de micromatrices) entonces el cambio de pliegue aparentemente grande puede ocurrir con frecuencia por casualidad. Los experimentos con micromatrices, como los descritos en este documento, implican típicamente la medición simultánea de miles de genes. Si se comparan los niveles de expresión de un gen particular entre dos grupos (por ejemplo, tumores con buen pronóstico y mal pronóstico), las pruebas típicas de significación (tales como la prueba t) no son adecuadas. Esto se debe a que en un conjunto de miles de experimentos (en este contexto cada gen constituye un "experimento"), la probabilidad de que al menos un experimento pase los criterios habituales de significación por casualidad es esencialmente la unidad. En una prueba de significación, típicamente se calcula la probabilidad de que la "hipótesis nula" sea la correcta. En el caso de comparar dos grupos, la hipótesis nula es que no hay diferencia entre los dos grupos. Si una prueba estadística produce una probabilidad para la hipótesis nula por debajo de algún umbral (usualmente 0,05 o 0,01), se afirma que podemos rechazar la hipótesis nula, y aceptar la hipótesis de que los dos grupos son significativamente diferentes. Claramente, en tal prueba, un rechazo de la hipótesis nula por casualidad solo podría esperarse 1 en 20 veces (o 1 en 100). El uso de pruebas t, u otras pruebas estadísticas similares de significación, fracasan en el contexto de las micromatrices, produciendo demasiados falsos positivos (o errores de tipo I).
En este tipo de situación, donde se están probando múltiples hipótesis al mismo tiempo, se aplican procedimientos de comparación múltiples típicos, tal como el Método Bonferroni12. Sin embargo, tales pruebas son demasiado conservadoras para la mayoría de los experimentos de micromatrices, lo que resulta en demasiados errores falsos negativos (tipo II).
Un enfoque más reciente consiste en eliminar la tentativa de aplicar una probabilidad para que una prueba dada sea significativa y establecer un medio para seleccionar un subconjunto de experimentos, de modo que la proporción esperada de errores de Tipo I (o tasa de descubrimiento falso13) se controla. Este enfoque ha sido utilizado en esta investigación, a través de diversas implementaciones; es decir, los métodos proporcionados con BRB Array Tools14, y el paquete limma1516 de Bioconductor (que utiliza el entorno estadístico R1718).
Metodología general para la minería de datos: Generación de firmas pronósticas
La minería de datos es la expresión utilizada para describir la extracción de "conocimiento", en otras palabras el "saber-cómo", o capacidad predictiva de (normalmente) grandes volúmenes de datos (el conjunto de datos). Este es el enfoque utilizado en este estudio para generar firmas pronósticas. En el caso de este estudio, el "saber-cómo" es la capacidad de predecir con exactitud el pronóstico de un conjunto dado de mediciones de expresión génica, o "firma" (como se describe generalmente en esta sección y con más detalle en la sección de ejemplos).
Los detalles específicos utilizados para los métodos utilizados en este estudio se describen en los Ejemplos 17-20. Sin embargo, la aplicación de cualquiera de los métodos de minería de datos (tanto los descritos en los Ejemplos como los descritos en este documento) puede seguir este protocolo general.
La minería de datos19, y el tema relacionado aprendizaje automático20 es una tarea matemática compleja y repetitiva que implica el uso de uno o más paquetes de software de computadora apropiados (véase abajo). El uso de software es ventajoso por un lado, ya que no es necesario estar completamente familiarizado con las complejidades de la teoría detrás de cada técnica para poder utilizar con éxito técnicas de minería de datos, siempre que se respete la metodología correcta. La desventaja es que la aplicación de la minería de datos a menudo se puede ver como un "cuadro negro": uno inserta los datos y recibe la respuesta. La forma en que esto se logra se suele enmascarar del usuario final (este es el caso de muchas de las técnicas descritas y, a menudo, puede influir en el método estadístico elegido para la minería de datos. Por ejemplo, las redes neuronales y las máquinas vectoriales de soporte tienen una implementación particularmente compleja que hace muy difícil para el usuario final extraer las "reglas" utilizadas para producir la decisión. Por otro lado, los k-vecinos más cercanos y el análisis discriminante lineal tienen un proceso muy transparente para la toma de decisiones que no está oculto al usuario.
Hay dos tipos de enfoques utilizados en la minería de datos: enfoques supervisados y no supervisados. En el enfoque supervisado, se conoce la información que está siendo enlazada a los datos, tales como datos categóricos (por ejemplo, buen o mal pronóstico). Lo que se requiere es la capacidad de vincular la respuesta observada (por ejemplo, buen vs. mal pronóstico) a las variables de entrada. En el enfoque no supervisado, las clases dentro del conjunto de datos no se conocen de antemano, y la metodología de minería de datos se emplea para intentar encontrar las clases o la estructura dentro del conjunto de datos.
En el presente ejemplo se utilizó el enfoque supervisado y se discute en detalle en este documento, aunque se apreciará que se podría usar cualquiera de las otras técnicas.
El protocolo general incluye los siguientes pasos:
- Representación de datos. Esto implica la transformación de los datos en una forma que es más probable que funcione con éxito con la técnica de minería de datos escogida. En donde los datos son numéricos, tal como en este estudio donde los datos que se investigan representan niveles relativos de expresión génica, esto es bastante simple. Si los datos cubren un amplio rango dinámico (es decir, muchos órdenes de magnitud) a menudo se toma el log de los datos. Si los datos abarcan muchas mediciones de muestras separadas en días separados por investigadores independientes, se debe tener especial cuidado para asegurar que el error sistemático se minimice. La minimización del error sistemático (es decir, los errores resultantes de diferencias de protocolo, diferencias de máquina, diferencias de operador y otros factores cuantificables) es el proceso al que se hace referencia en este documento como "normalización".
• Selección de características. Normalmente, el conjunto de datos contiene muchos más elementos de datos de los que sería práctico medir en el día a día, y además muchos elementos que no proporcionan la información necesaria para producir un modelo de predicción. La capacidad real de un modelo de predicción para describir un conjunto de datos se deriva de algún subconjunto de la dimensionalidad completa del conjunto de datos. Estas dimensiones son los componentes (o características) más importantes del conjunto de datos. Téngase en cuenta en el contexto de los datos de micromatrices que las dimensiones del conjunto de datos son los genes individuales. La selección de características, en el contexto descrito en este documento, implica encontrar aquellos genes que son más "expresados diferencialmente". En un sentido más general, involucra a aquellos grupos que pasan una cierta prueba estadística de significación, es decir, el nivel de una variable particular consistentemente mayor o menor en uno u otro de los grupos investigados. A veces las características son aquellas variables (o dimensiones) que exhiben la mayor varianza.
• La aplicación de la selección de características es completamente independiente del método utilizado para crear un modelo de predicción, e implica una gran cantidad de experimentación para lograr los resultados deseados. Dentro de esta invención, la selección de genes significativos implicó la selección de características. Además, los métodos de reducción de datos (tal como el análisis de componentes principales) se pueden aplicar al conjunto de datos.
• Instrucción. Una vez que se han establecido las clases (por ejemplo, el pronóstico bueno/malo) y las características del conjunto de datos, y los datos se representan en una forma aceptable como entrada para la minería de datos, se aplica el conjunto de datos reducido (como se describe por las características) al modelo de predicción de elección. La entrada para este modelo suele ser en forma de una entrada numérica multidimensional, (conocida como vector), con información de salida asociada (un marcador de clase o una respuesta). En el proceso de instrucción, los datos seleccionados se introducen en el modelo de predicción, ya sea secuencialmente (en técnicas tales como las redes neuronales) o como un todo (en técnicas que aplican algún tipo de regresión, tales como los modelos lineales, análisis discriminante lineal, máquinas vectoriales de apoyo). En algunos casos (por ejemplo, k-vecinos más cercanos) el conjunto de datos (o subconjunto del conjunto de datos obtenido después de la selección de características) es en sí mismo el modelo. Como se discutió, se pueden establecer modelos efectivos con una comprensión mínima de las matemáticas detalladas, a través del uso de varios paquetes de software donde los parámetros del modelo han sido predeterminados por los analistas expertos como los más probables para conducir a resultados exitosos.
• Validación. Este es un componente clave del protocolo de la minería de datos, y la aplicación incorrecta de esta con frecuencia conduce a errores. Porciones del conjunto de datos deben estar aparte, aparte de la selección de características y de la instrucción, para probar el éxito del modelo de predicción. Además, si los resultados de la validación se utilizan para efectuar la selección de características y la instrucción del modelo, entonces se obtiene un conjunto de validación adicional para probar el modelo antes de que se aplique a situaciones de la vida real. Si este proceso no es estrictamente respetado, el modelo probablemente fallará en situaciones del mundo real. Los métodos de validación se describen con más detalle a continuación.
• Aplicación. Una vez que el modelo ha sido construido y validado, debe ser empaquetado de alguna manera y ser accesible para los usuarios finales. Esto a menudo implica la implementación de alguna forma de aplicación de hoja de cálculo, en la que el modelo se ha incrustado con automatización de un paquete de software estadístico o refactorización del modelo en una aplicación codificada por el personal de tecnología de la información.
Ejemplos de paquetes de software que se utilizan con frecuencia son:
- Complementos de hoja de cálculo, obtenidos de múltiples vendedores.
- El entorno estadístico R.
- Los paquetes comerciales MatLab, S-plus, SAS, SPSS, STATA.
- Software libre de código abierto, como Octave (un clon de MatLab)
- muchas y variadas bibliotecas C++, que pueden ser utilizadas para implementar modelos de predicción en un entorno comercial, de código cerrado.
Ejemplos de métodos de minería de datos
Los métodos descritos en este documento se pueden llevar a cabo realizando primero la etapa de minería de datos (arriba) y, a continuación, aplicando los paquetes de software conocidos apropiados. Una descripción más detallada del proceso de minería de datos se describe en detalle en muchos textos escritos muy bien19.
• Modelos lineales1921: Los datos se tratan como la entrada de un modelo de regresión lineal, de los cuales los marcadores de clase o variables de respuestas son la salida. Los marcadores de clase u otros datos categóricos deben ser transformados en valores numéricos (normalmente enteros). En modelos lineales generalizados, los marcadores de clase o las variables de respuesta no están relacionadas de forma lineal con los datos de entrada, sino que se transforman mediante el uso de una "función de enlace". La regresión logística es la forma más común del modelo lineal generalizado.
• Análisis Discriminante Lineal192223. Siempre que los datos sean linealmente separables (es decir, los grupos o clases de datos puedan ser separados por un hiperplano, que es una extensión n-dimensional de un umbral), esta técnica puede aplicarse. Se utiliza una combinación de variables para separar las clases, de modo que la varianza entre grupos se maximice y la varianza dentro del grupo se minimice. El subproducto de esto es la formación de una regla de clasificación. La aplicación de esta regla a muestras de clase desconocida permite hacer predicciones o clasificación de la pertenencia a la clase para esa muestra. Existen variaciones del análisis discriminante lineal, tales como los centróides reducidos más cercanos que se utilizan comúnmente para el análisis de micromatrices.
• Máquinas vectoriales de apoyo24: Se utiliza una colección de variables conjuntamente con una colección de pesos para determinar un modelo que maximice la separación entre clases en términos de esas variables ponderadas. La aplicación de este modelo a una muestra produce una clasificación o predicción de la pertenencia a la clase para esa muestra.
• Redes neuronales23: Los datos se tratan como la entrada en una red de nodos, que se asemejan superficialmente a neuronas biológicas, que aplican la entrada de todos los nodos a los que están conectados y transforman la entrada en una salida. Comúnmente, las redes neuronales utilizan el algoritmo "multiplicar y sumar" para transformar las entradas de múltiples nodos de entrada conectados en una sola salida. Un nodo no necesariamente produce una salida a menos que las entradas a ese nodo excedan un cierto umbral. Cada nodo tiene como entrada la salida de varios otros nodos, estando el nodo de salida final ligado generalmente a una variable categórica. El número de nodos y la topología de los nodos se pueden variar en formas casi infinitas, proporcionando la capacidad de clasificar datos extremadamente ruidosos que no pueden ser clasificados de otras maneras. La implementación más común de las redes neuronales es el perceptron multicapa.
• Árboles de clasificación y regresión25: En ellos, las variables se utilizan para definir una jerarquía de reglas que se puede seguir de forma escalonada para determinar la clase de una muestra. El proceso típico crea un conjunto de reglas que conducen a una salida de clase específica, o una declaración específica de la incapacidad para discriminar. Un árbol de clasificación de ejemplo es una implementación de un algoritmo tal como:
si el gen A> x y el gen Y > x y el gen Z = z
entonces
la clase A
si no el gen A = q
entonces
clase B
• Métodos vecinos más cercanos2223. Las predicciones o clasificaciones se realizan comparando una muestra (de clase desconocida) con las que la rodean (de clase conocida), con la proximidad definida por una función de distancia. Es posible definir muchas funciones de distancia diferentes. Las funciones de distancia usadas comúnmente son la distancia euclidiana (una extensión de la distancia pitagórica, como en la triangulación, a ndimensiones), diversas formas de correlación (incluido el coeficiente de correlación de Pearson). También hay funciones de transformación que convierten puntos de datos que normalmente no estarían interconectados por una métrica de distancia significativa en el espacio euclidiano, de manera que la distancia euclídea puede aplicarse (p. ej. distancia de Mahalanobis). Aunque la métrica de la distancia puede ser bastante compleja, la premisa básica de los k vecinos más cercanos es bastante simple, siendo esencialmente una reafirmación de "encontrar los vectores de datos k que son más similares a la entrada desconocida, averiguar a qué clase corresponden, y votar en cuanto a qué clase la entrada desconocida es".
• Otros métodos:
- Redes bayesianas. Un gráfico acíclico dirigido se utiliza para representar una colección de variables en conjunción con su distribución de probabilidad conjunta, que se utiliza entonces para determinar la probabilidad de pertenencia a una muestra.
- Análisis de componentes independientes, en los que las señales independientes (por ejemplo, pertenencia a la clase) se vuelven a aislar (en componentes) de una colección de variables. Estos componentes pueden usarse entonces para producir una clasificación o predicción de la pertenencia a la clase de una muestra. Métodos de aprendizaje en conjunto en los que se combinan una colección de métodos de predicción para producir una clasificación o predicción conjunta de la pertenencia a una muestra
Hay muchas variaciones de estas metodologías que pueden ser exploradas19, y muchas nuevas metodologías están constantemente siendo definidas y desarrolladas. Se apreciará que cualquiera de estas metodologías puede aplicarse para obtener un resultado aceptable. Se debe prestar especial atención a evitar la sobreequipación, asegurando que todos los resultados se prueban a través de un esquema de validación integral.
Validación
La aplicación de cualquiera de los métodos de predicción descritos implica la instrucción y validación cruzada1226 antes de que el método pueda ser aplicado a nuevos conjuntos de datos (tales como datos de un ensayo clínico). La instrucción involucra tomar un subconjunto del conjunto de datos de interés (en este caso medidas de expresión génica a partir de melanoma), de tal manera que esté estratificado a través de las clases que se están probando (en este caso tumores con buena o mala probabilidad de progresión rápida). Este conjunto de instrucción se utiliza para generar un modelo de predicción (definido anteriormente), que se prueba en el resto de los datos (el conjunto de pruebas).
Es posible alterar los parámetros del modelo de predicción para obtener un mejor rendimiento en el conjunto de pruebas, sin embargo, esto puede conducir a la situación conocida como sobreequipamiento, donde el modelo de predicción funciona en el conjunto de datos de la instrucción, pero no en cualquier conjunto de datos externo. Para evitar esto, se sigue el proceso de validación. Hay dos tipos principales de validación típicamente aplicados, la primera (validación de espera) implica dividir el conjunto de datos en tres grupos: prueba, instrucción y validación. El conjunto de validación no tiene ninguna entrada en el proceso de instrucción en absoluto, de modo que cualquier ajuste de parámetros u otros refinamientos debe tener lugar durante la aplicación al conjunto de pruebas (pero no el conjunto de validación). El segundo tipo principal es la validación cruzada, que puede aplicarse de varias maneras diferentes, descritas a continuación.
Existen dos subtipos principales de validación cruzada: la validación cruzada de K-fold y la validación cruzada leaveone-out. Validación cruzada K-fold: El conjunto de datos se divide en K submuestras, cada submuestra que contiene aproximadamente las mismas proporciones de los grupos de clase que el original.
En cada ronda de validación, una de las submuestras K se deja a un lado, y la instrucción se logra utilizando el resto del conjunto de datos. La efectividad de la instrucción para esa ronda se calcula con la corrección de la clasificación del grupo excluido. Este procedimiento se repite K veces, y la efectividad general se determina mediante la comparación de la clase predicha con la clase conocida.
Validación cruzada "leave-one-out": Una variación comúnmente utilizada de la validación cruzada de K-fold, en la que K = n, donde n es el número de muestras.
Combinaciones de MPMS, tales como los descritos anteriormente en la Tabla 1, pueden usarse para construir modelos predictivos para el pronóstico.
Firmas de pronóstico
Las firmas pronósticas, que comprenden uno o más de estos marcadores, pueden usarse para determinar el resultado de un paciente, mediante la aplicación de uno o más modelos predictivos derivados de la firma. En particular, un clínico o investigador puede determinar la expresión diferencial (por ejemplo, aumento o disminución de la expresión) de uno o más marcadores en la firma, aplicar un modelo predictivo y predecir así el pronóstico negativo, por ejemplo, la probabilidad de recidiva de la enfermedad de un paciente, o, alternativamente, la probabilidad de un pronóstico positivo (remisión continua).
Se ha desarrollado una firma pronóstica. Como se describe en el Ejemplo a continuación, se ha establecido una firma pronóstica que comprende 22 genes a partir de un conjunto de pacientes con melanoma (Tabla 1). Mediante la obtención de una muestra de paciente (por ejemplo, una muestra de tumor) y haciendo coincidir los niveles de expresión de uno o más marcadores en la muestra con el perfil de expresión diferencial, puede determinarse la probabilidad de que el cáncer progrese rápidamente.
Ensayos de fármacos
La presente invención también se puede usar para seleccionar individuos para ensayos de fármacos particulares. Al establecer el pronóstico de un individuo con melanoma, entonces se puede tomar una mejor decisión sobre si un paciente debe someterse a un tratamiento convencional para el que es probable que responda, o si debe participar en un ensayo de fármaco particular que tenga como objetivo un determinado tipo de tumor o etapa.
La selección de pacientes con un corto tiempo predicho hasta la progresión de la enfermedad también permitiría el acortamiento de la duración de los ensayos con fármacos y permitiría que menos pacientes se inscribieran para obtener datos estadísticamente significativos sobre la respuesta a los fármacos.
Ejemplos
Los ejemplos descritos en este documento tienen el fin de ilustrar las realizaciones de la invención. Otras realizaciones, métodos y tipos de análisis están dentro del alcance de las personas con conocimientos ordinarios en las técnicas de diagnóstico molecular y no necesitan ser descritos en detalle a continuación.
Para investigar los mecanismos biológicos dentro de los tumores que pueden afectar al resultado clínico en el melanoma en estadio III, se realizó el perfil de expresión génica en un conjunto inicial de 29 muestras de melanoma de pacientes con diversos resultados clínicos después de linfadenectomía para el melanoma de estadio IIIB y IIIC. A continuación, esto se utilizó para predecir prospectivamente el resultado clínico basado en un perfil molecular en dos conjuntos de validación independientes que comprendían 10 y 14 pacientes. Utilizando esta información molecular, se identificaron también vías celulares y redes que pueden ser reguladas diferencialmente entre los dos grupos de pacientes y que son posibles blancos para la intervención terapéutica.
Materiales y métodos
Colección de muestras y selección para análisis de micromatrices
El esquema general de los experimentos realizados se representa en la Figura 3. El tejido de melanoma ex vivo de 29 pacientes que se sometieron a linfadenectomía quirúrgica para nódulos clínicamente palpables entre 1997 y 2004 en Austin Health fueron seleccionados para el análisis de micromatrices. Todos los especímenes fueron recolectados bajo un protocolo de adquisición de tejidos aprobado por el Comité de Ética de Investigación Humana de Salud de Austin y con el consentimiento informado por escrito de cada paciente. Los especímenes congelados instantáneos se incrustaron en el compuesto óptimo de temperatura de corte (OCT) y se almacenaron como bloques de tejido a -80°C dentro del repositorio de bancos de tejidos Ludwig/Austin. El diagnóstico fue confirmado por un patólogo en todos los casos.
Las muestras de pacientes se seleccionaron para el análisis de micromatrices en base al tiempo transcurrido hasta la progresión tumoral (TTP) de la fase III a la enfermedad en estadio IV e incluyeron 16 pacientes con pronósticos "malos" (media de TTP 4 meses) y 13 "buenos" (media de TTP 42 meses). Los exámenes postoperatorios en una Unidad de Melanoma dedicada se realizaron mensualmente durante los 12 meses iniciales después de la linfadenectomía, seguido de tres y seis revisiones mensuales después de acuerdo con el requisito clínico hasta cuatro años, con revisión anual posterior. Las investigaciones de estadificación se realizaron según sospecha clínica o rutinariamente cada 3-6 meses.
Los tejidos se consideraron aceptables para este estudio si una necrosis mínima estaba presente y las células tumorales comprendían al menos el 60% de la población celular total. En el momento de la extracción de ARN, dos cortes de 5 pm fueron cortados y teñidos con hematoxilina y eosina para asegurar la integridad del tejido extraído.
Extracción de ARN y síntesis de ADNc
La síntesis de ADNc y la hibridación con un diseño de referencia común se realizaron por duplicado para los 29 pacientes seleccionados. Se extrajo el ARN total de tejido embebido por OCT sumergiendo y homogeneizando las secciones de tejido en Tri-reactivo (Molecular Research Center, Cincinnati, OH). Se añadieron 1,5 ml de cloroformo al homogeneizado, se centrifugó la muestra y se retiró la fase superior y se mezcló con etanol al 100%. La purificación utilizando una columna RNeasy se realizó de acuerdo con las instrucciones del fabricante (Qiagen, Valencia, CA). La calidad del ARN se confirmó sobre la base de 260: 280 relaciones de absorbancias y la integridad se inspeccionó en geles de formaldehído-agarosa frente a marcadores estándar de ARNr. El ADNc se sintetizó a partir de 20 |jg de ARN en presencia de oligo(dT) y aminoalil desoxinucleótido. Se acoplaron colorantes Cy (Amersham Biosciences, Buckinghamshire, RU) a ADNc de tumor y ADNc de referencia producidos en paralelo. El ADNc de referencia se sintetizó a partir del ARN agrupado de una variedad de tumores y líneas celulares incluyendo melanoma, así como de tejidos normales (véase la Figura 4).
Matrices de oligonucleótidos y análisis de datos
30.888 sondas de oligonucleótidos, que representan genes individuales y controles internos, se obtuvieron de MWG Biotech (Erbesberg, Alemania) y se detectaron como matrices de alta densidad utilizando un robot Omnigrid (Gene Machines, San Carlos, CA). El ADNc de tumor/referencia marcado fue co-hibridizado y escaneado usando un escáner de micromatrices Genepix 4000A (Axon Instruments, Union City, CA). La superposición de la matriz se alineó con la imagen escaneada y la extracción de características se realizó utilizando el software Gene Pix v6.0 (Axon Instruments, Foster City, CA). Los datos brutos se analizaron utilizando GeneSpring v7.2 (Silicon Genetics, Redwood City, CA). Los datos se normalizaron al grupo “print-tip” y luego se normalizaron con la mediana. En resumen, una curva de baja se ajustó a la representación de log-intensidad frente a log-ratio. El veinte por ciento de los datos se utilizó para calcular el ajuste de baja en cada punto. Esta curva se utilizó para ajustar el valor de control para cada medición. Cada gen se dividió entonces por la mediana de sus mediciones en todas las muestras.
Los datos para el grupo de validación independiente B del estudio de melanoma EORTC27 se pusieron a disposición a través del repositorio de datos público Array Express; http://www.ebi.ac.uk/arrayexpress/. Los datos se cargaron en Genespring v7.2 y se normalizaron por punto, por chip y por gen. En resumen, la intensidad medida de cada gen se dividió por su valor de canal de control en cada muestra y luego se dividió por el percentil 50 de todas las mediciones de esa muestra. Finalmente, cada gen se dividió por la mediana de sus mediciones en todas las muestras. Los valores de expresión de los genes expresados diferencialmente se utilizaron para calcular una puntuación predictiva como se describe a continuación.
Métodos estadísticos
Los datos de expresión génica se sometieron primero a un filtro que excluía las sondas que no estaban presentes en todas las muestras. De las 30.888 sondas iniciales consideradas, 18.807 pasaron este filtro y se usaron para el análisis de la varianza, la agrupación jerárquica y el análisis de componentes principales. Los genes expresados diferencialmente se descubrieron realizando una prueba de Wilcoxon-Mann-Whitney con el método de control de tasa de descubrimiento falso de Benjamini y Hochberg28 usado para corregir la corrección de múltiples pruebas basándose en un valor de corte de 0,05. La agrupación jerárquica de las muestras se realizó mediante la correlación de Spearman como la función de distancia y el promedio de vinculación.
PCR cuantitativa en tiempo real (qPCR)
La qPCR se realizó en genes diferencialmente expresados para confirmar los resultados de la matriz y, a continuación, en la validación del predictor utilizando la validación conjunto A. La primera cadena ADNc fue sintetizada a partir de 2 jg del ARN total extraído para el experimento de matriz usando un cebador de hexámero al azar (Promega, Madison, WI). Se obtuvieron controles negativos omitiendo la trancriptasa inversa. Se diseñaron ensayos de multiplexión de intrusión para qPCR (véase la Figura 5 para el diseño de ensayo) usando el centro de diseño de ensayos Universal Probe Library https://www.roche-applied-science.com/ (Roche, Mannheim, Alemania). Todas las reacciones se llevaron a cabo por duplicado usando el detector de secuencia ABI 7700 (Applied Biosystems, Foster City, CA). Las condiciones del termociclador fueron las siguientes: 50°C durante 2 minutos, 95°C durante 10 minutos seguido de 40 ciclos de 94°C durante 20 segundos y 60°C durante 45 segundos. Todos los resultados se normalizaron a la amplificación 18S (Applied Biosystems, Foster City, CA). Se calculó la expresión relativa utilizando el valor umbral objetivo (CT) para referencia como el comparador de los inventores29.
A continuación, se representaron los valores de expresión relativos para los genes individuales a lo largo de los valores de las matrices de la relación Iog2 normalizada y se calcularon los coeficientes de correlación.
Resultados
Se enumeran las características clínicas y patológicas de los pacientes incluidos en el conjunto de pruebas y el conjunto de validación A (véase la figura 6). Todos los pacientes tenían información sobre la edad en el diagnóstico inicial, el sexo, y el número y la localización de las metástasis ganglionares linfáticas positivas. No todos los pacientes tuvieron su diagnóstico inicial realizado en el hospital de los inventores, por lo que en algunos casos no se pudo determinar si la úlcera estaba presente en el melanoma primario. La úlcera en el primario es un factor pronóstico independiente que, si se presenta, altera la enfermedad del BIII a IIIC30
El promedio de TTP para el grupo de "buen" pronóstico fue de 40 meses en comparación con 4 meses en el grupo "malo". No hubo diferencias estadísticamente significativas en la edad mediana y el sexo entre los grupos, aunque el grupo "bueno" parecía más joven y contenía más mujeres. No hubo diferencias estadísticamente significativas en otras características pronósticas conocidas, incluyendo la estadificación de AJCC, el uso de interferón adyuvante y la presencia de linfocitos infiltrantes de tumores, aunque hubo una limitación del tamaño de la muestra.
Un paciente había aislado la enfermedad del estadio IV confinada al bazo resecado, pero dado que permaneció sin enfermedad, esta muestra se incluyó. La exclusión de esta muestra no alteró el perfil de expresión génica.
Los genes diferencialmente expresados segregan los dos grupos pronósticos
El agrupamiento jerárquico no supervisado no reveló subgrupos de melanomas que se correlacionaban con el pronóstico u otra información clínica, lo que se esperaba dadas las similitudes entre las muestras. Para investigar genes que pudieran segregar efectivamente los grupos pronósticos, se investigó la expresión génica diferencial.
2.140 genes fueron expresados diferencialmente entre los dos grupos, sin embargo, la aplicación estricta de múltiples pruebas de corrección redujo esto a 22 genes con expresión diferencial altamente significativa (Figura 1]. Los 22 genes fueron además validados en el conjunto de instrucción utilizando qPCR y los genes con el mayor coeficiente de correlación entre las dos plataformas (r> 0,5, p <0,05) fueron seleccionados para el análisis posterior (datos no presentados). De los 22 iniciales, quince genes mostraron una alta correlación multiplataforma y estos se utilizaron en el desarrollo de una puntuación predictiva. El análisis de componentes principales demostró la capacidad de los 15 genes para segregar los grupos pronósticos (Figura 7).
Desarrollo de puntuaciones predictivas
El conjunto de prueba inicial se utilizó para desarrollar un predictor que se probó en dos conjuntos de validación independientes. Dos algoritmos predictivos se desarrollaron sobre la base de los datos de la matriz y, entonces, los datos qPCR:
1. Para calcular una puntuación predictiva de los datos de la matriz (aPS), los quince genes con la correlación más significativa entre la matriz y qPCR se utilizaron. Las relaciones de expresión de Iog2 normalizadas se transformaron elevando los valores a la potencia de dos. Los genes desregulados en el grupo pronóstico “bueno” se atribuyeron a un valor negativo. La puntuación final se calculó entonces por la suma de los valores para los quince genes. Una puntuación positiva se asoció con un mejor resultado.
2. Para los datos qPCR (qPS), se aplicaron valores AA CT para los quince genes más correlacionados a un algoritmo de regresión logística que utiliza el Criterio de Información de Akaike para seleccionar solamente a aquellos genes que contribuyen a la distinción de clase. Esto seleccionó cinco genes significativos que se utilizaron entonces en la siguiente ecuación:
qPS = [1328,15-187,42(IDH) 137,10(MFG8) 73,61(PILRA) 211,22(HLA-E) 143,94(TXNDCS)] x -1 Al igual que con el SPA, una puntuación positiva se asoció con el mejor resultado utilizando este método.
Las puntuaciones predictivas se correlacionan con TTP y la supervivencia
Como se esperaba, tanto el aPS como el qPS aplicados al conjunto de prueba eran capaces de distinguir los dos grupos pronósticos. Una fuerte correlación entre las puntuaciones individuales y ambas TTP y la supervivencia global fueron evidentes, de tal manera que la magnitud de las puntuaciones individuales (puntuaciones altas con aPS y puntuaciones negativas para qPS) se correlacionaron con el mejor resultado tanto para qPS como para aPS (Figura 8, correlación Spearman Rank r = 0,7908, p< 0,0001). Esto sugiere que el nivel de expresión de estos genes expresados diferencialmente está relacionado con mecanismos biológicos subyacentes que influyen directamente en el resultado clínico, enfatizando su relevancia pronóstica.
Aplicación de la puntuación predictiva a tres conjuntos independientes
Los resultados se aplicaron luego en datos generados independientemente. Se identificó un conjunto de datos publicado con un subgrupo de pacientes similares a los nuestros. De los 83 pacientes que fueron perfilados en este estudio27, 14 tenían estadio III de enfermedad con seguimiento a largo plazo. En este subgrupo, diez pacientes habrían sido clasificados como "malos" (media de TTP 10 meses) y cuatro "buenos" (promedio de TTP 62 meses) utilizando criterios similares aplicados en el conjunto de pruebas de los inventores. Cuando se aplicó el algoritmo aPS a estas muestras, se pronosticaron correctamente todos los diez pacientes "malos" y dos de los cuatro "buenos" pacientes, obteniéndose una tasa de clasificación global correcta del 85%.
A continuación, se aplicó el algoritmo qPS a un conjunto independiente de diez tumores del banco de tejidos Ludwig/Austin para el que se llevaron a cabo ensayos qPCR utilizando los cinco genes más poderosamente predictivos. El predictor correctamente clasificó a los cinco de los "buenos" tumores pronóstico, pero clasificó mal una de las cinco muestras "malas" (Figura 9). La muestra "mala" clasificada incorrectamente representaba a un paciente en el que la TTP era breve, pero que tenía una supervivencia global prolongada de seis años con enfermedad metastásica.
El gen cinco qPS también se aplicó a un tercer grupo independiente de la etapa 3 de las muestras de melanoma. Estas muestras se componían de 19 pacientes con supervivencia de menos de 18 meses después del diagnóstico de la enfermedad en estadio 3 y otros 18 pacientes que sobrevivieron más de cuatro años a partir del diagnóstico de estadio 3. Las distribuciones de las puntuaciones de qPS de estos buenos y malos grupos pronóstico fueron significativamente diferentes (p = 0,02) y se muestran en la Figura 10.
Discusión
Este ejemplo muestra la predicción exitosa del resultado clínico en un grupo indistinguible de pacientes de melanoma de estadio III utilizando un perfil de expresión derivado de datos de expresión génica de micromatrices y qPCR. En dos conjuntos independientes se ha establecido que los dos algoritmos de puntaje predictivo desarrollados, que se basan en 15 genes expresados diferencialmente, se pueden aplicar a los datos de micromatrices y qPCR para predecir prospectivamente el resultado clínico en pacientes con melanoma en estadio IIIB/C.
Estos pacientes fueron seleccionados para una enfermedad en estadio similar y varios estudios han demostrado más similitudes en la expresión génica entre muestras autólogas tomadas en diferentes etapas que entre pacientes con enfermedad en estadio similar273132. La observación de que hay genes expresados diferencialmente entre los grupos que pueden usarse para predecir prospectivamente el resultado con un 92% de precisión, subraya su importancia. Además, la correlación del predictor con TTP y la supervivencia general también resaltan la utilidad del predictor de tal manera que la magnitud de la diferencia en las puntuaciones se correlaciona directamente con el resultado clínico.
Aunque la invención se ha descrito a modo de ejemplo y con referencia a posibles realizaciones de la misma, debe apreciarse que pueden realizarse mejoras y/o modificaciones sin apartarse del alcance de la misma.
Referencias
1. Australian Institute of Health and Welfare (AIHW): Cancer in Australia 2001. Canberra, Australian Institute of Health and Welfare Australasian Association of Cancer Registries (AACR), 2004.
2. Florez A, Cruces M: Melanoma epidemic: true or false? Int J Dermatol 43:405-7, 2004.
3. Thursfield V, Farrugia H, Giles G: Cancer in Victoria 2004, Canstat. Victoria, Cancer Epidemiology Centre, 2006, pp 32.
4. Thompson JF, Scolyer RA, Kefford RF: Cutaneous melanoma. Lancet 365:687-701, 2005.
5. Verma S, Quirt I, McCready D, et al: Systematic review of systemic adjuvant therapy for patients at high risk for recurrent melanoma. Cancer 106:1431-42, 2006.
6. Hersey P: Adjuvant therapy for high-risk primary and resected metastatic melanoma. Intern Med J 33:33-43, 2003.
7. Kirkwood JM, Manola J, Ibrahim J, et al: A pooled analysis of eastern cooperative oncology group and intergroup trials of adjuvant high-dose interferon for melanoma. Clin Cancer Res 10:1670-7, 2004.
8. Sondak VK, Sabel MS, Mule JJ: Allogeneic and autologous melanoma vaccines: where have we been and where are we going? Clin Cancer Res 12:2337s-2341s, 2006.
9. Balch CM, Sober AJ, Soong SJ, et al: The new melanoma staging system. Semin Cutan Med Surg 22:42-54, 2003
10. Kirkwood JM, Strawderman MH, Ernstoff MS, et al: Interferon alfa-2b adjuvant therapy of high-risk resected cutaneous melanoma: the Eastern Cooperative Oncology Group Trial EST 1684. J Clin Oncol 14:7-17, 1996. 11. Kirkwood JM, Ibrahim JG, Sondak Vk , et al: High- and low-dose interferon alfa-2b in high-risk melanoma: first analysis of intergroup trial E1690/S9111/C9190. J Clin Oncol 18:2444-58, 2000.
12. Efron, B. and Tibshirani, R. An Introduction to the Bootstrap. Chapman & Hall. 2005.
13. McLaughlan GJ, Do K, Ambroise C Analyzing Microarray Gene Expression Data (Wiley Series in Probability and Statistics) 2004.
14. Wright GW, Simon RM A random variance model for detection of differential gene expression in small microarray experiments. Bioinformatics 2003;19:2448-2455.
15. Smyth g K. Linear models and empirical Bayes methods for assessing differential expression in microarray experiments. Statistical Applications in Genetics and Molecular Biology 2004; 3:Article 3.
16. Lonnstedt I. and Speed TP. Replicated microarray data. Statistica Sinica 2002;12:31-46.

Claims (12)

REIVINDICACIONES
1. Un método para determinar el pronóstico de melanoma en un paciente con melanoma en estadio IIIB o en estadio IIIC, que comprende las etapas de:
(i) determinar el nivel de expresión de marcadores de pronóstico de melanoma (MPM) en una muestra de tumor de melanoma del paciente, comprendiendo los MPM cada uno de los cinco marcadores: proteína del factor 8 de glóbulo de grasa de leche-EGF (MFGE8); isocitrato deshidrogenasa 1 (NADP+) soluble (IDH1); receptor alfa de tipo 2 similar a inmunoglobina emparejado (PILRA); complejo mayor de histocompatibilidad, clase 1, E (HLA-E); y dominio de tiorredoxina que contiene 5 (TXNDCS); y
(ii) aplicar un modelo predictivo, establecido mediante la aplicación de un método predictivo a los niveles de expresión de cada uno de dichos MPM en muestras tumorales pronósticamente buenas y malas; y
(iii) establecer un pronóstico.
2. El método de la reivindicación 1, en el que el modelo predictivo se establece mediante la fórmula:
qPS=[ 1328,15-187,42(IDH 1)+137,10(MFGE8)+73,61 (PILRA)+211,22(HLA- E)+143,94(TXNDC5)]x-1 en la que una puntuación qPS de menos de cero indica un mal pronóstico y una puntuación qPS de más de cero indica buen pronóstico.
3. El método de la reivindicación 1 o 2, en el que la etapa de determinar el nivel de expresión de los MPM se lleva a cabo detectando el nivel de expresión del ARNm de cada gen.
4. El método de la reivindicación 1 o 2, en el que la etapa de determinar el nivel de expresión de los MPM se lleva a cabo mediante la detección del nivel de expresión de ADNc de cada gen.
5. El método de la reivindicación 4, en el que la etapa de determinar el nivel de expresión de los MPM se lleva a cabo utilizando un nucleótido complementario a al menos una porción de dicho ADNc.
6. El método de la reivindicación 3, en el que la etapa de determinar el nivel de expresión de los MPM se lleva a cabo utilizando el método de qPCR usando un cebador directo y un cebador inverso.
7. El método de la reivindicación 1 o 2, en el que la etapa de determinar el nivel de expresión de los MPM se lleva a cabo detectando el nivel de expresión de la proteína de cada marcador.
8. El método de la reivindicación 1 o 2, en el que la etapa de determinar el nivel de expresión de los MPM se lleva a cabo detectando el nivel de expresión de la proteína o el péptido de cada marcador.
9. El método de la reivindicación 7 u 8, en el que dicha etapa de detección se lleva a cabo utilizando un anticuerpo dirigido contra cada marcador.
10. El método de la reivindicación 7 u 8, en el que dicha etapa de detección se lleva a cabo utilizando un método de inmunoensayo tipo sándwich.
11. El método de la reivindicación 9 o 10, en el que dicho anticuerpo es un anticuerpo monoclonal.
12. El método de la reivindicación 9 o 10, en el que dicho anticuerpo es un antisuero policlonal.
ES16203301T 2007-05-24 2008-05-23 Predicción de pronóstico para el melanoma de cáncer Active ES2821300T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
NZ555363A NZ555363A (en) 2007-05-24 2007-05-24 Prognosis prediction for melanoma cancer

Publications (1)

Publication Number Publication Date
ES2821300T3 true ES2821300T3 (es) 2021-04-26

Family

ID=40032133

Family Applications (2)

Application Number Title Priority Date Filing Date
ES08766967.7T Active ES2622858T3 (es) 2007-05-24 2008-05-23 Predicción del pronóstico para el cáncer de melanoma
ES16203301T Active ES2821300T3 (es) 2007-05-24 2008-05-23 Predicción de pronóstico para el melanoma de cáncer

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES08766967.7T Active ES2622858T3 (es) 2007-05-24 2008-05-23 Predicción del pronóstico para el cáncer de melanoma

Country Status (17)

Country Link
US (3) US8822149B2 (es)
EP (2) EP3176270B1 (es)
JP (5) JP5943315B2 (es)
CN (1) CN101743327B (es)
AR (1) AR066725A1 (es)
AU (1) AU2008253836B2 (es)
CA (1) CA2725602A1 (es)
CL (1) CL2008001517A1 (es)
DK (2) DK3176270T3 (es)
ES (2) ES2622858T3 (es)
HK (1) HK1145342A1 (es)
NZ (1) NZ555363A (es)
PT (2) PT2158332T (es)
SG (2) SG10201509568QA (es)
TW (2) TWI582236B (es)
UY (1) UY31105A1 (es)
WO (1) WO2008143533A1 (es)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120135415A1 (en) * 2002-11-15 2012-05-31 Morehouse School Of Medicine Detecting cancer with anti-cxcl13 and anti-cxcr5 antibodies
EP2490025A3 (en) 2007-03-27 2012-11-28 Immunovia AB Method, array and use thereof
JP5683280B2 (ja) * 2011-01-04 2015-03-11 株式会社日立製作所 診療支援システム
CN102617734B (zh) * 2011-12-28 2013-09-04 暨南大学 抗FGF-2抗体Dab-2及其应用
US9336302B1 (en) 2012-07-20 2016-05-10 Zuci Realty Llc Insight and algorithmic clustering for automated synthesis
US9355105B2 (en) * 2012-12-19 2016-05-31 International Business Machines Corporation Indexing of large scale patient set
US20140272986A1 (en) 2013-03-14 2014-09-18 Castle Biosciences, Inc. Diagnostic test for predicting metastasis and recurrence in cutaneous melanoma
EP3292536B1 (en) * 2015-05-05 2024-04-03 RetInSight GmbH Computerized device and method for processing image data
WO2018009887A1 (en) * 2016-07-08 2018-01-11 University Of Hawaii Joint analysis of multiple high-dimensional data using sparse matrix approximations of rank-1
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US10692605B2 (en) * 2018-01-08 2020-06-23 International Business Machines Corporation Library screening for cancer probability
TW202018727A (zh) 2018-11-09 2020-05-16 財團法人工業技術研究院 整體式學習預測方法與系統
EP3935581A4 (en) 2019-03-04 2022-11-30 Iocurrents, Inc. DATA COMPRESSION AND COMMUNICATION USING MACHINE LEARNING
GB202010970D0 (en) 2020-07-16 2020-09-02 Immunovia Ab Methods, arrays and uses thereof
CN112200391B (zh) * 2020-11-17 2023-07-04 国网陕西省电力公司经济技术研究院 基于k-近邻互信息特征简化的配电网边缘侧负荷预测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102816081A (zh) 2005-01-05 2012-12-12 雅培制药有限公司 11-β-羟甾类脱氢酶1型酶的抑制剂
AU2006203830A1 (en) * 2005-01-07 2006-07-13 The Johins Hopkins University Biomarkers for melanoma
US7615349B2 (en) * 2006-09-07 2009-11-10 H. Lee Moffitt Cancer Center And Research Institute, Inc. Melanoma gene signature
CA2664567C (en) * 2006-10-04 2016-04-26 Dana-Farber Cancer Institute, Inc. Tumor immunity

Also Published As

Publication number Publication date
DK2158332T3 (en) 2017-05-01
JP2015061528A (ja) 2015-04-02
JP2010527604A (ja) 2010-08-19
AR066725A1 (es) 2009-09-09
CL2008001517A1 (es) 2009-01-09
US8822149B2 (en) 2014-09-02
CN101743327B (zh) 2013-04-24
CN101743327A (zh) 2010-06-16
TWI609967B (zh) 2018-01-01
JP2019004907A (ja) 2019-01-17
PT3176270T (pt) 2020-10-08
TWI582236B (zh) 2017-05-11
US20150031578A1 (en) 2015-01-29
EP3176270A1 (en) 2017-06-07
JP2017079765A (ja) 2017-05-18
UY31105A1 (es) 2009-01-05
TW201500553A (zh) 2015-01-01
SG10201912289SA (en) 2020-02-27
US20100136553A1 (en) 2010-06-03
US9534258B2 (en) 2017-01-03
JP6404304B2 (ja) 2018-10-10
EP2158332A1 (en) 2010-03-03
ES2622858T3 (es) 2017-07-07
US10266902B2 (en) 2019-04-23
WO2008143533A1 (en) 2008-11-27
US20170107583A1 (en) 2017-04-20
DK3176270T3 (da) 2020-10-12
AU2008253836A1 (en) 2008-11-27
TW200914623A (en) 2009-04-01
EP2158332A4 (en) 2011-01-05
JP5943315B2 (ja) 2016-07-05
PT2158332T (pt) 2017-04-26
AU2008253836B2 (en) 2014-11-27
NZ555363A (en) 2009-11-27
EP2158332B1 (en) 2017-01-18
HK1145342A1 (en) 2011-04-15
CA2725602A1 (en) 2008-11-27
EP3176270B1 (en) 2020-07-08
JP2020150949A (ja) 2020-09-24
SG10201509568QA (en) 2015-12-30

Similar Documents

Publication Publication Date Title
ES2821300T3 (es) Predicción de pronóstico para el melanoma de cáncer
JP6824923B2 (ja) 胃腸癌での増殖の徴候及び予後
ES2525219T3 (es) Predicción de pronóstico para aplicación relacionada con cáncer colorrectal
US10179936B2 (en) Gene expression profile algorithm and test for likelihood of recurrence of colorectal cancer and response to chemotherapy
KR102055305B1 (ko) 위식도경계부선암의 진단 및 표적 치료를 위한 마커
NZ555353A (en) TNF antagonists