ES2735993T3

ES2735993T3 - Métodos para predecir el resultado clínico del cáncer

Info

Publication number: ES2735993T3
Application number: ES10832289T
Authority: ES
Inventors: Joffre B Baker; Maureen T Cronin; Francois Collin; mei-lan Liu
Original assignee: Genomic Health Inc
Current assignee: Genomic Health Inc
Priority date: 2009-11-23
Filing date: 2010-11-19
Publication date: 2019-12-23
Anticipated expiration: 2030-11-19
Also published as: JP2022169647A; JP2021058207A; PL2504451T3; CA3043089A1; JP2022166064A; JP7823012B2; IL219051A; JP2016214245A; US20190241967A1; EP2504451B1; IL264072B; MX337650B; EP3556867A1; EP3739060A1; US20170211154A1; IL276487A; EP2504451A2; MX391499B; US20110123990A1; WO2011063274A3

Abstract

Un método para predecir el resultado clínico de un paciente diagnosticado con cáncer que comprende: (a) obtener un nivel de expresión de un producto de expresión de al menos un gen pronóstico a partir de una muestra de tejido obtenida de un tumor del paciente, en el que al menos un gen pronóstico es IL6ST; (b) normalizar el nivel de expresión del producto de expresión de al menos un gen pronóstico para obtener un nivel de expresión normalizado; (c) expresar el nivel de expresión normalizado como un valor de expresión comparado con un nivel de expresión de un conjunto de referencia tumoral; y (d) calcular una puntuación de riesgo basada en el valor de expresión normalizado, en el que el aumento de la expresión de IL6ST se correlaciona positivamente con un buen pronóstico.

Description

DESCRIPCIÓN

Métodos para predecir el resultado clínico del cáncer

INTRODUCCIÓN

Los oncólogos disponen de varias opciones de tratamiento, incluidas diferentes combinaciones de regímenes terapéuticos calificados como "tratamiento de referencia". El beneficio absoluto del tratamiento adyuvante es mayor en aquellos pacientes que presentan un mal pronóstico, y esto ha dado como resultado la política de seleccionar únicamente a los llamados pacientes "de alto riesgo" para la quimioterapia adyuvante. Véase, por ejemplo, S. Paik, et al., J Clin Oncol. 24(23):3726-34 (2006). Por consiguiente, la mayor probabilidad de obtener un buen resultado con el tratamiento requiere que se asigne a los pacientes el mejor tratamiento para el cáncer disponible, y que esta asignación se realice lo más rápido posible después del diagnóstico.

En el sistema de salud actual abundan las ineficiencias y el desperdicio de dinero. Un ejemplo de esto es que la tasa de eficacia de muchas terapias oncológicas funciona solamente aproximadamente el 25% de las veces. Muchos de los pacientes que padecen cáncer experimentan efectos secundarios tóxicos a causa de terapias costosas que pueden no funcionar. Este desequilibrio entre los altos costes del tratamiento y la baja eficacia terapéutica a menudo es consecuencia de tratar un diagnóstico específico de una única forma en una población de pacientes diversa. Esto está comenzando a cambiar con la llegada de las herramientas de perfiles genéticos, prueba genómica y diagnóstico avanzado.

En particular, una vez que se diagnostica cáncer de mama a la paciente, existe una gran necesidad de contar con métodos que permitan al médico predecir el transcurso esperado de la enfermedad, incluida la probabilidad de recidiva del cáncer, la supervivencia a largo plazo de la paciente, y similares, así como de seleccionar la opción de tratamiento más adecuada. Los factores pronóstico y de predicción aceptados en el cáncer de mama incluyen la edad, el tamaño del tumor, el estado de los ganglios linfáticos axilares, el tipo histológico del tumor, el grado patológico y el estado del receptor de hormonas. No obstante, se ha demostrado que con el diagnóstico molecular se identifican más pacientes con un riesgo bajo de cáncer de mama de las que se identificaban con los indicadores pronóstico estándar. S. Paik, The Oncologist 12(6):631-635 (2007).

A pesar de los últimos avances, el reto del tratamiento del cáncer de mama sigue dirigiéndose a regímenes de tratamiento específicos para tipos de tumores patógenamente diferentes y, en última instancia, la personalización del tratamiento del tumor para maximizar el resultado. La predicción precisa del pronóstico y el resultado clínico permitiría al oncólogo adaptar la administración de la quimioterapia adyuvante de forma que las mujeres con un riesgo más alto de recidiva o con un mal pronóstico reciban un tratamiento más agresivo. Asimismo, la estadificación precisa de pacientes basándose en el riesgo adelantaría enormemente la comprensión del beneficio absoluto esperado del tratamiento, lo que aumenta las tasas de éxito de los ensayos clínicos para nuevas terapias contra el cáncer de mama.

Actualmente, la mayoría de las pruebas de diagnóstico utilizadas en la práctica clínica no son cuantitativas, y se basan en la inmunohistoquímica (IHC). Este método habitualmente proporciona diferentes resultados en diferentes laboratorios, en parte debido a que los reactivos no están estandarizados, y en parte debido a que las interpretaciones son subjetivas y no pueden cuantificarse fácilmente. Otros diagnósticos moleculares basados en el ARN requieren tejidos recién congelados, lo que presenta múltiples desafíos, incluidas las incompatibilidades con las prácticas clínicas actuales y las regulaciones del transporte de muestras. El tejido fijado incorporado en parafina se encuentra más fácilmente disponible y se han establecido métodos para detectar el ARN en el tejido fijado. No obstante, estos métodos típicamente no permiten el estudio de una gran cantidad de genes (ADN o ARN) a partir de pequeñas cantidades de material. Por tanto, el tejido tradicionalmente fijado rara vez ha sido utilizado más que para la detección IHC de las proteínas.

Karczewska et al., Cancer, v 88, n.° 9, pág. 2061-2071,2000, investigan la expresión de IL6, IL6R e IL6ST en cáncer de mama.

RESUMEN

La presente invención se define en las reivindicaciones.

La presente invención proporciona un gen, IL6ST, cuyo nivel de expresión se asocian con un buen pronóstico en el cáncer de mama. El buen pronóstico asume que el paciente recibe el tratamiento de referencia. El resultado clínico puede definirse por criterios de valoración clínicos, tal como la supervivencia libre de enfermedad o recidiva, la supervivencia libre de metástasis, la supervivencia global, etc.

La presente invención comprende el uso de material de biopsia incorporado en parafina archivado para el ensayo del gen y, por lo tanto, es compatible con el tipo de material de biopsia más ampliamente disponible. Asimismo, es compatible con varios métodos diferentes de cosecha de tejido tumoral, por ejemplo, mediante la biopsia del núcleo o la aspiración con aguja fina. La muestra tisular puede comprender células cancerosas.

En un aspecto, la presente divulgación comprende un método para predecir el resultado clínico de un paciente que padece cáncer, que comprende (a) obtener un nivel de expresión de un producto de expresión (por ejemplo, una transcripción de ARN) de al menos un gen pronóstico enumerado en las Tablas 1-12 a partir de una muestra de tejido obtenida de un tumor del paciente; (b) normalizar el nivel de expresión del producto de expresión de al menos un gen pronóstico, para obtener un nivel de expresión normalizado; y (c) calcular una puntuación del riesgo basado en el valor de expresión normalizado, en el que el aumento en la expresión de los genes pronóstico en las Tablas 1, 3, 5 y 7 tiene una correlación positiva con un buen pronóstico, y en el que el aumento en la expresión de los genes pronóstico en las Tablas 2, 4, 6 y 8 se asocia de forma negativa con un buen pronóstico. En algunas formas de realización, el tumor es positivo a receptor de estrógenos. En otras formas de realización, el tumor es negativo a receptor de estrógenos.

En un aspecto, la presente divulgación proporciona un método para predecir el resultado clínico de un paciente que padece cáncer, que comprende (a) obtener un nivel de expresión de un producto de expresión (por ejemplo, una transcripción de ARN) de al menos un gen pronóstico de una muestra de tejido obtenida de un tumor del paciente, donde al menos un gen pronóstico se selecciona de GSTM2, IL6ST, GSTm 3, C8orf4, TNFRSF11B, NAT1, RUNX1, CSF1, ACTR2, LMNB1, TFRC, LAPTM4B, ENO1, CDC20, e IDH2; (b) normalizar el nivel de expresión del producto de expresión de al menos un gen pronóstico, para obtener un nivel de expresión normalizado; y (c) calcular una puntuación de riesgo basada en el valor de expresión normalizado, en el que el aumento en la expresión del gen pronóstico seleccionado de GSTM2, IL6ST, GSTM3, C8orf4, TNFRSF11B, NAT1, RUNX1, y CSF1 tiene una correlación positiva con un buen pronóstico, y en el que el aumento en la expresión del gen pronóstico seleccionado de ACTR2, LMNB1, TFRC, LAPTM4B, ENO1, CDC20, e IDH2 se asocia de forma negativa con un buen pronóstico. En algunas formas de realización, el tumor es positivo a receptor de estrógenos. En otras formas de realización, el tumor es negativo a receptor de estrógenos.

En varias formas de realización, se determina el nivel de expresión normalizado de al menos 2, o al menos 5, o al menos 10, o al menos 15, o al menos 20, o al menos 25 genes pronóstico (como se determina mediante el ensayo de un nivel de un producto de expresión del gen). En formas de realización alternativas, se obtienen los niveles de expresión normalizados de al menos uno de los genes que se coexpresan con los genes pronóstico en las Tablas 16-18.

En otra forma de realización, la puntuación de riesgo se determina mediante el uso de niveles de expresión normalizados de al menos un gen del grupo de receptor estromal o de transferrina, o un gen que se coexpresa con un gen del grupo de receptor estromal o de transferrina.

En otra forma de realización, el cáncer es cáncer de mama. En otra forma de realización, el paciente es un paciente humano.

En aún otra forma de realización, el cáncer es cáncer de mama ER positivo.

En aún otra forma de realización, el cáncer es cáncer de mama ER negativo.

En una forma de realización adicional, el producto de expresión comprende ARN. Por ejemplo, el ARN puede ser ARN exónico, ARN intrónico o ARN corto (por ejemplo, microARN, ARNsi, ARN pequeño asociado a promotor, ARNsh, etc.). En diversas formas de realización, el ARN es ARN fragmentado.

En un aspecto diferente, la invención se refiere a una matriz que comprende polinucleótidos que se hibridan con una transcripción de ARN de al menos uno de los genes pronóstico enumerados en las Tablas 1-12.

En aún un aspecto adicional, la invención se refiere a un método para preparar un perfil genómico personalizado para un paciente, que comprende (a) obtener un nivel de expresión de un producto de expresión (por ejemplo, una transcripción de a Rn ) de al menos un gen pronóstico enumerado en las Tablas 1-12 a partir de una muestra de tejido obtenida de un tumor del paciente; (b) normalizar el nivel de expresión del producto de expresión de al menos un gen pronóstico, para obtener un nivel de expresión normalizado; y (c) calcular una puntuación del riesgo basado en el valor de expresión normalizado, en el que el aumento en la expresión de los genes pronóstico en las Tablas 1, 3, 5 y 7 tiene una correlación positiva con un buen pronóstico, y en el que el aumento en la expresión de los genes pronóstico en las Tablas 2, 4, 6 y 8 se asocia de forma negativa con un buen pronóstico. En algunas formas de realización, el tumor es positivo al receptor de estrógenos, y en otras formas de realización el tumor es negativo al receptor de estrógenos.

En diversas formas de realización, el método objeto puede incluir además proporcionar un informe. El informe puede incluir la predicción de la probabilidad de riesgo de que el paciente tenga un resultado clínico particular.

La invención proporciona además un método implementado por ordenador para clasificar a un paciente de cáncer basándose en el riesgo de recidiva del cáncer, que comprende (a) clasificar, en un ordenador, dicho paciente según tenga un buen pronóstico o un mal pronóstico basándose en un perfil de expresión que comprende mediciones de los niveles de expresión de los productos de expresión de una pluralidad de genes pronóstico en una muestra tisular de tumor extraída del paciente, comprendiendo dicha pluralidad de genes al menos tres genes pronóstico diferentes enumerados en cualquiera de las Tablas 1-12, en el que un buen pronóstico predice que no habrá recidiva ni metástasis en un periodo predeterminado después del diagnóstico inicial, y en el que un mal pronóstico predice que habrá recidiva o metástasis en el periodo predeterminado después del diagnóstico inicial; y (b) calcular una puntuación de riesgo basándose en dichos niveles de expresión.

DESCRIPCIÓN DETALLADA DEFINICIONES

A menos que se defina de otro modo, los términos técnicos y científicos usados en el presente documento tienen el mismo significado que el entendido comúnmente por un experto en la técnica a la que pertenece esta invención. Singleton et al., Dictionary of Microbiology and Molecular Biology 2a ed., J. Wiley & Sons (New York, NY 1994), y March, Advanced Organic Chemistry Reactions, Mechanisms and Structure 4a ed., John Wiley & Sons (Nueva York, NY 1992), proporcionan a un experto en la técnica orientación general para muchos de los términos usados en la presente solicitud.

Un experto en la técnica reconocerá muchos métodos y materiales similares o equivalentes a los descritos en el presente documento, que podrían usarse en la práctica de la presente invención. De hecho, la presente invención no está limitada de ninguna manera a los métodos y materiales descritos. Para fines de la presente invención, a continuación, se definen los siguientes términos.

"Factores pronósticos" son las variables relacionadas con los antecedentes naturales del cáncer, que tienen influencia en las tasas de recidiva y en el resultado de los pacientes una vez que han desarrollado cáncer. Los parámetros clínicos que se han asociado con un peor pronóstico incluyen, por ejemplo, la implicación de ganglios linfáticos y los tumores de alto grado. Los factores pronósticos se utilizan frecuentemente para clasificar los pacientes en subgrupos con diferentes riesgos de recidiva de los valores de referencia.

El término "pronóstico" se utiliza en el presente documento para referirse a la predicción de la probabilidad de muerte o progresión atribuible al cáncer, incluida la recidiva, la metástasis y la resistencia a fármacos, de una enfermedad neoplásica, tal como cáncer de mama. El término "buen pronóstico" significa un resultado clínico deseado o "positivo". Por ejemplo, en el contexto del cáncer de mama, un buen pronóstico puede ser la expectativa de ninguna recidiva o metástasis dentro de los dos, tres, cuatro, cinco o más años a partir del diagnóstico inicial de cáncer de mama. El término "mal pronóstico" se utiliza en el presente documento para referirse a un resultado clínico no deseado. Por ejemplo, en el contexto del cáncer de mama, un mal pronóstico puede ser la expectativa de recidiva o metástasis dentro de los dos, tres, cuatro, cinco o más años a partir del diagnóstico inicial de cáncer de mama. El término "gen pronóstico" se utiliza en el presente documento para referirse a un gen, cuya expresión tiene una correlación positiva o negativa con un buen pronóstico para un paciente que padece cáncer tratado con un tratamiento de referencia. Un gen puede ser un tanto un gen pronóstico como predictivo, dependiendo de la correlación del nivel de expresión genética con el criterio de valoración correspondiente. Por ejemplo, mediante el uso de un modelo de riesgo proporcional de Cox, si un gen es únicamente pronóstico, su tasa de riesgo (HR) no cambia cuando se mide en pacientes tratados con el tratamiento de referencia o en pacientes tratados con una nueva intervención.

El término "gen predictivo" se utiliza en el presente documento para referirse a un gen, cuya expresión tiene una correlación positiva o negativa con respuesta a una respuesta beneficiosa al tratamiento. Por ejemplo, el tratamiento puede incluir quimioterapia.

Los términos "puntuación de riesgo" o "clasificación de riesgo" se utilizan de forma intercambiable en el presente documento para describir un nivel de riesgo (o probabilidad) de que un paciente experimente un resultado clínico particular. Un paciente puede clasificarse en un grupo de riesgo o clasificarse en un nivel de riesgo basándose en los métodos de la presente divulgación, por ejemplo, riesgo alto, medio o bajo. Un "grupo de riesgo" es un grupo de sujetos o individuos con un nivel similar de riesgo para un resultado clínico particular.

Un resultado clínico puede definirse mediante el uso de diferentes criterios de valoración. El término supervivencia "a largo plazo" se utiliza en el presente documento para referirse a la supervivencia durante un determinado periodo de tiempo, por ejemplo, durante al menos 3 años, más preferiblemente durante al menos 5 años. El término "supervivencia sin recidiva" (RFS) se utiliza en el presente documento para referirse a la supervivencia durante un periodo de tiempo (habitualmente en años) desde la aleatorización hasta una primera recidiva del cáncer o la muerte debido a la recidiva del cáncer. El término "supervivencia global" (OS) se utiliza en la presente para referirse al tiempo (en años) desde la aleatorización hasta la muerte por cualquier causa. El término "supervivencia sin enfermedad" (DFS) se utiliza en la presente para referirse a la supervivencia durante un periodo de tiempo (habitualmente en años) desde la aleatorización hasta una primera recidiva del cáncer o la muerte por cualquier causa.

El cálculo de las mediciones enumeradas anteriormente en la práctica puede variar de un estudio a otro en función de la definición de los eventos que se censurarán o que no se considerarán.

El término "biomarcador" como se utiliza en el presente documento, se refiere a un gen cuyo nivel de expresión se mide mediante el uso de un producto génico.

El término "micromatriz" se refiere a una disposición ordenada de elementos de matriz hibridables, preferiblemente sondas polinucleotídicas, sobre un sustrato.

Como se utiliza en el presente documento, el término "nivel de expresión normalizado" aplicado a un gen se refiere al nivel normalizado de un producto génico, por ejemplo, el valor normalizado determinado para el nivel de expresión de ARN de un gen o para el nivel de expresión del polipéptido de un gen.

El término "Ct" como se utiliza en el presente documento, se refiere al ciclo umbral, el número de ciclo en la reacción en cadena de la polimerasa cuantitativa (qPCR) en la que la fluorescencia generada dentro de un pocillo de reacción excede el umbral definido, es decir, el punto durante la reacción en el que se acumuló un número suficiente de amplicones para alcanzar el umbral definido.

Los términos "producto génico" o "producto de expresión" se utilizan en el presente documento para referirse a los productos de transcripción de a Rn (transcritos) del gen, incluido ARNm, y los productos de traducción del polipéptido de dichos transcritos de ARN. Un producto génico puede ser, por ejemplo, un ARN sin corte y empalme, un ARNm, un ARNm de variante de corte y empalme, un microARN, un ARN fragmentado, un polipéptido, un polipéptido modificado postraduccionalmente, un polipéptido con variante de corte y empalme, etc.

El término "transcripción de ARN" como se utiliza en el presente documento, se refiere a los productos de transcripción de ARN de un gen, incluido, por ejemplo, ARNm, ARN sin corte y empalme, ARNm con variante de corte y empalme, un microARN y un a Rn fragmentado. "ARN fragmentado" como se utiliza en el presente documento, se refiere a ARN, una mezcla de ARN intacto y ARN que se ha degradado como resultado del procesamiento de la muestra (por ejemplo, fijación, bloques tisulares de corte y empalme, etc.).

A menos que se indique otra cosa, cada nombre de gen utilizado en el presente documento corresponde al símbolo oficial asignado al gen y proporcionado por Entrez Gene (URL: www.ncbi.nlm.nih.gov/sites/entrez) desde la fecha de presentación de esta solicitud.

Los términos "correlacionado" y "asociado" se utilizan de forma intercambiable en el presente documento para referirse a una fuerza de asociación entre dos mediciones (o entidades medidas). La divulgación proporciona genes y subconjuntos de genes cuyos niveles de expresión se asocian con una medición de resultado particular. Por ejemplo, el aumento en el nivel de expresión de un gen puede correlacionarse positivamente (asociarse positivamente) con un aumento en la probabilidad de un resultado clínico bueno para el paciente, tal como un aumento de la probabilidad de supervivencia a largo plazo sin recidiva del cáncer y/o supervivencia sin metástasis. Tal correlación positiva puede demostrarse estadísticamente de diversas formas, por ejemplo, mediante una tasa de riesgo baja (por ejemplo, HR <1,0). En otro ejemplo, el aumento en el nivel de expresión de un gen puede correlacionarse negativamente (asociarse negativamente) con un aumento en la probabilidad de un resultado clínico bueno para el paciente. En ese caso, por ejemplo, el paciente puede presentar una disminución en la probabilidad de supervivencia a largo plazo sin recidiva del cáncer y/o metástasis del cáncer y similares. Tal correlación negativa indica que el paciente probablemente tiene un mal pronóstico, por ejemplo, una tasa de riesgo alta (por ejemplo, HR >1,0). "Correlacionado" se utiliza también en el presente documento para referirse a la fuerza de asociación entre los niveles de expresión de dos genes diferentes, de forma que el nivel de expresión de un primer gen puede sustituirse con un nivel de expresión de un segundo gen en un algoritmo dado en vista de su correlación de expresión. Dicha "expresión correlacionada" de dos genes que son sustituibles en un algoritmo, habitualmente niveles de expresión génica que se correlacionan positivamente entre sí, por ejemplo, si el aumento en la expresión de un primer gen se correlaciona positivamente con un resultado (por ejemplo, aumento de la probabilidad de un resultado clínico bueno), entonces el segundo gen que se coexpresa y presenta una expresión correlacionada con el primer gen, se relaciona también positivamente con el mismo resultado.

El término "recidiva", como se utiliza en el presente documento, se refiere a la recidiva local o distante (metástasis) del cáncer. Por ejemplo, el cáncer de mama puede volver como una recidiva local (en el seno tratado o cerca del sitio quirúrgico del tumor) o como una recidiva distante en el cuerpo. Los sitios más comunes de recidiva de cáncer de mama son los ganglios linfáticos, los huesos, el hígado y los pulmones.

El término "polinucleótido", cuando se usa en el singular o plural, se refiere generalmente a cualquier polirribonucleótido o polidesoxirribonucleótido, que puede ser ARN o ADN no modificado o ARN o ADN modificado. Por lo tanto, por ejemplo, los polinucleótidos como se definen en el presente documento incluyen, sin limitación, ADN mono y bicatenario, ADN que incluye regiones mono y bicatenarias, ARN mono y bicatenario, y ARN que incluye regiones mono y bicatenarias, moléculas híbridas que comprenden ADN y ARN que pueden ser monocatenarios o, más típicamente, bicatenarios o incluyen regiones mono y bicatenarias. Además, el término "polinudeótido" como se usa en el presente documento se refiere a regiones tricatenarias que comprenden ARN o ADN o tanto ARN como ADN. Las cadenas en tales regiones pueden ser de la misma molécula o de moléculas diferentes. Las regiones pueden incluir la totalidad de una o más de las moléculas, pero más típicamente implican solo una región de algunas de las moléculas. Con frecuencia, una de las moléculas de una región de triple hélice es un oligonucleótido. El término "polinucleótido" incluye específicamente ADNc. El término incluye ADN (incluyendo ADNc) y ARN que contienen una o más bases modificadas. Por lo tanto, los ADN o ARN con esqueletos modificados por estabilidad o por otros motivos, son "polinucleótidos" como está previsto ese término en el presente documento. Además, dentro del término "polinucleótidos" como se define en el presente documento, se incluyen ADN o ARN que comprenden bases no habituales, tales como inosina, o bases modificadas, tales como bases tritiadas. En general, el término "polinucleótido" abarca todas las formas, química, enzimática y/o metabólicamente modificadas de polinucleótidos no modificados; así como las formas químicas de ADN y ARN característicos de virus y células, incluyendo células simples y complejas.

El término "oligonucleótido" se refiere a un polinucleótido relativamente corto, incluyendo, sin limitación, desoxirribonucleótidos monocatenarios, ribonucleótidos mono o bicatenarios, híbridos ARN:ADn y ADN bicatenarios. Con frecuencia los oligonucleótidos, tales como oligonucleótidos de sondas de ADN monocatenarios, se sintetizan mediante métodos químicos, por ejemplo, usando sintetizadores de oligonucleótidos automatizados que están disponibles en el mercado. Sin embargo, pueden prepararse oligonucleótidos mediante una diversidad de métodos diferentes, incluyendo técnicas mediadas por ADN recombinante in vitro y mediante la expresión de ADN en células y organismos.

La expresión "amplificación" se refiere a un proceso mediante el cual se forman múltiples copias de un gen o transcrito de ARN en una muestra o línea celular particular. Con frecuencia la región duplicada (un tramo de ADN amplificado) se denomina "amplicón". Habitualmente, la cantidad del ARN mensajero (ARNm) producido, es decir, el nivel de expresión génica, también aumenta en la proporción del número de copias realizadas del gen particular expresado.

El término "receptor de estrógeno (ER)" designa el estado del receptor de estrógeno de un paciente que padece cáncer. Un tumor es ER positivo si hay un número significativo de receptores de estrógeno en las células cancerosas, mientras que ER negativo indica que las células no tienen un número significativo de receptores. La definición de "significativo" varía de un sitio y método de prueba a otro (por ejemplo, inmunohistoquímica, PCR). El estado de ER de un paciente de cáncer puede evaluarse a través de diversos medios conocidos. Por ejemplo, el nivel de ER de cáncer de mama se determina mediante la medición de un nivel de expresión de un gen que codifica el receptor de estrógeno en una muestra de tumor de mama obtenida de un paciente.

El término "tumor", como se usa en el presente documento, se refiere a todo crecimiento y proliferación de células neoplásicas, ya sean malignas o benignas, y todas las células y tejidos precancerosos y cancerosos.

Los términos "cáncer" y "canceroso" se refieren a o describen la afección fisiológica en mamíferos que se caracteriza típicamente por un crecimiento celular no regulado. Los ejemplos de cáncer incluyen, pero sin limitación, cáncer de mama, cáncer de ovario, cáncer de colon, cáncer de pulmón, cáncer de próstata, cáncer hepatocelular, cáncer gástrico, cáncer de páncreas, cáncer de cuello del útero, cáncer de hígado, cáncer de vejiga, cáncer de las vías urinarias, cáncer de tiroides, cáncer renal, carcinoma, melanoma y cáncer de cerebro.

El subgrupo de genes identificado en el presente documento como el "grupo estromal" incluye genes que se sintetizan predominantemente mediante células estromales y se encuentran implicados en la respuesta estromal y genes que se coexpresan con genes del grupo estromal. Las "células estromales" se definen en el presente documento como las células de tejido conjuntivo que forman la estructura de soporte de los tejidos biológicos. Las células estromales incluyen fibroblastos, células inmunitarias, pericitos, células endoteliales y células inflamatorias. "Respuesta estromal" se refiere a la respuesta desmoplásica de los tejidos huésped en el sitio de un tumor primario o invasión. Véase, por ejemplo, E. Rubin, J. Farber, Pathology, 985-986 (2a Ed. 1994). El grupo estromal incluye, por ejemplo, CDH11, TAGLN, ITGA4, INHBA, COLIA1, COLIA2, FN1, CXCL14, TNFRSF1, CXCL12, C10ORF116, RUNX1, GSTM2, TGFB3, CAVI, DLC1, TNFRSF10, F3, y DICER1, y genes coexpresados identificados en las Tablas 16-18.

El subconjunto de genes identificado en el presente documento como el "grupo metabólico" incluye genes que se asocian con el metabolismo celular, incluidos genes asociados con las proteínas transportadoras para transferir el hierro, la ruta de homeostasis celular del hierro y las rutas metabólicas bioquímicas homeostáticas, y los genes que se coexpresan con los genes del grupo metabólico. El grupo metabólico incluye, por ejemplo, TFRC, ENO1, IDH2, ARF1, CLDN4, PRDX1, y GBP1, y los genes coexpresados identificados en las Tablas 16-18.

El subconjunto de genes identificado en el presente documento como el "grupo inmune" incluye genes que están implicados en las funciones celulares inmunorreguladoras, tales como el tráfico de linfocitos T y B, marcadores de linfocitos o asociados a linfocitos, y genes de regulación de interferón y genes que se coexpresan con los genes del grupo inmune. El grupo inmune incluye, por ejemplo, CCL19 e IRF1, y los genes coexpresados identificados en las Tablas 16-18.

El subconjunto de genes identificado en el presente documento como el "grupo de proliferación" incluye genes que se asocian con el desarrollo y la división celular, el ciclo celular y la regulación mitótica, la angiogénesis, la replicación celular, el transporte/estabilidad nuclear, la señalización de wnt, la apoptosis, y los genes que se coexpresan con los genes del grupo de proliferación. El grupo de proliferación incluye, por ejemplo, PGF, SPC25, AURKA, BIRC5, BUB1, CCNB1, CENPA, KPNA, LMNB1, MCM2, MELK, NDC80, TPX2M, y WISP1, y los genes coexpresados identificados en las Tablas 16-18.

El término "coexpresado", como se utiliza en el presente documento, se refiere a la correlación estadística entre el nivel de expresión de un gen y el nivel de expresión de otro gen. La coexpresión en pares puede calcularse a través de diversos métodos conocidos en la técnica, por ejemplo, mediante el cálculo de los coeficientes de correlación de Pearson o los coeficientes de correlación de Spearman. Los grupos de genes coexpresados también pueden identificarse mediante el uso de una teoría gráfica.

Como se utilizan en el presente documento, los términos "grupo de genes" y "grupo" se refieren a una subgráfica de una gráfica en la que todos los vértices se conectan por una arista a todos los demás vértices de la subgráfica. Como se utiliza en el presente documento, un "grupo máximo" es un grupo donde no puede añadirse ningún otro vértice y aún es un grupo.

La "patología" de cáncer incluye todos los fenómenos que comprometen el bienestar del paciente. Esto incluye, sin limitación, crecimiento celular anormal o incontrolable, metástasis, interferencia con el funcionamiento normal de las células adyacentes, liberación de citocinas u otros productos secretores a niveles anormales, supresión o agravamiento de respuesta inflamatoria o inmunológica, neoplasia, premalignidad, malignidad, invasión de tejidos u órganos circundantes o distantes, tal como ganglios linfáticos, etc.

Un "sistema informático" se refiere a un sistema de hardware, software y medio de almacenamiento de datos utilizado para analizar información. El hardware mínimo de un sistema informático de un paciente comprende una unidad central de procesamiento (CPU) y un hardware para la entrada de datos, la salida de datos (por ejemplo, pantalla) y el almacenamiento de datos. El experto en la técnica podrá apreciar fácilmente que cualquier sistema informático disponible en la actualidad y/o sus componentes son adecuados para su uso en relación con los métodos de la presente divulgación. El medio de almacenamiento de datos puede comprender cualquier producto que comprenda un registro de la presente información como se describe anteriormente, o un dispositivo de acceso de memoria que pueda acceder al producto.

"Registrar" datos, programas u otra información en un medio legible por ordenador se refiere a un proceso para almacenar información usando cualquier método conocido en la técnica. Puede elegirse cualquier estructura de almacenamiento de datos conveniente, basándose en los medios utilizados para acceder a la información almacenada. Puede utilizarse una diversidad de programas y formatos de procesamiento de datos para el almacenamiento, por ejemplo, archivo de texto de procesamiento de palabras, formato de base de datos, etc.

Un "procesador" o "medio informático" hace referencia a cualquier combinación de hardware y/o software que realizará las funciones requeridas. Por ejemplo, un procesador adecuado puede ser un microprocesador digital programable tal como los que se encuentran disponibles en forma de controlador electrónico, unidad central, servidor u ordenador personal (de escritorio o portátil). Cuando el procesador es programable, la programación adecuada puede comunicarse desde una ubicación remota al procesador o guardarse previamente en un producto de programa informático (tal como un medio de almacenamiento legible por ordenador portátil o fijo, basado en un dispositivo magnético, óptico o en estado sólido). Por ejemplo, un medio magnético o disco óptico' puede llevar a cabo la programación y puede leerse mediante un lector adecuado que se comunica con cada procesador en su estación correspondiente.

Como se utiliza en el presente documento, "teoría gráfica" se refiere a un campo de estudio de la informática y las matemáticas en el que las situaciones se representan por un diagrama que contiene un grupo de puntos y líneas que conectan algunos de esos puntos. El diagrama se denomina "gráfica" y los puntos y líneas se denominan "vértices" y "aristas" de la gráfica. En términos de análisis de coexpresión génica, un gen (o su identificador equivalente, por ejemplo, una sonda de ensayo) puede representarse como un nodo o vértice en la gráfica. Si las medidas de similitud (por ejemplo, coeficiente de correlación, información mutua y expectativas condicionales alternativas) entre dos genes son mayores que un umbral significativo, se dice que los dos genes se coexpresan y se dibujará una arista en la gráfica. Una vez dibujadas las aristas coexpresadas para todos los pares de genes posibles para un determinado estudio, se computan todos los grupos máximos. El grupo máximo resultante se define como un grupo de genes. Un grupo de genes es un grupo de genes coexpresados computado que cumple con los criterios predefinidos.

La "rigurosidad" de las reacciones de hibridación puede determinarse fácilmente por un experto en la técnica, y generalmente es un cálculo empírico dependiendo de la longitud de la sonda, la temperatura de lavado, y la concentración de sal. En general, las sondas más largas necesitan temperaturas mayores para una hibridación apropiada, mientras que las sondas más cortas necesitan temperaturas inferiores.

La hibridación depende generalmente de la capacidad del ADN desnaturalizado para rehibridarse cuando están presentes cadenas complementarias en un entorno por debajo de su temperatura de fusión. Cuanto mayor sea el grado de homología deseada entre la sonda y la secuencia hibridable, mayor será la temperatura relativa que puede usarse. Como resultado, se deduce que las temperaturas relativas mayores tenderán a hacer que las condiciones de reacción sean más rigurosas, mientras que sean menos rigurosas a menores temperaturas. Para obtener detalles adicionales y explicaciones de la rigurosidad de las reacciones de hibridación, véase Ausubel et al., Current Protocols in Molecular Biology, Wiley Interscience Publishers, (1995).

"Condiciones rigurosas" o "condiciones de alta rigurosidad", como se definen en el presente documento, típicamente: (1) emplean baja fuerza iónica y alta temperatura para el lavado, por ejemplo, cloruro sódico 0,015 M/citrato sódico 0,0015 M/dodecilsulfato sódico al 0,1% a 50°C; (2) emplean, durante la hibridación, un agente desnaturalizante, tal como formamida, por ejemplo, formamida al 50% (v/v) con albúmina sérica bovina al 0,1%/Ficoll al 0,1%/polivinilpirrolidona al 0,1%/tampón de fosfato sódico 50 mM a pH 6,5 con cloruro sódico 750 mM, citrato sódico 75 mM a 42°C; o (3) emplean formamida al 50%, 5 x SSC (NaCI 0,75 M, citrato sódico 0,075 M), fosfato sódico 50 mM (pH 6,8), pirofosfato sódico al 0,1%, 5 x solución de Denhardt, ADN de esperma de salmón sonicado (50 pg/ml), SDS al 0,1%, y sulfato de dextrano al 10% a 42°C, con lavados a 42°C en 0,2 x SSC (cloruro sódico/citrato sódico) y formamida al 50% a 55°C, seguido de un lavado de alta rigurosidad que consiste en 0,1 x SSC que contiene EDTA a 55°C.

Las "condiciones moderadamente rigorosas" pueden identificarse como se describe por Sambrook et al., Molecular Cloning: A Laboratory Manual, Nueva York: Cold Spring Harbor Press, 1989, e incluyen el uso de una solución de lavado y condiciones de hibridación (por ejemplo, temperatura, fuerza iónica y % de SDS) menos rigurosas que las descritas anteriormente. Un ejemplo de condiciones moderadamente rigurosas es una incubación durante una noche a 37°C en una solución que comprende: formamida al 20%, 5 x SSC (NaCl 150 mM, citrato trisódico 15 mM), fosfato sódico 50 mM (pH 7,6), solución 5 x de Denhardt, sulfato de dextrano al 10%, y 20 mg/ml de ADN de esperma de salmón cizallado desnaturalizado, seguido de un lavado de los filtros en 1 x SSC a aproximadamente 37-50°C. Los expertos en la técnica sabrán cómo ajustar la temperatura, la fuerza iónica, etc. como sea necesario para incluir factores tales como la longitud de sonda, y similares.

En el contexto de la presente invención, la referencia a "al menos uno", "al menos dos", "al menos cinco", etc. de los genes enumerados en cualquier conjunto de genes particular significa uno cualquiera o todas y cada una de las combinaciones de los genes enumerados.

El término cáncer "de ganglios negativos", tal como cáncer de mama "de ganglios negativos", se usa en el presente documento para hacer referencia a cáncer que no se ha propagado a los ganglios linfáticos.

Los términos "corte y empalme" y "corte y empalme de ARN" se usan de manera intercambiable y se refieren a procesamiento de ^aRⁿque elimina intrones y une exones para producir ARNm maduro con secuencia codificante continua que se mueve hacia el citoplasma de una célula eucariota.

En teoría, el término "exón" se refiere a cualquier segmento de un gen interrumpido que está representado en el producto de ARN maduro (B. Lewin. Genes IV Cell Press, Cambridge Mass. 1990). En teoría el término "intrón" se refiere a cualquier segmento de ADN que se transcribe, pero se elimina del interior del transcrito mediante corte y empalme junto con los exones a ambos lados del mismo.

Operativamente, se producen secuencias de exones en la secuencia de ARNm de un gen como se define por los números de SEQ iD de referencia. Operativamente, las secuencias de intrones son las secuencias intermedias dentro del ADN genómico de un gen, intercaladas entre secuencias de exones y que tienen secuencias consenso de corte y empalme GT y AG en sus límites 5' y 3'.

ENSAYO DE EXPRESIÓN GÉNICA

La presente divulgación proporciona métodos que emplean, a menos que se indique otra cosa, técnicas convencionales de biología molecular (incluyendo técnicas recombinantes), microbiología, biología celular, y bioquímica, que están dentro de las habilidades de la técnica. Dichas técnicas se ilustran completamente en la bibliografía, tal como, "Molecular Cloning: A Laboratory Manual", 2a edición (Sambrook et al., 1989); "Oligonucleotide Synthesis" (M.J. Gait, ed., 1984); "Animal Cell Culture" (R.I. Freshney, ed., 1987); "Methods in Enzymology" (Academic Press, Inc.); "Handbook of Experimental Immunology", 4a edición (D.M. Weir & C.C. Blackwell, eds., Blackwell Science Inc., 1987); "Gene Transfer Vectors for Mammalian Cells" (J.M. Miller & M.P. Calos, eds., 1987); "Current Protocols in Molecular Biology" (F.M. Ausubel et al., eds., 1987); y "PCR: The Polymerase Chain Reaction", (Mullis et al., eds., 1994).

1. Obtención del perfil de la expresión génica

Los métodos de obtención del perfil de expresión génica incluyen métodos basados en análisis de hibridación de polinucleótidos, métodos basados en secuenciación de polinucleótidos y métodos basados en proteómica. Los métodos más comúnmente usados conocidos en la técnica para la cuantificación de la expresión de ARNm en una muestra incluyen transferencia de tipo Northern e hibridación in situ (Parker & Barnes, Methods in Molecular Biology 106:247-283 (1999)); ensayos de protección de ARNsa (Hod, Biotechniques 13:852-854 (1992)); y métodos basados en PCR, tal como reacción en cadena de la polimerasa con transcripción inversa (RT-PCR) (Weis et al., Trends in Genetics 8:263-264 (1992)). Como alternativa, pueden emplearse anticuerpos que pueden reconocer dúplex específicos, incluyendo dúplex de ADN, dúplex de ARN y dúplex híbridos de ADN-ARN o dúplex de ADN-proteína.

2. Métodos de obtención del perfil de expresión génica basados en PCR

a. PCR de transcriptasa inversa (RT-PCR)

De las técnicas enumeradas anteriormente, el método cuantitativo más sensible y más flexible es la RT-PCR, que puede usarse para comparar niveles de ARNm en diferentes poblaciones de muestras, en tejidos normales y tumorales, con o sin tratamiento farmacológico, para caracterizar patrones de expresión génica, para distinguir entre ARNm estrechamente relacionados y para analizar la estructura del ARN.

La primera etapa es el aislamiento de ARNm de una muestra diana. El material de partida es típicamente ARN total aislado de tumores o líneas celulares tumorales humanos, y tejidos o líneas celulares normales correspondientes, respectivamente. Por lo tanto, puede aislarse ARN de una diversidad de tumores primarios, incluyendo tumor, o líneas celulares tumorales de mama, pulmón, colon, próstata, cerebro, hígado, riñón, páncreas, bazo, timo, testículos, ovario, útero, etc., con ADN combinado de donantes sanos. Si la fuente de ARNm es un tumor primario, puede extraerse ARNm, por ejemplo, de muestras de tejido incluidas en parafina congeladas o archivadas, y fijadas (por ejemplo, fijadas en formalina).

Los métodos generales para la extracción de ARNm se conocen bien en la técnica y se describen en libros de texto estándar de biología molecular, incluyendo Ausubel et al., Current Protocols of Molecular Biology, John Wiley and Sons (1997). Los métodos para la extracción de ARN a partir de tejidos incluidos en parafina se describen, por ejemplo, en Rupp y Locker, Lab Invest. 56:A67 (1987), u De Andres et al, BioTechniques 18:42044 (1995). En particular, el aislamiento de ARN puede realizarse usando un kit de purificación, un conjunto de tampón, y proteasa de fabricantes comerciales, tal como Qiagen, de acuerdo con las instrucciones del fabricante. Por ejemplo, puede aislarse ARN total a partir de células en cultivo usando mini-columnas RNeasy de Qiagen. Otros kits de aislamiento de ARN disponibles en el mercado incluyen el kit de purificación de ADN y ARN completo MasterPure™ (EPICENTRE®, Madison, WI) y el kit de aislamiento de ARN de bloque de parafina (Ambion, Inc.). Puede aislarse el ARN total de muestras de tejido usando RNA Stat-60 (Tel-Test). El ARN preparado a partir del tumor se puede aislar, por ejemplo, mediante centrifugación en gradiente de densidad de cloruro de cesio.

En algunos casos, puede ser adecuado amplificar el ARN antes de iniciar la obtención del perfil de expresión. A menudo sucede que solamente cantidades muy limitadas de especimenes clínicos valiosos se encuentran disponibles para el análisis molecular. Esto puede deberse a que los tejidos ya fueron utilizados para otros análisis de laboratorio o a que el espécimen original es muy pequeño, como en el caso de la biopsia con aguja o tumores primarios muy pequeños. Cuando el tejido se limita en cantidad generalmente también se da el caso de que solamente pueden recuperarse pequeñas cantidades del ARN total del espécimen y como resultado solo puede analizarse un número limitado de marcadores genómicos en el espécimen. La amplificación del ARN compensa esta limitación mediante la reproducción fiel de la muestra de ARN original como una cantidad mucho mayor de ARN de la misma composición relativa. Mediante el uso de esta copia amplificada del espécimen de ARN original, puede llevarse a cabo un análisis genómico ilimitado para descubrir biomarcadores asociados con las características clínicas de la muestra biológica original. Esto inmortaliza de forma eficaz los especimenes de estudio clínico para el análisis genómico y el descubrimiento de biomarcadores.

Dado que el ARN no puede servir como plantilla para la PCR, la primera etapa en la obtención del perfil de expresión génica mediante RT-PCR en tiempo real (RT-PCR) es la transcripción inversa de la plantilla de ARN en ADNc, seguido de su amplificación exponencial en una reacción de PCR. Las dos transcriptasas inversas usada más comúnmente son la transcriptasa inversa del virus de mieloblastosis aviar (AMV-RT) y la transcriptasa inversa del virus de leucemia murina de Moloney (MMLV-RT). La etapa de transcripción inversa se ceba típicamente usando cebadores específicos, hexámeros aleatorios, o cebadores oligo-dT, dependiendo de las circunstancias y el resultado del perfilado de la expresión. Por ejemplo, el ARN extraído puede transcribirse inversamente usando un kit de PCR de a Rn GeneAmp (Perkin Elmer, CA, Estados Unidos), siguiendo las instrucciones del fabricante. El ADNc derivado puede usarse entonces como una plantilla en la posterior reacción por PCR. Para más detalles, véase, por ejemplo, Held et al, Genome Research 6:986-994 (1996).

Aunque la etapa de PCR puede usar una diversidad de ADN polimerasas dependientes de ADN termoestables, típicamente emplea la Taq ADN polimerasa, que tiene una actividad de 5'-3' nucleasa aunque carece de una actividad de 3'-5' endonucleasa de corrección. Por lo tanto, la PCR TaqMan® utiliza normalmente la actividad nucleasa en 5' de polimerasa de Taq o Tth para hidrolizar una sonda de hibridación unida a su amplicón diana, pero puede usarse cualquier enzima con actividad nucleasa en 5' equivalente. Se usan dos cebadores de oligonucléotidos para generar un amplicón típico de una reacción de pCr . Un tercer oligonucleótido, o sonda, se diseña para detectar la secuencia de nucleótidos situada entre los dos cebadores de PCR. La sonda no es extensible por la enzima Taq ADN polimerasa, y está marcada con un tinte fluorescente indicador y un tinte fluorescente inactivador. Cualquier emisión inducida por láser desde el tinte indicador se inactiva por el tinte inactivador cuando los dos tintes están situados cerca ya que están en la sonda. Durante la reacción de amplificación, la enzima Taq ADN polimerasa escinde la sonda de una manera dependiente de la plantilla. Los fragmentos de sonda resultantes se disocian en solución, y la señal procedente del tinte indicador liberado está libre del efecto de inactivación del segundo fluoróforo. Una molécula de tinte indicador se libera por cada nueva molécula sintetizada, y la detección del tinte indicador no inactivado proporciona la base para la interpretación cuantitativa de los datos.

La RT-PCR TaqMan® puede realizarse usando un equipo disponible en el mercado, tal como, por ejemplo, ABI PRISM 7900® Sequence Detection System™ (Perkin- Elmer- Applied Biosystems, Foster City, cA, EE.UU.), o un sistema de PCR en tiempo real LightCycler® 480 (Roche Diagnostics, GmbH, Penzberg, Alemania). En una forma de realización preferida, el procedimiento de nucleasa en 5' se realiza en un dispositivo de PCR cuantitativa en tiempo real tal como el ABI PRISM 7900® Sequence Detection System™. El sistema consiste en un termociclador, láser, dispositivo de carga acoplada (CCD), cámara y ordenador. El sistema amplifica las muestras en un formato de 384 pocillos en un termociclador. Durante la amplificación, la señal fluorescente inducida por láser se recoge en tiempo real a través de cables de fibra óptica para los 384 pocillos, y se detecta en el CCD. El sistema incluye software para hacer funcionar el instrumento y para analizar los datos.

Los datos del ensayo de 5' nucleasa se expresan inicialmente como Ct, o el ciclo umbral. Como se ha analizado anteriormente, los valores de fluorescencia se registran durante cada ciclo y representan la cantidad de producto amplificado en ese punto en la reacción de amplificación. El punto en el que la señal fluorescente se registra en primer lugar como estadísticamente significativa es el ciclo umbral (Ct).

Para minimizar errores y el efecto de la variación de muestra a muestra, la RT-PCR se realiza habitualmente usando un patrón interno. El patrón interno ideal se expresa a un nivel constante entre diferentes tejidos y no se ve afectado por el tratamiento experimental. Los ARN usados con mayor frecuencia para normalizar patrones de expresión génica son ARNm para los genes de mantenimiento gliceraldehído-3-fosfato-deshidrogenasa (GAPDH) y p-actina. Las etapas de un protocolo representativo para perfilar la expresión génica usando tejidos fijos incluidos en parafina como la fuente de ARN, incluyendo el aislamiento, la purificación, la extensión del cebador y la amplificación del ARNm se dan en diversos artículos publicados. M. Cronin, Am J Pathol 164(l):35-42 (2004). Brevemente, un proceso representativo comienza con el corte de secciones de aproximadamente 10 pm de espesor de muestras de tejido tumoral incluidas en parafina. Después, se extrae el ARN y se eliminan la proteína y el ADN. Después del análisis de la concentración de ARN, se pueden incluir etapas de reparación y/o amplificación de ARN, si es necesario, y el ARN se transcribe de forma inversa usando cebadores específicos de genes seguido de RT-PCR.

b. Diseño de cebadores y sondas de PCR basados en intrones

Los cebadores y sondas de PCR pueden diseñarse sobre la base de las secuencias de exones e intrones presentes en la transcripción de ARNm del gen de interés. Antes de llevar a cabo el diseño del cebador/sonda, es necesario trazar la secuencia de genes diana al ensamblaje de genoma humano para identificar los límites intrón-exón y la estructura general de los genes. Esto puede realizarse mediante el uso de software disponible públicamente, tal como Primer3 (Whitehead Inst.) y Primer Express® (Applied Biosystems).

Cuando sea necesario o deseable, las secuencias repetitivas de la secuencia diana pueden enmascararse para mitigar señales no específicas. Las herramientas ejemplares para llevar a cabo esto incluyen el programa Repeat Masker disponible en línea a través del Baylor College of Medicine, que criba las secuencias de ADN contra una biblioteca de elementos repetitivos y devuelve una secuencia pregunta en la que los elementos repetitivos están enmascarados. Las secuencias enmascaradas de intrón y exón pueden usarse entonces para diseñar las secuencias de cebador y sonda para los sitios diana deseados usando cualquier paquete de diseño de cebadores/sondas disponible en el mercado o públicamente de otra forma, tal como Primer Express (Applied Biosystems); ensayo por diseño MGB (Applied Biosystems); Primer3 (Steve Rozen y Helen J. Skaletsky (2000) Primer3 en WWW para usuarios generales y para programadores biólogos. En: Rrawetz S, Misener S (eds) Bioinformatics Methods and Protocols: Methods in Molecular Biology. Humana Press, Totowa, NJ, págs. 365-386). Otros factores que pueden incluir en el diseño de cebadores de PCR incluyen longitud de cebador, temperatura de fusión (Tf), y contenido de G/C, especificidad, secuencias de cebador complementario, y secuencia final 3'. En general, los cebadores de PCR óptimos tienen generalmente 17-30 bases de longitud y contienen aproximadamente el 20-80%, tal como, por ejemplo, aproximadamente el 50-60% de bases G+C, y presentan Tm entre 50 y 80°C, por ejemplo, de aproximadamente 50 a 70°C.

Para obtener directrices adicionales para el diseño de cebadores y sondas de PCR véase, por ejemplo, Dieffenbach, CW. et al, "General Concepts for PCR Primer Design" en: PCR Primer, A Laboratory Manual, Cold Spring Harbor Laboratory Press, Nueva York, 1995, págs. 133-155; Innis y Gelfand, "Optimization of PCRs" in: PCR Protocols, A Guide to Methods and Applications, CRC Press, Londres, 1994, págs. 5-11; y Plasterer, T.N. Primerselect: Primer and probe design. Methods Mol. Biol. 70:520-527 (1997).

La Tabla A proporciona información adicional con respecto de las secuencias del cebador, la sonda y el amplicón asociadas con los Ejemplos divulgados en el presente documento.

c. Sistema MassARRAY

En el método de obtención del perfil de expresión génica basado en MassARRAY, desarrollado por Sequenom, Inc. (San Diego, CA) tras el aislamiento de ARN y la transcripción inversa, el ADNc obtenido se enriquece con una molécula de ADN sintético (competidor), que se corresponde con la región de ADNc seleccionada como diana en todas las posiciones, excepto en una única base, y sirve como patrón interno. Se amplifica mediante PCR la mezcla de ADNc/competidor y se somete a un tratamiento con enzima fosfatasa alcalina de gamba (SAP) tras la PCR, que da como resultado la desfosforilación de los nucleótidos restantes. Tras la inactivación de la fosfatasa alcalina, los productos de PCR del competidor y el ADNc se someten a extensión por cebador, que genera señales de masa diferenciadas para los productos de PCR derivados de competidor y de ADNc. Después de la purificación, estos productos se dispensan en una matriz en chip, que está precargado con los componentes necesarios para el análisis con análisis de espectrometría de masas de tiempo de vuelo con ionización por desorción láser asistida por matriz (MALDI-TOF MS). El ADNc presente en la reacción se cuantifica entonces analizando las relaciones de las áreas de pico en el espectro de masas generado. Para detalles adicionales véase, por ejemplo, Ding y Cantor, Proc. Natl. Acad. Sci. USA 100:3059-3064 (2003).

c. Otros métodos basados en PCR

Las técnicas basadas en PCR adicionales incluyen, por ejemplo, presentación diferencial (Liang y Pardee, Science 257:967-971 (1992)); polimorfismo de longitud de fragmentos amplificados (iAFLP) (Kawamoto et al., Genome Res.

12:1305-1312 (1999)); tecnología BeadArray™(Illumina, San Diego, CA; Oliphant et al., Discovery of Markers for Disease (complemento de Biotechniques), junio de 2002; Ferguson et al., Analytical Chemistry 72:5618 (2000)); BeadsArray para la detección de la expresión génica (BADGE), usando el sistema Luminex100 LabMAP disponible comercialmente y microesferas codificadas por múltiples colores (Luminex Corp., Austin, TX) en un ensayo rápido para determinar la expresión génica (Yang et al., Genome Res. 11:1888-1898 (2001)); y análisis de obtención de perfiles de expresión de alta cobertura (HiCEP) (Fukumura et al., Nucl. Acids. Res. 31(16) e94 (2003)).

3. Micromatrices

La expresión génica diferencial también puede identificarse o confirmarse usando la técnica de micromatriz. Por lo tanto, puede medirse el perfil de expresión génica asociados con cáncer de mama en tejido tumoral o bien reciente o bien incluido en parafina, usando tecnología de micromatrices. En este método, las secuencias de polinucleótidos de interés (incluyendo ADNc y oligonucleótidos) se colocan en placas, o se disponen en una matriz, en un sustrato de microchip. Después, las secuencias dispuestas en matriz se hibridan con sondas de ADN específicas de células o tejidos de interés. Al igual que en el método de RT-PCR, la fuente de ARNm típicamente es el ARN total aislado de tumores humanos o líneas celulares tumorales, y los tejidos normales o líneas celulares correspondiente. Por lo tanto, el ARN se puede aislar a partir de una diversidad de tumores primarios o líneas celulares tumorales. Si la fuente de ARNm es un tumor primario, puede extraerse ARNm, por ejemplo, de muestras de tejido incluidas en parafina congeladas o archivadas, y fijadas (por ejemplo, fijadas en formalina), que se preparan y se conservan de manera rutinaria en la práctica clínica diaria.

En una forma de realización específica de la técnica de micromatrices, se aplican insertos amplificados por PCR de clones de ADNc a un sustrato en una matriz densa. Preferiblemente se aplican al menos 10.000 secuencias de nucleótidos al sustrato. Los genes dispuestos en micromatriz, inmovilizados sobre el microchip a 10.000 elementos cada uno, son adecuados para su hibridación en condiciones rigurosas. Las sondas de ADNc marcadas por fluorescencia se pueden generar a través de la incorporación de nucleótidos fluorescentes mediante transcripción inversa de ARN extraído de tejidos de interés. Las sondas de ADNc marcadas aplicadas al chip hibridan con especificidad a cada punto del ADN en la matriz. Después de un lavado astringente para eliminar las sondas no específicamente unidas, el chip se explora mediante microscopía láser confocal o mediante otro método de detección, tal como una cámara CCD. La cuantificación de la hibridación de cada elemento en matriz permite la evaluación de la abundancia de ARNm correspondiente. Con fluorescencia de doble color, las sondas de ADNc marcadas por separado generadas a partir de dos fuentes de ARN se hibridan por pares con la matriz. Por lo tanto, la abundancia relativa de los transcritos de las dos fuentes correspondientes a cada gen especificado se determina simultáneamente. La escala miniaturizada de la hibridación permite una evaluación conveniente y rápida del patrón de expresión para un gran número de genes. Se ha demostrado que dichos métodos tienen la sensibilidad necesaria para detectar transcritos raros, que se expresan en unas pocas copias por célula, y para detectar de forma reproducible al menos aproximadamente el doble de las diferencias en los niveles de expresión (Schena et al., Proc.

Natl. Acad. Sci. USA 93(2): 106-149 (1996)). Pueden realizarse análisis de micromatriz mediante el equipo disponible comercialmente, siguiendo los protocolos del fabricante, tal como usando la tecnología GenChip de Affymetrix o la tecnología de micromatriz de Incyte.

El desarrollo de métodos de micromatrices para el análisis a gran escala de la expresión génica hace posible buscar sistemáticamente marcadores moleculares de clasificación del cáncer y la predicción de resultados en una diversidad de tipos de tumor.

4. Análisis de la expresión génica mediante secuenciación de ácidos nucleicos

Las tecnologías de secuenciado de ácidos nucleicos son métodos adecuados para el análisis de la expresión génica. El principio que subyace a estos métodos es que la cantidad de veces que se detecta una secuencia de ADNc en una muestra se refiere directamente a la expresión relativa del ARNm que corresponde a la secuencia. Estos métodos a veces se denominan con el término expresión génica digital (DGE) para reflejar la propiedad numérica discreta de los datos resultantes. Los primeros métodos que aplicaron este principio fueron el análisis en serie de la expresión génica (SAGE) y la secuenciación masiva de firmas en paralelo (MPSS). Véase, por ejemplo, 5. Brenner, et al., Nature Biotechnology 18(6):630-634 (2000). Más recientemente, el advenimiento de tecnologías de secuenciación de "próxima generación" ha hecho que la DGE sea más sencilla y accesible, y tenga un mayor rendimiento, y sea más rentable. Como resultado, más laboratorios pueden utilizar la DGE para detectar la expresión de más genes en más muestras de pacientes individuales que previamente. Véanse, por ejemplo, J. Marioni, Genome Research 18(9):1509-1517 (2008); R. Morin, Genome Research 18(4):610-621 (2008); A. Mortazavi, Nature Methods 5(7):621-628 (2008); N. Cloonan, Nature Methods 5(7):613-619 (2008).

5. Aislamiento del ARN de los fluidos corporales

Se han descrito métodos de aislamiento de ARN para el análisis de expresión de la sangre, el plasma y el suero (véase, por ejemplo, Tsui NB et al. (2002) 48,1647-53 y referencias citadas en el mismo) y de orina (véase, por ejemplo, Boom R et al. (1990) J Clin Microbiol. 28, 495-503 y la referencia citada en el mismo).

6. Inmunohistoquímica

Los métodos inmunohistoquímicos también son adecuados para detectar los niveles de expresión del marcador de pronóstico de la presente invención. Por lo tanto, se usan anticuerpos o antisueros, preferiblemente antisueros policlonales, y mucho más preferiblemente anticuerpos monoclonales específicos para cada marcador, para detectar la expresión. Los anticuerpos pueden detectarse mediante marcado directo de los propios anticuerpos, por ejemplo, con marcadores radiactivos, marcadores fluorescentes, marcadores de hapteno, tales como biotina, o una enzima tal como peroxidasa de rábano picante o fosfatasa alcalina. Como alternativa, el anticuerpo primario no marcado se usa junto con un anticuerpo secundario marcado, que comprende antisueros, antisueros policlonales o un anticuerpo monoclonal específico para el anticuerpo primario. Los protocolos y kits de inmunohistoquímica se conocen bien en la técnica y están disponibles en el mercado.

7. Proteómica

El término "proteoma" se define como la totalidad de las proteínas presentes en una muestra (por ejemplo, tejido, organismo o cultivo celular) en un determinado punto de tiempo. La proteómica incluye, entre otras cosas, el estudio de los cambios globales en la expresión de proteínas en una muestra (también denominada "proteómica de expresión"). La proteómica incluye típicamente las siguientes etapas: (1) separación de proteínas individuales en una muestra mediante electroforesis en gel bidireccional (PAGE 2-D); (2) identificación de las proteínas individuales recuperadas del gel, por ejemplo, mediante espectrometría de masas o secuenciación N-terminal, y (3) análisis de los datos usando bioinformática. Los métodos de proteómica son complementos valiosos para otros métodos de obtención del perfil de la expresión génica, y pueden usarse, en solitario o en combinación con otros métodos, para detectar los productos de los marcadores de pronóstico de la presente invención.

8. Descripción general del aislamiento, la purificación y la amplificación de ARNm

Las etapas de un protocolo representativo para perfilar la expresión génica usando tejidos fijos incluidos en parafina como la fuente de ARN, incluyendo el aislamiento, la purificación, la extensión del cebador y la amplificación del ARNm se proporcionan en diversos artículos publicados (por ejemplo: T.E. Godfrey et al,. J. Molec. Diagnostics 2: 84-91 [2000]; K. Specht et al, Am. J. Pathol.158: 419-29 [2001]). Brevemente, un proceso representativo comienza con el corte de secciones de aproximadamente 10 pm de espesor de muestras de tejido tumoral incluidas en parafina. Después, se extrae el ARN y se eliminan la proteína y el ADN. Después del análisis de la concentración de ARN, se pueden incluir etapas de reparación y/o amplificación de ARN, si es necesario, y el ARN se transcribe de forma inversa usando cebadores específicos de genes seguido de RT-PCR. Finalmente, se analizan los datos para identificar la mejor o mejores opciones de tratamiento disponibles para el paciente basándose en el patrón de expresión génica característico identificado en la muestra tumoral examinada, dependiendo de la probabilidad predicha de recidiva de cáncer.

9. Normalización

Los datos de expresión utilizados en los métodos divulgados en el presente documento pueden normalizarse. El término normalización se refiere a un proceso para corregir (normalizar), por ejemplo, las diferencias en la cantidad de ARN ensayado y la variabilidad en la calidad del ARN utilizado, para eliminar las fuentes no deseadas de variación sistemática en las mediciones de Ct y similares. Con respecto a los experimentos de RT-PCR que implican las muestras de tejido archivadas y fijas con inclusiones de parafina, se sabe que las fuentes de variación sistemática incluyen el grado de degradación del ARN con relación a la edad de la muestra del paciente y el tipo de solución de fijación utilizada para conservar la muestra. Otras fuentes de variación sistemática se atribuyen a las condiciones de procesamiento de laboratorio.

Los ensayos pueden proporcionar la normalización mediante la incorporación de la expresión de ciertos genes normalizadores que no difieren significativamente en los niveles de expresión en las condiciones pertinentes. Los genes de normalización ejemplares incluyen los genes constitutivos tales como PGK1 y UBB. (Véase, por ejemplo, E. Eisenberg, et al., Trends in Genetics 19(7):362-365 (2003).) La normalización puede basarse en la señal media o mediana (Ct) de todos los genes sometidos a ensayo o un gran subconjunto de los mismos (enfoque de normalización global). En general, los genes de normalización, también denominados genes de referencia, deben ser genes que se sabe que no tienen una expresión significativamente diferente en el cáncer colorrectal en comparación con el tejido colorrectal no canceroso, y que no se ven afectados de forma significativa por diversas condiciones de proceso y muestra, lo que permite la normalización de los efectos extraños.

A menos que se indique otra cosa, los niveles de expresión normalizados para cada ARNm/tumor/paciente sometido a ensayo se expresarán como el porcentaje del nivel de expresión medido en el conjunto de referencia. El grupo de referencia de un número suficientemente alto de tumores (por ejemplo, 40) produce una distribución de niveles normalizados de cada especie de ARNm. El nivel medido en una muestra de tumor particular para analizarse está en algún percentil dentro de este intervalo, que puede determinarse mediante métodos bien conocidos en la técnica. En las formas de realización ejemplares, se utilizan uno o más de los siguientes genes como referencia, mediante lo cual se normalizan los datos de expresión: AAMP, ARF1, EEF1A1, ESD, GPS1, H3F3A, HNRPC, RPL13A, RPL41, RPS23, RPS27, SDHA, TCEA1, UBB, YWHAZ, B-actina, GUS, GAPDH, RPLPO, y TFRC. Por ejemplo, las mediciones de Ct promedio ponderadas calibradas para cada uno de los genes pronóstico pueden normalizarse con respecto a la media de al menos tres genes de referencia, al menos cuatro genes de referencia, o al menos cinco genes de referencia.

Los expertos en la técnica reconocerán que la normalización puede lograrse de varias formas, y las técnicas descritas anteriormente pretenden ser únicamente ejemplares, no exhaustivas.

RESULTADOS DE LOS INFORMES

Los métodos de la presente divulgación son adecuados para la preparación de informes que resumen el resultado clínico esperado o predicho resultante de los métodos de la presente divulgación. Un "informe", como se describe en el presente documento, es un documento electrónico o tangible que incluye elementos de informe que proporcionan información de interés relacionada con una evaluación de probabilidad o una evaluación de riesgo y sus resultados. El informe de un sujeto incluye al menos una evaluación de probabilidad o una evaluación de riesgo, por ejemplo, un indicio en cuanto al riesgo de recidiva del cáncer de mama, incluida la recidiva local y la metástasis del cáncer de mama. El informe de un sujeto puede incluir una evaluación o estimación de una o más de: supervivencia sin enfermedad, supervivencia sin recidiva, supervivencia sin metástasis y supervivencia global. El informe de un sujeto puede generarse total o parcialmente en forma electrónica, por ejemplo, presentarse en una pantalla electrónica (por ejemplo, monitor de ordenador). El informe puede incluir además uno o más de: 1) información con respecto a la instalación de pruebas; 2) información acerca del proveedor de servicios, 3) datos del paciente; 4) datos de la muestra; 5) un informe interpretativo que puede incluir diversa información, incluyendo a) indicación; b) datos de ensayo, donde los datos de ensayo pueden incluir un nivel normalizado de uno o más genes de interés, y 6) otras características.

Por lo tanto, la presente divulgación proporciona métodos para crear informes y los informes resultantes de los mismos. El informe puede incluir un resumen de los niveles de expresión de los transcritos de ARN, o los productos de expresión de dichas transcripciones de ARN, para ciertos genes en las células obtenidas del tumor del paciente. El informe puede incluir información relacionada con covariables de pronóstico del paciente. El informe puede incluir una estimación de que el paciente tiene un mayor riesgo de recidiva. La estimación puede ser en la forma de un esquema de puntuación o de estadificación pacientes (por ejemplo, riesgo de recidiva bajo, intermedio o alto). El informe puede incluir información pertinente para ayudar a decidir la cirugía (por ejemplo, mastectomía parcial o total) o el tratamiento más adecuado para el paciente.

Por consiguiente, en algunas formas de realización, los métodos de la presente divulgación incluyen además la generación de un informe que incluye información con respecto al resultado clínico probable del paciente, por ejemplo, el riesgo de recidiva. Por ejemplo, los métodos divulgados en el presente documento pueden incluir además una etapa de generación o emisión de un informe que proporciona los resultados de la evaluación de riesgos de un sujeto, cuyo informe puede proporcionarse en forma de un medio electrónico (por ejemplo, una pantalla electrónica en un monitor de ordenador), o en forma de un medio tangible (por ejemplo, un informe impreso en papel u otro medio tangible).

Se proporciona al usuario un informe que incluye información acerca del probable pronóstico del paciente (por ejemplo, la probabilidad de que una paciente que padezca cáncer de mama tenga un buen pronóstico o resultado clínico positivo en respuesta a la cirugía y/o el tratamiento). La evaluación en cuanto a la probabilidad se denomina a continuación como "informe de riesgo" o, simplemente, "puntuación de riesgo". Una persona o entidad que prepara el informe ("generador de informe") también puede llevar a cabo una evaluación de probabilidad. El generador del informe también puede llevar a cabo una o más recolecciones de muestras, procesamiento de muestras y generación de datos, por ejemplo, el generador del informe puede también llevar a cabo uno o más de: a) recolección de muestras; b) procesamiento de muestras; c) medición del nivel de un gen de riesgo; d) medición del nivel de un gen de referencia; y e) determinación de un nivel normalizado de un gen de riesgo. Como alternativa, una entidad diferente al generador del informe puede llevar a cabo una o más recolecciones de muestras, procesamiento de muestras y generación de datos.

Para mayor claridad, debe apreciarse que el término "usuario", que se utiliza de forma intercambiable con "cliente", pretende referirse a una persona o entidad a la cual se transmite un informe, y puede ser la misma persona o entidad que hace uno o más de lo siguiente: a) recoger una muestra; b) procesar una muestra; c) proporcionar una muestra o una muestra procesada; y d) generar datos (por ejemplo, el nivel de un gen de riesgo; nivel de uno o más productos de un gen de referencia; nivel normalizado de un gen de riesgo ("gen pronóstico") para su uso en la evaluación de la probabilidad. En algunos casos, la persona o personas o entidad o entidades que realizan la recolección de las muestras y/o el procesamiento de las muestras y/o la generación de datos, y la persona que recibe los resultados y/o el informe pueden ser personas diferentes, pero ambas se denominan "usuarios" o "clientes" en el presente documento, para evitar confusiones. En ciertas formas de realización, por ejemplo, cuando los métodos se ejecutan completamente en un único ordenador, el usuario o cliente realiza el ingreso de datos y analiza la salida de datos. Un "usuario" puede ser un profesional de la salud (por ejemplo, un médico, un técnico de laboratorio, un físico (por ejemplo, un oncólogo, un cirujano, un patólogo, etc.).

En las formas de realización en las que el usuario solamente ejecuta una parte del método, el individuo que, después del procesamiento de datos computarizado de acuerdo con los métodos de la presente divulgación, analiza la salida de datos (por ejemplo, los resultados antes del lanzamiento para proporcionar un informe completo o que analiza un informe "incompleto" y prevé una intervención manual y finalización de un informe interpretativo) se denomina en el presente documento "analizador". El analizador puede encontrarse en una ubicación remota con respecto al usuario (por ejemplo, en un servicio proporcionado de forma separada de la institución de cuidado de la salud donde puede encontrarse el usuario).

En los casos en que corresponda aplicar regulaciones gubernamentales u otras restricciones (por ejemplo, requisitos de salud, mala praxis o seguro de responsabilidad), todos los resultados, ya sea generados completa o parcialmente de forma electrónica, se someten a un control de calidad de rutina antes de ponerse a disposición del usuario.

UTILIDAD CLÍNICA

El ensayo de expresión génica y la información proporcionada por la práctica de los métodos divulgados en el presente documento facilitan que los médicos puedan tomar decisiones más completas respecto del tratamiento, así como la personalización del tratamiento del cáncer de acuerdo con las necesidades de cada paciente, lo que maximiza el beneficio del tratamiento y minimiza la exposición de los pacientes a tratamientos innecesarios que pueden proporcionar beneficios escasos o insignificativos y que a menudo acarrean riesgos serios debido a los efectos secundarios tóxicos.

Las pruebas de expresión génica de analitos simples o múltiples pueden utilizarse para medir el nivel de expresión de uno o más genes implicados en cada uno de los varios procesos fisiológicos o características de los componentes celulares. El nivel o niveles de expresión pueden utilizarse para calcular el valor cuantitativo y ese valor puede disponerse en subgrupos (por ejemplo, terciles) donde todos los pacientes en un intervalo dado se clasifican como pertenecientes a una categoría de riesgo (por ejemplo, bajo, intermedio o alto). La agrupación de genes puede realizarse, al menos en parte, sobre la base del conocimiento del aporte de los genes de conformidad con las funciones fisiológicas o las características de los componentes celulares, como en los grupos analizados anteriormente.

La utilidad de un marcador de genes en la predicción del cáncer puede no ser única para ese marcador. Un marcador alternativo que tiene un patrón de expresión paralelo al del gen seleccionado por el marcador puede ser sustituido por, o utilizarse de manera adicional a, un marcador de prueba. Debido a la coexpresión de tales genes, la sustitución de los valores del nivel de expresión debería tener un impacto pequeño en la utilidad de pronóstico global de la prueba. Los patrones de expresión muy similares de dos genes pueden resultar de la participación de ambos genes en el mismo proceso y/o de que se encuentren bajo un control regulatorio común en las células tumorales del colon. Por lo tanto, la presente divulgación contempla el uso de tales genes coexpresados o grupos de genes como sustitutos para, o además de, los métodos pronósticos de la presente divulgación.

El ensayo molecular y la información asociada proporcionada por los métodos divulgados en el presente documento para predecir el resultado clínico del cáncer, por ejemplo, cáncer de mama, son de utilidad en varias áreas, incluido el desarrollo y uso adecuado de fármacos para tratar el cáncer, la estadificación de los pacientes que padecen cáncer para su inclusión en (o exclusión de) estudios clínicos, la ayuda a pacientes y médicos en la toma de decisiones de tratamiento, la generación de beneficios económicos mediante el direccionamiento del tratamiento en virtud de un perfil genómico personalizado y similares. Por ejemplo, la puntuación de recidiva puede utilizarse en muestras extraídas de pacientes en un estudio clínico y los resultados de la prueba utilizados junto con los resultados del paciente para determinar si es más o menos probable que los subgrupos de pacientes demuestren un beneficio absoluto con un nuevo fármaco en comparación con la totalidad del grupo u otros subgrupos. Además, tales métodos pueden utilizarse para identificar, a partir de datos clínicos, subgrupos de pacientes que se espera que se beneficien de la terapia adyuvante. Adicionalmente, es más probable que un paciente se incluya en un estudio clínico si los resultados de la prueba indican una mayor probabilidad de que el paciente tenga un mal resultado clínico si se le trata solo con cirugía y es menos probable que un paciente se incluya en un estudio clínico si los resultados de la prueba indican una menor probabilidad de que el paciente tenga un mal resultado clínico si se le trata solo con cirugía.

ANÁLISIS ESTADÍSTICO DE LOS NIVELES DE EXPRESIÓN GÉNICA

Un experto en la técnica reconocerá que existen muchos métodos estadísticos que pueden utilizarse para determinar si existe una relación significativa entre un resultado de interés (por ejemplo, la probabilidad de supervivencia, la probabilidad de respuesta a la quimioterapia) y los niveles de expresión de un gen marcador como se describe aquí. Esta relación puede presentarse como una puntuación de recidiva continua (RS) o los pacientes pueden estadificarse en grupos de riesgo (por ejemplo, bajo, intermedio, alto). Por ejemplo, el modelo de regresión de riesgos proporcionales de Cox puede ajustarse a un criterio de valoración clínico particular (por ejemplo, RFS, DFS, OS). Una suposición del modelo de regresión de riesgos proporcionales de Cox es el supuesto de riesgos proporcionales, es decir, la suposición de que los parámetros de efecto multiplican el riesgo subyacente.

Análisis de coexpresión

La presente divulgación proporciona genes que se coexpresan con genes determinados pronósticos y/o predictivos que se ha identificado que tienen una correlación significativa con la recidiva y/o el beneficio del tratamiento. Para llevar a cabo procesos biológicos particulares, los genes a menudo trabajan juntos de manera coordinada, es decir, se coexpresan. Los genes coexpresados importantes se describen en los estudios de ARN amplificados anteriormente. El meta-análisis incluyó ambos modelos de efecto fijo y efecto aleatorio que se describen en detalle en L. Hedges y J. Vevea, Psychological Methods 3 (4): 486-504 (1998) y K. Sidik y J. Jonkman, Statistics in Medicine 26:1964-1981 (2006). Los resultados de la validación para todos los genes identificados por tener una asociación estadísticamente significativa con el resultado clínico del cáncer de mama se describen en la Tabla 13. En las tablas, "Est" designa un coeficiente estimado de una covariable (expresión génica); "SE" significa error estándar; "t" es la puntuación t para esa estimación (es decir, Est/SE); y "fe" es la estimación fija de efecto que surge del meta-análisis. Varias familias de genes con una asociación estadística significativa con el resultado clínico (incluidos los genes de grupos metabólicos, de proliferación, inmunes y estromales) del cáncer de mama se confirmaron mediante el uso del conjunto de datos del SIB. Por ejemplo, la Tabla 14 contiene el análisis de genes incluidos en el grupo metabólico, y la Tabla 15 del grupo estromal.

EJEMPLO 4:

Se realizó un análisis de coexpresión usando los datos de micromatriz de seis (6) conjuntos de datos de cáncer de mama. Los valores de expresión "procesados" se tomaron del sitio web de GEO, sin embargo, fue necesario un procesamiento adicional. Si los valores de expresión son RMA, se normalizan por mediana en el nivel de muestra. Si los valores de expresión son MAS5.0: (1) se cambian a 10 si son <10; (2) se transforman a base log; y (3) se normalizan por mediana en el nivel de muestra.

Pares de correlación generados: Se generó una matriz de clasificación mediante la disposición de los valores de expresión para cada muestra en orden decreciente. A continuación, se creó una matriz de correlación mediante el cálculo de los valores de correlación de Spearman para cada par de ID de sonda. Los pares de sonda que tenían un valor de Spearman >0,7 se consideraron coexpresados. Se identificaron los pares de correlación redundantes o superpuestos en múltiples conjuntos de datos. Para cada matriz de correlación generada a partir de un conjunto de datos de matriz, se identificaron los pares de sondas significativos que ocurren en el conjunto de datos >1. Esto sirvió para filtrar los pares "insignificantes" del análisis, así como para proporcionar información adicional para pares "significativos" con su presencia en múltiples conjuntos de datos. Dependiendo del número de conjuntos de datos incluidos en cada análisis específico de tejido, se incluyeron únicamente los pares que ocurrieron en un # o % mínimo de conjuntos de datos.

Los grupos de coexpresión se generaron mediante el uso del algoritmo de Bron-Kerbosch para el resultado del grupo máximo en una gráfica no dirigida. El algoritmo genera tres grupos de nodos: Compsub, candidatos y no. El Compsub contiene un conjunto de nodos que se extienden o encogen en uno en función de su dirección de recorrido en las tres búsquedas. Los Candidatos consisten en todo lo anterior: c) un dispositivo de salida, conectado al entorno informático para proporcionar información al usuario (por ejemplo, personal médico); y d) un algoritmo ejecutado por el entorno informático central (por ejemplo, un procesador), donde el algoritmo se ejecuta basándose en los datos recibidos por el dispositivo de entrada, y en el que el algoritmo calcula el riesgo, la puntuación de riesgo o la clasificación de grupo de tratamiento, el análisis de coexpresión génica, el umbral u otras funciones descritas en el presente documento. Los métodos proporcionados por la presente invención también pueden automatizarse total o parcialmente.

Métodos y productos manuales y asistidos por ordenador

Los métodos y sistemas descritos en el presente documento pueden implementarse de numerosas formas. En una forma de realización de interés particular, los métodos implican el uso de una infraestructura de comunicaciones, por ejemplo, Internet. Varias formas de realización se analizan a continuación. También debe entenderse que la presente divulgación puede implementarse de varias formas de hardware, software, firmware, procesadores o una combinación de los mismos. Los métodos y sistemas descritos en el presente documento pueden implementarse como una combinación de hardware y software. El software puede implementarse como un programa de aplicación contenido de forma tangible en un dispositivo de almacenamiento de programas o diferentes porciones de software implementadas en el entorno informático del usuario (por ejemplo, como una miniaplicación) y en el entorno informático del analizador, donde el analizador puede ubicarse en un sitio remoto asociado (por ejemplo, en una instalación de servicios del proveedor).

Por ejemplo, durante o después de la entrada de datos, algunas porciones del procesamiento de datos pueden realizarse en el entorno informático del usuario. Por ejemplo, el entorno informático del usuario puede programarse para proporcionar códigos de prueba definidos para indicar una probabilidad de "puntuación de riesgo", donde la puntuación se transmite como respuestas procesadas o parcialmente procesadas al entorno informático del analizador en forma de código de prueba para la posterior ejecución de uno o más algoritmos para proporcionar resultados y/o generar un informe en el entorno informático del analizador. La puntuación de riesgo puede ser una puntuación numérica (representativa de un valor numérico, por ejemplo, la probabilidad de recidiva basada en la población de un estudio de validación) o una puntuación no numérica representativa de un valor numérico o intervalo de valores numéricos (por ejemplo, bajo, intermedio o alto).

El programa de aplicación para ejecutar los algoritmos descritos en el presente documento puede cargarse a una máquina que comprende cualquier arquitectura adecuada y ejecutarse a través de ella. En general, la máquina implica una plataforma informática que tiene hardware, tal como una o más unidades centrales de procesamiento (CPU), una memoria de acceso aleatorio (RAM) y una interfaz o interfaces de entrada/salida (E/S). La plataforma informática también incluye un sistema operativo y un código de microinstrucción. Los diversos procesos y funciones descritos en el presente documento pueden ser parte del código de microinstrucción o parte del programa de aplicación (o una combinación de los mismos) que se ejecuta a través del sistema operativo. Además, se pueden conectar diversos dispositivos periféricos diferentes a la plataforma informática, tal como un dispositivo de almacenamiento de datos adicional y un dispositivo de impresión.

Como sistema informático, el sistema generalmente incluye una unidad de procesamiento. La unidad de procesamiento funciona para recibir información, que puede incluir datos de prueba (por ejemplo, el nivel de un gen de riesgo, el nivel de los productos de un gen de referencia, el nivel normalizado de un gen) y también puede incluir otros datos como datos del paciente. Esta información recibida se puede almacenar, al menos temporalmente, en una base de datos, y los datos se pueden analizar para generar un informe como se ha descrito anteriormente.

Todos o parte de los datos de entrada y salida pueden además enviarse electrónicamente; ciertos datos de salida (por ejemplo, informes) pueden enviarse electrónicamente o vía telefónica (por ejemplo, por facsímil, por ejemplo, mediante el uso de dispositivos como un fax). Los dispositivos receptores de salida ejemplares pueden incluir un elemento de visualización, una impresora, un dispositivo facsímil y similares. Las formas electrónicas de transmisión y/o visualización pueden incluir correo electrónico, televisión interactiva y similares. En una forma de realización de interés particular, todos o parte de los datos de entrada y/o todos o parte de los datos de salida (por ejemplo, habitualmente al menos el informe final) se mantienen en un servidor web para poder acceder a ellos, preferiblemente de modo confidencial, con navegadores típicos. Se puede acceder a los datos o enviarlos a los profesionales de la salud, según se desee. Los datos de entrada y de salida, incluidos todos o una parte del informe final, pueden utilizarse para completar la historia clínica de un paciente que puede existir en una base de datos confidencial en la institución de atención de salud.

Un sistema para su uso en los métodos descritos en el presente documento generalmente incluye al menos un procesador informático (por ejemplo, cuando el método se lleva a cabo en su totalidad en un único sitio) o al menos dos procesadores informáticos en red (por ejemplo, cuando los datos deben ser ingresados por el usuario (también denominado "cliente") y transmitidos a un sitio remoto a un segundo procesador informático para el análisis, donde el primer y segundo procesadores informáticos están conectados por una red, por ejemplo, una intranet o Internet). El sistema puede incluir además uno o más componentes del usuario para el ingreso y uno o más componentes del analizador para el análisis de datos, informes generados e intervención manual. Los componentes adicionales del sistema pueden incluir uno o más componentes de un servidor y una o más bases de datos para almacenar información (por ejemplo, como en una base de datos de elementos de informe, por ejemplo, elementos de informe interpretativo, o una base de datos relacional (RDB) que puede incluir el ingreso de datos por el usuario y la salida de datos. Los procesadores informáticos pueden ser procesadores que se encuentran generalmente en ordenadores personales de escritorio (por ejemplo, IBM, Dell, Macintosh), ordenadores portátiles, ordenadores centrales, miniordenadores u otros dispositivos informáticos.

La arquitectura de cliente/servidor en red puede seleccionarse en la forma deseada y puede ser, por ejemplo, un modelo de servidor de cliente clásico de dos o tres niveles. Un sistema de gestión de base de datos relacional (RDMS), ya sea como parte de un componente de servidor de aplicación o como un componente separado (máquina RDB), proporciona una interfaz para la base de datos.

En un ejemplo, la arquitectura se proporciona como una arquitectura cliente/servidor centrada en una base de datos, en la que la aplicación del cliente generalmente requiere servicios del servidor de aplicación que realiza consultas a la base de datos (o al servidor de base de datos) para completar el informe con los diversos elementos de informe necesarios, particularmente los elementos de informe interpretativos, especialmente los textos y alertas de interpretación. El servidor o servidores (por ejemplo, ya sea como parte de la máquina de servidor de aplicación o una máquina de base de datos relacional/RDB separada) responden a las consultas del cliente.

Los componentes de ingreso de datos del cliente pueden ser ordenadores personales completas e independientes que ofrecen una amplia gama de potencia y características para ejecutar aplicaciones. El componente del cliente generalmente funciona en cualquier sistema operativo deseado e incluye un elemento de comunicación (por ejemplo, un módem u otro hardware para conectarse a una red), uno o más dispositivos de ingreso de datos (por ejemplo, teclado, ratón, teclado numérico u otro dispositivo utilizado para transferir información o comandos), un elemento de almacenamiento (por ejemplo, un disco duro u otro medio de almacenamiento legible por ordenador o que puede ser escrito por ordenador) y un elemento de visualización (por ejemplo, monitor, televisión, LCD, LED u otro dispositivo de visualización que proporciona información al usuario). El usuario ingresa los comandos de entrada en el procesador informático a través de un dispositivo de entrada. Generalmente, la interfaz del usuario es una interfaz de usuario gráfica (GUI) escrita para aplicaciones de navegador web.

El componente o componentes del servidor pueden ser un ordenador personal, un miniordenador o una unidad central y ofrecen la gestión de datos, información compartida entre clientes, administración de red y seguridad. La aplicación y cualquier base de datos que se utilice pueden encontrarse en el mismo servidor o en servidores diferentes.

Se contemplan otras disposiciones informáticas para el cliente y el servidor o servidores, incluido el procesamiento en una única máquina, como una unidad central, un grupo de máquinas u otra configuración adecuada. En general, las máquinas del cliente y del servidor trabajan juntas para lograr el procesamiento de la presente divulgación. Cuando se utilizan, las bases de datos habitualmente se encuentran conectadas al componente servidor de la base de datos y pueden ser cualquier dispositivo que contenga datos. Por ejemplo, la base de datos puede ser cualquier dispositivo de almacenamiento magnético u óptico para ordenador (por ejemplo, CDROM, disco duro interno, unidad de cinta). La base de datos puede ubicarse de forma remota al componente servidor (con acceso a través de una red, módem, etc.) o de forma local con respecto al componente servidor.

Cuando se utiliza en el sistema y los métodos, la base de datos puede ser una base de datos relacional que se encuentra organizada, y a la cual se puede acceder, de conformidad con las relaciones entre los artículos de datos. La base de datos relacional generalmente se compone de una pluralidad de tablas (entidades). Las filas de las tablas representan registros (recolecciones de información acerca de diferentes artículos) y las columnas representan campos (atributos particulares de un registro). En su concepción más sencilla, la base de datos relacional es un conjunto de entradas de datos que se "relacionan" entre sí a través de al menos un campo común. Las estaciones de trabajo adicionales equipadas con ordenadores e impresoras pueden utilizarse en el punto de servicio para ingresar datos y, en algunas formas de realización, generar informes adecuados, si se desea. Los ordenadores pueden tener un acceso directo (por ejemplo, en el escritorio) para ejecutar la aplicación, a fin de facilitar el inicio de la entrada de datos, la transmisión, el análisis, la recepción de informes, etc., según se desee. Medio de almacenamiento legible por ordenador

La presente divulgación contempla además un medio de almacenamiento legible por ordenador (por ejemplo, CD-ROM, tecla de memoria, tarjeta de memoria flash, disquete, etc.) en el que se almacena un programa que, al ejecutarlo en un entorno informático, permite la implementación de algoritmos para llevar a cabo todos o parte de los resultados de una evaluación de probabilidad de respuesta como se describe en el presente documento. Cuando el medio legible por ordenador contiene un programa completo para llevar a cabo los métodos descritos en el presente documento, el programa incluye instrucciones de programa para recabar, analizar y generar salidas, y generalmente incluye dispositivos de código legibles por ordenador para interactuar con un usuario como se describe en el presente documento, el procesamiento de los datos junto con la información analítica y la generación de un medio electrónico o impreso único para el usuario.

Cuando el medio de almacenamiento proporciona un programa que permite la implementación de una parte de los métodos descritos en el presente documento (por ejemplo, el aspecto del lado del usuario de los métodos (por ejemplo, ingreso de datos, funcionalidad de recepción de informes, etc.)), el programa permite la transmisión de los datos ingresados por el usuario (por ejemplo, mediante Internet, intranet, etc.) a un entorno informático en un sitio remoto. El procesamiento o la finalización del procesamiento de los datos se lleva a cabo en el sitio remoto para generar un informe. Después del análisis del informe y la finalización de cualquier intervención manual necesaria para proporcionar un informe completo, el informe completo se vuelve a transmitir al usuario como un documento electrónico o impreso (por ejemplo, un informe en papel enviado por fax o correo electrónico). El medio de almacenamiento que contiene un programa de conformidad con la presente divulgación puede empaquetarse con instrucciones (por ejemplo, para la instalación del programa, el uso, etc.) grabadas en un sustrato adecuado o una dirección web donde pueden obtenerse las instrucciones. El medio de almacenamiento legible por ordenador puede además proporcionarse en combinación con uno o más reactivos para llevar a cabo la evaluación de la probabilidad de respuesta (por ejemplo, cebadores, sondas, matrices u otros componentes del kit).

Todos los aspectos de la presente invención pueden además realizarse de forma que un número limitado de genes adicionales que se coexpresan con los genes divulgados, por ejemplo, como lo prueban los coeficientes de correlación de Pearson o Spearman estadísticamente significativos, se incluyan en una prueba de pronóstico o predictiva además de y/o en lugar de los genes divulgados.

Una vez descrita la invención, será más fácil comprenderla a través de la referencia a los siguientes Ejemplos, que se proporcionan a modo de ilustración y no pretenden limitar la invención de ningún modo.

EJEMPLO 1:

El estudio incluyó muestras de tumor de cáncer de mama obtenidas de 136 pacientes a las que se diagnosticó cáncer de mama ("Estudio de previsión"). Los estudios de modelado bioestadístico de los conjuntos de datos prototípicos demostraron que el ARN amplificado es un sustrato útil para los estudios de identificación de biomarcadores. Esto se verificó en el presente estudio mediante la inclusión de biomarcadores de cáncer de mama conocidos junto con los genes pronóstico candidatos en las muestras de tejidos. Se mostró que los biomarcadores conocidos están asociados con el resultado clínico en el ARN amplificado sobre la base de los criterios descritos en este protocolo.

Diseño del estudio

Véase el protocolo de estudio de previsión de fase II original para obtener información acerca de especimenes de biopsia. El estudio se enfocó en la asociación estadística entre el resultado clínico y los biomarcadores de 384 candidatos ensayados en muestras amplificadas derivadas de 25 ng de ARNm que se extrajo de las muestras de tejido fijas incorporadas en parafina obtenidas de 136 muestras del estudio de previsión de fase II original. El nivel de expresión de los genes candidatos se normalizó mediante el uso de genes de referencia. Se analizaron varios genes de referencia en este estudio: AAMP, ARF1, EEF1A1, ESD, GPS1, H3F3A, HNRPC, RPL13A, RPL41, RPS23, RPS27, SDHA, TCEA1, UBB, YWHAZ, B-actina, GUS, GAPDH, RPLPO, y TFRC.

Las 136 muestras se separaron en 3 placas de RT automatizadas con 2x 48 muestras y una con 40 muestras y 3 controles RT positivo y negativo. Los ensayos cuantitativos de PCR se realizaron en 384 pocillos sin replicar usando QuantiTect Probe PCR Master Mix® (Qiagen). Las placas se analizaron en el Light Cycler® 480 y, después del control de calidad de datos, todas las muestras de la placa de RT 3 se repitieron y se generaron nuevos datos de RT-PCR. Los datos se normalizaron mediante la resta del punto de cruce medio (C^p) (punto en el cual la detección se eleva por encima de la señal de fondo) para cinco genes de referencia del valor C^ppara cada gen candidato individual. Esta normalización se realiza en cada muestra, lo que resulta en datos finales ajustados para las diferencias en el C^pde la muestra total. Este conjunto de datos se utilizó para el análisis final de datos.

Análisis de datos

Para cada gen se ejecutó una prueba z estándar (S. Darby, J. Reissland, Journal of the Royal Statistical Society 144(3):298-331 (1981)). Esto devuelve una puntuación z (medida de distancia en las desviaciones estándar de una muestra de la media), un valor p y residuos junto con otras estadísticas y parámetros del modelo. Si la puntuación z es negativa, la expresión se correlaciona positivamente con un buen pronóstico; si es positiva, la expresión se correlaciona negativamente con un buen pronóstico. Mediante el uso de los valores p, se creó un valor q mediante el uso de un valor q de biblioteca. Los genes poco correlacionados y expresados débilmente se excluyeron del cálculo de la distribución utilizada para los valores q. Para cada gen, se realizó la prueba del modelo de regresión de riesgos proporcionales de Cox mediante la verificación del tiempo de supervivencia correspondiente al vector de evento contra la expresión génica. Esto devolvió una relación de riesgo (H^r) que estima el efecto de la expresión de cada gen (individualmente) sobre el riesgo de un evento relacionado con cáncer. Los datos resultantes se proporcionan en las Tablas 1-6. Una HR <1 indica que la expresión de ese gen se encuentra asociada positivamente con un buen pronóstico, mientras que una HR >1 indica que la expresión de ese gen se encuentra asociada negativamente con un buen pronóstico.

EJEMPLO 2:

Diseño del estudio

Las muestras amplificadas se derivaron de 25 ng de ARNm que se extrajo de las muestras de tejido fijas incorporadas en parafina obtenidas de 78 casos evaluables de un estudio de cáncer de mama de fase II llevado a cabo en el Rush University Medical Center. Tres de las muestras no proporcionaron ARN amplificado suficiente a 25 ng, por lo que la amplificación se repitió una segunda vez con 50 ng de ARN. El estudio analizó además varios genes de referencia para su uso en la normalización: AAMP, ARF1, EEF1A1, ESD, GPS1, H3F3A, HNRPC, RPL13A, RPL41, RPS23, RPS27, SDHA, TCEA1, UBB, YWHAZ, Beta-actina, RPLPO, TFRC, GUS, y GAPDH. Los ensayos se realizaron en 384 pocillos sin replicar mediante el uso de QuantiTect Probe PCR Master Mix. Las placas se analizaron en los instrumentos del Light Cycler 480. Este conjunto de datos se utilizó para el análisis final de datos. Los datos se normalizaron restando el punto de cruce medio (C^p) para cinco genes de referencia del valor C^ppara cada gen candidato individual. Esta normalización se realizó en cada muestra, lo que dio como resultado datos finales ajustados para las diferencias en el C^pde la muestra total.

Análisis de datos

Hubo 34 muestras con valores CP promedio por encima de 35. No obstante, ninguna de las muestras se excluyó del análisis debido a que se estimó que contenían suficiente información valiosa para permanecer en el estudio. Se utilizó el análisis de componentes principales (PCA) para determinar si hubo un efecto de placa que causó variación a lo largo de las diferentes placas de Rt . El primer componente principal se correlacionó bien con los valores de expresión medianos, lo que indicó que el nivel de expresión explicaba la mayoría de las variaciones entre las muestras. Además, no hubo variaciones inesperadas entre las placas.

Datos para otras variables

Grupo - Los pacientes se dividieron en dos grupos (cáncer/sin cáncer). Hubo poca diferencia entre los dos en la expresión génica total ya que la diferencia entre los valores de C^pmedianos en cada grupo fue mínima (0,7).

Edad de la muestra - Las muestras variaron ampliamente en su expresión génica total, pero hubo una tendencia hacia los valores de C^pmás bajos a medida que disminuía la edad.

Instrumento - La expresión génica total de la muestra de un instrumento a otro fue uniforme. Un instrumento mostró un C^pmediano levemente más alto en comparación con los otros tres, pero se encontró dentro de la variación aceptable.

Placa de RT - La expresión génica total de la muestra entre las placas de RT también fue muy uniforme. Los C^pmedianos para cada una de las 3 placas de RT (2 placas de ^rT automatizadas y 1 placa manual que contenía muestras repetidas) estaban dentro de 1 C^pde cada una.

Análisis univariado para genes significativamente diferentes entre los grupos de estudio

Los genes se analizaron mediante el uso de la prueba z y el modelo de regresión de riesgos proporcionales de Cox, como se describe en el Ejemplo 1. Los datos resultantes pueden observarse en las Tablas 7-12.

EJEMPLO 3:

Las correlaciones estadísticas entre el resultado clínico y los niveles de expresión de los genes identificados en los Ejemplos 1 y 2 se validaron en los conjuntos de datos de expresión génica de cáncer de mama archivados por el Swiss Institute of Bioinformatics (SIB). Se proporciona información adicional respecto de la base de datos del SIB, los conjuntos de datos de estudio y los métodos de procesamiento en P. Wirapati, et al., Breast Cancer Research 10(4):R65 (2008). Los análisis univariados de riesgos proporcionales de Cox se llevaron a cabo para confirmar la relación entre el resultado clínico (DFS, MFS, OS) de las pacientes que padecían cáncer de mama y los niveles de expresión de los genes identificados como significativos en los estudios de ARN amplificado descritos anteriormente. Los grupos de genes coexpresados identificados para un proceso de enfermedad como el cáncer pueden servir como biomarcadores para la progresión de la enfermedad y la respuesta al tratamiento. Dichos genes coexpresados pueden probarse en lugar de, o además de, la prueba de los genes pronóstico y/o predictivos con los cuales se coexpresan.

Un experto en la técnica reconocerá que muchos métodos de análisis de coexpresión actualmente conocidos o desarrollados con posterioridad se encontrarán dentro del alcance de las presentes formas de realización. Estos métodos pueden incorporar, por ejemplo, coeficientes de correlación, análisis de red de coexpresión, análisis de grupos, etc., y pueden basarse en los datos de expresión de RT-PCR, micromatrices, secuenciación y otras tecnologías similares. Por ejemplo, los grupos de expresión génica pueden identificarse mediante el uso de análisis de correlación en pares basándose en los coeficientes de correlación de Pearson o Spearman. (Véanse, por ejemplo, Pearson K. y Lee A., Biometrika 2, 357 (1902); C. Spearman, Amer. J. Psychol 15:72-101 (1904); J. Myers, A. Well, Research Design and Statistical Analysis, pág. 508 (2a Ed., 2003).) En general, un coeficiente de correlación igual o mayor de 0,3 se considera estadísticamente significativo en un tamaño de muestra de al menos 20. (Véase, por ejemplo, G. Norman, D. Streiner, Biostatistics: The Bare Essentials, 137-138 (3a Ed. 2007).) En una forma de realización divulgada en el presente documento, los genes coexpresados se identificaron mediante el uso de un valor de correlación de Spearman de al menos 0,7.

Programa informático

Los valores de los ensayos descritos anteriormente, tales como los datos de expresión, la puntuación de recidiva, la puntuación de tratamiento y/o la puntuación de beneficio, pueden calcularse y almacenarse manualmente. Como alternativa, las etapas descritas anteriormente pueden realizarse de forma total o parcial mediante un producto de programa informático. Por lo tanto, la presente invención proporciona un producto de programa informático que incluye un medio de almacenamiento legible por ordenador que tiene un programa informático almacenado en el mismo. El programa puede, cuando se lee con el ordenador, llevar a cabo cálculos pertinentes basados en los valores obtenidos del análisis de una o más muestras biológicas de un individuo (por ejemplo, niveles de expresión génica, normalización, umbral y conversión de valores de los ensayos a un valor y/o representación gráfica de la probabilidad de recidiva/respuesta a la quimioterapia, coexpresión génica o análisis de grupos y similares). El producto del programa informático tiene almacenado un programa informático para llevar a cabo el cálculo.

La presente divulgación proporciona sistemas para ejecutar el programa descrito anteriormente, el sistema generalmente incluye: a) un entorno informático central; b) un dispositivo de entrada, conectado operativamente al entorno informático, para recibir datos del paciente, en el que los datos del paciente pueden incluir, por ejemplo, el nivel de expresión u otro valor obtenido de un ensayo mediante el uso de una muestra biológica del paciente, o datos de micromatriz, como se describe en detalle nodos que se añaden a compsub. No contiene el conjunto de nodos que se añadió a compsub y que ahora se excluyen de la extensión. El algoritmo consta de cinco etapas: selección de un candidato; añadir el nodo candidato al compsub; crear nuevos conjuntos de candidatos y no a partir de los antiguos conjuntos mediante la eliminación de todos los puntos que no están conectados al nodo candidato; llamar recursivamente al operador de extensión acerca de los nuevos conjuntos de candidatos y no; y, tras la devolución, eliminar el nodo candidato de compsub y colocarlo en el antiguo conjunto de no.

Hubo una primera búsqueda profunda con recorte y la selección de nodos candidatos tuvo un efecto sobre el tiempo de ejecución del algoritmo. Mediante la selección de los nodos en orden decreciente de frecuencia en los pares, se optimizó el tiempo de ejecución. Además, los algoritmos recursivos generalmente no pueden implementarse en una forma con múltiples subprocesos, pero el operador de extensión del primer nivel recursivo tenía múltiples subprocesos. Debido a que los datos entre los procesos de ejecución eran independientes ya que se encontraban en el nivel superior del árbol recursivo, se ejecutaron en paralelo.

Asignación de grupos y normalización: Debido a que los miembros de los pares y grupos de coexpresión se encuentran en el nivel de sonda, es necesario asignar los ID de sonda a los genes (o Refsec) antes de analizarlos. La información del mapa de genes Affymetrix se utilizó para asignar cada ID de sonda a un nombre de gen. Las sondas pueden asignarse a múltiples genes y los genes pueden representarse mediante múltiples sondas. Los datos para cada grupo se validan mediante el cálculo manual de los valores de correlación para cada par de un único grupo.

Los resultados de este análisis de coexpresión se exponen en las Tablas 16-18.

Tabla 1: R iesgos proporcionales de C ox para genes pronósticos que se asocian positivam ente con un n r n i r n r m m E i e previsión)

Tabla 2: R iesgos proporc ionales d e C ox para genes pronóstico que se asocian negativam ente con un buen pron i r n r m m E i r v isión)

Tabla 3: Riesgos proporcionales de Cox para genes pronósticos que se asocian positivamente con un buen pronóstico par n r m m ER n iv ER E io de previsión)

Tabla 4: Riesgos proporcionales de Cox para genes pronóstico que se asocian negativamente con un buen pronóstico para cáncer de mama ER ne ativo ERO Estudio de previsión)

Tabla 5: Riesgos proporcionales de Cox para genes pronósticos que se asocian positivamente con un buen pronóstico para cáncer de mama ER ositivo ER1> Estudio de previsión)

Tabla 6: Riesgos proporcionales de Cox para genes pronóstico que se asocian negativamente con un buen pronóstico para cáncer de mama ER positivo (ER1) (Estudio de previsión)

Gen ER1 HR zlCoeft p (Wald)

CTHRC1 2.083 E95B 0.050

RRM2 E450 £978 0,046

BUB1 E467 £986 0.047

LMNBi E764 2.009 0.045

SURV E380 2.013 0.044

EpCAM E966 2.076 0.036

CDC20 E504 2.081 0.037

GAPDH 2.405 2.126 0.033

STK15 1.796 2.178 0.029

HSPA8 3.095 2.215 0.027

L4PTM4B 1.503 2.278 0.023

MCM2 1.872 2.370 0,016

CDC25C 1.485 2.423 0.015

ADM 1.695 2.486 0.013

MMPl 1.365 2.522 0.012

CCNB1 1.893 2646 0.008

Ki-67 1.697 2.649 0.008

E2F1 1,662 2.689 0,007

KRNA2 1,683 2.701 0.007

DUSP1 1.573 2.824 0.005

GDF15 1.440 2.696 0.004

Tabla 7; Riesgos proporcionales de C w para genes pronósticos que so asocian positivam ente con un buen p h )

Tabla 8: Riesgos proporcionales de Co* para genes pronóstico que se asocian negativamente con un buen pronóstico oara cáncer de mama (Estudio de Rushi

Gen todos z ÍCoef) HR p (Wald)

Tabla 10: Riesgos proporcionales de Cok para genes pronóstico que so asocian negativamente con un buen pronóstico par n r m m ER n iv ER Etudie de Rush)

Tabla 12: Riesgos proporcionales de Cox para genes pronostico que se asocian negativamente con un buen pronostica pa tudio de Rush)

Tabla 14: Validad6n da gane* dal grupo da ratapkiras da bansfarrina ganas an loa corjunios da datoa dal " sie '

Tabla 16: Genes que se coexpresan con genes pronóstico en tumores de cáncer de mama ER+ (Coef. De corr. De Spearman £0,7)

Tabla 17: Genes que coexpresan con genes pronóstico en tumores de cáncer de mama ER- (Coef. de corr. De S earman >07

continuación

continuación

Tabla 18: Genes que coexpresan con genes pronóstico en todos los tumores de cáncer de mama ER- (Coef. de corr.

De S earman >07

continuación

continuación

continuación

continuación

continuación

Claims

REIVINDICACIONES

1. Un método para predecir el resultado clínico de un paciente diagnosticado con cáncer que comprende:

(a) obtener un nivel de expresión de un producto de expresión de al menos un gen pronóstico a partir de una muestra de tejido obtenida de un tumor del paciente, en el que al menos un gen pronóstico es IL6ST;

(b) normalizar el nivel de expresión del producto de expresión de al menos un gen pronóstico para obtener un nivel de expresión normalizado;

(c) expresar el nivel de expresión normalizado como un valor de expresión comparado con un nivel de expresión de un conjunto de referencia tumoral; y

(d) calcular una puntuación de riesgo basada en el valor de expresión normalizado, en el que el aumento de la expresión de IL6ST se correlaciona positivamente con un buen pronóstico.

2. Un método de acuerdo con la reivindicación 1, que comprende, además: generar un informe basado en la puntuación de riesgo.

3. Método de acuerdo con la reivindicación 1, en el que el paciente es un paciente humano.

4. Un método de acuerdo con la reivindicación 1, en el que el tumor es un tumor de cáncer de mama.

5. Un método de acuerdo con la reivindicación 1, en el que la muestra de tejido es un tejido fijado incorporado en parafina.

6. Un método de acuerdo con la reivindicación 1, en el que el nivel de expresión se obtiene usando un método basado en PCR.

7. Método de acuerdo con la reivindicación 1, en el que se obtiene un nivel de expresión de al menos dos genes en cualquiera de los grupos estromal, metabólico, inmune, de proliferación o metabólico, o sus productos génicos.

8. Método de acuerdo con la reivindicación 1, en el que se obtiene un nivel de expresión de al menos cuatro genes en dos cualesquiera de los grupos estromal, metabólico, inmune, de proliferación o metabólico, o sus productos génicos.

9. Un método de acuerdo con la reivindicación 1, que comprende además obtener un nivel de expresión de al menos un gen coexpresado de los enumerados en la Tabla 18.

10. Un método para clasificar a un paciente con cáncer de acuerdo con el pronóstico, que comprende las etapas de: (a) recibir una primera estructura de datos que comprende los niveles respectivos de un producto de expresión de cada uno de al menos tres genes pronóstico diferentes enumerados en cualquiera de las Tablas 1-12 en una muestra de tejido obtenida de un tumor en el paciente, en la que uno de los genes pronóstico es IL6ST;

(b) normalizar los al menos tres valores de expresión para obtener valores de expresión normalizados;

(c) determinar la similitud de los valores de expresión normalizados de cada uno de los al menos tres genes pronóstico con los niveles de expresión de control respectivos de los al menos tres genes pronóstico obtenidos de una segunda estructura de datos para obtener un valor de similitud del paciente, en los que la segunda estructura de datos se basa en los niveles de expresión de una pluralidad de tumores de cáncer;

(d) comparar el valor de similitud del paciente con un valor umbral seleccionado de similitud de los valores de expresión normalizados respectivos de cada uno de los al menos tres genes pronóstico con los niveles de expresión de control respectivos de los al menos tres genes pronóstico; y

(e) clasificar al paciente como si tuviera un primer pronóstico si el valor de similitud del paciente supera el valor de similitud umbral, y un segundo pronóstico si el valor de similitud del paciente no excede el valor de similitud umbral.

11. Un programa informático que comprende medios de código informático para llevar a cabo las etapas (b) a (d) de un método de acuerdo con cualquiera de las reivindicaciones 1 a 10,

en el que el nivel de expresión de un producto de expresión de al menos un gen pronóstico se ha obtenido a partir de una muestra de tejido obtenida de un tumor del paciente, en el que el al menos un gen pronóstico es IL6ST en el que dicho programa se ejecuta en un ordenador.

12. Un programa informático de acuerdo con la reivindicación 11, incorporado en un medio legible por ordenador.