ES2617195T3

ES2617195T3 - Evaluación de la actividad de la ruta de señalización celular utilizando un modelo probabilístico de la expresión del gen objetivo

Info

Publication number: ES2617195T3
Application number: ES12751371.1T
Authority: ES
Inventors: Wilhelmus Franciscus Johannes Verhaegh; Anja Van De Stolpe; Hendrik Jan VAN OOIJEN; Kalyana Chakravarthi DULLA; Marcia Alves De Inda; Ralf Hoffmann
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2011-07-19
Filing date: 2012-07-19
Publication date: 2017-06-15
Anticipated expiration: 2032-07-19
Also published as: EP4130291B1; JP2017205129A; WO2013011479A3; EP3831957A1; DK2734643T3; WO2013011479A2; EP3173489B1; IN2014CN00675A; EP4130291A1; EP3418396A1; JP6204354B2; JP6807430B2; BR112014000965A2; JP2019129850A; US20140156200A1; CN103649337B; KR102064004B1; US11443831B2; RU2719194C2; MX352827B

Abstract

Un método que comprende: inferir la actividad de una o más rutas de señalización celular en tejido de un sujeto médico con base al menos en el nivel o niveles de expresión de uno o más genes objetivo de las rutas de señalización celular medidos en una muestra extraída del tejido del sujeto médico, donde la inferencia comprende: inferir la actividad de las rutas de señalización celular en el tejido del sujeto médico evaluando al menos una porción de un modelo probabilístico (40-1, ..., 40-7), preferiblemente una red Bayesiana (40-1, ..., 40-7), que representan las rutas de señalización celular para un conjunto de entradas que incluyen al menos los niveles (20) de expresión de uno o más genes objetivo de las muestras extraídas del tejido del sujeto médico; estimar un nivel (46) en el tejido del sujeto médico de al menos un elemento de factor de transcripción (TF), el al menos un elemento TF que controla la transcripción del uno o más genes objetivo de las rutas de señalización celular, estando basada la estimación al menos en parte en probabilidades condicionales que relacionan al menos un elemento TF y en los niveles (20) de expresión de uno o más genes objetivo de las rutas de señalización celular medidas en la muestra extraída del tejido del sujeto médico; inferir la actividad de la ruta de señalización celular con base en el nivel estimado en la muestra de tejido del factor de transcripción; y determinar si las rutas de señalización celular están funcionando anormalmente en el tejido del sujeto médico con base en la actividad inferida de las rutas de señalización celular en el tejido del sujeto médico; en el que la inferencia se realiza mediante un dispositivo (12) de procesamiento digital que utiliza el modelo probabilístico (40-1, ..., 40-7) de las rutas de señalización celular, en el que la ruta de señalización celular comprende una ruta Wnt, una ruta ER, una ruta AR y/o una ruta Hedgehog, en el que la inferencia comprende: inferir la actividad de la ruta Wnt en el tejido del sujeto médico con base al menos en los niveles (20) de expresión de uno o más, preferiblemente al menos tres genes objetivo de la ruta Wnt medidos en la muestra extraída del tejido del sujeto médico seleccionados del grupo que consiste en: KIAA1199, AXIN2, RNF43, TBX3, TDGF1, SOX9, ASCL2, IL8, SP5, ZNRF3, KLF6, CCND1, DEFA6 y FZD7, y/o inferir la actividad de la ruta ER en el tejido del sujeto médico con base al menos en los niveles (20) de expresión de uno o más, preferiblemente al menos tres, genes objetivo de la ruta ER medidos en la muestra extraída del tejido del sujeto médico seleccionados del grupo que consiste en: CDH26, SGK3, PGR, GREB1, CA12, XBP1, CELSR2, WISP2, DSCAM, ERBB2, CTSD, TFF1 y NRIP1, y/o inferir la actividad de la ruta Hedgehog en el tejido del sujeto médico con base al menos en los niveles (20) de expresión de uno o más, preferiblemente al menos tres genes objetivo de la ruta de Hedgehog medidos en la muestra extraída del tejido del sujeto médico seleccionado del grupo que consiste en GLI1, PTCH1, PTCH2, IGFBP6, SPP1, CCND2, FST, FOXL1, CFLAR, TSC22D1, RAB34, S100A9, S100A7, MYCN, FOXM1, GLI3, TCEA2, FYN y CTSL1 y/o inferir la actividad de la ruta AR en el tejido del sujeto médico con base al menos en los niveles (20) de expresión de uno o más, preferiblemente al menos tres, genes objetivo de la ruta AR medidos en la muestra extraída del tejido del sujeto médico seleccionado del grupo que consiste en: KLK2, PMEPA1, TMPRSS2, NKX3-1, ABCC4, KLK3, FKBP5, ELL2, UGT2B15, DHCR24, PPAP2A, NDRG1, LRIG1, CREB3L4, LCP1, GUCY1A3, AR y EAF2.

Description

5

10

15

20

25

30

35

40

45

50

55

60

DESCRIPCION

Evaluacion de la actividad de la ruta de senalizacion celular utilizando un modelo probabdstico de la expresion del gen objetivo

EL objeto descrito en el presente documento se refiere principalmente a bioinformatica, a tecnicas de procesamiento genomico, a tecnicas de procesamiento proteomico y a tecnicas relacionadas.

Los analisis genomicos y proteomicos tienen perspectivas sustanciales realizadas y potenciales para la aplicacion clmica en campos medicos tales como la oncologfa, donde se sabe que diversos canceres estan asociados con combinaciones espedficas de mutaciones/variaciones genomicas y/o niveles de expresion altos o bajos para genes espedficos, que juegan un papel en el crecimiento y la evolucion del cancer, por ejemplo proliferacion celular y metastasis. Por ejemplo, la ruta de senalizacion de Wnt afecta a la regulacion de la proliferacion celular, y esta altamente regulada. La alta actividad de la ruta Wnt debida a la perdida de la regulacion se ha correlacionado con el cancer, entre ellos con tumores malignos de colon. Sin limitacion a ninguna teoffa en particular de operacion, se cree que la desregulacion de la ruta Wnt en celulas de colon maligno conduce a la alta actividad de la ruta Wnt que a su vez provoca la proliferacion celular de las celulas malignas de colon, es decir, la propagacion del cancer de colon. Por otro lado, la actividad anormalmente baja de la ruta tambien podffa ser de interes, por ejemplo en el caso de la osteoporosis.

Las tecnologfas para la adquisicion de datos genomicos y proteomicos se han hecho facilmente disponibles en entornos clmicos. Por ejemplo, las mediciones por microarreglos se emplean rutinariamente para evaluar los niveles de expresion genica, niveles de protema, metilacion, y asf sucesivamente. La secuenciacion automatizada de genes permite una identificacion efectiva en costes de las variaciones geneticas en ADN y ARNm. La evaluacion cuantitativa de los niveles de ARNm durante la secuenciacion de genes promete ser otra herramienta clmica para evaluar los niveles de expresion genica.

A pesar de (o, tal vez, debido a) estos avances, la aplicacion clmica de los analisis genomicos y proteomicos se enfrenta a un obstaculo sustancial: la sobrecarga de datos. Por ejemplo, el numero de mutaciones identificables en una sola muestra clmica puede ser de cientos o miles. Muchas de estas mutaciones son denominadas mutaciones circunstantes sin una contribucion espedfica al crecimiento del cancer, y solo unas pocas contribuyen al crecimiento del cancer y a la evolucion funcional, y estas presentan las dianas para un tratamiento eficaz. Un microarreglo unico puede generar niveles de expresion genica para decenas de miles de genes. El procesamiento de estas grandes cantidades de datos para identificar informacion clmicamente util, como por ejemplo en la aplicacion de la eleccion de la terapia adecuada, es diffcil.

Un enfoque consiste en limitar el analisis a unas pocas pruebas canonicas o estandarizadas, como las pruebas aprobadas por la U.S. Food and Drug Administration (FDA). En este enfoque, se detecta un indicador espedfico o una combinacion de indicadores (por ejemplo, mutaciones y/o niveles de expresion genica altos o bajos especificados) para probar como "positivo" para la condicion de enfermedad indicada (por ejemplo, un tipo particular de cancer). La prueba canonica es apoyada por estudios clmicos que han demostrado una fuerte correlacion con la condicion de la enfermedad o con la eficacia del tratamiento. Este enfoque es util solo para aquellas condiciones clmicas para las que se ha desarrollado una prueba canonica, por ejemplo el diagnostico espedfico de una enfermedad o la prediccion de la respuesta a un farmaco en un tipo espedfico de cancer en una etapa espedfica, y tambien es ffgida, ya que solo es aplicable para las condiciones canonicas.

Otro enfoque se basa en la identificacion de grupos funcionalmente relacionados de indicadores genomicos o proteomicos. Por ejemplo, la ruta Wnt comprende una cascada de reacciones proteomicas. Los componentes principales de esta cadena incluyen (pero no se limitan a) la union de la protema de senalizacion Wnt a un receptor de superficie rizado de la celula que provoca la activacion de protemas de la familia de protemas Dsh que a su vez afectan el nivel de agentes de transcripcion tales como p-catenina/TCF4 en el nucleo celular. Estos agentes de transcripcion, a su vez, controlan la transcripcion de moleculas de ARNm objetivo que a su vez se traducen en protemas objetivo de la ruta Wnt. Los estudios clmicos han mostrado algunas correlaciones entre las protemas reguladoras de la ruta Wnt y la actividad de la ruta Wnt.

Sin embargo, la aplicacion de tales resultados del estudio clmico para el diagnostico y la evaluacion clmica de un paciente espedfico es diffcil debido a la complejidad de las rutas de senalizacion, por ejemplo, el camino Wnt. Como un ejemplo simple, la medicion del nivel de expresion de una protema que esta "corriente arriba" en la ruta Wnt puede no detectar el comportamiento anormal de una protema que esta "corriente abajo" en la ruta Wnt. Se cree que la ruta Wnt incluye numerosos mecanismos de retroalimentacion y el concepto simplificado de "corriente arriba" y "corriente abajo" puede ser inaplicable para una porcion sustancial de la ruta Wnt; mas generalmente, el comportamiento anormal en una porcion de la cascada de protemas que comprende la ruta Wnt puede tener mas o menos efecto sobre otras porciones de la cascada de protemas y sobre la actividad de la ruta Wnt en su conjunto. Ademas, en algunos estudios clmicos, los niveles de expresion de protema para las protemas reguladoras de la cascada de senalizacion se evaluan midiendo los niveles de expresion de ARNm de los genes que codifican para las protemas reguladoras. Esta es una medida indirecta

5

10

15

20

25

30

35

40

45

50

55

60

65

que puede no evaluar con precision el nivel de expresion de la protema reguladora, y casi nunca refleja la cantidad de protemas activas (despues de una modificacion postraduccion espedfica como la fosforilacion).

El principal problema subyacente a la presente invencion era por lo tanto proporcionar metodos y medios adecuados para realizar analisis genomicos y, respectivamente, proteomicos. Los aspectos espedficos del problema subyacente, as^ como otras objeciones relacionadas con la presente invencion, se hacen evidentes cuando se estudia la descripcion, los ejemplos proporcionados aqu y, en particular, cuando se estudian las reivindicaciones adjuntas.

M.F. Ochs et al., "Detection of Treatment Induced Changes in Signaling Pathways in Gastrointestinal Stromal Tumors Using Transcriptomic Data", Cancer Research, Vol. 69, No. 23, paginas 9125 a 9132 (2009) describe el uso del algoritmo de descomposicion bayesiana y datos sobre la regulacion transcripcional para crear una metodologfa, la Expresion Diferencial para la Determinacion de Senalizacion (DESIDE), para inferir la actividad de senalizacion de las mediciones por microarreglos. Cuando se aplico DESIDE para deducir la actividad de senalizacion en las lmeas celulares tumorales del estroma gastrointestinal tratadas con el mesilato de imatinib terapeutico dirigido (Gleevec), se detecto la actividad reducida esperada en la ruta KIT asf como cambios inesperados en la ruta de p53.

C.J. Vaske et al., " Interference of patient-specific pathway activities from multi-dimensional cancer genomics data using PARADIGM", Bioinformatics, Vol. 26, No. 12, paginas i237 a i245 (2010), describe un metodo para inferir actividades geneticas espedficas del paciente que incorporan interacciones de rutas curadas entre genes. Un gen es modelado por un grafico de factores como un conjunto de variables interconectadas que codifican la expresion y la actividad conocida de un gen y sus productos, permitiendo la incorporacion de muchos tipos de datos omicos como evidencia. El metodo predice el grado en que las actividades de una ruta (por ejemplo, estados genicos internos, interacciones o "salidas" de alto nivel) se alteran en el paciente utilizando la inferencia probabilfstica.

ND Lawrence et al., " Modelling transcriptional regulation using Gaussian processes ", Advances in Neural Information Processing Systems 19, en Proceedings of the Twentieth Annual Conference on Neural Information Processing Systems, Vancouver, BC, Canada (2006) considera la modelacion de la dinamica de procesos transcripcionales en la celula con base en el conocimiento de una serie de cantidades biologicas clave. El documento describe un enfoque para inferir tales cantidades, por ejemplo, los niveles de concentracion activos de las protemas del factor de transcripcion que impulsan el proceso y la sensibilidad de los genes objetivo a estas concentraciones, a partir de los niveles de expresion genica de un conjunto de genes objetivo conocidos. Los autores tratan la concentracion de protemas como una funcion latente con un proceso gaussiano anterior, e incluyen las sensibilidades, las tasas de decaimiento del ARNm y los niveles de expresion basales como hiperparametros.

La presente invencion proporciona metodos y aparatos nuevos y mejorados como se describe en el presente documento.

De acuerdo con un aspecto principal de la presente invencion, el problema anterior se resuelve mediante un metodo espedfico para evaluar la actividad de la ruta de senalizacion celular utilizando un modelo probabilfstico de expresion genica objetivo, a saber, un procedimiento que comprende:

actividad de inferencia de una o mas rutas de senalizacion celular en el tejido de un sujeto medico con base al menos en el nivel o niveles de expresion (en particular en el nivel de ARNm y/o protema) de uno o mas genes objetivo de las rutas de senalizacion celular medida en una muestra extrafda del tejido del sujeto medico, en la que la inferencia comprende:

inferir la actividad de la(s) ruta(s) de senalizacion celular en el tejido del sujeto medico mediante la evaluacion de al menos una porcion de un modelo probabilfstico, preferiblemente una red bayesiana, que representa las rutas de senalizacion celular para un conjunto de entradas que incluyen al menos el nivel o niveles de expresion de uno o mas genes objetivo de las rutas de senalizacion celular medida en la muestra extrafda del tejido del sujeto medico;

estimar un nivel en el tejido del sujeto medico de al menos un elemento de factor de transcripcion (TF), controlando el al menos un elemento TF la transcripcion del uno o mas genes objetivo de las rutas de senalizacion celular, con base al menos en parte en probabilidades condicionales que relacionan al menos un elemento TF y el nivel o niveles de expresion del uno o mas genes objetivo de las rutas de senalizacion celular medido en la muestra extrafda del tejido del sujeto medico; y

inferir la actividad de la ruta de senalizacion celular con base en el nivel estimado en la muestra de tejido del factor de transcripcion; y

determinar si las rutas de senalizacion celular estan funcionando anormalmente en el tejido del sujeto medico con base en la actividad inferida de las rutas de senalizacion celular en el tejido del sujeto medico;

en el que la inferencia se realiza mediante un dispositivo de procesamiento digital que utiliza el modelo probabilfstico de la(s) ruta(s) de senalizacion celular,

5

10

15

20

25

30

35

40

45

50

55

60

en el que la(s) ruta(s) de senalizacion celular comprende una ruta Wnt, una ruta ER (receptor de estrogeno), una ruta AR (receptor de androgenos) y/o una ruta Hedgehog,

en el que la inferencia comprende:

inferir la actividad de la ruta Wnt en el tejido del sujeto medico con base al menos en los niveles de expresion de uno o mas, preferiblemente al menos tres genes objetivo de la ruta Wnt medida en la muestra extrafda del tejido del sujeto medico seleccionados entre el grupo constituido por: KIAA1199, AXIN2, RNF43, TBX3, TDGF1, SOX9, ASCL2, IL8, SP5, ZNRF3, KLF6, CCND1, DEFA6 y FZD7,

y/o

inferir la actividad de la ruta ER en el tejido del sujeto medico con base al menos en los niveles de expresion de uno o mas, preferiblemente al menos tres, gen(es) objetivo de la ruta ER medida en la muestra extrafda del tejido del sujeto medico seleccionados entre el grupo constituido por: CDH26, SGK3, PGR, GREB1, CA12, XBP1, CeLsR2, WISP2, DSCAM, ERBB2, CTSD, TFF1 y NRIP1,

y/o

inferir la actividad de la ruta de Hedgehog en el tejido del sujeto medico con base al menos en los niveles de expresion de uno o mas, preferiblemente al menos tres, gen(es) objetivo de la ruta de Hedgehog medida en la muestra extrafda del tejido del sujeto medico seleccionados entre el grupo constituido por: GLI1, PTCH1, PTCH2, IGFBP6, SPP1, CCND2, FST, FOXL1, CFLAR, TSC22D1, RAB34, S100A9, S100A7, MYCN, FOXM1, GLI3, TCEA2, FYN y CTSL1

y/o

inferir la actividad de la ruta AR en el tejido del sujeto medico con base al menos en los niveles de expresion de uno o mas, preferiblemente al menos tres genes objetivo de la ruta AR medidos en la muestra extrafda del tejido del sujeto medico seleccionados entre el grupo constituido por: KLK2, PMEPA1, TMPRSS2, NKX3-1, ABCC4, KlK3, FKBP5, ELL2, UGT2B15, DHCR24, PPAP2A, NDRG1, LRIG1, CREB3L4, LCP1, GUCY1A3, AR y EAF2.

El "gen o genes objetivo" pueden ser "genes objetivo directos" y/o "genes objetivo indirectos" (como se describe en el presente documento).

Preferiblemente, la inferencia comprende estimar un nivel en el tejido del sujeto medico de al menos un elemento de factor de transcripcion (TF) representado por un nodo TF del modelo probabilfstico, controlando el elemento TF la transcripcion del uno o mas genes objetivo de la ruta de senalizacion celular, estando basada la estimacion al menos en parte en probabilidades condicionales del modelo probabilfstico que relaciona el nodo TF y los nodos en el modelo probabilfstico que representa el uno o mas genes objetivo de las rutas de senalizacion celular medida en la muestra extrafda del tejido del sujeto medico.

El modelo probabilfstico puede ser un modelo de red Bayesiana. De este modo, de acuerdo con una realizacion preferida, la inferencia se lleva a cabo utilizando una red Bayesiana que comprende nodos que representan informacion sobre las rutas de senalizacion y relaciones de probabilidad condicional entre nodos conectados de la red Bayesiana.

En este texto asf como en los ejemplos siguientes se describen genes objetivo particularmente adecuados (vease, por ejemplo, las Tablas 1-9).

De este modo, de acuerdo con una realizacion preferida, el gen o genes objetivo se seleccionan del grupo que comprende o consiste en los genes objetivo enumerados en la Tabla 1 o Tabla 6 (para la ruta Wnt), los genes objetivo enumerados en la Tabla 2, Tabla 5 o la Tabla 7 (para la ruta ER), los genes objetivo enumerados en la Tabla 3 o la Tabla 8 (para la ruta de Hedgehog) y los genes objetivo enumerados en la Tabla 4 o la Tabla 9 (para la ruta AR).

Se prefiere particularmente un metodo en el que la inferencia se basa adicionalmente en los niveles de expresion de al menos un gen objetivo de la ruta Wnt medidos en la muestra extrafda del tejido del sujeto medico seleccionado del grupo que consiste en: NKD1, OAT, FAT1, LEF1, GLUL, REG1B, TCF7L2, COL18A1, BMP7, SLC1A2, ADRA2C, PPARG, DKK1, HNF1A y LECT2.

Particularmente preferido es un metodo en el que la inferencia se basa adicionalmente en los niveles de expresion de al menos un gen objetivo de la ruta ER medidos en la muestra extrafda del tejido del sujeto medico seleccionado del grupo que consiste en: AP1B1, ATP5J, COL18A1, COX7A2L, EBAG9, ESR1, HSPB1, IGFBP4, KRT19, MYC, NDUFV3, PISD, PRDM15, PTMA, RARA, SOD1 y TRIM25.

5

10

15

20

25

30

35

40

45

50

55

60

Tambien se prefiere un metodo en el que la inferencia se basa adicionalmente en los niveles de expresion de al menos un gen objetivo de la ruta de Hedgehog medidos en la muestra extrafda del tejido del sujeto medico seleccionado del grupo que consiste en: BCL2, FOXA2, FOXF1, H19 , HHIP, IL1R2, JAG2, JUP, MIF, MYLK, NKX2-2, NKX2-8, PITRM1 y TOM1,.

Tambien se prefiere un metodo en el que la inferencia se basa adicionalmente en los niveles de expresion de al menos un gen objetivo de la ruta AR medidos en la muestra extrafda del tejido del sujeto medico seleccionado del grupo que consiste en: APP, NTS, PLAU, CDKN1A, DRG1, FGF8, IGF1, PRKACB, PTPN1, SGK1 y TACC2,.

La presente invencion se refiere tambien a un metodo (como se describe en el presente documento) que comprende:

inferir la actividad de una ruta Wnt en tejido de un sujeto medico con base al menos en los niveles de expresion de dos, tres o mas genes objetivo de un conjunto de genes objetivo de la ruta Wnt medida en una muestra extrafda del tejido del sujeto medico

y/o

inferir la actividad de una ruta ER en tejido de un sujeto medico con base al menos en los niveles de expresion de dos, tres o mas genes objetivo de un conjunto de genes objetivo de la ruta ER medida en una muestra extrafda del tejido del sujeto medico

y/o

inferir la actividad de una ruta de Hedgehog en el tejido de un sujeto medico con base al menos en los niveles de expresion de dos, tres o mas genes objetivo de un conjunto de genes objetivo de la ruta de Hedgehog medida en una muestra extrafda del tejido del sujeto medico

y/o

inferir la actividad de una ruta AR en el tejido de un sujeto medico con base al menos en los niveles de expresion de dos, tres o mas genes objetivo de un conjunto de genes objetivo de la ruta AR medida en una muestra extrafda del tejido del sujeto medico.

Preferiblemente,

el conjunto de genes objetivo de la ruta Wnt incluye al menos nueve, preferiblemente todos los genes objetivo seleccionados del grupo que comprende o consiste en: KIAA1199, AXIN2, RNF43, TBX3, TDGF1, SOX9, ASCL2, IL8, SP5, ZNRF3, KLF6, CCND1 , DEFA6 y FZD7, y/o

el conjunto de genes objetivo de la ruta ER incluye al menos nueve, preferiblemente todos los genes objetivo seleccionados del grupo que comprende o consiste en: CDH26, SGK3, PGR, GREB1, CA12, XBP1, CELSR2, WISP2 , DSCAM, ERBB2, CTSD, TFF1 y NRIP1,

y/o

el conjunto de genes objetivo de la ruta de Hedgehog incluye al menos nueve, preferiblemente todos los genes objetivo seleccionados del grupo que comprende o que consiste en: GLI1, PTCH1, PTCH2, IGFBP6, SPP1, CCND2, FST, FOXL1, CFLAR, TSC22D1, RAB34, S100A9 , S100A7, MYCN, FOXM1, GLI3, TCEA2, FYN y CTSL1,

y/o

el conjunto de genes objetivo de la ruta AR incluye al menos nueve, preferiblemente todos los genes objetivo seleccionados del grupo que comprende o consiste en: KLK2, PMEPA1, tMpRSS2, NKX3-1, ABCC4, KLK3, FKBP5, ELL2, UGT2B15, DHCR24, PPAP2A, NDRG1, LRIG1, CREB3L4, LCP1, GUCY1A3, AR y EAF2.

Un metodo, en el que

el conjunto de genes objetivo de la ruta Wnt incluye ademas al menos un gen objetivo seleccionado del grupo que comprende o consiste en: NKD1, OAT, FAT1, LEF1, GLUL, REG1B, TCF7L2, COL18A1, BMP7, SLC1A2, ADRA2C , PPARG, DKK1, HNF1A y LECT2,

y/o

5

10

15

20

25

30

35

40

45

50

55

60

el conjunto de genes objetivo de la ruta ER incluye ademas al menos un gen objetivo seleccionado del grupo que comprende o consiste en: AP1B1, ATP5J, COL18A1, COX7A2L, EBAG9, ESR1, HSPB1, IGFBP4, KRT19, MYC, NDUFV3, PISD, PRDM15 , PTMA, RARA, SOD1 y TRIM25,

y/o

el conjunto de genes objetivo de la ruta Hedgehog incluye ademas al menos un gen objetivo seleccionado del grupo que comprende o consiste en: BCL2, FOXA2, FOXF1, H19, HHIP, IL1R2, JAG2, JUP, MIF, MYLK, NKX2-2, NKX2-8, PITRM1 y TOM1,

y/o

se prefiere particularmente el conjunto de genes objetivo de la ruta AR que incluye ademas al menos un gen objetivo seleccionado del grupo que comprende o que consiste en: APP, NTS, PLAU, CdKnIA, DRG1, FGF8, IGF1, PRKACB, PTPN1, SGK1 y TACC2.

La muestra o muestras para usar de acuerdo con la presente invencion pueden ser, por ejemplo, una muestra obtenida a partir de una lesion de mama, o de un colon de un sujeto medico conocido por o sospechoso de tener cancer de colon, o de un tngado de un sujeto medico conocido por o sospechoso de tener cancer de tngado, etc., preferiblemente mediante un procedimiento de biopsia u otro procedimiento de extraccion de muestras. El tejido del que se extrae una muestra puede ser tambien tejido metastasico, por ejemplo tejido maligno (sospechoso) procedente de colon, mama, tngado u otro organo que se ha diseminado fuera del colon, la mama, el tngado u otro organo. En algunos casos, la muestra de tejido puede ser celulas tumorales circulantes, es decir, celulas tumorales que han entrado en el torrente sangumeo y pueden extraerse como la muestra de tejido extrafda usando tecnicas de aislamiento adecuadas.

Otro aspecto divulgado de la presente invencion se refiere al uso de un medio de almacenamiento no transitorio tal como se describe en el presente documento o a un programa informatico como se describe aqu para el diagnostic espedfico de una enfermedad o la prediccion de la respuesta a un farmaco en un tipo espedfico de cancer en una etapa espedfica.

De acuerdo con otro aspecto divulgado, un aparato comprende un procesador digital configurado para realizar un metodo segun la invencion tal como se describe en el presente documento.

De acuerdo con otro aspecto divulgado, un medio de almacenamiento no transitorio almacena instrucciones que son ejecutables mediante un dispositivo de procesamiento digital para llevar a cabo un metodo segun la invencion tal como se describe en el presente documento. El medio de almacenamiento no transitorio puede ser un medio de almacenamiento legible por ordenador, tal como un disco duro u otro medio de almacenamiento magnetic, un disco optico u otro medio de almacenamiento optico, una memoria de acceso aleatorio (RAM), memoria de solo lectura (ROM), memoria instantanea u otro medio de almacenamiento electronic, un servidor de red, etc. El dispositivo de procesamiento digital puede ser un dispositivo de mano (por ejemplo, un asistente de datos personales o un telefono inteligente), un ordenador portatil, un ordenador de escritorio, un ordenador o dispositivo de tableta, un servidor de red remoto, etc.

De acuerdo con otro aspecto divulgado, un programa de ordenador comprende medios de codigo de programa para hacer que un dispositivo de procesamiento digital realice un metodo de acuerdo con la invencion tal como se describe en el presente documento. El dispositivo de procesamiento digital puede ser un dispositivo de mano (por ejemplo, un asistente de datos personales o un telefono inteligente), un ordenador portatil, un ordenador de escritorio, un ordenador o dispositivo de tableta, un servidor de red remoto, etc.

Una ventaja reside en un sistema de soporte de decision clmica (CDS) que proporciona recomendaciones clmicas con base en el analisis probabilistic de una o mas rutas de senalizacion celular, por ejemplo utilizando un modelo de red Bayesiana de una ruta Wnt, una ruta ER, una ruta AR y/o una ruta Hedgehog.

Otra ventaja reside en una evaluacion mejorada de la actividad de la ruta de senalizacion celular que es menos susceptible al error.

Otra ventaja reside en proporcionar un sistema CDS que recomiende un tratamiento dirigido para la perdida de la regulacion de una ruta de senalizacion celular.

Otra ventaja reside en proporcionar un sistema CDS que esta disenado para detectar la perdida de regulacion para una ruta de senalizacion celular particular, tal como una ruta Wnt, una ruta ER, una ruta AR o una ruta Hedgehog y se adapta facilmente para proporcionar recomendaciones para diferentes tipos de cancer obtenidas por esa ruta de senalizacion celular particular.

5

10

15

20

25

30

35

40

45

50

55

60

65

La presente invencion tal como se describe en el presente documento puede, tambien ventajosamente, por ejemplo, utilizarse en conexion con

- diagnostico con base en la actividad predicha (inferida);

- pronostico con base en la actividad predicha (inferida);

- prescripcion de farmacos con base en la actividad predicha (inferida);

- prediccion de la eficacia del farmaco con base en la actividad predicha (inferida);

- prediccion de efectos adversos con base en la actividad predicha (inferida);

- control de la eficacia de los farmacos;

- desarrollo de farmacos;

- desarrollo del ensayo;

- investigacion de rutas;

- estadificacion del cancer;

- inscripcion del sujeto en un ensayo clmico con base en la actividad predicha (inferida);

- seleccion de la prueba posterior por realizar, y/o;

- seleccion de pruebas de diagnostico complementarias.

Otras ventajas resultaran evidentes para los expertos en la materia tras la lectura y comprension de las figuras adjuntas, de la siguiente descripcion y, en particular, de la lectura de los ejemplos detallados proporcionados mas adelante.

La figura 1 muestra una red Bayesiana simple que representa parte de una ruta de senalizacion celular. La ruta de senalizacion celular esta simbolizada por un complejo de factor de transcripcion (TF) y los genes objetivo producidos como resultado de la presencia del complejo de factor de transcripcion. La relacion probabilfstica entre el elemento TF y un gen objetivo en caso de discretizacion binaria puede representarse mediante una tabla de probabilidad condicional como se representa en el diagrama.

La figura 2 muestra una red Bayesiana ilustrativa que describe una ruta de senalizacion celular hipotetica. En el diagrama se representan tanto las protemas corriente arriba como los nodos de ARNm objetivo corriente abajo. Las protemas corriente arriba sirven como entrada en el complejo de factor de transcripcion, mientras que los ARNm objetivo son los nodos de salida del complejo del factor de transcripcion.

La figura 3 muestra un ejemplo ilustrativo de una representacion de red Bayesiana de una unica ruta de senalizacion celular con complejo de multiples factores de transcripcion o multiples rutas de senalizacion celular con su propio complejo de factor de transcripcion combinado en una red Bayesiana o una combinacion de las mismas.

La figura 4 muestra un ejemplo de una red Bayesiana que ilustra una representacion simple de una ruta de senalizacion celular similar a la Figura 1. Ahora se han unido otros nodos para representar la traduccion del ARNm objetivo en protemas objetivo.

La figura 5 muestra un ejemplo de una red Bayesiana que ilustra otra representacion simple de una ruta de senalizacion celular. La ruta se representa utilizando el factor de transcripcion complejo y sus niveles de protema objetivo.

La figura 6 muestra la red Bayesiana ilustrativa de la Figura 1 con una capa adicional de nodos que representan los conjuntos de sondas en un chip de microarreglos que conecta las intensidades de las sondas con los correspondientes niveles de ARNm objetivo.

La Figura 7 muestra un ejemplo ilustrativo de una variante de realizacion de la red Bayesiana de la Figura 1 que incluye nodos que representan variaciones en metilacion y numero de copias como ejemplos para nodos de informacion adicionales para, en este ejemplo particular, cualquiera de los niveles de ARNm objetivo incluidos.

La Figura 8 muestra una actividad de la ruta de Wnt predicha de la red Bayesiana y el metodo de centroide mas cercano como se describe aqrn en un conjunto de datos de muestras de colon (GSE20916).

5

10

15

20

25

30

35

40

45

50

55

60

65

La Figura 9 muestra una actividad de la ruta de Wnt predicha de la red Bayesiana y el metodo de centroide mas cercano como se describe aqrn en un conjunto de datos de muestras de colon (GSE4183).

La Figura 10 muestra una actividad de la ruta de Wnt predicha de la red Bayesiana y el metodo de centroide mas cercano como se describe aqrn en un conjunto de datos de muestras de colon (GSE15960).

La Figura 11 muestra una actividad de la ruta de Wnt predicha de la red Bayesiana y el metodo de centroide mas cercano como se describe aqrn en un conjunto de datos de muestras de cancer de mama (GSE12777).

La Figura 12 muestra una actividad de la ruta de Wnt predicha de la red Bayesiana y el metodo de centroide mas cercano como se describe aqrn en un conjunto de datos de muestras de cancer de mama (GSE21653).

La Figura 13 muestra una actividad de la ruta de Wnt pronosticada de la red Bayesiana y el metodo de centroide mas cercano como se describe aqrn en un conjunto de datos de muestras de cancer de Imgado (GSE9843).

La Figura 14 muestra una actividad de la ruta de Wnt predicha utilizando una red Bayesiana usando los genes objetivo de la lista de curado de evidencia en comparacion con los genes objetivo de la lista de literatura amplia como se describe en el presente documento en un conjunto de datos de muestras de colon (GSE20916).

La Figura 15 muestra una actividad de la ruta de Wnt predicha utilizando una red Bayesiana usando los genes objetivo de la lista de curado de evidencia en comparacion con los genes objetivo de la lista de literatura amplia como se describe aqrn en un conjunto de datos de muestras de colon (GSE4183).

La Figura 16 muestra una actividad de la ruta de Wnt predicha utilizando una red Bayesiana usando los genes objetivo de la lista de curado de evidencia en comparacion con los genes objetivo de la lista de literatura amplia como se describe aqrn en un conjunto de datos de muestras de colon (GSE15960).

La Figura 17 muestra una actividad de la ruta de Wnt predicha utilizando una red Bayesiana usando los genes objetivo de la lista de curado de evidencia en comparacion con los genes objetivo de la lista de literatura amplia como se describe en el presente documento en un conjunto de datos de muestras de cancer de mama (GSE12777).

La Figura 18 muestra una actividad de la ruta de Wnt predicha utilizando una red Bayesiana utilizando los genes objetivo de la lista de curado de evidencia en comparacion con los genes objetivo de la lista de literatura amplia como se describe en el presente documento en un conjunto de datos de muestras de cancer de hngado (GSE9843).

La Figura 19 muestra una actividad de la ruta de Wnt predicha utilizando una red Bayesiana utilizando los genes objetivo de la lista de curado de evidencia en comparacion con los genes objetivo de la lista de literatura amplia como se describe en el presente documento en un conjunto de datos de muestras de meduloblastoma (GSE10327).

La Figura 20 muestra esquematicamente un sistema de soporte de decision clmica (CDS) configurado para evaluar una o mas rutas de senalizacion celular tal como se describe aqrn (ejemplar mostrado para la ruta Wnt).

La Figura 21 muestra una actividad prevista de la ruta de Wnt en muestras de colon de GSE4183.

La Figura 22 muestra una actividad prevista de la ruta Wnt en muestras de meduloblastoma de GSE10327.

La Figura 23 muestra una actividad prevista de la ruta Wnt en muestras de cancer de hngado de GSE9843.

La Figura 24 muestra una actividad prevista de la ruta Wnt en lmeas celulares de cancer de mama de GSE12777.

La Figura 25 muestra una actividad prevista de la ruta ER en las lmeas celulares de cancer de mama de GSE12777.

La Figura 26 muestra una actividad prevista de la ruta ER en muestras de cancer de mama de GSE12276.

La Figura 27 muestra una actividad prevista de la ruta ER en las lmeas celulares de cancer de GSE36133.

La Figura 28 muestra una actividad de la ruta prevista de Hedgehog en lmeas celulares de cancer de GSE34211.

La Figura 29 muestra una actividad prevista de la ruta de Hedgehog en muestras de meduloblastoma de GSE10327.

La Figura 30 muestra una actividad prevista de la ruta de Hedgehog en muestras de cancer de mama de GSE12276.

La Figura 31 muestra una actividad de ruta de ER esperada en MCF7 y lmeas de celulas resistentes a tamoxifeno de GSE21618.

5

10

15

20

25

30

35

40

45

50

55

60

65

La Figura 32 muestra una actividad predicha de la ruta ER en una serie temporal de muestras de celulas MCF7 estimuladas con estrogenos de GSE11324.

La Figura 33 muestra la actividad de la ruta Wnt, ER y Hedgehog en muestras de luminal A de GSE12276.

La Figura 34 muestra la actividad de las rutas Wnt, ER y Hedgehog en muestras basales de GSE12276.

La Figura 35 muestra una actividad prevista de la ruta Wnt en muestras de colon de GSE20916.

La Figura 36 muestra una actividad de la ruta ER esperada en lmeas celulares MCF7 estimuladas con estrogeno (E2) o un control negativo (EtOH) (GSE9253).

La Figura 37 muestra las curvas de supervivencia de Kaplan-Meier de los pacientes del conjunto de datos GSE12276 agrupados de acuerdo con la actividad de la ruta.

La figura 38 muestra una actividad de ruta de AR predicha en lmeas celulares LNCaP tratadas con diferentes regfmenes de tratamiento de GSE7708.

La figura 39 muestra una actividad predicha de ruta AR en muestras de cancer de prostata de GSE17951.

La figura 40 muestra una actividad de ruta AR predicha en muestras de cancer de mama de GSE12276.

La figura 41 muestra una actividad de ruta AR predicha en el conjunto de datos GSE36133 que contiene muestras de lmeas celulares que representan diversos tipos de cancer.

La Figura 42 muestra una actividad de ruta de AR predicha en el conjunto de datos GSE34211 que contiene muestras de lmeas celulares que representan diversos tipos de cancer.

Los siguientes ejemplos solamente ilustran metodos y aspectos particularmente preferidos seleccionados en conexion con los mismos. La ensenanza proporcionada en los mismos puede usarse para construir varios ensayos y/o kits, por ejemplo para detectar, predecir y/o diagnosticar la actividad anormal de una o mas rutas de senalizacion celular. Ademas, al utilizar metodos como se describen aqm, se puede guiar ventajosamente la prescripcion de farmacos, se puede predecir el farmaco y monitorizar la eficacia (y/o efectos adversos) del farmaco, se puede predecir y controlar la resistencia a farmacos, por ejemplo para seleccionar las pruebas posteriores por realizar (como una prueba de diagnostico complementaria). Los siguientes ejemplos no deben interpretarse como limitativos del alcance de la presente invencion.

Ejemplo 1: Construccion de la red Bayesiana

Tal como se describe en el presente documento, construyendo un modelo probabilfstico (por ejemplo, el modelo Bayesiano ilustrativo mostrado en la Figura 6) e incorporando relaciones probabilfsticas condicionales entre los niveles de expresion de un numero de diferentes genes objetivo y la actividad de la ruta de senalizacion celular, tal modelo puede usarse para determinar la actividad de la ruta de senalizacion celular con un alto grado de precision. Ademas, el modelo probabilfstico puede actualizarse facilmente para incorporar conocimientos adicionales obtenidos en estudios clmicos posteriores, ajustando las probabilidades condicionales y/o anadiendo nuevos nodos al modelo para representar fuentes de informacion adicionales. De esta manera, el modelo probabilfstico puede ser actualizado como apropiado para incorporar el conocimiento medico mas reciente.

Uno de los modelos de red Bayesiana mas simples para representar una ruta de senalizacion celular sena un modelo de dos niveles que incluyera el elemento de factor de transcripcion y los genes objetivo asociados (vease la Figura 1). El elemento complejo del factor de transcripcion es una representacion del nivel del complejo del factor de transcripcion. El nivel de protema del elemento de factor de transcripcion esta conectado a un numero de niveles de ARNm de los genes objetivo del factor de transcripcion (en esta red Bayesiana ejemplar solo se representan tres genes objetivo que se sabe que se expresan en el tejido en caso de que el factor de transcripcion este disponible). Debe entenderse que muchos, la mayona o todos los genes objetivo de la ruta (en el caso de las rutas Wnt, ER, Hedgehog y AR particularmente los genes objetivo mencionados en Tabla 1, Tabla 2, Tabla 3 y Tabla 4 respectivamente) son regulados de manera analoga por el elemento TF. Las relaciones entre el nivel del elemento TF y los niveles de ARNm de los genes objetivo se modelan en la red Bayesiana por los bordes. Para cada uno de los genes objetivo, una distribucion probabilfstica condicional especifica como el nivel de ARNm del gen depende del nivel del elemento TF.

Los niveles del elemento TF y los genes objetivo pueden estar representados de diversas maneras. Una opcion es usar una discretizacion binaria, en estados "ausentes" y "presentes" para el elemento TF, y "abajo" y "arriba" para el nivel de ARNm de un gen objetivo (ver Figura 1). La relacion probabilfstica entre el elemento TF y un gen objetivo puede entonces representarse mediante una tabla de probabilidad condicional (como se indica en la misma figura). En lugar de una discretizacion binaria, los niveles tambien pueden representarse como valores de nivel continuo, o como valores

5

10

15

20

25

30

35

40

45

50

55

60

cuantificados que tienen tres o mas niveles de cuantificacion (por ejemplo, "abajo", "normal" y "arriba" para genes objetivo).

La ilustracion anterior de una red Bayesiana simple es solo una realizacion ilustrativa del modelo de red Bayesiana (Figura 1). En general, un modelo de red Bayesiana comprende un grafo adclico dirigido que comprende nodos conectados por bordes. Cada nodo representa un elemento de informacion perteneciente a la ruta a mano (o, mas generalmente, a la ruta de senalizacion celular). Cada uno de los nodos de los elementos de la ruta representa un elemento genomico o proteomico de la ruta de senalizacion celular. A modo de ejemplo ilustrativo, un nodo de elemento de ruta puede representar uno de entre, pero no restringiendose a: una protema, un complejo de protema, una molecula de ARNm transcrita a partir de un gen objetivo de la ruta de senalizacion celular, un gen metilado, una protema fosforilada, un complejo de protema fosforilada, o asf sucesivamente. Como se describe mas adelante en este documento, pueden incluirse en la red Bayesiana otros tipos de nodos, pero no se limitan a los ejemplos dados, para representar otros tipos de informacion tales como elementos de referencia de medicion espedficos, ocurrencias de variacion genica, etc.

Tfpicamente, se anaden niveles adicionales "corriente arriba" que representan las protemas reguladoras (en estado activo o inactivo) si el conocimiento del nivel de dicha protema pudiera ser probatorio para determinar la recomendacion de soporte de decision clmica. Por ejemplo, podna ser util la inclusion de las protemas elementales en el factor de transcripcion o en las protemas esenciales antes del factor de transcripcion en la red Bayesiana (vease la Figura 2) si se dispone de un farmaco que espedficamente apunte a dichas protemas y no a la ruta como un todo. Se cree que el factor de transcripcion (TF) es un complejo proteico (es decir, una combinacion de protemas unidas entre sf en una estructura espedfica que realiza la funcion de regular la transcripcion a partir de los genes objetivo) en la mayona de las rutas de senalizacion. Para otras rutas, el elemento TF puede ser una sola protema. Ademas, las rutas de senalizacion pueden ejercer su actividad a traves de mas de un factor de transcripcion, resultando en una mas compleja red Bayesiana con multiples factores de transcripcion de alimentacion en los genes objetivo (vease la Figura 3 para una ilustracion hipotetica de multiples elementos de factor de transcripcion que influyen en la transcripcion del gen objetivo). Esta red Bayesiana de multiples factores de transcripcion puede ser tambien el resultado de una combinacion de rutas combinadas en una red Bayesiana.

Tambien se pueden incluir nodos de informacion adicionales mas abajo de los genes objetivo en la red Bayesiana. Un ejemplo ilustrativo de esto es la traduccion del ARNm del gen objetivo en protemas (Figura 4) o nodos de nivel de protema del gen objetivo como nodo sustituto del nivel del ARNm del gen objetivo (Figura 5). Las moleculas de ARNm del gen objetivo se traducen por interaccion con moleculas de ribosomas para formar protemas que corresponden a las moleculas de ARNm y que corresponden a los genes objetivo. Esta es la expresion de los genes objetivo en el nivel de protema. La medicion del nivel de protema mediante, pero sin limitarse a, por ejemplo espectrometna de masas, inmunohistoqmmica, tecnicas de electroforesis en gel, puede actuar como evidencia para estos niveles de protema objetivo.

El nivel de expresion de un gen objetivo se puede calcular con base en la intensidad medida de conjuntos de sondas correspondientes de un microarreglo, por ejemplo, promediando o por otros medios de otras tecnicas (por ejemplo, secuenciacion de ARN). En algunas realizaciones este computo se integra en la red Bayesiana, extendiendo la red Bayesiana con un nodo para cada conjunto de sondas que se utiliza e incluyendo un recorrido de borde a cada uno de estos nodos de "medicion" desde el nodo de gen objetivo correspondiente, como se describe en el presente documento con referencia a la Figura 6.

Opcionalmente, el modelo probabilistic tambien puede incorporar informacion genomica adicional, tal como informacion sobre mutaciones, variaciones de numero de copias, expresion genica, metilacion, informacion de translocacion, etc., que cambian secuencias genomicas que estan relacionadas con la cascada de senalizacion de la ruta para inferir la actividad de la ruta y para localizar el defecto en la ruta Wnt que provoca el funcionamiento aberrante (ya sea activacion o inactividad), como se describe por referencia ilustrativa a la Figura 7 para el caso ilustrativo de la metilacion y el numero de copias de datos. Sin embargo, debe entenderse que otros tipos de informacion con respecto al gen objetivo se traducen analogamente en nodos de informacion. Tal informacion genomica puede estar disponible a traves, pero no limitandose a, secuenciacion de ARN y analisis de SNP.

Ademas, debe entenderse que mientras que los ejemplos tal como se describen mas adelante en este documento pertenecen a la ruta Wnt, ER, AR y Hedgehog se proporcionan como ejemplos ilustrativos, los enfoques para el analisis de la ruta de senalizacion celular descritos aqrn se aplican facilmente a otras rutas de senalizacion celular ademas de estas (por ejemplo, las rutas de senalizacion celular Notch, HER2/PI3K, TGFbeta, EGF, VEGF y TNF-NFkappaB), y rutas de senalizacion intracelular con receptores dentro de la celula (por ejemplo, rutas de senalizacion celular de progesterona, acido retinoico y vitamina D).

Ejemplo 2: Comparacion de metodos de aprendizaje de maquina

5

10

15

20

25

30

35

40

45

50

55

60

65

Aqu se compara el rendimiento de dos tipos de tecnicas de aprendizaje de maquina entre s^ tomando la ruta Wnt como ejemplo: la prediccion de la actividad Wnt mediante el metodo centroide mas proximo se compara con el metodo de eleccion segun la presente invencion, que por ejemplo utiliza una red Bayesiana.

Como se discutio anteriormente, el enfoque de la red Bayesiana se selecciono con base en sus ventajas que residen en el enfoque probabilfstico, pudiendo incorporar la informacion disponible en forma "blanda", por ejemplo porcentajes de sujetos de estudio que muestran caractensticas probatorias, y en forma "dura", usando relaciones probabdsticas condicionales. Ademas, el modelo probabilfstico tambien permite incorporar informacion a partir del conocimiento parcial (mas que integral) de la ruta de senalizacion celular subyacente, tambien mediante el uso de tablas de probabilidad condicional.

Aqu se demuestra que los inventores anadieron valor en la forma en que inclrnan propiedades biologicas conocidas y la disponibilidad de pruebas blandas utilizando una red Bayesiana en comparacion con otros metodos de aprendizaje de maquina, por ejemplo clasificacion centroide mas cercana, un metodo bien conocido. La clasificacion centroide mas cercana es un metodo de aprendizaje de maquina donde para cada clase de muestras de entrenamiento se calcula un perfil medio (= centroide), y luego, para que una muestra sea clasificada, la etiqueta se predice en base al centroide mas cercano (la etiqueta centroide mas cercana es por tanto el resultado de la prediccion). Los dos centroides se calculan en la misma lista de conjuntos de sonda utilizados en la red Bayesiana, y para el “Wnt en” y “Wnt fuera” del centroide se basan en las muestras de adenoma y las muestras normales de colon, respectivamente, de los mismos datos procesados fRMA de GSE8671. La relacion log2 de las dos distancias euclidianas entre una muestra y los dos centroides se utilizo posteriormente para clasificar las muestras de diversos conjuntos de datos para inferir la clasificacion de las muestras. Esto significa que una relacion log2 de 0 corresponde a una distancia igual de la muestra a los dos centroides, un valor> 0 corresponde a una muestra clasificada como senalizacion Wnt activa mientras que un valor <0 corresponde a una muestra identificada por tener una ruta de senalizacion Wnt inactiva.

La red Bayesiana se construyo similar a la Figura 6 y al procedimiento descrito en el presente documento. De forma similar a esta descripcion de la red Bayesiana Wnt, las tablas de probabilidad condicional de los bordes entre conjuntos de sonda y sus respectivos genes fueron entrenados utilizando datos procesados fRMA de 32 muestras de colon normal y 32 muestras de adenoma del conjunto de datos GSE8671 de Gene Expression Omnibus (accesible en
http://www.ncbi.nlm.nih.gov/geo/, visitado por ultima vez el 13 de julio de 2011). La red Bayesiana entrenada fue entonces probada en diversos conjuntos de datos para inferir la probabilidad P (Wnt habilitada) de que la ruta Wnt esta "habilitada", es decir, activa, lo que se toma igual a la probabilidad deducida de que el complejo de transcripcion de la ruta Wnt esta “presente".

La red Bayesiana entrenada y el modelo de centroide mas cercano se ensayaron entonces en varios conjuntos de datos de microarreglos procesados con fRMA para inferir la probabilidad de que la ruta de Wnt este "habilitada", medida por P (Wnt Habilitada) y relacion log2 de las distancias. Los resumenes de los resultados de la red Bayesiana y el modelo de centroide mas cercano se muestran en las Figuras 8 a 13. El lector debe tener en cuenta que las metricas de salida de los dos metodos no son una relacion uno a uno, sin embargo el signo y la magnitud relativa de las metricas de salida dentro de un metodo son comparables.

La gran mayona de las muestras de colon (cancer) (GSE20916, GSE4183) se clasifican por igual entre la ruta Wnt activa e inactiva, excepto GSE15960 que tema una fraccion elevada de muestras negativas clasificadas erroneamente en el metodo centroide mas cercano (falsos negativos). Esta percepcion de una mayor fraccion de falsos negativos se mantiene en los otros tipos de cancer tambien. Esto es especialmente cierto para muestras de cancer de mama (GSE12777, GSE21653) y cancer de Idgado (GSE9843); salvo algunas excepciones, se preve que todas las muestras tengan una ruta de Wnt inactiva que se sabe que es incorrecta en el caso de muestras de cancer de mama de tipo basal y de cancer de Idgado CTNNB1. En algunos casos, evidente en, por ejemplo, GSE15960, la clasificacion se podna corregir bajando y aumentando el umbral de la clasificacion centroide mas cercana. La idea detras de esto sena que el umbral de la actividad Wnt podna ser alterado en diferentes tipos de tejido. Sin embargo, esto implicana una formacion adicional del metodo centroide mas cercano para que sea aplicable a otros tipos de tejidos. Una de las fortalezas del modelo de la red Bayesiana es que este entrenamiento espedfico del tejido no es necesario ya que se establece que no es espedfico en cuanto al tipo de tejido.

Ejemplo 3: Seleccion de genes objetivo

Un factor de transcripcion (TF) es un complejo de protemas (es decir, una combinacion de protemas unidas entre sf en una estructura espedfica) o una protema que es capaz de regular la transcripcion a partir de genes objetivo mediante la union a secuencias de ADN espedficas, controlando por lo tanto la transcripcion de informacion genetica de ADN a ARNm. El ARNm producido directamente debido a esta accion del complejo de transcripcion se denomina en el presente documento como un "gen objetivo directo". La activacion de la ruta tambien puede resultar en mas transcripcion de genes secundarios, denominados "genes objetivo indirectos". En lo que sigue, se prefieren los modelos de red Bayesiana (como modelos probabilfsticos ejemplares) que comprenden o consisten en genes objetivo directos, como enlaces directos entre la actividad de la ruta y el nivel de ARNm, sin embargo la distincion entre genes objetivo directos e indirectos no es siempre evidente. Aqrn se presenta un metodo para seleccionar genes objetivo directos

5

10

15

20

25

30

35

40

45

50

55

60

65

usando una funcion de puntuacion con base en datos de literatura disponible. Sin embargo, la seleccion accidental de genes objetivo indirectos no puede descartarse debido a la informacion limitada y a las variaciones e incertidumbres biologicas.

Se seleccionaron genes de ARNm de ruta espedfica a partir de la bibliograffa cientifica, utilizando un sistema de clasificacion en el que se daba una calificacion a la evidencia cientifica de un gen objetivo espedfico, dependiendo del tipo de experimented cientificos en los que se acumulaba la evidencia. Aunque algunas pruebas experimentales son meramente indicativas de que un gen es un gen objetivo, como por ejemplo un ARNm que aumenta en un microarreglo de un embrion en el que se sabe que la ruta Hedgehog esta activa, otras pruebas pueden ser muy fuertes, como la combinacion de un sitio de union del factor de transcripcion de la ruta identificada y la recuperacion de este sitio en un ensayo de inmunoprecipitacion de cromatina (ChIP) despues de la estimulacion de la ruta espedfica en la celula y el aumento de ARNm despues de la estimulacion espedfica de la ruta en una lmea celular.

En la literatura cientffica pueden identificarse varios tipos de experimentos para encontrar genes objetivo espedficos de la ruta de acceso:

1. Experimentos ChIP en los que se muestra la union directa de un factor de transcripcion de ruta a su sitio de union en el genoma. Ejemplo: Mediante el uso de la tecnologfa de cromatinainmunoprecipitacion (ChIP), se identificaron posteriores sitios de union a factores de transcripcion TCF4 funcionales en el ADN de las lmeas celulares de colon con y sin ruta Wnt activa, como un subconjunto de los sitios de union reconocidos puramente con base en la secuencia de nucleotidos. La funcionalidad putativa se identifico como la evidencia derivada de ChIP de que se encontro que el factor de transcripcion se urna al sitio de union al ADN.

2. Ensayos de Desplazamiento de Movilidad Electroforetica (EMSA) que muestran la union in vitro de un factor de transcripcion a un fragmento de ADN que contiene la secuencia de union. En comparacion con la evidencia con base ChIP, la evidencia con base en EMSA es menos fuerte, ya que no puede trasladarse a la situacion in vivo.

3. Estimulacion de la ruta y medicion de los perfiles de ARNm en un microarreglo o utilizando secuenciacion de ARN, utilizando lmeas celulares inducibles por las rutas y la medicion de los perfiles ARNm medidos en varios puntos de tiempo despues de la induccion en presencia de cicloheximida, lo que inhibe la traduccion a la protema, suponiendose asf que los ARNm inducidos son genes objetivo directos.

4. Similar a 3, pero utilizando la PCR cuantitativa para medir las cantidades de ARNm.

5. Identificacion de los sitios de union al factor de transcripcion en el genoma utilizando un enfoque bioinformatico. Ejemplo para la ruta Wnt: Usando la secuencia conocida de union al ADN del factor de transcripcion de la catenina TCF4-beta, se ejecuto un programa de software sobre la secuencia del genoma humano, y se identificaron sitios potenciales de union, tanto en regiones promotoras de gen como en otras regiones genomicas.

6. Semejante a 3, solo en ausencia de cicloheximida.

7. Similar a 4, solo en ausencia de cicloheximida.

8. Perfil de expresion de ARNm de muestras de tejidos o celulas espedficas de las que se sabe que la ruta es activa, sin embargo en ausencia de la condicion de control negativo apropiada.

En la forma mas sencilla se puede dar a cada ARNm objetivo potencial 1 punto para cada uno de estos enfoques experimentales en los que se identifico el ARNm objetivo.

Alternativamente, los puntos se pueden dar de forma incremental, es decir, una tecnologfa 1 punto, la segunda tecnologfa anade un segundo punto, y asf sucesivamente. Usando esta estrategia relativamente clasificadora, se puede hacer una lista mas confiable de los genes objetivo.

Alternativamente, la clasificacion de otra manera puede usarse para identificar los genes objetivo que tienen mas probabilidades de ser genes objetivo directos, proporcionando un mayor numero de puntos a la tecnologfa que proporciona la mayor evidencia de un gen objetivo directo in vivo; en la lista anterior significana 8 puntos para el enfoque experimental 1), 7 a 2), y bajando a un punto para la metodologfa experimental 8. Tal lista puede denominarse "lista de genes objetivo general".

A pesar de las variaciones e incertidumbres biologicas, los inventores asumieron que los genes objetivo directos son los que tienen mas probabilidades de ser inducidos de una manera independiente de los tejidos. Una lista de estos genes objetivo puede ser llamada "lista de genes objetivo curada con evidencia". Estas listas de objetivos curados se han utilizado para construir modelos computacionales que se pueden aplicar a muestras procedentes de diferentes fuentes de tejido.

5

10

15

20

25

30

35

40

45

50

55

60

65

La "lista general de genes objetivo" probablemente contiene genes que son mas espedficos de tejido, y pueden usarse potencialmente para optimizar y aumentar la sensibilidad y especificidad del modelo para aplicacion en muestras de un tejido espedfico, como muestras de cancer de mama.

A continuacion se ilustra un ejemplo de como se construyo espedficamente la seleccion de una lista de genes objetivo curada con evidencia para la ruta ER.

Con el fin de seleccionar los genes objetivo ER usados como entrada para el "modelo", se usaron los tres criterios siguientes:

1. La region promotora/potenciadora de gen contiene un motivo de elemento de respuesta a estrogenos (ERE):

a. Se debe demostrar que el motivo ERE responde al estrogeno, por ejemplo, mediante un ensayo de transfeccion transitoria en el que el motivo ERE espedfico esta unido a un gen informador y

b. La presencia del motivo ERE debe confirmarse, por ejemplo, mediante un analisis de motivo enriquecido de la region promotora/potenciadora del gen.

2. ER (diferencialmente) se une in vivo a la region promotora/potenciadora del gen en cuestion, demostrado, por ejemplo, mediante un experimento de ChIP/CHIP o un ensayo de inmunoprecipitacion de cromatina:

a. Se ha demostrado que ER se une a la region promotora/potenciadora del gen cuando la ruta ER es activa, y

b. (preferiblemente) no se une (o se une debilmente) a la region promotora/potenciadora del gen si la ruta ER no esta activa.

3. El gen es transcrito diferencialmente cuando la ruta ER es activa, demostrada por, por ejemplo,

a. enriquecimiento del ARNm del gen en cuestion mediante PCR en tiempo real, o experimento con microarreglos, o

b. la demostracion de que el ARN Pol II se une a la region promotora del gen a traves de un ensayo de inmunoprecipitacion.

La seleccion se realizo mediante la definicion como genes ER objetivo de los genes para los que se reunieron pruebas experimentales suficientes y bien documentadas que demostraban que los tres criterios mencionados anteriormente se cumplieron. Un experimento adecuado para recopilar evidencia de union diferencial ER es comparar los resultados de, por ejemplo, un experimento ChIP/CHIP en una lmea celular cancerosa que responde a estrogeno (por ejemplo, la lmea celular MCF-7), cuando se expone o no se expone a estrogeno. Lo mismo ocurre con la recoleccion de pruebas de la transcripcion de ARNm.

La metodologfa anterior discute el enfoque generico y un ejemplo mas espedfico del procedimiento de seleccion de genes objetivo que se ha empleado para seleccionar un numero de genes objetivo con base en la evidencia encontrada usando la metodologfa mencionado anteriormente. En la Tabla 1, Tabla 2, Tabla 3 y Tabla 4 se muestran las listas de genes objetivo utilizados en los modelos de red Bayesiana para rutas ejemplares, a saber, las rutas Wnt, ER, Hedgehog y AR.

Los genes objetivo de la ruta de ER usados para el modelo de red Bayesiana de la ruta de ER descrita en este documento (mostrada en la Tabla 2) contienen una seleccion de genes objetivo con base en su puntuacion de evidencia bibliografica; Solo se anadieron a esta breve lista los genes objetivo con las puntuaciones de evidencia mas altas (genes objetivo preferidos de acuerdo con la invencion). En la Tabla 5 se muestra la lista completa de genes objetivo ER, incluyendo tambien aquellos genes con una puntuacion de evidencia menor.

Se llevo a cabo otra subseleccion o clasificacion de los genes objetivo de las rutas Wnt, ER, Hedgehog y AR mostrados en la Tabla 1, Tabla 2, Tabla 3 y Tabla 4 con base en una combinacion del puntaje de evidencia de la literatura y las relaciones de probabilidades calculadas usando las tablas de probabilidad condicional entrenadas que enlazan los nodos de sondas con los nodos de genes objetivo correspondientes. La relacion de probabilidades es una evaluacion de la importancia del gen objetivo en la actividad de inferencia de las rutas. En general, se espera que sea probable que el nivel de expresion de un gen objetivo con una relacion de probabilidades mayor que sea mas informativo en cuanto a la actividad global de la ruta en comparacion con genes objetivo con menores relaciones de probabilidades. Sin embargo, debido a la complejidad de las rutas de senalizacion celular debe entenderse que pueden existir interrelaciones mas complejas entre los genes objetivo y la actividad de la ruta -por ejemplo, considerando los niveles de expresion de diversas combinaciones de genes objetivo con relaciones de probabilidad bajas quizas mas probables que considerando los genes objetivo con mayores relaciones de probabilidades en aislamiento. En los modelos Wnt, ER, Hedgehog y AR, se ha encontrado que los genes objetivo mostrados en la Tabla 6, Tabla 7, Tabla 8 y Tabla 9 son de naturaleza probatoria superior para predecir la ruta Wnt, ER, Hedgehog y las actividades de ruta AR en comparacion con los genes

objetivo de menor rango (por lo tanto, los genes objetivo mostrados en las Tablas 6 a 9 son particularmente preferidos de acuerdo con la presente invencion). No obstante, dada la relativa facilidad con la que la tecnologfa de adquisicion tal como la de microarreglos puede adquirir niveles de expresion para grandes conjuntos de genes, se contempla utilizar algunos o todos los genes objetivo de la Tabla 6, Tabla 7, Tabla 8 y Tabla 9 y opcionalmente de forma adicional, usar 5 uno, dos, algunos o todos los genes objetivo adicionales de los rangos mostrados en la Tabla 1, Tabla 2, Tabla 3 y Tabla 4, en el modelo Bayesiano como se representa en la Figura 6.

Tabla 1. Lista curada con evidencia de los genes objetivo de la ruta Wnt utilizados en la red bayesiana y conjuntos de sondas asociados usados para medir el nivel de expresion ARNm de los genes objetivo (# = numero de secuencia en la 10 lista de secuencias adjunta).__________________ _____________________________________

Genes objetivo: Conjunto de sondas # Genes objetivo Conjunto de sondas #

ADRA2C: 206128 at 4 HNF1A 210515 at 102

ASCL2: 207607 at 10 216930 at

: 229215 at IL8 202859 x at 110

AXIN2: 222695 s at 13 211506 s at

: 222696 at KIAA1199 1554685 a at 119

: 224176 s at 212942 s at

: 224498 x at KLF6 1555832 s at 121

BMP7: 209590 at 17 208960 s at

: 209591 s at 208961 s at

: 211259 s at 211610 at

: 211260 at 224606 at

CCND1: 208711 s at 27 LECT2 207409 at 129

: 208712 at LEF1 210948 s at 130

: 214019 at 221557 s at

CD44: 1557905 s at 30 221558 s at

: 1565868 at LGR5 210393 at 131

: 204489 s at 213880 at

: 204490 s at MYC 202431 s at 142

: 209835 x at 244089 at

: 210916 s at NKD1 1553115 at 150

: 212014 x at 229481 at

: 212063 at 232203 at

: 216056 at OAT 201599 at 157

: 217523 at PPARG 208510 s at 173

: 229221 at REG1B 205886 at 184

: 234411 x at RNF43 218704 at 189

: 234418 x at SLC1A2 1558009 at 200

COL18A1: 209081 s at 40 1558010 s at

: 209082 s at 208389 s at

DEFA6: 207814 at 52 225491 at

DKK1: 204602 at 54 SOX9 202935 s at 209

EPHB2: 209588 at 67 202936 s at

: 209589 s at SP5 235845 at 210

: 210651 s at TBX3 219682 s at 215

: 211165 x at 222917 s at

EPHB3: 1438 at 68 225544 at

: 204600 at 229576 s at

FAT1: 201579 at 72 TCF7L2 212759 s at 219

FZD7: 203705 s at 90 212761 at

: 203706 s at 212762 s at

GLUL: 200648 s at 95 216035 x at

: 215001 s at 216037 x at

: 217202 s at 216511 s at

: 217203 at 236094 at

: 242281 at TDGF1 206286 s at 220



: ZNRF3 226360 at 248

Tabla 2. Lista curada con evidencia de los genes objetivo de la ruta ER utilizados en la red bayesiana y los conjuntos de sonda asociados usados para medir el nivel de expresion ARNm de los genes objetivo (# = numero de secuencia en la

15 lista de secuencias adjunta).____________________________________________________________

AP1B1: 205423 at 5 RARA 1565358 at 183

ATP5J: 202325 s at 12 203749 s at

COL18A1: 209081 s at 40 203750 s at

: 209082 s at 211605 s at

COX7A2L: 201256 at 41 216300 x at

CTSD: 200766 at 46 SOD1 200642 at 205

DSCAM: 211484 s at 59 TFF1 205009 at 221

: 237268 at TRIM25 206911 at 230

: 240218 at 224806 at

EBAG9: 204274 at 61 XBP1 200670 at 244

: 204278 s at 242021 at

ESR1: 205225 at 70 GREB1 205862 at 97

: 211233 x at 210562 at

: 211234 x at 210855 at

: 211235 s at IGFBP4 201508 at 106

: 211627 x at MYC 202431 s at 142

: 215551 at 244089 at

: 215552 s at SGK3 227627 at 196

: 217163 at 220038 at

: 217190 x at WISP2 205792 at 241

: 207672 at ERBB2 210930 s at 69

HSPB1: 201841 s at 103 216836 s at

KRT19: 201650 at 124 234354 x at

: 228491 at CA12 203963 at 22

NDUFV3: 226209 at 148 204508 s at

: 226616 s at 204509 at

NRIP1: 202599 s at 154 210735 s at

: 202600 s at 214164 x at

PGR: 208305 at 162 215867 x at

: 228554 at 241230 at

PISD: 202392 s at 164 CDH26 232306 at 32

PRDM15: 230553 at 174 233391 at

: 230777 s at 233662 at

: 231931 at 233663 s at

: 234524 at CELSR2 204029 at 36

: 236061 at 36499 at

PTMA: 200772 x at 179

: 200773 x at

: 208549 x at

: 211921 x at

Tabla 3. Lista curada con evidencia de los genes objetivo de la ruta Hedgehog utilizados en la red bayesiana y los conjuntos de sonda asociados usados para medir el nivel de expresion ARNm de los genes objetivo (# = numero de 5 secuencia en la lista de secuencias adjunta).________________________________________________

Genes objetivo: Conjunto de sondas # Genes objetivo Conjunto de sondas #

GLI1: 206646 at 93 CTSL1 202087 s at 47

PTCH1: 1555520 at 177 TCEA2 203919 at 216

: 208522 s at 238173 at

: 209815 at 241428 x at

: 209816 at MYLK 1563466 at 145

: 238754 at 1568770 at

PTCH2: 221292 at 178 1569956 at

HHIP: 1556037 s at 101 202555 s at

: 223775 at 224823 at

: 230135 at FYN 1559101 at 88

: 237466 s at 210105 s at

SPP1: 1568574 x at 212 212486 s at

: 209875 s at 216033 s at

TSC22D1: 215111 s at 232 PITRM1 205273 s at 165

: 235315 at 239378 at

: 243133 at CFLAR 208485 x at 37

: 239123 at 209508 x at

CCND2: 200951 s at 28 209939 x at

: 200952 s at 210563 x at

: 200953 s at 210564 x at

: 231259 s at 211316 x at

H19: 224646 x at 253 211317 s at

: 224997 x at 211862 x at

IGFBP6: 203851 at 107 214486 x at

TOM1: 202807 s at 229 214618 at

JUP: 201015 s at 117 217654 at

FOXA2: 210103 s at 82 235427 at

: 214312 at 237367 x at

: 40284 at 239629 at

MYCN: 209756 s at 144 224261 at

: 209757 s at IL1R2 205403 at 108

: 211377 x at 211372 s at

: 234376 at S100A7 205916 at 254

: 242026 at S100A9 203535 at 255

NKX2-2: 206915 at 249 CCND1 208711 s at 27

NKX2-8: 207451 at 250 208712 at

RAB34: 1555630 a at 182 214019 at

: 224710 at JAG2 209784 s at 115

MIF: 217871 s at 134 32137 at

GLI3: 1569342 at 94 FOXM1 202580 x at 85

: 205201 at FOXF1 205935 at 83

: 227376 at FOXL1 216572 at 84

FST: 204948 s at 87 243409 at

: 207345 at

: 226847 at

BCL2: 203684 s at 14

: 203685 at

: 207004 at

: 207005 s at

Tabla 4. Lista curada con evidencia de los genes objetivo de la ruta AR utilizados en la red bayesiana y los conjuntos de sonda asociados usados para medir el nivel de expresion ARNm de los genes objetivo (# = numero de secuencia en la 5 lista de secuencias adjunta).

Genes objetivo: Conjunto de sondas # Genes objetivo Conjunto de sondas #

ABCC4: 1554918 a at 2 LCP1 208885 at 128

: 1555039 a at LRIG1 211596 s at 132

: 203196 at 238339 x at

APP: 200602 at 7 NDRG1 200632 s at 147

: 211277 x at NKX3-1 209706 at 251

: 214953 s at 211497 x at

AR: 211110 s at 8 211498 s at

: 211621 at NTS 206291 at 155

: 226192 at PLAU 205479 s at 167

: 226197 at 211668 s at

CDKN1A: 1555186 at 34 PMEPA1 217875 s at 169

: 202284 s at 222449 at

CREB3L4: 226455 at 42 222450 at

DHCR24: 200862 at 53 PPAP2A 209147 s at 171

DRG1: 202810 at 58 210946 at

EAF2: 1568672 at 60 PRKACB 202741 at 175

: 1568673 s at 202742 s at

: 219551 at 235780 at

ELL2: 214446 at 65 KLK3 204582 s at 123

: 226099 at 204583 x at

: 226982 at PTPN1 202716 at 180

FGF8: 208449 s at 75 217686 at

FKBP5: 204560 at 77 SGK1 201739 at 195

: 224840 at TACC2 1570025 at 214

: 224856 at 1570546 a at

GUCY1A3: 221942 s at 99 202289 s at

: 227235 at 211382 s at

: 229530 at TMPRSS2 1570433 at 225

: 239580 at 205102 at

IGF1: 209540 at 105 211689 s at

: 209541 at 226553 at

: 209542 x at UGT2B15 207392 x at 236

: 211577 s at 216687 x at

KLK2: 1555545 at 122

: 209854 s at

: 209855 s at

: 210339 s at

Tabla 5. S^bolos geneticos de los genes objetivo ER que se encontraron con evidencia significativa en literatura (= lista de genes de objetivo ER) (# = numero de secuencia en la lista de ^ secuencias adjunta). ___________________

Genes objetivo: # Genes objetivo # Genes objetivo # Genes objetivo #

AP1B1: 5 SOD1 205 MYC 142 ENSA 66

COX7A2L: 41 TFF1 221 ABCA3 1 KIAA0182 118

CTSD: 46 TRIM25 230 ZNF600 247 BRF1 19

DSCAM: 59 XBP1 245 PDZK1 160 CASP8AP2 25

EBAG9: 61 GREB1 97 LCN2 127 CCNH 29

ESR1: 70 IGFBP4 106 TGFA 222 CSDE1 43

HSPB1: 103 SGK3 196 CHEK1 38 SRSF1 213

KRT19: 124 WISP2 241 BRCA1 18 CYP1B1 48

NDUFV3: 148 ERBB2 69 PKIB 166 FOXA1 81

NRIP1: 154 CA12 22 RET 188 TUBA1A 235

PGR: 162 CELSR2 36 CALCR 23 GAPDH 91

PISD: 164 CDH26 32 CARD10 24 SFI1 194

PRDM15: 174 ATP5J 12 LRIG1 132 ESR2 258

PTMA: 179 COL18A1 40 MYB 140 MYBL2 141

RARA: 183 CCND1 27 RERG 187

5

Tabla 6. Lista corta de los genes objetivo de Wnt con base en la puntuacion de evidencia y relacion de probabilidades en la literatura (# = numero de secuencia en la lista de secuencias adjunta).

Genes objetivo: #

KIAA1199: 119

AXIN2: 13

CD44: 30

RNF43: 189

MYC: 142

TBX3: 215

TDGF1: 220

SOX9: 209

ASCL2: 10

IL8: 110

SP5: 210

ZNRF3: 248

EPHB2: 67

LGR5: 131

EPHB3: 68

KLF6: 121

CCND1: 27

DEFA6: 52

FZD7: 90

Tabla 7. Lista corta de los genes objetivo de ER con base en la puntuacion de evidencia y relacion de probabilidades en la literatura (# = numero de secuencia en la lista de secuencias adjunta).

Genes objetivo: #

CDH26: 32

SGK3: 196

PGR: 162

GREB1: 97

CA12: 22

XBP1: 244

CELSR2: 36

WISP2: 241

DSCAM: 59

ERBB2: 69

CTSD: 46

TFF1: 221

NRIP1: 154

5 Tabla 8. Lista corta de los genes objetivo de Hedgehog con base en la puntuacion de evidencia y relacion de probabilidades en la literatura (# = numero de secuencia en la lista de secuencias adjunta).

Genes objetivo: #

GLI1: 93

PTCH1: 177

PTCH2: 178

IGFBP6: 107

SPP1: 212

CCND2: 28

FST: 87

FOXL1: 84

CFLAR: 37

TSC22D1: 232

RAB34: 182

S100A9: 255

S100A7: 254

MYCN: 144

FOXM1: 85

GLI3: 94

TCEA2: 216

FYN: 88

CTSL1: 47

Tabla 9. Lista corta de los genes objetivo de AR con base en la puntuacion de evidencia y relacion de probabilidades en 10 la literatura (# = numero de secuencia en la lista de secuencias adjunta).

Genes objetivo: #

KLK2: 122

PMEPA1: 169

TMPRSS2: 225

NKX3-1: 251

ABCC4: 2

KLK3: 123

FKBP5: 77

ELL2: 65

UGT2B15: 236

DHCR24: 53

PPAP2A: 171

NDRG1: 147

LRIG1: 132

CREB3L4: 42

LCP1: 128

GUCY1A3: 99

AR: 8

EAF2: 60

Ejemplo 4: Comparacion de la lista curada de evidencia y la lista de literatura amplia

5 La lista de genes objetivo Wnt construidos con base en la evidencia de la literatura siguiendo el procedimiento descrito aqm (Tabla 1) se compara con otra lista de genes objetivo que no siguen el procedimiento mencionado anteriormente. La lista alternativa es una compilacion de genes indicados por una variedad de datos de diversos enfoques experimentales para ser un gen Wnt objetivo publicado en tres fuentes publicas por reconocidos laboratorios, conocidos por su experiencia en el area de biologfa molecular y la ruta Wnt. La lista alternativa es una combinacion de los genes 10 mencionados en la tabla S3 de Hatzis et al. (Hatzis P, 2008), el texto y la tabla S1A de Sousa e Melo (de Sousa E Melo F, 2011) y la lista de genes objetivo recogidos y mantenidos por Roel Nusse, pionero en el campo de la senalizacion Wnt (Nusse, 2012). La combinacion de estas tres fuentes dio lugar a una lista de 124 genes (=lista de literatura amplia, vease la Tabla 10). Aqm se discute la cuestion de si el rendimiento en la prediccion de la actividad Wnt en muestras clmicas por el algoritmo derivado de esta lista alternativa esta funcionando de manera similar o mejor en comparacion 15 con el modelo construido sobre la base de la lista existente de genes (=lista de curanderos probados, Tabla 1).

Tabla 10. Lista alternativa de genes objetivo de Wnt (= lista de literatura amplia) (# = numero de secuencia en la lista de secuencias adjunta).______________________________________________________________________________

Genes objetivo: Referencia # Genes objetivo Referencia #

ADH6: de Sousa e Melo et al. 3 L1CAM Nusse 125

ADRA2C: Hatzis et al. 4 LBH Nusse 126

APCDD1: de Sousa e Melo et al. 6 LEF1 Hatzis et al., de Sousa e Melo et al., Nusse 130

ASB4: de Sousa e Melo et al. 9 LGR5 de Sousa e Melo et al., Nusse 131

ASCL2: Hatzis et al., de Sousa e Melo et al. 10 LOC283859 de Sousa e Melo et al. 260

ATOH1: Nusse 11 MET Nusse 133

AXIN2: Hatzis et al., de Sousa e Melo et al., Nusse 13 MMP2 Nusse 135

BIRC5: Nusse 15 MMP26 Nusse 136

BMP4: Nusse 16 MMP7 Nusse 137

BMP7: Hatzis et al. 17 MMP9 Nusse 138

BTRC: Nusse 20 MRPS6 Hatzis et al. 139

BZRAP1: de Sousa e Melo et al. 21 MYC Hatzis et al., Nusse 142

SBSPON: de Sousa e Melo et al. 259 MYCBP Nusse 143

CCL24: de Sousa e Melo et al. 26 MYCN Nusse 144

CCND1: Nusse 27 NANOG Nusse 146

CD44: Nusse 30 NKD1 de Sousa e Melo et al. 150

CDH1: Nusse 31 NOS2 Nusse 151

CDK6: Hatzis et al. 33 NOTUM de Sousa e Melo et al. 152

CDKN2A: Nusse 35 NRCAM Nusse 153

CLDN1: Nusse 39 NUAK2 Hatzis et al. 156

COL18A1: Hatzis et al. 40 PDGFB Hatzis et al. 159

CTLA4: Nusse 44 PFDN4 Hatzis et al. 161

CYP4X1: de Sousa e Melo et al. 49 PLAUR Nusse 168

CYR61: Nusse 50 POU5F1 Nusse 170

DEFA5: de Sousa e Melo et al. 51 PPARD Nusse 172

DEFA6: de Sousa e Melo et al. 52 PROX1 de Sousa e Melo et al. 176

DKK1: de Sousa e Melo et al., Nusse 54 PTPN1 Hatzis et al. 180

DKK4: de Sousa e Melo et al. 55 PTTG1 Nusse 181

DLL1: Nusse 56 REG3A de Sousa e Melo et al. 185

DPEP1: de Sousa e Melo et al. 57 REG4 de Sousa e Melo et al. 186

EDN1: Nusse 62 RPS27 Hatzis et al. 190

EGFR: Nusse 64 RUNX2 Nusse 191

EPHB2: Hatzis et al., de Sousa e Melo et al., Nusse 67 SALL4 Nusse 192

EPHB3: Hatzis et al., Nusse 68 SLC1A1 de Sousa e Melo et al. 199

ETS2: Hatzis et al. 71 SLC7A5 Hatzis et al. 201

FAT1: Hatzis et al. 72 SNAI1 Nusse 202

FGF18: Nusse 73 SNAI2 Nusse 203

FGF20: Nusse 74 SNAI3 Nusse 204

FGF9: Nusse 76 SIK1 Hatzis et al. 261

FLAD1: Hatzis et al. 78 SOX17 Nusse 206

AK122582: Hatzis et al. 262 SOX2 de Sousa e Melo et al. 207

FN1: Nusse 79 SOX4 Hatzis et al. 208

FOSL1: Nusse 80 SOX9 Nusse 209

FOXN1: Nusse 86 SP5 Hatzis et al., de Sousa e Melo et al., 210

FST: Nusse 87 SP8 Hatzis et al. 211

FZD2: de Sousa e Melo et al. 89 TCF3 Nusse 217

FZD7: Nusse 90 TDGF1 Hatzis et al. 220

GAST: Nusse 92 TIAM1 Nusse 224

GMDS: Hatzis et al. 96 TNFRSF19 Nusse 227

GREM2: Nusse 98 TNFSF11 Nusse 228

HES6: Hatzis et al. 100 TRIM29 de Sousa e Melo et al. 231

HNF1A: Nusse 102 TSPAN5 de Sousa e Melo et al. 233

ID2: Nusse 104 TTC9 de Sousa e Melo et al. 234

IL22: de Sousa e Melo et al. 109 VCAN Nusse 237

IL8: Nusse 110 VEGFA Nusse 238

IRX3: de Sousa e Melo et al. 111 VEGFB Nusse 239

IRX5: de Sousa e Melo et al. 112 VEGFC Nusse 240

ISL1: Nusse 113 WNT10A Hatzis et al. 242

JAG1: Nusse 114 WNT3A Nusse 243

JUN: Nusse 116 ZBTB7C de Sousa e Melo et al. 246

KIAA1199: de Sousa e Melo et al. 119 PATZ1 Hatzis et al. 263

KLF4: Hatzis et al. 120 ZNRF3 Hatzis et al. 248

El siguiente paso consistio en encontrar los conjuntos de sonda de la matriz Affymetrix® GeneChip Human Genome U133 Plus 2.0 que corresponden con los genes. Este proceso se realizo utilizando el complemento Bioconductor en R y 5 curado manual en cuanto a la relevancia de conjuntos de sonda con base en el navegador de genoma de UCSC, eliminando por lo tanto, por ejemplo, conjuntos de sonda en las cadenas opuestas o fuera de las regiones de exon del gen. Para dos de los 124 genes no hay conjuntos de sonda disponibles en este microarreglo chip y por lo tanto no podnan ser insertados en la red Bayesiana, siendo estos LOC283859 y WNT3A. Se encontro que en total 287 conjuntos de sonda corresponden a los restantes 122 genes (Tabla 11].

10

Tabla 11. Conjuntos de sonda asociados con los genes objetivo Wnt en la lista genetica amplia de la literatura (# = numero de secuencia en la lista de secuencias adjunta). _________________________________________

Genes objetivo: Conjunto de sonda # Genes objetivo Conjunto de sonda # Genes objetivo Conjunto de sonda #

ADH6: 207544 s at 3 FAT1 201579 at 72 PFDN4 205360 at 161

: 214261 s at FGF18 206987 x at 73 205361 s at

ADRA2C: 206128 at 4 211029 x at 205362 s at

APCDD1: 225016 at 6 211485 s at PLAUR 210845 s at 168

ASB4: 208481 at 9 231382 at 211924 s at

: 217228 s at FGF20 220394 at 74 214866 at

: 217229 at FGF9 206404 at 76 POU5F1 208286 x at 170

: 235619 at 239178 at PPARD 208044 s at 172

: 237720 at FLAD1 205661 s at 78 210636 at

: 237721 s at 212541 at 37152 at

ASCL2: 207607 at 10 AK122582 235085 at 262 242218 at

: 229215 at FN1 1558199 at 79 PROX1 207401 at 176

ATOH1: 221336 at 11 210495 x at 228656 at

AXIN2: 222695 s at 13 211719 x at PTPN1 202716 at 180

: 222696 at 212464 s at 217686 at

: 224176 s at 214701 s at 217689 at

: 224498 x at 214702 at PTTG1 203554 x at 181

BIRC5: 202094 at 15 216442 x at REG3A 205815 at 185

: 202095 s at FOSL1 204420 at 80 234280 at

: 210334 x at FOXN1 207683 at 86 REG4 1554436 a at 186

BMP4: 211518 s at 16 FST 204948 s at 87 223447 at

BMP7: 209590 at 17 207345 at RPS27 200741 s at 190

: 209591 s at 226847 at RUNX2 216994 s at 191

: 211259 s at FZD2 210220 at 89 221282 x at

: 211260 at 238129 s at 232231 at

BTRC: 1563620 at 20 FZD7 203705 s at 90 236858 s at

: 204901 at 203706 s at 236859 at

: 216091 s at GAST 208138 at 92 SALL4 229661 at 192

: 222374 at GMDS 204875 s at 96 SLC1A1 206396 at 199

: 224471 s at 214106 s at 213664 at

BZRAP1: 205839 s at 21 GREM2 220794 at 98 SLC7A5 201195 s at 201

SBSPON: 214725 at 259 235504 at SNAI1 219480 at 202

: 235209 at 240509 s at SNAI2 213139 at 203

: 235210 s at HES6 226446 at 100 SNAI3 1560228 at 204

CCL24: 221463 at 26 228169 s at SIK1 208078 s at 261

CCND1: 208711 s at 27 HNF1A 210515 at 102 232470 at

: 208712 at 216930 at SOX17 219993 at 206

: 214019 at ID2 201565 s at 104 230943 at

CD44: 1557905 s at 30 201566 x at SOX2 213721 at 207

: 204489 s at 213931 at 213722 at

: 204490 s at IL22 221165 s at 109 228038 at

: 209835 x at 222974 at SOX4 201416 at 208

: 210916 s at IL8 202859 x at 110 201417 at

: 212014 x at 211506 s at 201418 s at

: 212063 at IRX3 229638 at 111 213668 s at

: 217523 at IRX5 210239 at 112 SOX9 202935 s at 209

: 229221 at ISL1 206104 at 113 202936 s at

CDH1: 201130 s at 31 JAG1 209097 s at 114 SP5 235845 at 210

: 201131 s at 209098 s at SP8 237449 at 211

: 208834 x at 209099 x at 239743 at

CDK6: 207143 at 33 216268 s at TCF3 209151 x at 217

: 214160 at JUN 201464 x at 116 209152 s at

: 224847 at 201465 s at 209153 s at

: 224848 at 201466 s at 210776 x at

: 224851 at KIAA1199 1554685 a at 119 213730 x at

: 231198 at 212942 s at 213811 x at

: 235287 at KLF4 220266 s at 120 215260 s at

: 243000 at 221841 s at 216645 at

CDKN2A: 207039 at 35 L1CAM 204584 at 125 TDGF1 206286 s at 220

: 209644 x at 204585 s at TIAM1 206409 at 224

: 211156 at LBH 221011 s at 126 213135 at

CLDN1: 218182 s at 39 LEF1 210948 s at 130 TNFRSF19 223827 at 227

: 222549 at 221557 s at 224090 s at

COL18A1: 209081 s at 40 221558 s at TNFSF11 210643 at 228

: 209082 s at LGR5 210393 at 131 211153 s at

CTLA4: 221331 x at 44 213880 at TRIM29 202504 at 231

: 231794 at MET 203510 at 133 211001 at

: 234362 s at 211599 x at 211002 s at

: 236341 at 213807 x at TSPAN5 209890 at 233

CYP4X1: 227702 at 49 213816 s at 213968 at

CYR61: 201289 at 50 MMP2 1566678 at 135 225387 at

: 210764 s at 201069 at 225388 at

DEFA5: 207529 at 51 MMP26 220541 at 136 TTC9 213172 at 234

DEFA6: 207814 at 52 MMP7 204259 at 137 213174 at

DKK1: 204602 at 54 MMP9 203936 s at 138 VCAN 204619 s at 237

DKK4: 206619 at 55 MRPS6 224919 at 139 204620 s at

DLL1: 224215 s at 56 MYC 202431 s at 142 211571 s at

: 227938 s at MYCBP 203359 s at 143 215646 s at

DPEP1: 205983 at 57 203360 s at 221731 x at

EDN1: 218995 s at 62 203361 s at VEGFA 210512 s at 238

: 222802 at MYCN 209756 s at 144 210513 s at

EGFR: 1565483 at 64 209757 s at 211527 x at

: 1565484 x at 211377 x at 212171 x at

: 201983 s at 234376 at VEGFB 203683 s at 239

: 201984 s at NANOG 220184 at 146 VEGFC 209946 at 240

: 210984 x at NKD1 1553115 at 150 WNT10A 223709 s at 242

: 211550 at 229481 at 229154 at

: 211551 at 232203 at ZBTB7C 217675 at 246

5

10

15

20

25

30

35

40

45

50

55

: 211607 x at NOS2 210037 s at 151 ZBTB7C 227782 at 246

EPHB2: 209588 at 67 NOTUM 228649 at 152 PATZ1 209431 s at 263

: 209589 s at NRCAM 204105 s at 153 211391 s at

: 210651 s at 216959 x at 210581 x at

: 211165 x at NUAK2 220987 s at 156 209494 s at

EPHB3: 1438 at 68 PDGFB 204200 s at 159 ZNRF3 226360 at 248

: 204600 at 216061 x at

ETS2: 201328 at 71 217112 at

: 201329 s at

Posteriormente, la red Bayesiana se construyo de forma similar a la Figura 6 y el procedimiento se explica en el presente documento. De forma similar a la descripcion de la red bayesiana de Wnt con base en la lista de curado de evidencia, las tablas de probabilidad condicional de los bordes entre conjuntos de sonda y sus genes respectivos, tanto la lista de curado de evidencia como la lista de literatura general, fueron entrenadas usando datos procesados por fRMA de 32 muestras de colon normalesy 32 muestras de adenoma del conjunto de datos GSE8671 de la Gene Expression Omnibus (accesible en
http://www.ncbi.nlm.nih.gov/geo/, visitado por ultima vez el 13 de julio de 2011).

Las redes Bayesianas entrenadas fueron probadas en varios conjuntos de datos para inferir la probabilidad P (Wnt Habilitada) de que la ruta Wnt esta "habilitada", es decir, activa, la cual se toma igual a la probabilidad inferida de que el complejo de transcripcion de la ruta Wnt esta "presente". En las Figuras 14-19 se muestran los resultados resumidos del modelo de literatura amplia y el modelo curado de evidencia.

Evidentemente, podna deducirse que el modelo de literatura general predice generalmente probabilidades mas extremas para que la senalizacion de Wnt sea activada o desactivada. Ademas, el modelo alternativo predice resultados similares para los conjuntos de datos de cancer de colon (GSE20916, GSE4183, GSE15960), pero muestras mas que esperadas con conjuntos de datos de prediccion de la senalizacion Wnt activa en cancer de mama (GSE12777), cancer de dgado (GSE9843) y muestra de meduloblastoma (GSE10327 ).

En conclusion, la lista amplia de la literatura de genes da como resultado predicciones aproximadamente igual de buenas de actividad Wnt en el cancer de colon, por un lado, pero peores predicciones (demasiados falsos positivos) en otros tipos de cancer, por otro lado. Esto podna ser un resultado de que la lista alternativa de los genes objetivo esta demasiado sesgada hacia celulas de colon espedficamente, por lo tanto, demasiado espedficas para tejidos; el interes principal, tanto de de Sousa E Melo et al. como de Hatzis et al. era el cancer colorrectal aunque se pueden incluir genes de Wnt no espedficos de colon. Ademas, los genes objetivo no espedficos de Wnt posiblemente incluidos en estas listas pueden ser una fuente de las predicciones empeoradas de la actividad de Wnt en otros tipos de cancer. Es probable que la lista alternativa contenga genes objetivo mas regulados indirectamente, lo que probablemente la haga mas espedfica para tejidos. La lista original esta ajustada para contener genes objetivo directos, los cuales son mas propensos a representar genes que son sensibles a Wnt en todos los tejidos, reduciendo asf la especificidad para tejidos.

Ejemplo 5: Entrenamiento y uso de la red Bayesiana

Antes de que se pueda utilizar la red Bayesiana para inferir la actividad de la ruta en una muestra de ensayo, se han de determinar los parametros que describen las relaciones probabilfsticas entre los elementos de la red. Ademas, en el caso de estados discretos de las mediciones de entrada, deben establecerse umbrales que describen como realizar la discretizacion.

Tfpicamente, las redes Bayesianas son entrenadas usando un conjunto representativo de muestras de entrenamiento, de las cuales se conocen preferentemente todos los estados de todos los nodos de la red. Sin embargo, no es practico obtener muestras de entrenamiento de muchos tipos diferentes de canceres, de los cuales se sabe cual es el estado de activacion de la ruta que va a ser modelada. Como resultado, los conjuntos de entrenamiento disponibles consisten en un numero limitado de muestras, tfpicamente de un tipo de cancer solamente. Para permitir que la red Bayesiana se genere bien a otros tipos de muestras, se debe prestar especial atencion a la forma en que se determinan los parametros, lo que se realiza preferiblemente de la siguiente manera en el enfoque descrito en el presente documento.

Para el nodo TF, la probabilidad (incondicional) de estar en estado "ausente" y "presente" es dada por la aparicion esperada en un gran conjunto de muestras. Alternativamente, se puede establecer a 0.5, como se hace en la Figura 1, con el fin de no tener sesgo para un resultado positivo o negativo.

Para los nodos de genes objetivo, las probabilidades condicionales se establecen como en la Figura 1. Si el elemento TF esta "ausente", es mas probable que el gen objetivo este "abajo", por lo tanto se elige una probabilidad de 0.95 para este y probabilidad de 0.05 para el gen objetivo que esta "arriba". Esta ultima probabilidad (no nula) es para tener en cuenta la (rara) posibilidad de que el gen objetivo sea regulado por otros factores u observado accidentalmente "hacia arriba" (por ejemplo debido al ruido de medicion). Si el elemento TF esta "presente", entonces con una probabilidad

5

10

15

20

25

30

35

40

45

50

55

60

65

justa de 0.70 el gen objetivo esta "arriba", y con una probabilidad de 0.30 el gen objetivo esta "abajo". Estos ultimos valores se eligen de esta manera, porque puede haber varias razones por las que un gen objetivo no este muy expresado aunque el elemento TF este presente, por ejemplo porque la region promotora del gen esta metilada. En el caso de que un gen objetivo no este regulado por el elemento TF, pero regulado a la baja, las probabilidades se eligen de manera similar, pero reflejan la regulacion a la baja ante la presencia del elemento TF.

Para el modelo de red Bayesiana, tal como se muestra en la Figura 6, donde las intensidades de los conjuntos de sonda forman las mediciones de entrada, finalmente se tienen que determinar los parametros para la discretizacion y para las tablas de probabilidad condicional que relacionan las intensidades de los conjuntos de sonda con los niveles de ARNm de Los respectivos genes objetivo. Ambos se basan en datos de entrenamiento en la presente invencion. Para la discretizacion del nivel de intensidad de un conjunto de sondas en los estados "bajo" y "alto", se determina un umbral adecuado que mejor separa los valores de intensidad en un conjunto de muestras de entrenamiento donde se activa la ruta (muestras "habilitadas") de los valores de intensidad en un conjunto de muestras de entrenamiento en el que no esta. Muestras deshabilitadas). Por ultimo, las tablas de probabilidades condicionales que describen las probabilidades de un conjunto de sondas para tener una intensidad "baja" o "alta" dependiendo del estado "bajo" o "alto" del gen objetivo respectivo, se realizan contando el numero de muestras "habilitadas" y "deshabilitadas" con un valor de intensidad del conjunto de sondas por debajo y por encima del umbral respectivo. Esto se conoce en la literatura como el enfoque de frecuencias. Se agrega un conteo ficticio a cada grupo para evitar entradas en las tablas de probabilidad condicional con un valor de cero, para evitar un comportamiento extremo de la red Bayesiana.

Despues de que la red Bayesiana ha sido entrenada, puede aplicarse en una muestra de prueba de la siguiente manera, considerando la red Bayesiana de la Figura 6, y asumiendo que las mediciones por microarreglos relacionadas con los conjuntos de sonda estan disponibles. El primer paso es discretizar las mediciones de entrada, comparando la intensidad de cada conjunto de sondas en la muestra de prueba con el umbral respectivo como se ha descrito anteriormente. Esta comparacion puede hacerse de una manera diffcil, poniendo cada conjunto de sondas a una intensidad "baja" o "alta" (llamada "evidencia dura"), o puede hacerse de una manera suave, asumiendo cierta incertidumbre (ruido) en la medicion, estableciendo para cada conjunto de sondas una probabilidad de ser "baja" o "alta" (llamada "evidencia suave"). Por ejemplo, la prueba suave de un conjunto de sondas con una intensidad justo debajo del umbral puede ser una probabilidad de 0.8 de ser "baja" y una probabilidad de 0.2 de ser "alta", con base en una estimacion adecuada del ruido y la diferencia con respecto al umbral.

A continuacion, esta evidencia dura o suave se suministra a un motor de inferencia adecuado para redes Bayesianas, por ejemplo, con base en un algoritmo de arbol de cruce (vease (Napolitano, 2004)). Dicho motor puede deducir la probabilidad actualizada de que el elemento TF este "ausente" o "presente", dada la evidencia proporcionada. La probabilidad deducida de que el elemento TF este "presente" se interpreta entonces como la probabilidad estimada de que la ruta respectiva este activa.

Preferiblemente, el entrenamiento de los modelos de red Bayesiana de las rutas Wnt, ER, Hedgehog y AR se realiza utilizando datos publicos disponibles en el Gene Expression Omnibus (accesible en
http://www.ncbi.nlm.nih.gov/ geo/, ver arriba).

La red Bayesiana Wnt fue entrenada como ejemplo utilizando 32 muestras normales de colon consideradas como una ruta Wnt inactiva y 32 muestras confirmadas de adenoma que se sabe que tienen una ruta Wnt activa (conjunto de datos GSE8671).

El modelo de red Bayesiana de la ruta ER fue entrenado como ejemplo usando 4 muestras de MCF7 desprovistas de estrogenos, que se sabe que tienen una ruta de ER inactiva, y 4 muestras de MCF7 estimuladas con estrogenos, las que se considerada que tienen una ruta ER activa, a partir del conjunto de datos de GSE8597 tambien accesible en la Gene Expression Omnibus.

El modelo de red Bayesiana de la ruta de Hedgehog fue entrenado como ejemplo usando 15 muestras de carcinoma de celulas basales de las que se confirmo que teman una ruta de Hedgehog activa y 4 muestras de celulas de piel normales representando muestras con una ruta de Hedgehog inactiva disponible en el conjunto de datos de GSE7553.

El modelo de la red Bayesiana de la ruta AR fue entrenado como ejemplo usando 3 muestras con actividad AR positiva, lmeas celulares LNCaP estimuladas con dihidrotestosterona (DHT), un potente activador de la ruta AR y 3 lmeas celulares LNCaP no estimuladas que representan la AR inactiva caso de ruta.

Con referencia a la Figura 35 y la Figura 36, los modelos de la red Bayesiana entrenados de la ruta Wnt y ER fueron utilizados para predecir las actividades de la ruta en muestras similares (muestras de colon y MCF7 para la red Wnt y ER Bayesiana respectivamente) no utilizados en el procedimiento de entrenamiento como se describe aqrn (no se encontro ningun conjunto de datos apropiado para la red Bayesiana de Hedgehog). Las actividades previstas de la ruta de la gran mayona de las muestras deben estar en lmea con las actividades clmicamente esperadas de la ruta para que el modelo sea validado.

5

10

15

20

25

30

35

40

45

50

55

60

65

La Figura 35 muestra las actividades Wnt previstas, representadas como el logit de P (Wnt habilitada) sobre el eje vertical, para las muestras, ilustradas por las barras en el eje horizontal, de las muestras de colon agrupadas por clasificacion, indicadas por el color de la barra, en el conjunto de datos GSE20916. Se ha predicho correctamente que todas las muestras normales de colon tienen una ruta inactiva (puntuacion <0), sobre la base de que es una muestra de tejido sano. Se preve que todas las muestras, excepto cuatro, que tienen una ruta activa, tienen una ruta Wnt activa.

En la Figura 36 se muestran los resultados de validacion del modelo de red Bayesiana ER ensayado para dos microarreglos medidos utilizando una lmea de celulas de cancer de mama MCF7, una estimulada con estrogeno (E2) y la otra con un control negativo (EtOH), procedente del conjunto de datos GSE9253. De acuerdo con la supuesta actividad de ER, se preve que la muestra estimulada con estrogeno tenga una ruta ER activa, mientras que el control negativo predice una ruta eR inactiva.

Mas detalles y ejemplos para usar redes Bayesianas entrenadas (por ejemplo, Wnt, ER, AR y ruta Hedgehog) para predecir las respectivas actividades de la ruta se explican en el Ejemplo 6 a continuacion.

El procedimiento de formacion mencionado anteriormente puede emplearse para otras redes Bayesianas de aplicaciones clmicas. Aqrn esta demostrado y probado que funciona para los modelos de red Bayesiana construidos utilizando el metodo descrito en el presente documento que representa rutas de senalizacion celular, mas espedficamente las rutas Wnt, ER, AR y Hedgehog.

Ejemplo 6: Diagnostico de la actividad de la ruta (anormal)

A continuacion se ilustrara a manera de ejemplo como usar por ejemplo modelos de red Bayesiana para diagnosticar la actividad de una ruta de senalizacion celular.

Las redes Bayesianas de la ruta Wnt, ER, Hedgehog y AR, construidas utilizando un nodo para la presencia del factor de transcripcion, una capa de nodos que representan el ARNm de los genes objetivo y una capa de nodos que representan las intensidades de los conjuntos de sonda correspondientes a los genes objetivo (Tabla 1, Tabla 2, Tabla 3 y Tabla 4), analogos a la Figura 6 descrita aqrn, y entrenados como se describe en este documento, fueron utilizadas para predecir la actividad de las rutas como “habilitadas”, esto es, activas, o “inhabilitadas”, esto es, inactivas, en conjuntos de datos diversos, previamente no utilizados para entrenamiento, para inferir como funciona bien el componente de inferencia. Los puntajes de la actividad de la ruta prevista se correlacionan con el conocimiento clmico. Los resumenes de los resultados para una seleccion de los ensayos se muestran en las Figuras 21 sec.

Con referencia a las Figuras 21 sec., se muestran resultados de inferencia de actividad de trayectoria para muestras de tejido medico usando el modelo de red Bayesiana descrito aqrn.

La Figura 21 muestra los resultados de las pruebas de actividad de Wnt en el conjunto de datos de muestras de colon GSE4183. El modelo de la red Bayesiana arrojo valores altos de P (Wnt habilitada) para las muestras de adenoma y valores bajos para muestras normales, lo que corresponde con la (pato)fisiologfa del adenoma y el tejido sano. El tejido sano tiene una proliferacion celular lenta y por lo tanto una actividad baja de Wnt con relacion al tejido adenomatoso que tiene una proliferacion celular rapida y por lo tanto una alta actividad de Wnt. Para las muestras IBD, el modelo de la red Bayesiana mostro baja actividad de la ruta Wnt (P (Wnt habilitada) ~0) para todas las muestras excepto una. De nuevo, esto es consistente con las muestras de IBD que no experimentan proliferacion celular rapida. Para las muestras de celulas de cancer colorrectal los resultados se mezclaron, con alta actividad de la ruta Wnt que se detecta en aproximadamente la mitad de estas muestras, pero esto puede ser el resultado de otras rutas que asumen el papel de conductoras del tumor cuando el tejido adenomatoso benigno se convierte en tejido canceroso maligno, o analisis de muestras, por ejemplo, conteniendo la muestra demasiado tejido no tumoral, o estando parcialmente degradado el ARNm.

El modelo de red Bayesiana utilizado en los experimentos aqrn informados se formo utilizando el conjunto de datos de muestras de colon GSE8671. Sin embargo, la ruta Wnt esta presente (aunque posiblemente inactiva) en otros tipos de celulas. Por lo tanto, se considero posible que la red Bayesiana podna ser aplicable para inferir anormalmente alta actividad de la ruta Wnt correlativa con otros tipos de canceres. La razon de esto es que, aunque el modelo de la red Bayesiana fue entrenado usando muestras de colon, se basa en los primeros principios de la operacion de la ruta Wnt presente (aunque posiblemente inactiva) en otros tipos de celulas. Las Figuras 22-24 muestran algunos resultados que investigan tales inferencias “tipo tejido cruzado".

La Figura 22 muestra los resultados de las pruebas utilizando el modelo de red Bayesiana entrenado usando muestras de colon que se aplican para inferir la actividad de la ruta Wnt en muestras de meduloblastoma (conjunto de datos GSE10327). Las muestras incluidas en este conjunto de datos se han caracterizado adicionalmente en varios subconjuntos, siendo uno de ellos muestras con la ruta Wnt activa. La red bayesiana de la ruta Wnt predice el grupo de Wnt activo muestras que tienen una ruta Wnt activa, mientras que se predijo correctamente que las otras muestras teman un ruta Wnt inactiva.

5

10

15

20

25

30

35

40

45

50

55

60

65

En la Figura 23 se muestran los resultados de las pruebas utilizando el modelo de red Bayesiana Wnt en un conjunto de datos que contiene muestras de cancer de hngado (GSE9843). Aqrn las muestras se agrupan mediante las siguientes anotaciones a priori asignadas por el conjunto de datos GSE9843: "CTNNB1", " Inflamacion", "Polisomna chr7", "Proliferacion" y "Sin anotacion". Se infieren uniformemente que las muestras del grupo de "Inflamacion" no tienen una actividad anormalmente alta de la ruta Wnt, como se esperaba ya que la condicion de inflamacion no implica proliferacion celular rapida. Tambien se infiere uniformemente que las muestras etiquetadas "Polisoirna chr7" no tienen una actividad de ruta Wnt anormalmente alta. La polisomfa del cromosoma numero 7 significa que hay mas de dos cromosomas numero 7. Como no hay razon para esperar esta condicion de polisomfa para impactar la ruta Wnt, no es inesperado que estas muestras no tengan actividad de ruta Wnt anormalmente alta.

Aproximadamente una de cada cinco de las muestras marcadas con "Proliferacion" tiene P (Wnt habilitada) >0,5. La proliferacion sugiere un estado de rapida multiplicacion celular. Tal estado puede estar asociado con una actividad anormalmente alta de la ruta Wnt, pero tambien puede estar asociado con numerosas otras posibles causas de proliferacion celular. Por consiguiente, aproximadamente una de cada cinco de estas muestras que tienen una actividad de ruta Wnt anormalmente alta no es un resultado irrazonable.

Aproximadamente para la mitad de las muestras del grupo "CTNNB 1" la red Bayesiana infiere que tienen una actividad de la ruta Wnt anormalmente alta. El gen CTNNB 1 codifica la protema beta-catenina, que es una protema reguladora de la ruta Wnt, y las mutaciones activadoras en este gen causan la activacion anormal de Wnt. Por lo tanto, una correlacion entre el grupo "CTNNB 1" y actividad alta de la ruta Wnt es la expectativa de conformidad.

La Figura 24 representa los resultados de ensayo del modelo de red Bayesiana de Wnt descrito aqrn para un conjunto de muestras de cancer de mama. En este caso, se ensayan tres grupos de lmeas celulares de cancer de mama: un grupo para el cual se conoce a priori que la ruta Wnt funciona a un nivel anormalmente alto (grupo con Wnt habilitada); un grupo para el cual la ruta Wnt es a priori conocida por no estar operando a un nivel anormalmente alto (grupo con Wnt deshabilitada); y otro grupo para el cual la actividad de la ruta Wnt no se conoce a priori (grupo desconocido); ademas hay una muestra que se sospecha que tiene un bajo nivel de activacion Wnt (Wnt sospechoso), aunque hay un informe contradictorio en la literatura de que puede tener una ruta Wnt activa (pero este es un informe minoritario, mas artmulos reportan una ruta Wnt inactiva). Como se ve en la Figura 24, la correlacion de las inferencias proporcionadas por la red Bayesiana con el conocimiento a priori es fuerte para los grupos de Wnt habilitada y deshabilitada. Tambien la muestra mas a la derecha del grafico (Wnt sospechoso) muestra una inferencia que corresponde a la mayona de los informes en la literatura que indican que la ruta Wnt esta inhabilitada. En el caso del grupo desconocido que se muestra en la Figura 24, para el cual no hay conocimiento a priori de la actividad de la ruta Wnt, la red Bayesiana infiere baja actividad para la ruta Wnt excepto para una instancia para la cual P (Wnt habilitada) >0,5; la literatura muestra que esta lmea celular tiene una alta expresion del correceptor LRP6, lo que puede explicar que la ruta Wnt este habilitada.

La Figura 25 muestra los resultados para el mismo conjunto de datos de lmeas celulares de cancer de mama, pero ahora se ensaya la actividad ER utilizando la red Bayesiana ER entrenada usando lmeas celulares de cancer de mama MCF7 como se describe en el presente documento. Se predijo que las muestras a priori conocidas por tener una ruta de Wnt activa teman una ruta de ER inactiva, lo cual no es sorprendente ya que la ruta de Wnt ya esta impulsando la multiplicacion rapida de celulas. Las muestras positivas para ER, por otro lado se encuentran entre las muestras con Wnt deshabilitadas y las muestras desconocidas. En vista de la Figura 24, esto no es sorprendente.

En la Figura 26 se muestran los resultados de las predicciones de la red Bayesiana ER entrenada en lmeas celulares de cancer de mama para un conjunto de muestras de cancer (GSE12276). Las muestras de cancer de mama se subdividieron en las clasificaciones bien conocidas: Luminal A (LumA), Luminal B (LumB), receptor del factor de crecimiento epidermico humano 2 positivo (HER2) y subtipo basal de cancer de mama. Se sabe que las muestras de tejido en los subtipos luminal A y luminal B expresan ER. Es tambien en estos subtipos que se preve que la mayona de las muestras tengan una actividad de ruta ER alta. Por otro lado, se sabe que las muestras que se clasifican como del subtipo basal tienen una expresion baja o inexistente de ER, lo que se correlaciona bien con una ruta ER no activa predicha en las muestras del grupo basal. En el grupo HER2 solo tres muestras tienen un P (ER habilitada) >0,5, mientras que se preve que la mayona de las muestras tienen una ruta ER inactiva. Esto se correlaciona bien con el hecho de que la clasificacion se hace sobre el hecho de que estas muestras tienen una expresion amplificada de HER2; la replicacion celular no controlada es presumiblemente conducida a traves de la senalizacion de HER2 a traves de otras rutas de senalizacion celular diferentes a la ruta ER (veanse por ejemplo las lmeas celulares de cancer de mama activas Wnt en la Figura 24 o las muestras activas de cancer de mama Hedgehog en la Figura 30).

El modelo de red Bayesiana ER construido y entrenado como se describe en el presente documento se utiliza para predecir la actividad de la ruta ER en un gran panel de lmeas celulares de diversos canceres, cuyos resultados se muestran en la Figura 27. Como era de esperar, las muestras con prediccion de ER se encontraron en las lmeas de celulas de cancer de mama. Se predijo que todos los otros tipos de lmeas celulares de cancer teman una ruta ER inactiva, que es como se esperaba.

El modelo de la red Bayesiana construido y entrenado para la ruta Hedgehog como se describe aqrn se utiliza para predecir la actividad de la ruta Hedgehog para las lmeas celulares de diversos tipos de cancer en el conjunto de datos

5

10

15

20

25

30

35

40

45

50

55

60

65

GSE34211. Las predicciones de actividad de Hedgehog se muestran en la Figura 28. Las mas altas fracciones de la actividad de Hedgehog pronosticada se encuentran en los tipos de cancer del sistema nervioso central (SNC), piel, endometrio y utero, lo que esta de acuerdo con el conocimiento de la literatura con respecto a la proliferacion celular dependiente de Hedgehog en estos tipos de celulas.

La Figura 29 muestra la actividad de Hedgehog pronosticada de las muestras de meduloblastoma (GSE10327) que ya se analizo usando el modelo de red Bayesiana de Wnt como se describe en el presente documento. Las muestras de meduloblastoma se han caracterizado en subclases, teniendo una de ellas una ruta de senalizacion activa de Hedgehog (identificador: SHH). Se preve que todas las muestras en el subtipo SHH tengan una senalizacion activa de Hedgehog. Ademas, se predijo que las muestras de meduloblastoma en el subtipo Wnt tambien teman una ruta Hedgehog activa. Esto esta de acuerdo con la evidencia clmica que demuestra que a menudo ambas rutas son activas en estos tumores. Sin embargo, la red Bayesiana de Wnt fue claramente capaz de predecir correctamente la actividad Wnt solo en el subtipo Wnt. Asf, la combinacion de la red Bayesiana Wnt y Hedgehog es capaz de hacer una clasificacion correcta de estos dos subtipos.

En la Figura 30 se muestra la prediccion de la actividad de Hedgehog en las muestras de cancer de mama GSE12276, utilizada anteriormente para predecir la actividad de ER usando el modelo de red Bayesiana ER, utilizando el modelo de red Bayesiana Hedgehog. Se preve que la ruta de Hedgehog este activa en una fraccion de las muestras de cada subtipo. Esto parece extrano, pero en concordancia con la prediccion de la ruta de ER mostrada en la Figura 26, se puede ver que la actividad de Hedgehog solo se predice en muestras que no tienen una ruta ER activa. Esto esta en buen acuerdo con la hipotesis de que la proliferacion celular no controlada en el tejido (de mama) puede ser impulsada por diferentes rutas de senalizacion.

En resumen, los resultados de las pruebas para varias muestras de tejido canceroso y celulas presentadas en las Figuras 21-30 sugieren fuertemente que las redes Bayesianas de los modelos Wnt, eR y Hedgehog entrenadas en muestras espedficas de tejido/ruta son aplicables al analisis de muestras de otros tipos de tejido. Esto puede permitir que el analisis de la ruta de senalizacion celular se aplique al "tipo de tejido cruzado". Por lo tanto, el sistema CDS 10 (como se describe en el presente documento) se aplica facilmente para evaluar la actividad de la ruta en un intervalo de tipos de tejidos distintos del tipo de tejido de las muestras utilizadas para formar el modelo de red Bayesiana 40 (vease, por ejemplo, (CDS) configurado para evaluar una o mas rutas de senalizacion celular como se describe aqrn (mostrado como ejemplo para la ruta Wnt)). En los casos en que los componentes de inferencia 40, 44, 46, 48 indiquen que el tejido analizado exhibe una actividad de rutas Wnt, ER o Hedgehog anormalmente alta, pero no hay farmaco espedfico de tejido disponible, el medico puede considerar un farmaco general de supresion de rutas Wnt, ER o Hedgehog con base en la recomendacion 28 o en la recomendacion 26, respectivamente, segun lo dispuesto por el sistema CDS 10.

Aunque los resultados de las Figuras 21-30 indican la aplicabilidad del tipo de tejido cruzado del modelo de red Bayesiana para las rutas Wnt, ER y Hedgehog, se espera que para aplicaciones clmicas los modelos de red Bayesiana se puedan actualizar o adaptar opcionalmente para maximizar su aplicabilidad al tipo de tejido espedfico bajo analisis (por ejemplo, tejido mamario o tejido hepatico). Tal actualizacion o adaptacion podna, por ejemplo, implicar el ajuste de las probabilidades condicionales con base en estudios clmicos del tipo de tejido bajo analisis o enriquecer la lista de genes objetivo curada con evidencia, descrita en el presente documento, con genes objetivo espedficos de tejido de la ruta investigada. Adicionalmente, pueden eliminarse o agregarse nodos para ajustar mejor el modelo de la red Bayesiana al tejido bajo analisis. Alternativamente, pueden entrenarse diferentes modelos de redes Bayesianas ab initio usando diferentes conjuntos de entrenamiento para los diferentes tipos de tejidos. Ademas, los resultados de las Figuras 21-30 ilustran la capacidad del procedimiento descrito en el presente documento para desarrollar y entrenar modelos de red Bayesiana usando listas de genes objetivo curadas con evidencia de rutas diferentes a Wnt, ER y Hedgehog para predecir y diagnosticar la actividad de la ruta.

Los resultados de ensayo del modelo de red Bayesiana AR construido y entrenado como se describe aqrn se usaron a manera de ejemplo para predecir la actividad de AR en lmeas celulares de cancer de prostata LNCaP tratadas con diferentes regfmenes de tratamiento (GSE7708) (vease la Figura 38). Como se esperaba, las celulas LNCaP no estimuladas con DHT resultan en una ruta AR predecible inactiva, mientras que se predijo correctamente que las celulas estimuladas con LNCaP teman una ruta aR activa y las celulas LNCaP tratadas con Bicalutamida, un farmaco antiandrogenico, teman una ruta AR inhibida.

La red Bayesiana entrenada de la ruta AR como se describe aqrn tambien se uso para predecir la probabilidad de que la ruta AR sea activa en muestras de cancer de prostata del conjunto de datos GSE17951 (los resultados se muestran en la Figura 39). Inesperadamente no se predijo que la mayona de las biopsias y los tumores de prostata teman una mayor probabilidad de actividad AR en comparacion con las muestras de los controles.

El modelo de la red Bayesiana AR tambien se aplico a una prueba de tejidos cruzados, a saber, las muestras de cancer de mama incluidas en el conjunto de datos GSE12276. Los resultados de esta prueba se muestran en la Figura 40. Se preve que una pequena fraccion de las muestras, que se encuentran en cada subgrupo, tiene una ruta activa, mientras que la gran mayona de las muestras teman una ruta AR inactiva. Sorprendentemente, el porcentaje mas alto de muestras con una ruta AR activa se encuentra en el subgrupo HER2, lo cual no es inesperado ya que se sabe de la

5

10

15

20

25

30

35

40

45

literatura que hay interferencia entre la ruta HER2 y AR y la ruta AR tambien puede ser inducida por la senalizacion de HER2-.

El modelo de red Bayesiana AR antes mencionado tambien se uso para predecir la actividad de la ruta AR en dos conjuntos de muestras de lmeas celulares de diversos tipos de cancer (GSE36133 y GSE34211), como se representa en la Figura 41 y Figura 42. Como era de esperar, se encontro que la mayona de las lmeas celulares teman una ruta AR inactiva. Las excepciones a esto son las muestras de cancer de prostata con varias muestras de lmeas celulares de cancer que expresan la actividad de la ruta AR. En la Tabla 12 se muestra que todas las predicciones de la actividad de la ruta AR de las muestras de cancer de prostata estan de acuerdo con la actividad AR conocida.

Tabla 12. Actividad AR conocida y predicha en lmeas celulares de cancer de prostata en conjuntos de datos GSE36133 y GSE34211. _____________________________________________________________________________

Conjunto de datos: Identificador de la muestra Lmea celular de prostata ^Se sabe que esta activo? P (AR habilitada)

36133: GSM886837 22Rv1 SI 0.698127

GSM886988: DU 145 NO 0.001279

GSM887271: Clon LNCaP FGC SI 1

GSM887302: MDAPCa2b SI 1

GSM887440: NCl-H660 NO 1.25E-05

GSM887506: PC-3 NO 0.009829

GSM887731: VCaP SI 1

34211: GSM843494 DU145T NO 0.005278

GSM844559: HPET11 NO 0.005602

GSM844560: HPET13 replicado 1 NO 0.003382

GSM844561: HPET13 replicado 2 NO 0.000501

GSM844562: HPET5 NO 0.007673

GSM844579: LNCAP SI 1

GSM844674: PC3 PFIZER NO 0.004066

GSM844675: PC3 Good NCl50 WYETH NO 0.006163

Ejemplo 7: Pronostico con base en la actividad de la ruta

Se cree que las rutas de desarrollo temprano, como Wnt y Hedgehog, juegan un papel en la metastasis causada por las celulas cancerosas que han revertido a un fenotipo mas similar a celulas madre, llamado celulas madre de cancer. De hecho, existen pruebas suficientes de que las rutas de desarrollo precoces, como la ruta Wnt, juegan un papel en las metastasis del cancer, permitiendo que las celulas cancerosas metastasicas comiencen a dividirse en la localizacion de siembra en otro organo o tejido. La metastasis esta asociada con un mal pronostico, por lo que se espera que la actividad de las rutas de desarrollo precoces, como la ruta Wnt y Hedgehog, en las celulas cancerosas sea predictiva del mal pronostico. Esto es apoyado por el hecho de que los pacientes con cancer de mama, del conjunto de datos GSE12276, que fueron identificados con una ruta ER activa, pero que no tienen una ruta Wnt o Hedgehog activa utilizando los modelos de red Bayesiana descritos en este documento, tema un mejor pronostico que los pacientes identificados que tienen una ruta Hedgehog Wnt o ambas activa, como se ilustra en la grafica de Kaplan-Meier de la Figura 37.

Ejemplo 8: Planificacion de la terapia, prediccion de la eficacia del farmaco, prediccion de efectos adversos y monitorizacion de la eficacia del farmaco

El ejemplo siguiente ilustra como utilizar los modelos probabilfsticos, en particular los modelos de red Bayesiana, para la planificacion de la terapia, la prediccion de la eficacia del farmaco, la supervision de la eficacia del farmaco y las actividades relacionadas.

El modelo de la red bayesiana de la ruta ER, construido utilizando un nodo para la presencia del factor de transcripcion, una capa de nodos que representan los niveles de ARNm de los genes objetivo (Tabla 2) y una capa de nodos que representan las intensidades de los sondas correspondientes a los genes objetivo (Tabla 2), analogo a la Figura 6 descrita en este documento, y entrenado como se describe en el presente documento, se usaron para predecir la actividad de la ruta. Posteriormente, se demuestra que la actividad de la ruta esta correlacionada con la eficacia del farmaco o la eficacia del farmaco de control. Los resumenes de los resultados se muestran en las Figuras 31 y 32.

El tamoxifeno es un farmaco utilizado actualmente para el tratamiento del cancer de mama ER+ (receptor de estrogeno positivo). Actua como un antagonista parcial del receptor de estrogenos que inhibe la proliferacion celular incontrolada que se cree que es inducida por la senalizacion ER. Desafortunadamente, no todos los canceres de mama responden al tratamiento con tamoxifeno, a pesar de la demostracion de la presencia de protema ER en celulas cancerosas mediante

27

5

10

15

20

25

30

35

40

45

50

55

60

65

el analisis histopatologico de rutina de secciones de tejido de cancer. Se han realizado muchos estudios para investigar esta llamada resistencia al tamoxifeno. El conjunto de datos GSE21618 disponible publicamente es el resultado de uno de dichos estudios y contiene datos de microarreglos de lmeas de celulas MCF7 resistentes a tamoxifeno y de tipo salvaje bajo diferentes regfmenes de tratamiento. El modelo de red Bayesiana ER construido y entrenado como se describe aqu se usa para analizar las lmeas celulares resistentes a tamoxifeno y MCF7 bajo diferentes regfmenes de tratamiento, cuyos resultados se muestran en la Figura 31.

Se preve que la lmea celular resistente a tamoxifeno, indicada por TamR.Ctrl, tenga una ruta ER inactiva para cada punto de tiempo despues de la adicion de tamoxifeno (1, 2, 3, 6, 12, 24 y 48 h). No es de extranar que el tratamiento de la lmea celular resistente al tamoxifeno, que es insensible al tratamiento con Tamoxifeno, con Tamoxifeno, indicado por TamR.Tam, es ineficaz, lo cual tambien se ilustra por la inactividad prevista de la ruta de ER para este grupo sobre los mismos puntos de tiempo. De acuerdo con el analisis de la lmea de celulas resistentes al tamoxifeno (TamR.Ctrl), la fuerza motriz de la proliferacion celular no controlada no se debe a la senalizacion ER activa; por lo tanto, el tratamiento con un antagonista de ER no inhibe la proliferacion celular. Esto ilustra que el tratamiento con tamoxifeno no se recomienda en el caso de una actividad de ruta ER predecible.

Por otra parte, la lmea celular MCF7 de tipo salvaje, conocida como sensible al tamoxifeno, tratada con 17beta-estradiol (wt1.E2) reacciona lentamente al tratamiento hormonal que es visible en las predicciones crecientes de actividad positiva de ER. El tratamiento de dicha lmea celular con inhibidores de la aromatasa que se sabe que inhiben la produccion de estrogenos, inhibira la ruta ER, que se ilustra por la disminucion de la prediccion de la ruta ER en el tiempo. Apoyan esto las predicciones de ruta de ER hechas con base en los datos de microarreglos de muestras MCF7 tratadas con estrogeno para aumentar el tiempo en el conjunto de datos GSE11324, mostrandose los resultados en la Figura 32.

Lo anterior ilustra la capacidad de los modelos probabilfsticos, en particular los modelos de red Bayesiana, para ser utilizados en la planificacion de la terapia, la prediccion de la eficacia del farmaco y la monitorizacion de la eficacia del farmaco. Sin embargo, debe entenderse que la misma metodologfa tambien se aplicana para predecir y controlar los efectos adversos.

Ejemplo 9: Desarrollo de farmacos

Similar a la monitorizacion de la respuesta a la terapia, puede utilizarse un modelo de ruta en el desarrollo de farmacos para evaluar la eficacia de diversos compuestos putativos. Por ejemplo, al escanear muchos compuestos para un posible efecto sobre una cierta ruta en una lmea celular de cancer, el modelo de ruta respectiva puede usarse para determinar si la actividad de la ruta sube o baja despues de la aplicacion del compuesto o no. A menudo, esta comprobacion se realiza utilizando solo uno o algunos de los marcadores putativos de la actividad de la ruta, lo que aumenta la probabilidad de un seguimiento ineficaz del efecto del tratamiento. Ademas, en los estudios de seguimiento en animales o sujetos pacientes, los modelos de ruta pueden usarse de manera similar para evaluar la eficacia de los farmacos candidatos y para determinar una dosis optima para afectar al maximo la actividad de la ruta.

Un ejemplo de monitorizacion ineficaz de nuevos compuestos de farmaco se ilustra mediante la actividad de la ruta de AR predicha en las muestras de GSE7708 como se muestra en la Figura 38. En este estudio se han desarrollado dos posibles compuestos de farmacos para inhibir la actividad de la ruta AR, denominados Poliamida 1 y Poliamida 2. Se ha demostrado que estas dos poliamidas son capaces de inhibir la ruta AR con base en los hallazgos de que las poliamidas se unen al elemento de respuesta a los androgenos (ARE) e inhiben la expresion de KLK3 (= PSA), un marcador bien conocido para la actividad AR tambien incluidos en la seleccion de genes objetivo tal como se describe en este documento, asf como “35% de los transcritos que fueron inducidos por DHT. En contraste, el modelo de la red Bayesiana de la ruta AR predijo que estas muestras todavfa tienen una ruta AR activa. La investigacion de las probabilidades inferidas de los genes objetivo que se sobrerregulan utilizando el modelo de red Bayesiana para AR indico que KLK3 en contraste con los otros genes objetivo fue subregulado de acuerdo con los hallazgos, mientras que todos los otros genes objetivo (excepto AR, GUCY1A3 y TMPRSS2 en el caso de la poliamida 1) se expresaron claramente diferencialmente en las muestras tratadas con poliamida 1 y poliamida 2. En otras palabras, solo un marcador para la actividad de AR, KLK3, fue subregulado, mientras que la mayona de los genes objetivo identificados todavfa se sobrerregularon indicando que la ruta AR sigue estando en gran medida intacta y, por tanto, activa. Teniendo en cuenta un mayor numero de genes objetivo con base en la evidencia bibliografica, los inventores fueron capaces de demostrar que la inhibicion de la actividad AR de las poliamidas es limitada y que solo la expresion KLK3 esta claramente subregulada usando estas poliamidas. Por otra parte, esto ilustra el valor de un enfoque sistematico utilizando un modelo de red Bayesiana en comparacion con un enfoque reduccionista en el desarrollo de farmacos.

Ejemplo 10: Desarrollo de ensayo

En lugar de aplicar las redes Bayesianas mencionadas en los datos de entrada de ARNm procedentes de microarreglos o secuenciacion de ARN, puede ser beneficioso en aplicaciones clmicas desarrollar ensayos dedicados para realizar las mediciones de muestra, por ejemplo en una plataforma integrada usando qPCR para determinar los niveles de ARNm de genes objetivo. Las secuencias de ARN/ADN de los genes objetivo descritos pueden usarse entonces para determinar que cebadores y sondas se seleccionan en dicha plataforma.

5

10

15

20

25

30

35

40

45

50

55

60

65

La validacion de tal ensayo dedicado se puede hacer usando las redes Bayesianas con base en microarreglos como un modelo de referencia y verificando si el ensayo desarrollado da resultados similares en un conjunto de muestras de validacion. Junto a un ensayo dedicado, esto tambien se puede hacer para construir y calibrar modelos de red Bayesiana similares usando datos de secuenciacion de ARNm como medidas de entrada.

Ejemplo 11: Investigacion de la ruta y investigacion de la fisiopatolog^a del cancer

A continuacion se ilustra como pueden emplearse modelos de redes Bayesianas en la investigacion (clmica) de rutas, esto es, la investigacion interesada en descubrir que rutas estan implicadas en ciertas enfermedades, las cuales pueden ser seguidas para una investigacion mas detallada, por ejemplo para vincular las mutaciones en las protemas de senalizacion a los cambios en la activacion de la ruta (medida con el modelo). Esto es relevante para investigar la iniciacion, el crecimiento y la evolucion y la metastasis de los canceres espedficos (la fisiopatologfa).

Los modelos de la red Bayesiana de las rutas Wnt, ER, Hedgehog y AR, construidos utilizando un nodo para la presencia del factor de transcripcion, una capa de nodos que representan los niveles de ARNm de los genes objetivo (Tabla 1, Tabla 2, Tabla 3 y Tabla 4) y una capa de nodos que representan las intensidades de las sondas que corresponden a los genes objetivo (Tabla 1, Tabla 2, Tabla 3 y Tabla 4), analogas a la Figura 6 descritas aqrn y entrenadas como se describe en el presente documento, se uso para predecir la actividad de la ruta de un conjunto de datos consistente en muestras de cancer de mama (GSE12276).

Supongamos que el investigador esta interesado en investigar la ruta o caminos de senalizacion celular y la(s) desregulacion(es) espedfica(s) que impulsa(n) la proliferacion celular incontrolada. El investigador puede analizar los datos de microarreglos utilizando los modelos probabilfsticos antes mencionados, en particular los modelos de red Bayesiana, para encontrar que rutas son presumiblemente la causa de la proliferacion celular incontrolada. Se muestra en la Figura 33 y en la Figura 34 una ilustracion de dicho analisis para el caso de la actividad de Wnt, ER y Hedgehog (muestras basales y luminal A del conjunto de datos GSE12276). Posteriormente, el investigador puede buscar en mas detalle para encontrar la causa exacta de la desregulacion de la ruta.

Con referencia a la Figura 34, se sabe que las muestras basales tienen un estado de receptor triple negativo (ER, PR y HER2), por lo tanto no es sorprendente ver que se predice que todas las muestras tienen una ruta ER inactiva. Por otra parte, se preve que algunas de las muestras tienen tanto Wnt como Hedgehog o ambas activas como se muestra en la Figura 34. Estas actividades de la ruta predicha persuaden al investigador a investigar estas muestras con mas detalle para, por ejemplo, mutaciones conocidas u otras desregulaciones conocidas en las rutas Wnt y/o Hedgehog.

Otro ejemplo se da en la Figura 33, en la que se ilustran las actividades Wnt, ER y Hedgehog en las muestras luminal A del conjunto de datos GSE12276. Se sabe que las muestras de Luminal A expresan ER, sin embargo esto no significa necesariamente que las propiedades cancerosas se deban a senalizacion Er activa. De las actividades de la ruta prevista se puede inferir que menos de la mitad de las muestras tienen una senalizacion ER activa. Sin embargo, se encuentran que algunas de las muestras que no tienen una senalizacion ER activa tienen una ruta Wnt y/o Hedgehog activa. Esto podna dar lugar a que el investigador explore estas muestras en detalles mas cercanos en cuanto a los defectos en la ruta de senalizacion Wnt y/o Hedgehog, respectivamente. Algunas de las muestras no predicen ninguna de las tres rutas incluidas que son activas; tal vez otros caminos estan causando las proliferaciones no controladas de celulas. Tambien esto da al investigador informacion adicional para buscar defectos en otras rutas.

En resumen, las ilustraciones aqrn descritas indican la capacidad de modelos de red Bayesiana entrenados (como se ha descrito anteriormente) para apoyar el proceso de encontrar la causa de la proliferacion celular no controlada en un metodo mas dirigido. Mediante el empleo de las redes Bayesianas para cribar las muestras con respecto a las actividades de la ruta, las actividades de la ruta prevista pueden identificar las rutas posibles para la proliferacion celular, que pueden ser seguidas para una investigacion mas detallada, por ejemplo para vincular las mutaciones en las protemas de senalizacion u otras desregulaciones conocidas a los cambios en la activacion (medida con el modelo).

Tal como se describe en el presente documento, el proceso para desarrollar y formar una red Bayesiana de rutas de senalizacion celular puede usarse para construir un modelo de red Bayesiana para otras rutas que tambien podnan emplearse en relacion con la presente invencion.

Ejemplo 12: Inscripcion del sujeto en un ensayo clmico con base en la actividad prevista

Si un farmaco candidato se desarrolla para, por ejemplo, bloquear la actividad de una determinada ruta que impulsa el crecimiento tumoral, y este farmaco esta entrando en ensayos clmicos, resulta entonces esencial una seleccion adecuada de los sujetos que van a ser inscritos en tal ensayo es esencial para probar la efectividad potencial del farmaco. En tal caso, los pacientes que no tienen la ruta respectiva activada en sus tumores deben ser excluidos del ensayo, ya que es obvio que el farmaco no puede ser eficaz si la ruta no se activa en primer lugar. Por lo tanto, un modelo de ruta que puede predecir la actividad de la ruta se puede utilizar como una herramienta de seleccion, para seleccionar solo los pacientes que se preve que tienen activada la ruta respectiva.

5

10

15

20

25

30

35

40

45

50

55

60

65

Ejemplo 13: Seleccion de las pruebas posteriores por realizar

Si se analiza un tumor utilizando diferentes modelos de rutas y los modelos predicen la desregulacion de una cierta ruta, lo cual puede guiar entonces la seleccion de las pruebas posteriores por realizar. Por ejemplo, se puede ejecutar un ensayo de ligacion de proximidad (PLA) para confirmar la presencia del respectivo complejo de transcripcion (Soderberg O, 2006). Tal PLA puede disenarse para dar un resultado positivo si dos protemas clave en un complejo TF se han unido, por ejemplo, betacatenina y TCF4 en el complejo TF de la ruta Wnt.

Otro ejemplo es que la ruta cuya desregulacion se ha predicho se analiza con mas detalle con respecto a la cascada de senalizacion. Por ejemplo, se pueden analizar protemas clave en esta ruta para determinar si hay mutaciones en las regiones de ADN que codifican para sus respectivos genes, o se puede probar la abundancia de estas protemas para ver si son mas alta o mas baja de lo normal. Tales pruebas pueden indicar cual es la causa rafz detras de la desregulacion de la ruta y dar una idea de los farmacos disponibles que podnan utilizarse para reducir la actividad de la ruta.

Estos ensayos se seleccionan para confirmar la actividad de la ruta identificada utilizando el modelo Bayesiano. Sin embargo, tambien es posible la seleccion de pruebas de diagnostico complementarias. Despues de la identificacion de la ruta utilizando el modelo, para la eleccion de terapia dirigida solo deben realizarse las pruebas de diagnostico complementario (la seleccion), que son aplicables a la ruta identificada.

Ejemplo 14: Seleccion de pruebas de diagnostico asociadas

De manera similar al ejemplo anterior, si se analiza un tumor y los modelos de ruta predicen la desregulacion de una determinada ruta, y opcionalmente se han realizado una serie de pruebas adicionales para investigar la causa de la desregulacion, entonces un oncologo puede seleccionar un numero de farmacos candidatos para tratar al paciente. Sin embargo, el tratamiento con dicho farmaco puede requerir una prueba diagnostica complementaria que se debe ejecutar primero, por ejemplo, para cumplir con las pautas clmicas o para asegurar el reembolso de los costes del tratamiento, o porque se requiere regulacion (FDA) para llevar a cabo la prueba de diagnostico acompanante para suministrar el farmaco. Un ejemplo de esta prueba de diagnostico complementaria es la prueba Her2 para el tratamiento de pacientes con cancer de mama con el farmaco Herceptin (Trastuzumab). Por lo tanto, el resultado de los modelos de ruta se puede utilizar para seleccionar los farmacos candidatos y las respectivas pruebas de diagnostico complementarias que se han de realizar.

Ejemplo 15: Aplicacion del CDS

Haciendo referencia a la Figura 20 (que muestra esquematicamente un sistema de soporte de decision clmica (CDS) configurado para evaluar una o mas rutas de senalizacion celular como se describe aqrn (mostrado como ejemplo para la ruta Wnt)), se implementa un sistema 10 de soporte de decision clmica (CDS) como un ordenador 12 adecuadamente configurado. El ordenador 12 puede estar configurado para funcionar como el sistema CDS 10 ejecutando un software, un firmware u otras instrucciones adecuados almacenados en un medio de almacenamiento no transitorio (no mostrado) tal como un disco duro u otro medio de almacenamiento magnetico, un disco optico u otro medio de almacenamiento optico, una memoria de acceso aleatorio (RAM), memoria de solo lectura (ROM), memoria instantanea u otro medio de almacenamiento electronico, un servidor de red, etc. Aunque el sistema 10 CDS ilustrativo es ejecutado por el ordenador 12 ilustrativo, mas generalmente el sistema CDS puede ser ejecutado por un dispositivo de procesamiento digital o un aparato que comprende un procesador digital configurado para llevar a cabo metodos de soporte de decision clmica como se expone aqrn. Por ejemplo, el dispositivo de procesamiento digital puede ser un dispositivo portatil (por ejemplo, un asistente de datos personales o un telefono inteligente que ejecuta una aplicacion CDS), un ordenador portatil, un ordenador de escritorio, un ordenador o dispositivo de tableta, un servidor de red remoto, etc. El ordenador 12 u otro dispositivo de procesamiento digital tfpicamente incluye o esta conectado operativamente con un dispositivo 14 de visualizacion a traves del cual se muestra informacion que incluye recomendaciones de soporte de decision clmica al personal medico. El ordenador 12 u otro dispositivo de procesamiento digital tfpicamente tambien incluye o esta conectado operativamente con uno o mas dispositivos de entrada de usuario, tal como un teclado 16ilustrativo, o un raton, bola de desplazamiento, alfombrilla de desplazamiento, pantalla tactil (posiblemente integrada con el dispositivo 14 de visualizacion), u otro dispositivo de entrada de usuario con base en puntero, a traves del cual el personal medico puede introducir informacion tal como ordenes operacionales para controlar el sistema CDS 10, datos para su uso por el sistema CDS 10, etc.

El sistema CDS 10 recibe como informacion de entrada perteneciente a un sujeto medico (por ejemplo, un paciente del hospital o un paciente ambulatorio que esta siendo tratado por un oncologo, medico u otro personal medico o una persona sometida a cribado de cancer o algun otro diagnostico medico conocido, o de quien se sospecha que tiene cierto tipo de cancer, como cancer de colon, cancer de mama o cancer de hngado, etc.). El sistema CDS 10 aplica diversos algoritmos de analisis de datos a esta informacion de entrada para generar recomendaciones de soporte de decision clmica que son presentadas al personal medico a traves del dispositivo 14 de visualizacion (o a traves de un sintetizador de voz u otro dispositivo que proporcione una salida perceptible por el usuario). En algunas realizaciones,

5

10

15

20

25

30

35

40

45

50

55

60

estos algoritmos pueden incluir la aplicacion de una gma clmica al paciente. Una gma clmica es un conjunto almacenado de recomendaciones de tratamiento estandar o "canonicas", construidas tfpicamente sobre la base de recomendaciones de un panel de expertos medicos y opcionalmente formateadas en forma de un "diagrama de flujo" clmico para facilitar la navegacion a traves de la gma clmica. En diversas realizaciones, los algoritmos de procesamiento de datos del CDS 10 pueden incluir adicionalmente o alternativamente diversos algoritmos de pruebas de diagnostico o clmicas que se realizan sobre la informacion de entrada para extraer recomendaciones de decision clmica, tales como metodos de aprendizaje de maquinas descritos en el presente documento.

En los sistemas CDS ilustrativos descritos en el presente documento (por ejemplo, el sistema CDS 10), los algoritmos de analisis de datos de CDS incluyen uno o mas algoritmos de diagnostico o de prueba clmica que se ejecutan con la informacion genomica y/o proteomica de entrada adquirida por uno o mas laboratorios 18 medicos. Los laboratorios pueden ubicarse de forma diversa "en el lugar", es decir, en el hospital u otro lugar donde el sujeto medico esta siendo sometido a un examen y/o tratamiento medico, o "fuera del sitio", por ejemplo un laboratorio especializado y centralizado que recibe (por correo u otro servicio de entrega) una muestra de tejido del sujeto medico que se ha extrafdo del sujeto medico (por ejemplo, una muestra obtenida de una lesion de mama o de un colon de un sujeto medico de quien se sabe o sospecha que tiene cancer de colon, o de un tugado de un sujeto medico de quien se sabe o sospecha que tiene cancer de tugado, etc., mediante un procedimiento de biopsia u otro procedimiento de extraccion de muestras). El tejido del que se extrae una muestra puede ser tambien tejido metastasico, por ejemplo tejido maligno (sospechado) procedente del colon, mama, tugado u otro organo, que se ha diseminado fuera del colon, la mama, el hfgado u otro organo. En algunos casos, la muestra de tejido puede ser celulas tumorales circulantes, es decir, celulas tumorales que han entrado en el torrente sangumeo y pueden extraerse como la muestra de tejido extrafda usando tecnicas de aislamiento adecuadas. La muestra extrafda es procesada por el laboratorio para generar informacion genomica o proteomica. Por ejemplo, la muestra extrafda puede ser procesada usando un microarreglo (tambien denominado en la tecnica como un chip genetico, chip de ADN, biochip, etc.) o mediante un procesamiento cuantitativo de reaccion en cadena de la polimerasa (qPCR) para medir la informacion genomica o proteomica probatoria tal como los niveles de expresion de los genes de interes, por ejemplo en forma de un nivel de acido ribonucleico mensajero (ARNm) que se transcribe a partir del gen, o un nivel de una protema que se traduce del ARNm transcrito del gen. Como otro ejemplo, la muestra extrafda puede ser procesada por un laboratorio de secuenciacion genica para generar secuencias de acido desoxirribonucleico (ADN), o para generar una secuencia de ARN, variacion de numero de copias, etc. Otros enfoques de medicion contemplados incluyen inmunohistoqmmica (IHC), citologfa, hibridacion in situ por fluorescencia (FlSH), ensayo de ligacion de proximidad, etc., realizados en una seccion patologica. Otra informacion que puede ser generada por el procesamiento de microarreglos, espectrometna de masas, secuenciacion de genes u otras tecnicas de laboratorio incluye informacion de metilacion. Tambien se pueden realizar diversas combinaciones de tales mediciones genomicas y/o proteomicas.

En algunas realizaciones, los laboratorios 18 medicos realizan una serie de adquisiciones de datos estandarizadas sobre la muestra extrafda del tejido del sujeto medico, con el fin de generar una gran cantidad de datos genomicos y/o proteomicos. Por ejemplo, las tecnicas de adquisicion de datos estandarizadas pueden generar una secuencia de aDn (opcionalmente alineada) para uno o mas cromosomas o porciones cromosomicas, o para todo el genoma del tejido. La aplicacion de un microarreglo estandar puede generar miles o decenas de miles de elementos de datos, como niveles de expresion para un gran numero de genes, varios datos de metilacion, y asf sucesivamente. Esta pletora de datos genomicos y/o proteomicos, o partes seleccionadas de los mismos, se introducen en el sistema CDS 10 para ser procesados de manera que se desarrolle informacion util desde el punto de vista clmico para formular recomendaciones de soporte de decision clmica.

Los sistemas CDS descritos y los metodos relacionados se refieren al procesamiento de datos genomicos y/o proteomicos para evaluar la actividad de diversas rutas de senalizacion celular. Sin embargo, debe entenderse que los sistemas CDS descritos (por ejemplo, el sistema CDS 10) opcionalmente pueden incluir adicionalmente diversas capacidades adicionales, tales como generar recomendaciones de soporte de decision clmica de acuerdo con gmas clmicas almacenadas con base en diversos datos de pacientes tales como monitorizacion de signos vitales, datos del paciente, datos demograficos del paciente (por ejemplo, sexo, edad, etc.), datos de imagenes medicas del paciente, etc. Alternativamente, en algunas realizaciones las capacidades del sistema CDS 10 pueden limitarse solamente a realizar analisis de datos genomicos y/o proteomicos para evaluar rutas de senalizacion celular como se describe en el presente documento.

Continuando con referencia a la Figura 20 de ejemplo, el sistema CDS 10 infiere la actividad de una ruta de senalizacion celular en el tejido del sujeto medico con base al menos en, pero sin limitarse a, niveles de expresion de genes objetivo de la ruta de senalizacion celular medida en la muestra y determina si la ruta de senalizacion celular esta funcionando anormalmente en el tejido del sujeto medico con base en esta actividad inferida. Los ejemplos descritos en el presente documento se refieren a las rutas Wnt, ER, AR y Hedgehog como rutas de senalizacion celular ilustrativas. Estas rutas son de interes en diversas areas de la oncologfa porque la perdida de la regulacion de las rutas puede ser una causa de la proliferacion de un cancer. Hay aproximadamente 10-15 rutas de senalizacion relevantes, y cada cancer es impulsado por, en principio, una ruta dominante que esta siendo desregulada. Sin limitarse a ninguna teona particular de la operacion, estas rutas regulan la proliferacion celular y, consecuentemente, una perdida de regulacion de estas rutas en

5

10

15

20

25

30

35

40

45

50

55

60

65

las celulas cancerosas puede conducir a que la ruta este "siempre habilitada", acelerando asf la proliferacion de celulas cancerosas, que a su vez se manifiesta como un crecimiento, invasion o metastasis (propagacion) del cancer.

La medicion de los niveles de expresion de ARNm de genes que codifican para protemas reguladoras de la ruta de senalizacion celular, tal como una protema intermedia que forma parte de una cascada de protemas que forma la ruta de senalizacion celular, es una medida indirecta del nivel de expresion de la protema reguladora y puede o puede no correlacionarse fuertemente con el nivel real de expresion de la protema reguladora (mucho menos con la actividad global de la ruta de senalizacion celular). La ruta de senalizacion celular regula directamente la transcripcion de los genes objetivo -por lo tanto, los niveles de expresion de ARNm transcritos a partir de los genes objetivo son un resultado directo de esta actividad reguladora-. Por lo tanto, el sistema CDS 10 infiere la actividad de la ruta de senalizacion celular (por ejemplo, las rutas Wnt, ER, AR y Hedgehog) con base al menos en los niveles de expresion de genes objetivo (nivel de ARNm o protema como medida sustituta) de la ruta de senalizacion celular. Esto asegura que el sistema CDS 10 infiere la actividad de la ruta con base en informacion directa proporcionada por los niveles de expresion medidos a partir de los genes objetivo.

Sin embargo, si bien, como se describe en el presente documento, son eficaces para evaluar la actividad de las rutas globales, los niveles 20 de expresion medidos de los genes objetivo de las rutas no son especialmente informativos en cuanto a por que las rutas estan funcionando anormalmente (si es asf). Dicho de otro modo, los niveles 20 de expresion medidos de los genes objetivo de una ruta pueden indicar que la ruta esta funcionando anormalmente, pero no indican que parte de la ruta esta funcionando mal (por ejemplo, carece de regulacion suficiente) para hacer que la ruta general funcione anormalmente.

Por consiguiente, si el sistema CDS 10 detecta una actividad anormal de una ruta particular, el sistema CDS 10 hace uso opcionalmente de otra informacion proporcionada por los laboratorios 18 medicos para la muestra extrafda, tal como secuencias 22 geneticas alineadas y/o medidas(s) de expresion para uno o mas genes reguladores de la ruta 24, o seleccionar la prueba diagnostica que se va a realizar a continuacion para evaluar que parte de la ruta esta funcionando mal. Para maximizar la eficacia, en algunas realizaciones esta evaluacion opcional de por que la ruta esta funcionando incorrectamente se lleva a cabo solamente si el analisis de los niveles 20 de expresion medidos de los genes objetivo de la ruta indica que la ruta esta funcionando anormalmente. En otras realizaciones, esta evaluacion se integra en el analisis probabilfstico de la ruta de senalizacion celular descrita en el presente documento.

En las realizaciones en las que el sistema CDS 10 evalua que parte de la ruta esta funcionando mal y tiene exito al hacerlo, la informacion adicional permite al sistema CDS 10 recomendar la prescripcion de un farmaco dirigido al mal funcionamiento espedfico (recomendacion 26 mostrada en la Figura 20). Si no se identifica ningun mal funcionamiento espedfico de la ruta (ya sea porque la evaluacion adicional opcional no se realiza o porque esa evaluacion no identifica ninguna porcion particular de la ruta que esta funcionando mal), entonces el sistema CDS 10 puede proporcionar una recomendacion 28 por defecto recomendando la prescripcion de un farmaco de supresion general para esta ruta particular (suponiendo que la actividad de la ruta anormal es actividad excesivamente alta).

Ejemplo 16: Un kit y herramientas de analisis para medir la actividad de la ruta

El conjunto de genes objetivo que han mostrado una mejor indicacion de la actividad de la ruta espedfica, con base en la investigacion con base en la secuenciacion de microarreglos/ARN utilizando el modelo Bayesiano, puede traducirse en un ensayo de PCR cuantitativo multiplex para ser realizado en una muestra de tejido o celula. Para desarrollar una prueba aprobada por la FDA para la actividad de la ruta, se requiere el desarrollo de un kit de prueba estandarizado, que debe ser validado clmicamente en ensayos clmicos para obtener la aprobacion regulatoria.

En general, debe entenderse que mientras que los ejemplos que son pertinentes a las rutas Wnt, ER, AR y Hedgehog se proporcionan como ejemplos ilustrativos, los enfoques para el analisis de la ruta de senalizacion celular descritos aqrn se aplican facilmente a otras rutas de senalizacion celular ademas de estas rutas, tales como las rutas de senalizacion intracelular con receptores en la membrana celular (ver mas arriba) y las rutas de senalizacion intracelular con receptores dentro de la celula (ver mas arriba). Ademas: Esta solicitud describe varias realizaciones preferidas. Pueden colegirse por otros modificaciones y alteraciones al leer y entender la descripcion detallada precedente. Se pretende que la solicitud se interprete con la inclusion de todas las dichas modificaciones y alteraciones en la medida en que entren dentro del alcance de las reivindicaciones adjuntas o sus equivalentes.

Literatura:

de Sousa E Melo F, C. S. (2011). Methylation of cancer-stem-cell-associated Wnt target genes predicts poor prognosis in colorectal cancer patients. Cell Stem Cell., 476-485

Hatzis P, v. d. (2008). Genome-wide pattern of TCF7L2/TCF4 chromatin occupancy in colorectal cancer cells. Mol Cell Biol., 2732-2744

Neapolitan, R. (2004). Learning Bayesian networks. Pearson Prentice Hall

Nusse, R. (2012, May 1). Wnt target genes. Retrieved from The Wnt homepage:
http://www.stanford.edu/group/nusselab/cgi-bin/wnt/target_genes

5 Soderberg O, G. M. (2006). Direct observation of individual endogenous protein complexes in situ by proximity ligation. Nat Methods., 995-1000

van de Wetering M, S. E.-P.-F. (2002). The beta-catenin/TCF-4 complex imposes a crypt progenitor phenotype on colorectal cancer cells. Cell, 241-250.

10

Claims

5

10

15

20

25

30

35

40

45

50

55

60

65

REIVINDICACIONES

1. Un metodo que comprende:

inferir la actividad de una o mas rutas de senalizacion celular en tejido de un sujeto medico con base al menos en el nivel o niveles de expresion de uno o mas genes objetivo de las rutas de senalizacion celular medidos en una muestra extrafda del tejido del sujeto medico, donde la inferencia comprende:

inferir la actividad de las rutas de senalizacion celular en el tejido del sujeto medico evaluando al menos una porcion de un modelo probabilfstico (40-1, ..., 40-7), preferiblemente una red Bayesiana (40-1, ..., 40-7), que representan las rutas de senalizacion celular para un conjunto de entradas que incluyen al menos los niveles (20) de expresion de uno o mas genes objetivo de las muestras extrafdas del tejido del sujeto medico;

estimar un nivel (46) en el tejido del sujeto medico de al menos un elemento de factor de transcripcion (TF), el al menos un elemento TF que controla la transcripcion del uno o mas genes objetivo de las rutas de senalizacion celular, estando basada la estimacion al menos en parte en probabilidades condicionales que relacionan al menos un elemento TF y en los niveles (20) de expresion de uno o mas genes objetivo de las rutas de senalizacion celular medidas en la muestra extrafda del tejido del sujeto medico;

inferir la actividad de la ruta de senalizacion celular con base en el nivel estimado en la muestra de tejido del factor de transcripcion; y

determinar si las rutas de senalizacion celular estan funcionando anormalmente en el tejido del sujeto medico con base en la actividad inferida de las rutas de senalizacion celular en el tejido del sujeto medico;

en el que la inferencia se realiza mediante un dispositivo (12) de procesamiento digital que utiliza el modelo probabilfstico (40-1, ..., 40-7) de las rutas de senalizacion celular,

en el que la ruta de senalizacion celular comprende una ruta Wnt, una ruta ER, una ruta AR y/o una ruta Hedgehog, en el que la inferencia comprende:

inferir la actividad de la ruta Wnt en el tejido del sujeto medico con base al menos en los niveles (20) de expresion de uno o mas, preferiblemente al menos tres genes objetivo de la ruta Wnt medidos en la muestra extrafda del tejido del sujeto medico seleccionados del grupo que consiste en:

KIAA1199, AXIN2, RNF43, TBX3, TDGF1, SOX9, ASCL2, IL8, SP5, ZNRF3, KLF6, CCND1, DEFA6 y FZD7, y/o

inferir la actividad de la ruta ER en el tejido del sujeto medico con base al menos en los niveles (20) de expresion de uno o mas, preferiblemente al menos tres, genes objetivo de la ruta ER medidos en la muestra extrafda del tejido del sujeto medico seleccionados del grupo que consiste en: CDH26, SGK3, PGR, GREB1, CA12, XBP1, CELSR2, WISP2, DSCAM, ERBB2, CTSD, TFF1 y NRIP1,

y/o

inferir la actividad de la ruta Hedgehog en el tejido del sujeto medico con base al menos en los niveles (20) de expresion de uno o mas, preferiblemente al menos tres genes objetivo de la ruta de Hedgehog medidos en la muestra extrafda del tejido del sujeto medico seleccionado del grupo que consiste en GLI1, PTCH1, PTCH2, IGFBP6, SPP1, CCND2, FST, FOXL1, CFLAR, TSC22D1, RAB34, S100A9, S100A7, MYCN, FOXM1, GLI3, TCEA2, FYN y CTSL1

y/o

inferir la actividad de la ruta AR en el tejido del sujeto medico con base al menos en los niveles (20) de expresion de uno o mas, preferiblemente al menos tres, genes objetivo de la ruta AR medidos en la muestra extrafda del tejido del sujeto medico seleccionado del grupo que consiste en: KLK2, PMEPA1, TMPRSS2, NKX3-1, ABCC4, KLK3, FKBP5, ELL2, UGT2B15, DHCR24, PPAP2A, NDRG1, LRIG1, CREB3L4, LCP1, GUCY1A3, AR y EAF2.
2. El metodo de la reivindicacion 1, en el que la inferencia comprende:

estimar un nivel (46) en el tejido del sujeto medico de al menos un elemento de factor de transcripcion (TF) representado por un nodo TF del modelo probabilfstico, controlando el elemento TF la transcripcion del uno o mas genes objetivo de las rutas de senalizacion celular, estando basada la estimacion al menos en parte en las probabilidades condicionales del modelo probabilfstico (40-1, ..., 40-7) relacionando el nodo TF y los nodos en el modelo

5

10

15

20

25

30

35

40

probabiKstico que representa el uno o mas genes objetivo de las rutas de senalizacion celular, medidos en la muestra ex^da del tejido del sujeto medico,

y en el que la inferencia se realiza preferiblemente utilizando una red Bayesiana (40-1, ..., 40-7) que comprende nodos que representan informacion sobre la ruta de senalizacion y relaciones de probabilidad condicional entre nodos conectados de la red Bayesiana.
3. El metodo de la reivindicacion 1 o 2, en el que la inferencia se basa adicionalmente en los niveles (20) de expresion de al menos un gen objetivo de la ruta Wnt medidos en la muestra extrafda del tejido del sujeto medico seleccionados del grupo que comprende:

NKD1, OAT, FAT1, LEF1, GLUL, REG1B, TCF7L2, COL18A1, BMP7, SLC1A2, ADRA2C, PPARG, DKK1, HNF1A y LECT2.
4. El metodo de la reivindicacion 1 o 2, en el que la inferencia se basa adicionalmente en los niveles (20) de expresion de al menos un gen objetivo de la ruta ER medidos en la muestra extrafda del tejido del sujeto medico seleccionados del grupo que comprende: AP1B1, ATP5J, COL18A1, COX7A2L, EBAG9, ESR1, HSPB1, IGFBP4, KRT19, MYC, NDUFV3, PISD, PRDM15, PTMA, RARA, SOD1 y TRIM25.
5. El metodo de la reivindicacion 1 o 2, en el que la inferencia se basa adicionalmente en los niveles (20) de expresion de al menos un gen objetivo de la ruta de Hedgehog medidos en la muestra extrafda del tejido del sujeto medico seleccionados del grupo que comprende:

BCL2, FOXA2, FOXF1, H19, HHIP, IL1R2, JAG2, JUP, MIF, MYLK, NKX2-2, NKX2-8, PITRM1 y TOM1.
6. El metodo de la reivindicacion 1 o 2, en el que la inferencia se basa adicionalmente en los niveles (20) de expresion de al menos un gen objetivo de la ruta AR medidos en la muestra extrafda del tejido del sujeto medico seleccionados del grupo que comprende:

APP, NTS, PLAU, CDKN1A, DRG1, FGF8, IGF1, PRKACB, PTPN1, SGK1 y TACC2.
7. Un aparato que comprende un procesador (12) digital configurado para llevar a cabo un metodo segun se expone en una cualquiera de las reivindicaciones 1-6.
8. Un medio de almacenamiento no transitorio que almacena instrucciones que son ejecutables por un dispositivo (12) de procesamiento digital para realizar un metodo como el expuesto en cualquiera de las reivindicaciones 1-6.
9. Un programa informatico que comprende medios de codigo de programa para hacer que un dispositivo (12) de procesamiento digital ejecute un metodo segun se expone en una cualquiera de las reivindicaciones 1-6.