ES2709053T3

ES2709053T3 - Sistemas y métodos para aprendizaje e identificación de interacciones reguladoras en rutas biológicas

Info

Publication number: ES2709053T3
Application number: ES13846109T
Authority: ES
Inventors: Charles Joseph Vaske; Andrew J Sedgewick; Stephen Charles Benz
Original assignee: Five3 Genomics LLC
Current assignee: Five3 Genomics LLC
Priority date: 2012-10-09
Filing date: 2013-10-09
Publication date: 2019-04-15
Anticipated expiration: 2033-10-09
Also published as: JP2017199389A; AU2013329319A1; KR20150083997A; CA2888125A1; JP6157628B2; JP6611873B2; KR20160072842A; KR102085071B1; JP2018195325A; CN104838372B; CN109616210A; IL238228A0; JP2015534697A; EP2907039A1; JP6374057B2; JP2020039343A; AU2019203658A1; WO2014059036A1; EP2907039B1; US20150262082A1

Abstract

Un método implementado por ordenador para clasificar un tejido como perteneciente a un tejido específico de subtipo, que comprende: (a) obtener, a través de un módulo de interfaz de entrada ómico (120), al menos un conjunto de datos ómico (135) representativo del tejido; (b) acceder, a través de un módulo de procesamiento ómico (170), a un modelo de ruta biológica (150) que tiene una pluralidad de elementos de la ruta que comprenden al menos uno de una secuencia de ADN, una secuencia de ARN, una proteína y una función de proteína, en la que al menos dos de los elementos están acoplados entre sí a través de una ruta que tiene un nodo regulador que controla la actividad a lo largo de la ruta en función de una pluralidad de parámetros reguladores; i) cuando el elemento de la ruta comprende una secuencia de ADN, al menos uno de la pluralidad de parámetros reguladores se selecciona del grupo que consiste en un factor de transcripción, un activador de la transcripción, una subunidad de ARN polimerasa, un elemento regulador en cis, un elemento regulador en trans, una histona acetilada, una histona metilada y un represor, ii) cuando el elemento de la ruta comprende una secuencia de ARN, al menos uno de la pluralidad de parámetros reguladores se selecciona del grupo que consiste en un factor de iniciación, un factor de traducción, una proteína de unión a ARN, una proteína ribosómica, un ARNpi y una proteína de unión a poliA, y iii) cuando el elemento de la ruta comprende una proteína, al menos uno de la pluralidad de parámetros reguladores es una fosforilación, una acilación, una escisión proteolítica y asociación con al menos una segunda proteína; (c) inferir, mediante el módulo (170) de procesamiento ómico, basado en al menos un conjunto de datos (135) ómico y el modelo (150) de ruta, un conjunto de correlaciones de interacción entre la pluralidad de parámetros reguladores, en el que las probabilidades condicionales de enlaces individuales se aprenden y se utiliza una suposición de Bayes sencilla para calcular la probabilidad de un nodo hijo Y dados los progenitores X1, ... Xn, en donde la probabilidad F se calcula con base en la expresión:**Fórmula** en la que Z es una constante de normalización que corresponde a P(X1,...Xn), siendo el modelo de ruta un modelo probabilístico configurado para usar gráficos de factores usando un modelo de regulación independiente; (d) actualizar el modelo de ruta (150) basado en las correlaciones de interacción aprendidas, en el que la interfaz de entrada ómica es una interfaz de computación configurada para recibir uno o más conjuntos de datos ómicos, y en el 30 que el módulo de procesamiento ómico es una parte de un dispositivo de computación, en el que una prueba G determina l a significación estadística de la dependencia entre los progenitores que proporcionan una distribución de hijos, y en el que una correlación de Pearson o información mutua puntual ponderada (WPMI) determina el signo de interacción para los parámetros reguladores, (e) hacer coincidir el conjunto derivado de correlaciones de interacción con un conjunto conocido a priori de correlaciones de interacción que está asociado con un tejido específico de subtipo conocido; y (f) utilizar el emparejamiento para clasificar que el conjunto de datos ómico representativo del tejido pertenece al tejido específico de subtipo conocido, en el que el subtipo incluye tejido resistente al fármaco, tejido metastático, tejido tratado con fármaco o una variante clonal de un tejido.

Description

DESCRIPCION

Sistemas y metodos para aprendizaje e identificacion de interacciones reguladoras en rutas biologicas

Campo de la invencion

El campo de la invencion es el analisis computacional de datos omicos, y particularmente en lo que se refiere a algoritmos de aprendizaje y uso del analisis de rutas.

Antecedentes de la invencion

Con el advenimiento del cribado genomico de alto rendimiento, se obtuvieron conjuntos de datos cada vez mas grandes que capturan el estado molecular de las celulas, y estos avances permitieron una mayor identificacion y comprension de los mecanismos celulares que estan alterados en el cancer. Por ejemplo, la identificacion de objetivos clave frecuentemente alterados dentro de tumores espedficos llevo al desarrollo de mas de 40 terapias dirigidas en los ultimos 20 anos. Desafortunadamente, en la mayona de los casos, la tasa de respuesta de muchos de estos farmacos es inferior al 50%, lo que destaca la comprension incompleta de las rutas afectadas por estos farmacos. Un ejemplo tfpico de un mecanismo de resistencia es la activacion de la ruta RAS en tumores de cancer de colon alterados por EGFR, en el que KRAS mutado activa constitutivamente la cascada de RAS que ofrece senales de crecimiento que son independientes de la ruta EGFR, haciendo que las terapias de bloqueo de EGFR tales como la terapia con cetuximab sean en gran medida ineficaces. Por lo tanto, parece que el conocimiento de la interferencia de la ruta con cetuximab es incompleto con respecto a las rutas clave a traves de las cuales las senales oncogenicas viajan dentro de las redes de senalizacion celular.

Tal conocimiento incompleto aparente es aun mas desconcertante, ya que numerosas herramientas computacionales para integrar datos omicos a nivel de la ruta ahora estan disponibles. Entre varias otras herramientas, varios algoritmos (por ejemplo, GSEA, SPIA y Pathologist) son capaces de identificar con exito las rutas de interes alteradas utilizando rutas seleccionadas a partir de la literatura. Aun otras herramientas han construido graficos causales a partir de interacciones seleccionadas en la literatura y han usado estos graficos para explicar los perfiles de expresion. Algoritmos como ARACNE, MINDy y CONEXlC reciben informacion transcripcional del gen (y el numero de copia, en el caso de CONEXIC) para identificar asf los posibles conductores transcripcionales a traves de un conjunto de muestras de cancer. Sin embargo, estas herramientas no intentan agrupar diferentes conductores en redes funcionales que identifican objetivos singulares de interes. Algunos algoritmos de ruta mas nuevos, tales como NetBox y Mutual Exclusivity Modules in Cancer (MEMo), intentan resolver el problema de la integracion de datos en el cancer para identificar asf redes a traves de multiples tipos de datos que son clave para el potencial oncogenico de las muestras. Si bien estas herramientas permiten al menos cierta integracion limitada a traves de las rutas para encontrar una red, generalmente no proporcionan informacion regulatoria ni asociacion de dicha informacion con uno o mas efectos en las rutas relevantes o en la red de rutas. Del mismo modo, GIENA busca interacciones geneticas desreguladas dentro de una ruta biologica unica, pero no tiene en cuenta la topologfa de la ruta o el conocimiento previo sobre la direccion o la naturaleza de las interacciones.

En el analisis genomico externo, los modelos graficos probabilfsticos se han utilizado ampliamente en el analisis de redes con usos emblematicos en forma de redes bayesianas y campos aleatorios de Markov. Varios metodos han aprendido con exito las interacciones de los datos a traves de muchos medios diferentes, incluidas las redes de relevancia. Mas recientemente, PARADIGM (algoritmo de reconocimiento de ruta que usa la integracion de datos en modelos genomicos) es una herramienta de analisis genomico descrita en los documentos WO2011/139345 y WO/2013/062505 y utiliza un modelo grafico probabilistic para integrar multiples tipos de datos genomicos en bases de datos de rutas seleccionadas. Este sistema modelo permite ventajosamente que las muestras individuales sean evaluadas solas o en el contexto de una cohorte de interes. Sin embargo, el aprendizaje de parametros de expectativamaximizacion (EM) en esa herramienta solo se realizo de forma predeterminada en los parametros de datos de observacion, ya que el tamano limitado de los conjuntos de datos disponibles impidio una estimacion robusta de los parametros de interaccion. En consecuencia, la herramienta no permitio un analisis de la interaccion y la interrelacion de multiples factores que influinan en la actividad en un segmento de ruta particular, y como tal no pudo proporcionar una resolucion mejorada del flujo de senal a traves de redes de senalizacion celular.

Por lo tanto, aunque se conocen en la tecnica numerosos sistemas y metodos de aprendizaje e identificacion de interacciones reguladoras en rutas biologicas, todos o casi todos tienen una o mas desventajas. Por ejemplo, hasta ahora las herramientas analfticas conocidas no identifican la fuerza y la direccion de las interacciones de los parametros que modulan la actividad en una trayectoria de una ruta, y con eso no solo no permiten la prediccion del flujo de senal y/o la interferencia de las actividades de la ruta, sino que tambien fallan para identificar el posible uso diferencial de los parametros o elementos de la ruta. Desde una perspectiva diferente, las herramientas actualmente conocidas normalmente solo consideran actividades de genes individuales, pero no examinan las estadfsticas relacionadas con los enlaces reguladores y, por lo tanto, solo proporcionan un modelo estatico en lugar de un modelo dinamico. En consecuencia, los modelos conocidos tampoco permitiran examinar como los diferentes reguladores dentro de una red pueden producir fenotipos celulares similares a pesar de usar rutas completamente diferentes para lograrlos. Por lo tanto, subsiste la necesidad de sistemas y metodos mejorados para el aprendizaje e identificacion de interacciones reguladoras en rutas biologicas.

Sumario de la invencion

La presente invencion se refiere a un metodo implementado por ordenador para clasificar un tejido como perteneciente a un tejido esped fico de subtipo, que comprende:

(a) obtener, a traves de un modulo de interfaz de entrada omico (120), al menos un conjunto de datos omico (135) representativo del tejido;

(b) acceder, a traves de un modulo de procesamiento omico (170), a un modelo de ruta biologica (150) que tiene una pluralidad de elementos de la ruta que comprenden al menos uno de una secuencia de ADN, una secuencia de ARN, una protema y una funcion de protema, en la que al menos dos de los elementos estan acoplados entre sf a traves de una ruta que tiene un nodo regulador que controla la actividad a lo largo de la ruta en funcion de una pluralidad de parametros reguladores;

i) cuando el elemento de la ruta comprende una secuencia de ADN, al menos uno de la pluralidad de parametros reguladores se selecciona del grupo que consiste en un factor de transcripcion, un activador de la transcripcion, una subunidad de ARN polimerasa, un elemento regulador en cis, un elemento regulador en trans, una histona acetilada, una histona metilada y un represor,

ii) cuando el elemento de la ruta comprende una secuencia de ARN, al menos uno de la pluralidad de parametros reguladores se selecciona del grupo que consiste en un factor de iniciacion, un factor de traduccion, una protema de union a ARN, una protema ribosomica, un ARNpi y una protema de union a poliA, y

iii) cuando el elemento de la ruta comprende una protema, al menos uno de la pluralidad de parametros reguladores es una fosforilacion, una acilacion, una escision proteolftica y asociacion con al menos una segunda protema;

(c) inferir, mediante el modulo (170) de procesamiento omico, basado en al menos un conjunto de datos (135) omico y el modelo (150) de ruta, un conjunto de correlaciones de interaccion entre la pluralidad de parametros reguladores, en el que las probabilidades condicionales de enlaces individuales se aprenden y se utiliza una suposicion de Bayes sencilla para calcular la probabilidad de un nodo hijo Y dados los progenitores X¹, ... Xn, en donde la probabilidad F se calcula con base en la expresion:

en la que Z es una constante de normalizacion que corresponde a P(X-i,...Xn), siendo el modelo de ruta un modelo probabilistico configurado para usar graficos de factores usando un modelo de regulacion independiente;

(d) actualizar el modelo de ruta (150) basado en las correlaciones de interaccion aprendidas, en el que la interfaz de entrada omica es una interfaz de computacion configurada para recibir uno o mas conjuntos de datos omicos, y en el que el modulo de procesamiento omico es una parte de un dispositivo de computacion, en el que una prueba G determina la significacion estadfstica de la dependencia entre los progenitores que proporcionan una distribucion de hijos, y

en el que una correlacion de Pearson o informacion mutua puntual ponderada (WPMI) determina el signo de interaccion para los parametros reguladores,

(e) hacer coincidir el conjunto derivado de correlaciones de interaccion con un conjunto conocido a priori de correlaciones de interaccion que esta asociado con un tejido espedfico de subtipo conocido; y

(f) utilizar el emparejamiento para clasificar que el conjunto de datos omico representativo del tejido pertenece al tejido esped fico de subtipo conocido, en el que el subtipo incluye tejido resistente al farmaco, tejido metastatico, tejido tratado con farmaco o una variante clonal de un tejido.

Los conjuntos de datos omicos pueden comprender datos (135) del genoma completo, datos del genoma parcial u objetos de secuencia diferencial, y en los que los conjuntos de datos (135) omicos se obtienen de una base de datos (130) genomica, un servidor (130) BAM, o un dispositivo (130) de secuenciacion.

La invencion tambien se refiere a un aparato configurado para llevar a cabo el metodo de la invencion.

Las correlaciones de interaccion entre los parametros reguladores se deducen con base en un conjunto de datos omico y/o el modelo de ruta. Las correlaciones de interaccion identificadas ahora permiten identificar la fuerza y la direccion de las interacciones de los parametros que modulan la actividad en una trayectoria de una ruta. En consecuencia, los sistemas y metodos contemplados permiten la prediccion del flujo de senal y/o la interferencia de las actividades de la ruta, asf como el uso potencialmente diferencial de los parametros o elementos de la ruta. Visto desde una perspectiva diferente, los sistemas y metodos contemplados proporcionan un modelo de ruta dinamica que se puede utilizar para la identificacion del flujo de senal (incluso diferencial) a traves de una o mas rutas, asf como la prediccion del flujo de senal en varios escenarios (reales o simulados).

En un aspecto de esta divulgacion, un motor de aprendizaje comprende una interfaz de entrada omica que recibe uno o mas conjuntos de datos omicos (por ejemplo, datos del genoma completo, datos del genoma parcial u objetos de secuencia diferencial). Un modulo de procesamiento omico esta acoplado con la interfaz y esta configurado para (a) acceder a un modelo de ruta que tiene una pluralidad de elementos de ruta (por ejemplo, secuencia de ADN, secuencia de ARN, protema, funcion de protema) en el que dos o mas de los elementos estan acoplados entre sf a traves de una ruta que tiene un nodo regulador que controla la actividad a lo largo de la ruta como una funcion de una pluralidad de parametros reguladores, (b) obtener, a traves de la interfaz de entrada omica, al menos uno de los conjuntos de datos omicos, (c) inferir, basado en al menos un conjunto de datos omico y el modelo de ruta, un conjunto de correlaciones de interaccion entre la pluralidad de parametros reguladores, y (d) actualizar el modelo de ruta en funcion de las correlaciones de interaccion. Mas tfpicamente, el motor de aprendizaje comprende ademas o esta acoplado a una base de datos genomica, un servidor BAM o un dispositivo de secuenciacion.

En algunas realizaciones, el elemento de ruta comprende una secuencia de ADN y el parametro regulador es un factor de transcripcion, un activador de la transcripcion, una subunidad de ARN polimerasa, un elemento regulador en cis, un elemento regulador en trans, una histona acetilada, una histona metilada, y/o un represor. En otras realizaciones, el elemento de la ruta comprende una secuencia de ARN y el parametro regulador es un factor de iniciacion, un factor de traduccion, una protema de union a ARN, una protema ribosomica, un ARNpi y/o una protema de union a poliA, y en otras realizaciones, el elemento de la ruta comprende una protema y el parametro regulador es una fosforilacion, una acilacion, una escision proteolftica y una asociacion con al menos una segunda protema.

En los aspectos especialmente preferidos de esta divulgacion, el modulo de procesamiento de omicos esta configurado para inferir la correlacion de interaccion utilizando un modelo probabilistic, que utiliza un modelo de regulacion codependiente y/o independiente. Ademas, generalmente se prefiere que el modelo probabilistic determine ademas una significancia de dependencia entre la pluralidad de los parametros reguladores y la actividad de la ruta y/o una significancia de dependencia condicional entre los parametros reguladores dada una actividad de la ruta. Adicionalmente, se contempla que el modelo probabilistic determine ademas el signo de interaccion para los parametros reguladores.

Por lo tanto, y vistos desde una perspectiva diferente, en esta divulgacion los inventores tambien contemplan un metodo para generar un modelo de ruta que incluye una etapa para obtener, a traves de una interfaz de entrada omica, al menos un conjunto de datos omico (por ejemplo, datos del genoma completo, datos del genoma parcial, u objetos de secuencia diferencial). Los metodos contemplados tambien incluyen otra etapa para acceder, a traves de un modulo de procesamiento omico, a un modelo de ruta que tiene una pluralidad de elementos de ruta en los que al menos dos de los elementos estan acoplados entre sf a traves de una ruta que tiene un nodo regulador que controla la actividad a lo largo de la ruta como una funcion de una pluralidad de parametros reguladores, y una etapa adicional para inferir, a traves del modulo de procesamiento omico, basado en al menos un conjunto de datos omico y el modelo de ruta, un conjunto de correlaciones de interaccion entre la pluralidad de parametros reguladores. En otra etapa mas, el modelo de ruta se actualiza en funcion de las correlaciones de interaccion. Normalmente, los conjuntos de datos omicos se obtienen de una base de datos genomica, un servidor BAM o un dispositivo de secuenciacion.

En aspectos adicionales de esta divulgacion, la etapa de inferir se basa en un modelo probabilistic, y mas preferiblemente el modelo probabilistic usa un modelo de regulacion codependiente y/o independiente. Ademas, los metodos contemplados incluyen una etapa para determinar el significado de la dependencia entre la pluralidad de los parametros reguladores y la actividad de la ruta y/o el significado de la dependencia condicional entre los parametros reguladores dada una actividad de la ruta. Tambien se prefiere ademas que se contemple que tales metodos incluyen una etapa de determinacion del signo de interaccion para los parametros reguladores.

En otros aspectos de esta divulgacion, un metodo para identificar correlaciones de interaccion espedficas de subtipo para parametros reguladores de un nodo regulador en un modelo de ruta incluye una etapa para obtener, a traves de una interfaz de entrada omica, al menos un conjunto de datos omico representativo de un tejido de subtipo y una etapa adicional para acceder, a traves de un modulo de procesamiento omico, al modelo de ruta que tiene una pluralidad de elementos de ruta en los cuales al menos dos de los elementos estan acoplados entre sf a traves de una ruta que tiene el nodo regulador que controla la actividad a lo largo de la trayectoria en funcion de la pluralidad de parametros reguladores. Los metodos contemplados incluyen ademas una etapa para derivar las correlaciones de interaccion de subtipo, a traves del modulo de procesamiento omico, de al menos un conjunto de datos omico representativo del tejido de subtipo mediante analisis de probabilidad de interacciones entre la pluralidad de parametros reguladores, y otra etapa de presentar las correlaciones de interaccion derivadas de subtipo en el modelo de ruta. En aspectos especialmente preferidos, el tejido de subtipo es un tejido resistente al farmaco, un tejido metastasico, un tejido tratado con farmaco o una variante clonal de un tejido.

Cuando se desee, los metodos contemplados pueden incluir ademas una etapa de validacion de las correlaciones de interaccion derivadas de subtipos utilizando al menos un experimento in vitro, in silico e in vivo.

En otros aspectos adicionales de la materia de la invencion, los inventores contemplan un metodo para clasificar un conjunto de datos omico representativo de un tejido como el perteneciente a un tejido espedfico de subtipo. Tales metodos tfpicamente comprenderan una etapa para obtener, a traves de una interfaz de entrada omica, el conjunto de datos omico representativo del tejido, y otra etapa para derivar, para el conjunto de datos omico, un conjunto de correlaciones de interaccion entre una pluralidad de parametros reguladores de un nodo regulador en un modelo de ruta. En otra etapa mas, el conjunto derivado de correlaciones de interaccion se hace coincidir con un conjunto conocido a priori de correlaciones de interaccion que se asocia con un tejido espedfico de subtipo conocido, y luego se usa la coincidencia para clasificar que el conjunto de datos omico representativo del tejido pertenece al tejido espedfico de subtipo conocido.

Lo mas preferiblemente, la etapa de obtencion comprende generar el conjunto de datos omico representativo del tejido a partir de una muestra de tejido (por ejemplo, una muestra de tumor) de un tejido con una caractenstica reguladora desconocida, y el tejido espedfico de subtipo conocido es un tejido resistente al farmaco, un tejido metastasico, un tejido tratado con farmacos o una variante clonal de un tejido.

En otro aspecto mas de esta divulgacion, los inventores contemplan un metodo para identificar un objetivo que se puede tratar con farmacos en un modelo de ruta que tiene una pluralidad de elementos de ruta en los que al menos dos de los elementos estan acoplados entre sf a traves de una ruta que tiene un nodo regulador que controla la actividad a lo largo de la ruta como una funcion de una pluralidad de parametros reguladores. Tales metodos incluiran las etapas de (a) obtener, a traves de una interfaz de entrada omica, un conjunto de datos omico representativo de un tejido, (b) derivar, para el conjunto de datos omico, un conjunto de correlaciones de interaccion entre la pluralidad de parametros reguladores del nodo regulador en el modelo de ruta, y (c) identificar un farmaco que afecta la actividad de la ruta en la que se predice que el farmaco interfiere con las correlaciones de interaccion. Mas tfpicamente, el nodo regulador afecta al menos a una de una modificacion de transcripcion, traduccion y postraduccional de una protema, y el farmaco es un farmaco disponible comercialmente y tiene un modo de accion conocido.

En otro aspecto mas de esta divulgacion, los inventores contemplan un metodo para identificar una ruta objetivo en un modelo de ruta que tiene una pluralidad de elementos de ruta en los que al menos dos de los elementos estan acoplados entre sf a traves de una ruta que tiene un nodo regulador que controla la actividad a lo largo de la ruta como una funcion de una pluralidad de parametros reguladores. Dichos metodos comprenderan preferiblemente una etapa para obtener, a traves de una interfaz de entrada omica, un conjunto de datos omico representativo de un tejido, una etapa adicional para derivar, para el conjunto de datos omico, un conjunto de correlaciones de interaccion entre la pluralidad de parametros reguladores del nodo regulador en el modelo de ruta, y una etapa adicional para identificar una ruta como la ruta objetivo basada en un efecto conocido de un farmaco en la correlacion de interaccion.

Lo mas preferiblemente, el efecto conocido es al menos uno de un efecto inhibidor sobre una quinasa, un efecto inhibidor sobre un receptor y un efecto inhibidor sobre la transcripcion. Entre otras rutas objetivo adecuadas, las rutas objetivo especialmente contempladas incluyen una ruta regulada de calcio/calmodulina, una ruta de citoquina, una ruta de quimioquina, una ruta regulada del factor de crecimiento, una ruta regulada de hormonas, una ruta regulada de MAP quinasa, una ruta regulada de fosfatasa y una ruta regulada de Ras. Dichos metodos pueden incluir ademas una etapa para proporcionar un consejo de tratamiento basado en la ruta identificada.

Por lo tanto, los metodos contemplados tambien incluiran un metodo para simular in silico un efecto de tratamiento de un farmaco que incluye una etapa para obtener un modelo de ruta que tiene una pluralidad de elementos de ruta en los que al menos dos de los elementos estan acoplados entre sf a traves de una ruta que tiene un nodo regulador que controla la actividad a lo largo de la ruta como una funcion de una pluralidad de parametros reguladores. Los metodos contemplados incluiran ademas una etapa para identificar un farmaco que se sabe que afecta al menos a un parametro regulador, y otra etapa para alterar in silico, a traves de un modulo de procesamiento omico y basado en el efecto conocido del farmaco, al menos uno del nodo regulador, la actividad, y al menos los parametros reguladores en el modelo de ruta, y otra etapa mas para determinar un efecto secundario de la alteracion en el modelo de ruta. En general, el efecto secundario se encuentra en otro nodo regulador, otra actividad y otro parametro regulador en el modelo de ruta.

Varios objetivos, caractensticas, aspectos y ventajas del objeto de la invencion se haran mas evidentes a partir de la siguiente descripcion detallada de las realizaciones preferidas, junto con las figuras de los dibujos adjuntos en las que numeros similares representan componentes similares.

Breve divulgacion del dibujo

La Figura 1 es un ejemplo de una ilustracion esquematica de un motor de aprendizaje de acuerdo con el objeto de la invencion.

La Figura 2A es un ejemplo de una ilustracion esquematica de una estructura grafica de factores de acuerdo con el objeto de la invencion, y la Figura 2B muestra esquematicamente modelos de regulacion alternativos para los nodos de transcripcion, traduccion y activacion.

La Figura 3A es un ejemplo de un grafico del analisis del componente principal (PCA) de los vectores WPMI para cada interaccion aprendida en toda la cohorte de TCGA. La Figura 3B ilustra la membresfa del grupo de enlaces significativos marcados como activacion e inhibicion en la ruta, y la Figura 3C muestra mapas de calor de los valores de WPMI de los centroides de los grupos que muestra un rango de inhibicion fuerte a la activacion fuerte.

Las Figuras 4A y 4B son diagramas de barras de membresfas del grupo para los valores de WPMI de enlaces significativos en la inicializacion informativa (4A) y llana (4B).

La Figura 5A es un ejemplo de un grafico que muestra el porcentaje de nodos hijos unicos que fallan en las siguientes pruebas en cada etapa EM de un proceso que aprende una probabilidad condicional completa, y la Figura 5B es una ilustracion esquematica de ejemplos de tripletes coherentes frente a incoherentes.

Las Figuras 6A-6C son ejemplos de graficos que muestran curvas de supervivencia de Kaplan-Meier para el analisis de la ruta utilizando diferentes metodos analfticos.

La Figura 7 es un ejemplo de una representacion de mapa de calor de los rangos de puntuacion G.

Las Figuras 8A-8B son ejemplos de diagramas de caja que representan senales de WPMI agrupadas por tejido para los enlaces de activacion de PPARA-RXRA y TAp73a.

Descripcion detallada

Los inventores han descubierto ahora que se puede implementar un modelo de ruta grafico probabilfstico en el que se determina estadfsticamente una interrelacion de parametros reguladores. En consecuencia, el analisis y las simulaciones de los sistemas y metodos contemplados proporcionaran una precision significativamente mejorada, y permitira la identificacion del uso diferencial de elementos reguladores dentro de diferentes rutas y/o tejidos secundarios.

Por lo tanto, se debe tener en cuenta que al identificar enlaces reguladores con distribuciones de uso significativamente diferentes dentro de un fenotipo de interes en una cohorte, ahora es posible examinar como los diferentes reguladores dentro de una red podnan producir fenotipos celulares similares a pesar de utilizar rutas completamente diferentes para lograrlo. Ademas, los parametros asf aprendidos pueden usarse como base para pruebas estadfsticas para establecer que tan bien las muestras individuales o los subconjuntos de la cohorte siguen la distribucion de los patrones de parametros previamente aprendidos para cada nodo regulador.

A lo largo de la siguiente discusion, se haran numerosas referencias con respecto a servidores, servicios, interfaces, portales, plataformas u otros sistemas formados a partir de dispositivos informaticos. Debe apreciarse que el uso de dichos terminos pretende representar uno o mas dispositivos informaticos que tienen al menos un procesador configurado para ejecutar instrucciones de software almacenadas en un medio legible tangible y no transitorio por un ordenador. Por ejemplo, un servidor puede incluir uno o mas ordenadores que funcionan como un servidor web, un servidor de base de datos u otro tipo de servidor de una manera que cumpla con las funciones, responsabilidades o funciones descritas.

Por ejemplo, la Fig. 1 muestra a modo de ejemplo el ecosistema 100 que incluye el motor 110 de aprendizaje. El motor 110 de aprendizaje esta configurado para procesar uno o mas del conjunto de datos 135 omico en vista de uno o mas del modelo 150 de ruta. El motor 110 de aprendizaje comprende dos componentes: la interfaz 120 omica a traves de la cual el motor 110 de aprendizaje obtiene los conjuntos de datos de interes y el modulo 170 de procesamiento omico configurado para analizar los conjuntos de datos. En el ejemplo mostrado, el motor 110 de aprendizaje se ilustra como un dispositivo informatico accesible a traves de la red 115 (por ejemplo, Internet, WAN, LAN, VPN, National Lamba Rail (vease URL www.nlr.net), etc.), posiblemente como una granja de servidores HTTP. En algunos ejemplos, el motor 110 de aprendizaje ofrece sus servicios a traves de la red 115 por una tarifa. Por ejemplo, el motor 110 de aprendizaje puede exponer una o mas de las interfaces 120 de entrada omica al analista 170 u otro usuario a traves de una Plataforma como Servicio (PaaS) basada en la nube, Infraestructura como Servicio (laaS), Software como servicio (SaaS), u otro tipo de servicio. En otras realizaciones, el motor 110 de aprendizaje podna ser un dispositivo informatico local en relacion con el analista 170 y estar configurado para ejecutar uno o mas paquetes de instrucciones de software que cumplan los roles y responsabilidades del motor 110 de aprendizaje como se explica a continuacion.

La interfaz 120 de entrada omica representa una interfaz informatica configurada para recibir uno o mas conjuntos de datos 135 omicos. Un ejemplo de la interfaz 120 podna incluir un servidor HTTP capaz de recibir conjuntos de datos 135 a traves de la red 115. Por ejemplo, el conjunto de datos 135 podna incluir un archivo en un formato serializado (por ejemplo, XML), formato BAMbA m u otros formatos digitales adecuados que pueden transmitirse a traves del servidor HTTP. En otras realizaciones, la interfaz 120 podna tomar la forma de una Interfaz de Programa de Aplicacion (API) a traves de la cual las estructuras de datos o sus referencias pueden pasarse al motor 110 de aprendizaje a traves de la red 115 como una llamada de procedimiento remoto o incluso a traves de una llamada de funcion de biblioteca local. Se debe tener en cuenta que la interfaz 120 de entrada omica se puede configurar para acoplarse con uno o mas de la fuente 130 del conjunto de datos omico, posiblemente operando como una base de datos. En algunas realizaciones, el motor 110 de aprendizaje comprende una base de datos genomica o un dispositivo de secuenciacion acoplado a la interfaz 120 de entrada omica.

El conjunto de datos 135 omico puede incluir un amplio espectro de datos omicos. En realizaciones mas preferidas, el conjunto de datos 135 omico representa datos genomicos, posiblemente datos del genoma completo, datos parciales del genoma, objetos de secuencia diferencial u otros datos genomicos. Ademas, el conjunto de datos 135 omico tambien puede representar otros tipos de datos que incluyen proteomica, metabolomica, lipidomica, cinomica u otras modalidades de datos omicos.

El modulo 170 de procesamiento representa al menos una parte de un dispositivo de computacion junto con la interfaz 120 de entrada omica y esta configurado para analizar el conjunto de datos 135 con respecto al modelo 150 de ruta. Un aspecto del modulo 170 de procesamiento incluye la capacidad de acceder a uno o mas del modelo 150 de ruta, posiblemente de la base de datos 140 del modelo de ruta u otra fuente de modelo. En algunas realizaciones, el modulo 170 de procesamiento omico tambien podna aprovechar la interfaz 120 de entrada omica para acceder a la base de datos 140 del modelo de ruta.

El modelo 150 de ruta representa un modelo digital de actividad del sistema omico objetivo a modelar, posiblemente en forma de un grafico de factores. Cada modelo 150 de ruta comprende una pluralidad de elementos 151A a 151N de ruta, denominados colectivamente como elementos 151 de ruta. Los elementos 151 de ruta representan etapas a lo largo de una ruta en la que tiene lugar la actividad. Entre al menos dos elementos 151 de la ruta, los elementos 151A y 151B de la ruta como se muestra, por ejemplo, esta un nodo regulador representado por el nodo 153A regulador, genericamente denominado nodo 153 regulador. Aunque no se ilustra, puede haber nodos 153 reguladores adicionales entre cada conjunto de los elementos 151 de la ruta. Por lo tanto, al menos dos de los elementos 151 de la ruta, por ejemplo, los elementos 151A y 151B de la ruta, estan acoplados entre sf a traves de una ruta que tiene un nodo 153 regulador, el nodo 153A regulador como se muestra. El nodo 153 regulador del modelo 150 de ruta controla la actividad a lo largo de la ruta entre los elementos en funcion de uno o mas parametros 155A reguladores, genericamente denominados como parametros 155 reguladores. Se debena apreciar que el modelo 150 de ruta puede incluir cualquier numero practico de elementos 151 de ruta, los nodos 153 reguladores y los parametros 155 reguladores. Como ejemplo, considerese los escenarios donde los elementos 151 de la ruta incluyen una secuencia de ADN, una secuencia de ARN, una protema, una funcion de protema u otros elementos de actividad.

En los escenarios en los que uno de los elementos 151 de la ruta comprende una secuencia de ADN, los parametros 155 reguladores pueden incluir un factor de transcripcion, un activador de la transcripcion, una subunidad de ARN polimerasa, un elemento regulador en cis, un elemento regulador en trans, una histona acetilada, una histona metilada, un represor u otros parametros de actividad. Ademas, en los escenarios en los que uno de los elementos 151 de la ruta comprende una secuencia de ARN, los parametros 155 reguladores pueden incluir un factor de iniciacion, un factor de traduccion, una protema de union a ARN, una protema ribosomal, un ARNpi, una protema de union a poliA u otro parametro de actividad de ARN. Aun mas, en escenarios en los que uno de los elementos 151 de la ruta comprende una protema, los parametros 155 reguladores podnan incluir la fosforilacion, una acilacion, una escision proteolftica o una asociacion con al menos una segunda protema.

El modulo 170 de procesamiento omico aprovecha el modelo 150 de ruta junto con el conjunto de datos 135 para inferir un conjunto de correlaciones 160 de interaccion entre la pluralidad de parametros reguladores. Un modelo tipo de ejemplo que puede aprovecharse para inferir correlaciones 160 de interaccion incluye un modelo probabilfstico en el que el modelo configura el modelo 170 de procesamiento omico para comparar pares de parametros reguladores en multiples conjuntos de datos 135 sin procesar. En algunos ejemplos, los nodos 153 reguladores operan con base en un modelo de regulacion dependiente donde el motor 110 de aprendizaje aprende una tabla de probabilidad condicional completa del hijo dados los progenitores. En otros casos, los nodos 153 reguladores pueden operar con base en un modelo de regulacion independiente en el que el motor 110 de aprendizaje aprende las probabilidades condicionales utilizando una suposicion de Bayes sencillo para calcular la probabilidad del nodo hijo dado el progenitor.

Los modelos probabilfsticos contemplados se configuran ademas para determinar el significado de la dependencia entre la pluralidad de parametros 155 reguladores y la actividad de la ruta correspondiente, o la significacion de la dependencia condicional entre los parametros reguladores dada una actividad de la ruta. Por ejemplo, una vez que se calculan o establecen las probabilidades condicionales, el modulo 150 de procesamiento omico puede utilizar una prueba G para determinar el significado. Ademas, el modelo probabilfstico se puede configurar ademas para determinar el signo de interaccion de los parametros reguladores. Una vez que se establecen las correlaciones 160 de interaccion, el modelo 150 de ruta se puede actualizar para reflejar las relaciones de interaccion aprendidas. En consecuencia, debe apreciarse que un motor de aprendizaje normalmente comprendera una interfaz de entrada omica que recibe uno o mas conjuntos de datos omicos. Dicha interfaz de entrada omica se puede acoplar a una variedad de dispositivos o sistemas que, en la mayona de los casos tfpicos, proporcionaran informacion omica a un modulo de procesamiento omico. Por ejemplo, la informacion omica se puede derivar de los datos publicados, las bases de datos genomicas, RNomica y/o proteomicas, de los archivos de salida de las bases de datos de informacion omica (por ejemplo, TCGA), asf como de otros dispositivos, servicios y redes que proporcionan datos omicos, incluidas las bases de datos de secuencias de ADN, ARN y/o protemas, dispositivos de secuenciacion, servidores BAM, etc. En consecuencia, debe apreciarse que el formato de los datos puede cambiar considerablemente y puede presentarse como datos del genoma completo, datos del genoma parcial u objetos de secuencia diferencial.

En la mayona de los casos, el modulo de procesamiento omico esta acoplado informativamente con la interfaz y esta configurado para (a) acceder a un modelo de ruta que tiene una pluralidad de elementos de ruta (por ejemplo, secuencia de ADN, secuencia de ARN, protema, funcion de protema) en la que dos o mas de los elementos estan acoplados entre sf a traves de una ruta que tiene un nodo regulador que controla la actividad a lo largo de la ruta como una funcion de una pluralidad de parametros reguladores, (b) obtener, a traves de la interfaz de entrada omica, al menos uno de los conjuntos de datos omicos, (c) inferir, basado en al menos un conjunto de datos omico y el modelo de ruta, un conjunto de correlaciones de interaccion entre la pluralidad de parametros reguladores, y (d) actualizar el modelo de ruta en funcion de las correlaciones de interaccion.

Se debe reconocer que los modelos de ruta para (a) pueden generarse a partir de un conjunto de datos omicos, o pueden obtenerse a partir de determinaciones previas. Por lo tanto, los sistemas y metodos contemplados incluiran un modulo de almacenamiento que esta acoplado al modulo de procesamiento omico, en el que el modulo de almacenamiento almacena uno o mas modelos de ruta determinados previamente. Tambien debe reconocerse que los modelos de ruta almacenados pueden corresponder a tejido "normal" o a tejido enfermo. Cuando el modelo de la ruta es de un tejido enfermo, tambien debe apreciarse que el tejido enfermo puede ser de un subtipo particular que se caracteriza por un rasgo secundario (por ejemplo, un subtipo que es resistente al tratamiento con un farmaco particular, subtipo que proviene del tejido metastasico, etc.). Tambien se contempla que los datos omicos se pueden proporcionar a traves de la interfaz de muchas maneras. Por ejemplo, los datos pueden proporcionarse en un solo archivo, o en una coleccion de archivos distintos, que pueden ser proporcionados por un proveedor de servicios, desde una biblioteca almacenada previamente, o desde un dispositivo de secuenciacion o sistema de analisis de secuencias. Por lo tanto, el motor de aprendizaje puede comprender ademas o puede estar acoplado a una base de datos genomica, un servidor BAM o un dispositivo de secuenciacion.

Segun la ruta en particular, se debe tener en cuenta que la naturaleza del elemento de la ruta cambiara considerablemente, y con ello la naturaleza del parametro regulador. En general, se debe tener en cuenta, sin embargo, que el parametro regulador determinara el flujo de una senal a traves de la ruta desde el elemento de la ruta a un elemento mas adelante. Por ejemplo, cuando el elemento de la ruta es o comprende una secuencia de ADN, los parametros reguladores contemplados seran aquellas entidades celulares que afectan la transcripcion (u otra funcion) de la secuencia de ADN. Por lo tanto, los parametros reguladores contemplados para una secuencia de ADN incluyen uno o mas factores de transcripcion, activadores de transcripcion, subunidades de ARN polimerasa, elementos reguladores en cis, elementos reguladores en trans, histonas (des)acetiladas, histonas (des)metiladas y/o represores. Del mismo modo, cuando el elemento de la ruta es o comprende una secuencia de ARN, se contempla que los parametros reguladores adecuados incluyen factores que afectan la traduccion (u otra actividad) del ARN. En consecuencia, tales parametros reguladores incluyen factores de iniciacion, factores de traduccion, protemas de union a ARN, ARN ribosomal y/o protemas, ARNpi y/o protemas de union a poliA. De la misma manera, en el presente documento el elemento de la ruta es o comprende una protema, todos los factores que afectan la actividad de esa protema se consideran parametros reguladores adecuados y, por lo tanto, pueden incluir otras protemas (por ejemplo, que interactuan con la protema para formar un complejo activado o complejo con actividad diferencial), modificacion qmmica (por ejemplo, fosforilacion, acilacion, escision proteolftica, etc.).

Con respecto a la inferencia del conjunto de correlaciones de interaccion entre los parametros reguladores, generalmente se contempla que dicha inferencia se basa en el conjunto de datos omico y/o el modelo de ruta, y tambien se contempla generalmente en esta divulgacion que la inferencia se realiza utilizando un modelo probabilfstico (por ejemplo, modelo de regulacion codependiente y/o independiente) como se describe con mayor detalle a continuacion. Debido al numero potencialmente muy grande de posibles correlaciones de interaccion, se contempla adicionalmente que el modulo de procesamiento omico determinara un nivel de significancia de dependencia entre los parametros reguladores (de un solo nodo) y la actividad de la ruta y/o el significado de la dependencia condicional entre los parametros reguladores (de un solo nodo) dada una actividad de la ruta. De esa manera, se puede dar un enfoque analttico a las correlaciones de interaccion con el significado estadfsticamente mas alto, como tambien se analiza con mayor detalle a continuacion.

Aunque no se limitan al tema de la invencion, los inventores tambien descubrieron que el analisis de las correlaciones de interaccion y su significado se pueden refinar aun mas mediante una manipulacion estadfstica que determina el signo (positivo/activacion, o negativo/inhibicion) de la interaccion para los parametros reguladores. El uso de las correlaciones de interaccion asf determinadas y su influencia en la ruta ahora proporcionara una comprension significativamente mejorada de las redes de rutas y el flujo de senales a traves de dichas rutas.

Por lo tanto, y visto desde una perspectiva diferente, debe apreciarse que se puede generar un modelo de ruta obteniendo, a traves de una interfaz de entrada omica, al menos un conjunto de datos omico (por ejemplo, datos del genoma completo, datos del genoma parcial o objetos de secuencia diferencial). Un modulo de procesamiento omico accede entonces a un modelo de ruta (por ejemplo, previamente determinado) que tiene una pluralidad de elementos de ruta en los cuales al menos dos de los elementos estan acoplados entre sf a traves de una ruta que tiene un nodo regulador que controla la actividad a lo largo de la ruta como una funcion de una pluralidad de parametros reguladores. El modulo de procesamiento omico luego deduce, basado en el conjunto de datos omico y/o el modelo de ruta, un conjunto de correlaciones de interaccion entre la pluralidad de parametros reguladores, y el modelo de ruta se actualiza posteriormente en funcion de las correlaciones de interaccion.

Asimismo, debe reconocerse que mediante el uso de sistemas y metodos contemplados, se pueden identificar correlaciones de interaccion espedficas de subtipos para los parametros reguladores de un nodo regulador en un modelo de ruta. Como antes, al menos un conjunto de datos omico representativo de un tejido de subtipo se obtiene a traves de una interfaz de entrada omica, y un modulo de procesamiento omico accede a un modelo de ruta determinado previamente. Las correlaciones de interaccion de subtipo se derivan luego, a traves del modulo de procesamiento omico, del conjunto de datos omico representativo del tejido de subtipo mediante analisis de probabilidad de interacciones entre la pluralidad de parametros reguladores, como se explica con mas detalle a continuacion, y las correlaciones de interaccion derivadas de subtipo se presentan (o incorporan) luego en el modelo de ruta. Si bien todas las clases de tipos secundarios de tejidos se consideran adecuados para su uso en el presente documento, especialmente los subtipos contemplados incluyen tejido resistente al farmaco, tejido metastasico, tejido tratado con farmaco y/o una variante clonal de un tejido. Luego se pueden realizar experimented de tipo experimental y/o teoricos (por ejemplo, in vitro, in silico, in vivo) para validar las correlaciones de interaccion derivadas de subtipo. Por supuesto, y con respecto a los componentes y metodos de tales metodos, se aplican las mismas consideraciones que se proporcionaron anteriormente y a continuacion.

Mas esped ficamente, en el modelo grafico probabilistico presentado en este documento, los estados de las moleculas biologicas (por ejemplo, protemas, ARNm, complejos y biomoleculas pequenas) de una muestra (por ejemplo, biopsia de tumor) se presentan como variables. Por ejemplo, para cada gen, las variables se utilizan para el numero de copias del genoma de ese gen, el ARNm transcrito de ese gen, la protema derivada de ese gen y, en la mayona de los casos, una variable adicional no ffsica que corresponde a la actividad biologica de un gen (como se anota en una ruta), que puede estar regulada por la modificacion postraduccional de la protema. Tambien se pueden incluir variables que representan estados mas abstractos, como la apoptosis, que comunmente se anotan en las rutas.

Las interacciones causales que cambian el estado de las moleculas (por ejemplo, regulacion de la transcripcion genica, fosforilacion de protemas, formacion de complejos) se representan como bordes dirigidos desde la variable reguladora hasta la variable regulada. Por lo tanto, para cada variable Y en el grafico probabilistic del modelo, se introduce un factor en un modelo de probabilidad conjunta que relaciona el estado de la variable con el estado de todos sus reguladores: F(Y|Xi ,X²,...,Xn), donde Xi hasta Xn son las variables que regulan Y. Este factor es una tabla de probabilidad condicional: para cada configuracion de Progenitores(Y), ZyD F(Y = y|Progenitores(Y)) = 1. Observaciones de variables individuales, como el numero de copia del genoma o la expresion del gen, se modelan como variables separadas, conectadas a la variable latente por un factor F(Y|X), tambien una tabla de probabilidad condicional. El estado de probabilidad conjunta total es entonces:

donde Z es una constante de normalizacion requerida debido a los ciclos reguladores en la ruta.

Dadas las observaciones para una muestra, se puede resolver la distribucion marginal de cada variable no observada, usando la implementacion de propagacion de creencias locas en libDAI con inferencia realizada en el espacio de probabilidad (en oposicion al espacio logantmico), una tolerancia de convergencia de 10-9 y con el programa de actualizacion de s Eq FIX. Los parametros para todas las funciones F se aprenden en un proceso de aprendizaje de maquina mediante la maximizacion de las expectativas en libDAI, deteniendose cuando la proporcion de probabilidades logantmicas sucesivas es menor que 10-10.

Debe apreciarse que los inventores ahora han introducido nuevas variables en el dogma central de cada gen que corresponden a los estados de transcripcion, traduccion y regulacion de protemas de cada gen, como se muestra en la Fig. 2A, que representa una estructura grafica del factor tfpico. Este dogma central significa que cada gen codificador de protema tendra una estructura de dogma central identica y, por lo tanto, es posible compartir parametros entre todos los genes. El programa regulador se modela luego en las variables de transcripcion, traduccion y regulacion de protemas para cada gen.

Modelos de regulacion

El algoritmo desarrollado previamente (como se describe en los documentos WO 2013/062505 y WO 2011/139345) se amplio alterando la forma en que los algoritmos manejan los nodos de regulacion. Para construir un grafico de factores y permitir la comparacion entre muchos tipos de datos, el algoritmo desarrollado previamente vuelve discretos los datos de entrada hacia abajo, hacia arriba o normal en relacion con algun control. Los nodos de regulacion recolectan senales de actividad de todos los genes involucrados en la regulacion de un gen dado en algun punto a lo largo de la ruta del ADN hasta la protema activa. Estas senales se recopilan en una sola variable que se conecta a la estructura del dogma central de un gen a traves de un factor. Bajo el algoritmo desarrollado previamente, los nodos de regulacion simplemente toman un voto de las senales entrantes para decidir si se transmitio una senal de activacion o inhibicion.

En contraste, en los sistemas y metodos de acuerdo con esta divulgacion, la probabilidad de que cada ajuste de la variable Y hija que se pasa dado el ajuste de los nodos progenitores X¹,...,Xn se aprende utilizando un proceso de aprendizaje de maquina. A continuacion, se contrasta un modelo de regulacion codependiente y uno independiente y se muestra como ejemplo en la Fig. 2B, que representa modelos de regulacion alternativos para los nodos de transcripcion, traduccion y activacion. En el modelo de regulacion codependiente, se aprende una tabla de probabilidad condicional completa del hijo dados los progenitores, mientras que en el modelo de regulacion independiente, se aprenden las probabilidades condicionales de los enlaces individuales y se utiliza un supuesto de Bayes sencillo para calcular la probabilidad del nodo hijo dados los progenitores.

Mas esped ficamente, con el modelo de regulacion codependiente de esta divulgacion, la probabilidad se almacena directamente como un parametro en una tabla de probabilidad condicional para todos los ajustes posibles de los progenitores y el hijo. En contraste, con el modelo de regulacion independiente, P(Y) y P(Xi|Y) se utilizan como parametros y el producto de los parametros se calcula para encontrar la siguiente probabilidad:

donde Z es una constante de normalizacion que corresponde a P(Xi ,...,Xn). Para inicializar los parametros para el modelo de regulacion independiente, P(Y) recibe una probabilidad igual hacia abajo, hacia arriba o normal, y la probabilidad inicial para P(Xi|Y) se establece en funcion de la anotacion del enlace en la ruta. Para enlaces marcados en la anotacion como activadores P(abajo|abajo) = P(normal|normal) = P (arriba|arriba) = 0,8, y para inhibidores P (abajo| arriba) = P(normal|normal) = P(arriba|abajo) = 0,8 con todas las probabilidades de todos los demas ajustes fijados en 0,1. Las pruebas se realizaron utilizando una distribucion uniforme en todos los ajustes para evaluar la importancia de utilizar este conocimiento previo de la ruta. El mismo procedimiento de escrutinio simple se uso como originalmente en el algoritmo desarrollado anteriormente como los parametros iniciales para el aprendizaje de EM en el modelo de regulacion codependiente de esta divulgacion. Cuando □ = 0,001, se deduce que el 99,9% de la probabilidad se coloca en el estado de hijo que gana la aprobacion y el 0,05% se coloca en los otros estados como las probabilidades iniciales.

Ademas, los inventores tambien permitieron la regulacion de "activacion" de complejos y familias de genes entre la protema y los estados activos. Espedficamente, cada familia y complejo ahora esta modelado por un trio de variables: familia/complejo, regulacion y activo, conectado con un solo factor F(activo|regulacion, familia|complejo). Los reguladores de la familia o complejo estan conectados a la variable activa, ya sea con el modelo de regulacion codependiente de esta divulgacion o el modelo de regulacion independiente. Los componentes de la familia o el complejo estan conectados a la variable de familia/complejo, utilizando un factor de ruido mmimo o de ruido maximo, con □ = 0,001. Por el contrario, solo se utilizo el factor de ruido mmimo o de ruido maximo en el algoritmo desarrollado previamente.

Estadfsticas de regulacion

Los inventores utilizaron pruebas de G para determinar el significado estadfstico de la dependencia entre progenitores e hijos de los enlaces reguladores (primera ecuacion), asf como el significado estadfstico de la dependencia condicional entre los progenitores dada una distribucion de hijos (segunda ecuacion):

Se debe tener en cuenta que la prueba G sigue la distribucion X2, de modo que se pueden encontrar valores P usando las distribuciones X2 con 4 y l2 grados de libertad para la prueba progenitor-hijo y la prueba progenitor-progenitor, respectivamente. Los valores P se ajustan por la tasa de descubrimiento falsa (FDR) y los enlaces con P <0,05 ajustado se consideraron significativos. Aunque la prueba G (que es proporcional a la informacion mutua) es informativa sobre que tan fuerte es una interaccion, no proporciona detalles sobre el signo de la interaccion (siendo la activacion una interaccion positiva y siendo la inhibicion una interaccion negativa).

Para obtener dicha informacion, los inventores calcularon tanto la correlacion de Pearson entre el progenitor y el hijo, como la informacion mutua puntual ponderada, o WPMI (vease la formula a continuacion) en todos los ajustes posibles del progenitor y el hijo. La correlacion se calculo utilizando la distribucion conjunta P(Xi, Y) = P(Xi|Y)P(Y), y el significado se calculo utilizando la transformacion de Fisher. La correlacion entre dos progenitores dado el hijo tambien se calculo para determinar si los tres nodos formaban un ciclo de alimentacion hacia adelante coherente o incoherente. Para comparar los resultados de la prueba G entre los grupos, se tomaron las diferencias de los rangos de la estadfstica G en cada grupo. El significado de esta estadfstica se calculo realizando una prueba de permutacion con 5.000 permutaciones aleatorias de la membresfa del grupo y luego ajustando para FDR. Para diferencias mayores que cualquiera de las observadas en las permutaciones, se uso el valor P mas bajo posible como lfmite superior.

Por lo tanto, debe reconocerse que el WPMI es simplemente cada elemento individual de la suma del puntaje G, y el vector de 9 valores de WPMI se puede organizar tan facilmente como interpretar un mapa de calor. Los datos se pueden analizar utilizando un algoritmo de agrupacion HOPACH (de Bioconductor), que intenta encontrar la cantidad de agrupaciones que mejor se ajustan a los datos. Esto da como resultado diferentes numeros de agrupaciones para cada conjunto de IPL agrupadas. Para encontrar agrupaciones con un numero consistente de agrupaciones entre todos los conjuntos de datos, los inventores colapsaron las agrupaciones mas pequenas al reasignar los miembros de agrupaciones pequenas a la agrupacion grande mas cercana y las agrupaciones pequenas colapsaron de esta manera para obtener una cantidad consistente de agrupaciones en todas las agrupaciones. Este metodo tambien sirvio para mantener los tamanos de las agrupaciones en todas las comparaciones.

Ejemplo

Existen numerosas maneras de producir un modelo de ruta, y se genero un modelo representativo a partir de Reactome, el PID y el analisis PID NCI de BioCarta, descargado en formato BioPAX Nivel 3 del 27 de febrero de 2012. Ese modelo de ruta comprendfa 7.111 protemas, 52 genes de ARN, 15 genes de miARN, 7.813 complejos, 1.574 familias de genes y 586 procesos biologicos abstractos. Hubo 8.603 interacciones que cambiaron el estado de activacion de una molecula (inhibidor de 3.266), 2.120 enlaces de activacion transcripcional, y 397 enlaces de represion transcripcional, y hubo 24.129 componentes para los 7.813 complejos, y 7.170 miembros de las 1.574 familias de genes.

Los inventores utilizaron DAVID para realizar el enriquecimiento de conjuntos de genes en los genes involucrados en las interacciones aprendidas por los sistemas y metodos de la invencion. Para maximizar el numero de genes reconocidos por DAVID, los complejos de genes y las familias se dividieron en sus genes componentes. El enriquecimiento para los genes involucrados en los enlaces se comparo con un antecedente de todos los genes en la ruta curada.

Una tabla de probabilidad condicional completa con N progenitores almacenara las probabilidades para todos los ajustes posibles 3N+1 de progenitores e hijos. Como algunos genes centrales en la ruta curada tienen mas de 30 reguladores, el numero de nodos progenitores que podnan unirse a un nodo hijo se limito a 5 para evitar que el tamano de estas tablas se vuelva prohibitivo. Para los genes regulados por mas de cinco protemas, se agregaron nodos intermedios a la grafica para mantener este lfmite. Por lo tanto, un gen con 10 reguladores tendra dos nodos intermedios con cinco reguladores unidos a cada nodo intermedio.

Utilizando un conjunto de datos de 1.936 muestras de tumor TCGA con datos de expresion genica y numero de copias de 11 tipos de tejidos, se aprendieron las interacciones y las interacciones reguladoras, se determino el significado de la interaccion mediante una prueba G y se determinaron los signos de interaccion con un valor de correlacion como se describio anteriormente. De las 9.139 interacciones en el modelo de ruta que regula una protema, se encontro que 7.631 (83,5%) eran significativas a un FDR de 0,05. Un analisis de componentes principales (PCA) de los vectores WPMI para cada interaccion aprendida en toda la cohorte de TCGA revelo un gradiente de fuerte inhibicion a fuerte activacion. En la Fig. 3A-C se muestra un ejemplo de analisis del componente principal. Aqrn, el panel (A) describe graficamente el analisis del componente principal de los enlaces reguladores en la cohorte de TCGa en el que cada punto es la proyeccion de las 9 puntuaciones de WPMI para un enlace sobre los dos componentes principales. Las envolventes convexas muestran la membresfa de la agrupacion de medias k realizada en las puntuaciones de WPMI (no proyectadas), y los numeros de agrupacion se colocan en el centroide de cada agrupacion. El panel (B) ilustra la membresfa del grupo de enlaces significativos etiquetados como activacion e inhibicion en la ruta, y el panel (C) muestra mapas de calor de los valores de WPMI de los centroides de los grupos que muestran un rango desde una fuerte inhibicion (1) hasta una fuerte activacion (5). La agrupacion de medios k de los vectores WPMI encontro agrupaciones a lo largo de este gradiente que representan tipos de interaccion canonica que van desde una fuerte activacion hasta una fuerte inhibicion. De 7.631 enlaces significativos, 78 (1%) se colocaron en un grupo donde el centroide iba en direccion opuesta a la forma en que se anoto el enlace en la ruta. La variedad de vectores de WPMI muestra que la EM fue capaz de aprender nuevos regfmenes de interaccion que parecen activadores e inhibidores, asf como a patrones reguladores mas complejos.

Usando medidas de correlacion estadfstica (vease mas arriba), los inventores luego evaluaron cada interaccion como activacion o inhibicion y las compararon con el tipo de interaccion anotado en el modelo de ruta. Hubo 7.357 enlaces tanto con correlacion significativa como con puntajes de g y, de ellos, la correlacion de 219 enlaces (3%) no estuvo de acuerdo con la direccion de la regulacion en la ruta. Esto deja 7.138 (78%) enlaces que son significativos para ambas pruebas y concuerdan con los enlaces seleccionados. Los inventores tambien encontraron que algunos enlaces teman altos valores de correlacion pero poca significacion a partir de nuestras pruebas g, que generalmente se observaba en los casos en que la distribucion del progenitor o el hijo favoreda mucho a un solo estado.

De los enlaces aprendidos por el metodo de la invencion, 1.197 teman correlacion significativa y puntajes g y no inclrnan complejos o familias. Para 51 de estos enlaces (4,3%), el signo del coeficiente de correlacion no concuerda con la literatura. Por otro lado, al observar solo los perfiles de expresion genica, se encontraron 1.058 enlaces no familiares no complejos con una correlacion significativa, pero 470 (44%) no estuvieron de acuerdo con el signo de la entrada de la ruta. Para una segunda comparacion, los complejos y las familias se eliminaron en la ruta al conectar todos los genes que eran componentes de familias y complejos directamente a cualquier gen regulado por esas familias y complejos. Este procedimiento de aplanamiento resulto en 200.921 enlaces. Se encontro que 165.258 de estos enlaces teman una correlacion significativa entre los perfiles de expresion genica, y que 81.558 de los enlaces (49,4%) teman una correlacion que no estaba de acuerdo con la direccion del enlace en la ruta. Estos resultados indican que los enlaces aprendidos por el metodo de la invencion concuerdan significativamente mejor con la direccion de los enlaces en la literatura que con la correlacion de los perfiles de expresion genica.

Ejecutando el PCA y el analisis de agrupacion en solo las puntuaciones WPMI aprendidas de pacientes con cancer de ovario TCGA (OV) (N = 416) y sin regulacion de activacion del complejo y familiar produjo resultados muy similares a los de PCA y centros de agrupacion que se muestran en las Figs. 3A y 3C, pero encontro menos enlaces significativos y una mayor proporcion de enlaces que se anotaron como activadores y se aprendieron como inhibidores o viceversa (Fig. 4A). Cuando se uso una inicializacion plana de P(Xi|Y) = 1/3 (Fig. 4b ), los inventores encontraron que los centros del agrupacion se mapearon nuevamente en un gradiente desde la activacion hasta la inhibicion, y hubo menos enlaces significativos y una mayor proporcion de desacuerdos en la direccion del enlace que con la configuracion inicial que incluye informacion de la direccion.

Para probar el supuesto de independencia de Bayes sencillo presentado en la Fig. 2, los sistemas y metodos de acuerdo con el concepto inventivo se ejecutaron con modelos de regulacion independientes y codependientes en las muestras de cancer de ovario TCGA. Los inventores probaron el supuesto de independencia condicional en las expectativas calculadas en cada etapa EM de la ejecucion (vease la Fig. 5A). La Fig. 5A ilustra el porcentaje de nodos hijos unicos que fallan en las siguientes pruebas en cada etapa de EM de un proceso que aprende una probabilidad condicional completa (Leyenda: i. una prueba del significado de la independencia condicional de cualquiera de los dos progenitores dado el hijo. ii. la prueba i y al menos uno de los progenitores que falla esta significativamente vinculado al hijo. iii. la prueba i y el triplete que falla es incoherente, iv. las pruebas i, ii y iii. En cada etapa del aprendizaje, se encontraron menos correguladores que dependen el uno del otro. Debido a los pequenos bucles de retroalimentacion en la ruta, tal como un factor de transcripcion que regula su propia transcripcion, se podna esperar que la suposicion de independencia falle en algunos casos. Ademas, es bastante comun para dos complejos muy similares, que difieren en una sola molecula, para corregular el mismo nodo hijo, en cuyo caso tambien se esperana que la prueba de independencia condicional fallara, a pesar de que existe poco conflicto. Por consiguiente, los inventores dividen los casos donde dos correguladores fallan la prueba de independencia en clases 'coherentes' e 'incoherentes', como se muestra esquematicamente en la Fig. 5B. La Fig. 5B ilustra esquematicamente ejemplos de tripletes coherentes versus incoherentes. Las flechas corresponden a la correlacion con una cabeza puntiaguda para una correlacion positiva (activacion) y una cabeza plana para una correlacion negativa (inhibicion). Las interacciones entre los progenitores no se encuentran en la literatura, por lo que se usaron flechas de doble sentido porque la direccion de esa interaccion era desconocida.

Ademas, dos correguladores pueden fallar la prueba de independencia incluso si uno de los correguladores es un regulador insignificante, debido a la fuerza del otro regulador. Por lo tanto, los inventores tambien consideraron el subconjunto de casos donde ambos correguladores son significativos por sf mismos, y las pruebas muestran que los parametros iniciales producidos por el metodo de aprobacion ponderado hacen que casi el 50% de los nodos hijos no pasen la prueba de independencia condicional, pero como el algoritmo EM aprende mas configuraciones de parametros probables, cada vez menos nodos fallan en la prueba. La combinacion de todas nuestras pruebas muestra que es probable que solo menos del 5% de los nodos hijos tengan reguladores codependientes de manera significativa.

Usando las muestras de cancer de ovario, los inventores agruparon ademas las predicciones de actividad de la protema producidas por el algoritmo desarrollado previamente (veanse los documentos WO 2013/062505 y WO 2011/139345) y aquellas de los modelos de regulacion codependientes e independientes. Luego se realizo un analisis de Kaplan-Meier en estas agrupaciones para ver si teman perfiles de supervivencia significativamente diferentes (Fig. 6). Aqm, se muestran las curvas de supervivencia de Kaplan-Meier de 416 pacientes en la cohorte ovarica TCGA agrupada mediante la actividad de la ruta integrada utilizando (Fig. 6A) el algoritmo desarrollado previamente, (Fig. 6B) el algoritmo inventivo que aprende las tablas de probabilidad condicional completas de los nodos reguladores, y (Fig. 6C) el algoritmo de la invencion que aprende la probabilidad condicional de enlaces simples y el uso de un supuesto de Bayes sencillo. Los inventores encontraron que las agrupaciones producidas utilizando predicciones de actividad de modelos de regulacion independientes fueron los mas separables por su supervivencia (rango logantmico P= 2,0 x 10'4). Los inventores tambien realizaron esta prueba utilizando el modelo de regulacion independiente con una configuracion inicial plana para los parametros P(Xi|Y) y encontraron que se desempeno peor que el algoritmo desarrollado previamente. Nuevamente, esto indica que el metodo de aprendizaje requiere un conocimiento previo sobre el tipo de interaccion que se pierde cuando se utiliza una configuracion de interaccion inicial plana.

La Fig. 7 muestra el uso del enlace diferencial de tejido en el mas significativo al colorear cada interaccion por su puntuacion de correlacion en un tejido y establecer su saturacion de manera proporcional a su importancia. Se observaron las puntuaciones g diferenciales mas fuertes para los enlaces regulados por los genes y complejos clave del cancer, incluidos TP53, MYC/MAX, HIF1A/ARNT, TAp73a, E2F1 y PPARA-RXRA. De particular interes son los enlaces regulados por PPARA-RXRA principalmente diferentes dentro de GBM [cerebro y KIRC (rinon)] y los enlaces reguladores de TAp73a en OV (ovario) y en menor grado en UCEC (endometrio uterino). Las Figuras 8A y 8B muestran una grafica de las senales de WPMI agrupadas por tejido para los enlaces de activacion de PPARA-RXRA y TAp73a, donde se encuentran pesos significativamente mayores en la diagonal de activacion, lo que indica un mayor uso de estos enlaces como activadores en esos tejidos. Como se puede ver en la Fig. 8A que muestra los valores de WPMI para los enlaces con PPARA:RXRA como nodo progenitor, hay una senal de activacion mas fuerte en GBM y KIRC, mientras que la Fig. 8B muestra los valores de WPMI para los enlaces con TAp73a como nodo progenitor, lo que indica activacion en VO.

La firma de la actividad de TAp73 indica potencialmente un patron reproductivo u hormonal femenino de patogenesis asociado con la expresion de p73. TAp73 promueve la expresion de inhibidores del ciclo celular e inductores de apoptosis, uno de los cuales es el supresor de tumores BAX, que actua como un inhibidor de la actividad del oncogen BCL2. Se sabe que BCL2 es altamente expresado en el cancer de ovario seroso, y los resultados aqrn muestran que aunque TAp73 es altamente expresado y es un fuerte promotor de la expresion de BAX (y por lo tanto la inhibicion de BCL2), no obstante, es inefectivo para retardar la tumorigenesis, lo que sugiere que la inhibicion de la molecula pequena de BCL2 puede ser igualmente ineficaz. No es sorprendente que los tratamientos con un solo agente del cancer de ovario con inhibidores de molecula pequena de BCL2, a pesar de la alta expresion de BCL2 en el cancer de ovario seroso, no hayan tenido exito hasta la fecha, lo que sugiere un bloqueo o atenuacion de la actividad mediada por TAp73 en este tipo de cancer. Es importante tener en cuenta que casi todas las muestras de ovario serosas aqrn presentan mutaciones en p53, lo que quizas sugiera una derivacion hacia arriba de la tumorigenesis que quizas supere la sobreexpresion de TAp73 o el aumento de la actividad. Otros grupos tambien han demostrado la importancia de la actividad de PPARA-RXRA en GBM y KIRC y su sensibilidad al fenofibrato, un agonista de PPARA. Las senales espedficas de tejido identificadas a traves de este analisis parecen reiterar descubrimientos biologicos recientes que parecen ser unicos cuando se examinan en el contexto del conjunto de datos actual de TCGA.

Los enlaces mas significativos aprendidos a traves de toda la cohorte de TCGA (vease la Tabla 1) son varios genes de cancer conocidos que incluyen el factor de transcripcion A1 de la caja cabeza de horquilla, p53 y el receptor alfa de estrogeno. Para realizar un enriquecimiento de conjuntos de genes con DAVID en los genes involucrados en las 50 interacciones con las puntuaciones G mas altas, los inventores reemplazaron las familias y los complejos con sus genes componentes. Esto produjo 112 genes unicos que fueron reconocidos por DAVID a partir de los 50 enlaces principales. Se encontro que estos genes estaban significativamente enriquecidos (P <1e-7) para una serie de terminos KEGG relevantes que incluyen "rutas en el cancer", "apoptosis", "ruta de senalizacion Jak-STAT" y "ruta de senalizacion MAPK" como una serie de diferentes terminos espedficos del tipo de cancer. Luego, los inventores compararon este resultado con lo que podna encontrarse al observar solo la correlacion de la expresion genica de los genes que estan enlazados en la ruta. Los inventores necesitaron tomar los 200 pares de expresion genica principales por la correlacion de Pearson de la ruta aplanada para obtener un conjunto de genes unicos de tamano comparable (N = 119) al conjunto producido por el algoritmo de la invencion. Aunque ambos conjuntos de genes produjeron enriquecimientos similares para los terminos de Ontologfa de Genes para procesos biologicos (GOTERM_BP_FAT), se encontraron muchos menos terminos KEGG mediante el uso de la correlacion de la expresion genica que mediante los enlaces aprendidos (20 versus 46 en FDR <0,05) y el FDR. Los terminos KEGG que se superpoman entre los dos conjuntos teman un FDR mas bajo en el conjunto determinado. Para asegurarse de que el aplanamiento de familias y complejos en la ruta no influyera en estos resultados, los inventores repitieron este analisis para enlaces no familiares y no complejos solo en la ruta y encontraron resultados similares (se encontraron 20 terminos KEGG para enlaces aprendidos versus 3 para la correlacion de la expresion en FDR <0,05).

Tabla 1. Vrnculos reguladores con la puntuacion de prueba g mas alta en toda la cohorte de TCGA

Progenitor Hijo Puntuacion g Direccion

FOXA1 SFTPA (familia):txreg 3247,197 t

HNF1A HNF4A (familia):txreg 3208,440 t

GATA1 Globina alfa (familia):txreg 3065,885 t

ONECUT1 HNF1B (familia):txreg 3008,945 t

Tetramero p53 (complejo) MDM2:txrega 2931,148 t

KLF4 Preprogherina (familia):txreg 2914,620 t

PDX1 NR5A2 (familia):txreg 2872,275 t

Tetramero p53 (complejo) SFN:txrega 2811,958 t

Homodfmero ER alfa (complejo) Tubulina alfa (familia):txreg 2781,369 t

FOXM1 CENPA:txreg 2739,028 t

Los valores de p para todos los enlaces son menores que 1e-323.

aNodo intermedio.

Los inventores tambien compararon la fuerza de los enlaces entre los subtipos de cancer de mama para obtener una idea de las diferencias reguladoras entre los subtipos (vease la Tabla 2). Esta comparacion, asf como otras comparaciones entre tejidos, nunca encontraron enlaces que cambiaran completamente la direccion de activacion a inhibicion. En su lugar, los inventores a menudo observaron que los enlaces se apagaron o encendieron (por ejemplo, cambiaron de un activador fuerte a neutral). Debido a que la direccion rara vez cambia, a los inventores les parecio informativo simplemente observar las diferencias entre el significado de la puntuacion G de los enlaces. Los inventores utilizaron la diferencia de rango de las puntuaciones G para comparar entre grupos a fin de ajustar la dependencia de la puntuacion G en el tamano de la muestra. Muchos de los enlaces con las diferencias de rango mas altas teman los mismos progenitores. Por ese motivo, la Tabla 2 muestra los enlaces con la diferencia de rango mas alta con base en el progenitor. En 9 de los 10 enlaces principales que eran mas fuertes en los tumores basales, HIF1A era el progenitor y los cuatro enlaces principales mas fuertes en los tumores Luminal A teman CEBPB como un progenitor.

Tabla 2. Enlaces reguladores con P ajustado <0,05 en los tumores de cancer de mama Basal (N = 92) o Luminal A (N = 218), y las diferencias de rango mas altas en las puntuaciones G por progenitor.

Para identificar las actividades clmicamente relevantes y las fortalezas de los enlaces, los inventores examinaron a los pacientes con cancer de mama con receptores de estrogeno positivos (ER+) y realizaron una regresion Cox regularizada de CGA de los datos de supervivencia de la TCGA en ambas puntuaciones g del enlace e IPL para identificar el numero optimo de caractensticas para dividir mejor la cohorte. En la lambda minima, el modelo coxnet contema nueve caractensticas que dividfan mejor a los pacientes cancer de mama con ER+ (vease la Tabla 3). Cuatro de las nueve caractensticas fueron puntuaciones g de enlace, que ilustran la utilidad independiente de estas puntuaciones como posibles marcadores de pronostico.

Tabla 3. Caractensticas de la ruta (bordes y nodos) asociadas con la supervivencia en pacientes de cancer de mama con ER+

M YB— CEBPB 0,00462

E2F1/DP (complejo) — SIRTI -0,00072

p300/CBP (complejo) -0,00204

SDC3 -0,04840

p300/CBP/RELA/p50 (complejo) -0,11126

TAp73a (tetramero) (complejo) -0,11301

TCFIE/Catenina beta (complejo) -0,16129

Nota: Los bordes se identifican con - *, y todos los bordes encontrados se anotan como activadores transcripcionales en la ruta.

CEBPB y HIF1A/ARNT aparecieron en ambas Tablas 2 y 3. CEBPB es un factor de transcripcion que se ha asociado con la progresion tumoral, mal pronostico y estado ER negativo. Ademas, la sobreexpresion de HSP90B1, una protema de choque termico regulada por CEBPB y que se encuentra en la Tabla 2, se ha asociado con metastasis distante y disminucion de la supervivencia general en pacientes con cancer de mama con buenos pronosticos. HSP90B1 se ha sometido a ensayos clmicos como inmunoterapia para el melanoma con el nombre de vitespen. La sobreexpresion de HIF1A/ARNT es clmicamente relevante en el cancer de mama ER- y PR-, donde las variantes de empalme se han asociado con una supervivencia reducida sin metastasis. Debido a que los tumores basales son generalmente ER-, y los tumores Luminal A son generalmente ER+, la fuerza del enlace diferencial podna deberse a un aumento en la aparicion de la variante de empalme en los tumores basales. Los dos enlaces principales por diferencia de rango del puntaje G entre basal y luminal son HIF1A/ARNT que activan HK1 y HK2 (hexoquinasas), HK2 participa en el metabolismo de la glucosa y la apoptosis, y se ha asociado con metastasis cerebrales de cancer de mama y con escasa supervivencia posterior a craneotomffa. Estos hallazgos indican la posibilidad de encontrar enlaces que sean relevantes al contrastar entre subtipos de tumores y al buscar enlaces dentro de un subtipo que sean predictivos de una variable clmica.

Con base en lo anterior, debe apreciarse que los sistemas y metodos contemplados permiten una combinacion de datos omicos multiples para conocer la fuerza y el signo de las interacciones reguladoras seleccionadas a partir de la literatura. El supuesto de independencia condicional permite una reduccion en la complejidad del modelo y permite una estimacion eficiente de los parametros reguladores utilizando los conjuntos de datos existentes. Ademas, los inventores tambien demostraron que el supuesto de independencia es valido para la gran mayona de los programas de regulacion celular. Ademas, cuando el supuesto de independencia no se cumple, se contempla que los factores independientes podnan reemplazarse por factores mas complejos que modelan adecuadamente un programa de regulacion codependiente. Cuando se aplican estos parametros aprendidos, se puede obtener una vision biologica simplemente observando los enlaces mas fuertes en una cohorte de muestras u observando como cambian las interacciones entre los fenotipos de interes.

Tambien debe apreciarse que aunque los subtipos de cancer usan diferentes interacciones, una interaccion generalmente tiene un signo consistente cuando se usa en un tumor particular. Aun mas, la concordancia del signo de interaccion aprendido y el signo de interaccion en las bases de datos, a pesar de las diversas formas en que el signo de interaccion se anota en el lenguaje BioPAX a traves de las bases de datos de rutas, indica que las bases de datos de rutas ya han catalogado con exito y fidelidad miles de experimentos de WetLab en la literatura.

Ademas, debe apreciarse que la independencia de los correguladores proporciona beneficios computacionales para la inferencia del modelo y el aprendizaje de parametros, y tambien ayuda en la interpretacion del modelo. La capacidad de ser factorizados de los modelos de regulacion corresponde a la linealidad logantmica. Sin embargo, un gran numero de reguladores en el modelo son complejos, y el factor de formacion del complejo es una funcion de ruido maximo no lineal. Por lo tanto, la no linealidad de la regulacion todavfa puede codificarse en el grafico de factores que representan complejos ffsicos. Esto otorga plausibilidad a una interpretacion ffsica de la mayona de los enlaces de regulacion en la ruta: la union competitiva de reguladores independientes debe combinarse linealmente, siempre que las entidades ffsicas verdaderamente independientes hayan sido capturadas como complejos. Si esta interpretacion ffsica es cierta, entonces debena haber una correspondencia entre las fortalezas relativas de las constantes de union ffsicas medidas y las puntuaciones de interaccion determinadas. En los casos en que el supuesto de independencia no se cumple, es probable que exista un cofactor latente, que podna modelarse reemplazando P(Y|Xi )P(Y|X²) con un factor como P(Y| X i ,X2).

Como los metodos y sistemas contemplados son capaces de diferenciar las correlaciones de interaccion entre subtipos de tejido, los inventores tambien contemplan un metodo para clasificar un conjunto de datos omico representativo de un tejido (por ejemplo, obtenido de una biopsia de tumor) como perteneciente a un subtipo de tejido espedfico (por ejemplo, como perteneciente a un tumor resistente al tratamiento con respecto a un farmaco en particular). De manera similar a los metodos discutidos anteriormente, los metodos contemplados obtendran primero a traves de una interfaz de entrada omica el conjunto de datos omico representativo del tejido, y luego derivaran, para el conjunto de datos omico, un conjunto de correlaciones de interaccion entre una pluralidad de parametros reguladores de un nodo regulador en un modelo de ruta. El conjunto asf derivado de correlaciones de interaccion se empareja luego con un conjunto de correlaciones de interaccion previamente conocido que esta asociado con un tejido espedfico del subtipo conocido, y cuando se desea, el emparejamiento se usa luego para la clasificacion del conjunto de datos omico (por ejemplo, para ser representativo del tejido espedfico del subtipo conocido, y con eso para clasificar el tejido como perteneciente al subtipo). Por lo tanto, debe apreciarse que los sistemas y metodos contemplados permitiran la caracterizacion de un tejido en terminos de un subtipo simplemente basado en una o mas firmas de correlacion de interaccion. Entre otros subtipos de tejido contemplados, los subtipos especialmente ventajosos incluyen tejido resistente a farmaco, tejido metastasico, tejido tratado con farmaco o una variante clonal de un tejido.

Ademas, como los sistemas y metodos contemplados permiten la identificacion del flujo de senal a traves de una ruta de senalizacion y/o una red de rutas, debe apreciarse que los sistemas y metodos contemplados tambien seran utiles para identificar un objetivo que se pueda tratar con farmaco en un modelo de ruta. Dicha identificacion normalmente incluira etapas de (a) obtener, a traves de una interfaz de entrada omica, un conjunto de datos omico representativo de un tejido, (b) derivar, para el conjunto de datos omico, un conjunto de correlaciones de interaccion entre la pluralidad de parametros reguladores del nodo regulador en el modelo de ruta, y (c) la identificacion de un farmaco que afecta la actividad de la ruta en la que se predice que el farmaco interfiere con las correlaciones de interaccion. Mas tfpicamente, el nodo regulador afecta al menos a uno de transcripcion, traduccion y modificacion postraduccional de una protema, y el farmaco es un farmaco disponible comercialmente y tiene un modo de accion conocido.

De este modo, como se conocen las correlaciones de interaccion espedficas entre los parametros reguladores de una ruta, la ruta objetivo en un modelo de ruta ahora se puede identificar facilmente usando un conjunto de datos omico representativo de un tejido, y una derivacion, para el conjunto de datos omico, de un conjunto de correlaciones de interaccion entre los parametros reguladores de un nodo regulador en un modelo de ruta. Cuando un farmaco tiene un efecto conocido en la correlacion de interaccion, el farmaco se puede utilizar para dirigirse a la ruta objetivo. Por ejemplo, el efecto conocido de un farmaco puede ser un efecto inhibitorio sobre una quinasa, un efecto inhibidor sobre un receptor y un efecto inhibidor sobre la transcripcion. Por lo tanto, y entre otras rutas objetivo adecuadas, las rutas objetivos especialmente contempladas incluyen una ruta regulada por calcio/calmodulina, una ruta de citoquina, una ruta de quimioquina, una ruta regulada por el factor de crecimiento, una ruta regulada por hormona, una ruta regulada por MAP quinasa, una ruta regulada por fosfatasa, y una ruta regulada por Ras. Dependiendo del resultado del analisis de la ruta, los consejos de tratamiento pueden basarse en la ruta identificada.

Ademas, debe apreciarse que el tratamiento no necesita realizarse realmente en un paciente, sino puede simularse una vez que se conocen una o mas correlaciones de interaccion espedficas entre los parametros reguladores de una ruta. Dicha simulacion se puede usar para predecir el resultado del tratamiento o la identificacion de multiples farmacos para detectar senales efectivamente bajas a traves de las rutas. Por lo tanto, los metodos contemplados tambien incluiran un metodo para simulacion in silico del efecto de tratamiento de un farmaco que incluye una etapa para obtener un modelo de ruta que tiene una pluralidad de elementos de ruta en los cuales al menos dos de los elementos estan acoplados entre sf a traves de una ruta que tiene un nodo regulador que controla la actividad a lo largo de la ruta como una funcion de una pluralidad de parametros reguladores. Los metodos contemplados incluiran ademas una etapa para identificar un farmaco que se sabe que afecta al menos a un parametro regulador, y otra etapa para alterar in silico, a traves de un modulo de procesamiento omico y basado en el efecto conocido del farmaco, al menos uno del nodo regulador, la actividad y al menos de los parametros reguladores en el modelo de ruta, y aun otra etapa para determinar un efecto secundario de la alteracion en el modelo de ruta. En general, el efecto secundario se encuentra en otro nodo regulador, otra actividad y otro parametro regulador en el modelo de ruta.

Para los expertos en la tecnica, debena ser evidente que son posibles muchas mas modificaciones, ademas de las ya descritas, sin apartarse de los conceptos de la presente invencion. Ademas, al interpretar tanto la especificacion como las reivindicaciones, todos los terminos deben interpretarse de la manera mas amplia posible y coherente con el contexto. En particular, los terminos "comprende" y "que comprende" deben interpretarse en referencia a elementos, componentes o etapas de una manera no exclusiva, lo que indica que los elementos, componentes o etapas a los que se hace referencia pueden estar presentes, o utilizados o combinados con otros elementos, componentes o etapas que no estan expresamente referenciados. Cuando las reivindicaciones de la especificacion se refieren a al menos uno de los elementos seleccionados del grupo que consiste en A, B, C... y N, el texto debe interpretarse como que solo requiere un elemento del grupo, no A mas N o B mas N, etc.

Claims

REIVINDICACIONES

1. Un metodo implementado por ordenador para clasificar un tejido como perteneciente a un tejido esped fico de subtipo, que comprende:

en la que Z es una constante de normalizacion que corresponde a P(X-i,...Xn), siendo el modelo de ruta un modelo probabilfstico configurado para usar graficos de factores usando un modelo de regulacion independiente;

(e) hacer coincidir el conjunto derivado de correlaciones de interaccion con un conjunto conocido a priori de correlaciones de interaccion que esta asociado con un tejido esped fico de subtipo conocido; y

(f) utilizar el emparejamiento para clasificar que el conjunto de datos omico representativo del tejido pertenece al tejido espedfico de subtipo conocido, en el que el subtipo incluye tejido resistente al farmaco, tejido metastatico, tejido tratado con farmaco o una variante clonal de un tejido.

2. El metodo implementado por ordenador de la reivindicacion 1, en el que los conjuntos de datos (135) omicos comprenden datos de todo el genoma, datos parciales del genoma u objetos de secuencia diferencial, y en el que los conjuntos de datos (135) omicos se obtienen de una base de datos (130) genomica, un servidor (130) BAM, o un dispositivo (130) de secuenciacion.

3. Aparato configurado para llevar a cabo el metodo de la reivindicacion 1 o la reivindicacion 2.