ES2970582T3

ES2970582T3 - Procedimiento y sistema para la predicción de la afinidad de unión y procedimiento de generación de un péptido de unión a proteínas candidato

Info

Publication number: ES2970582T3
Application number: ES18198984T
Authority: ES
Inventors: Marius Eidsaa; Richard Stratford; Trevor Clancy
Original assignee: NEC OncoImmunity AS
Current assignee: NEC OncoImmunity AS
Priority date: 2018-10-05
Filing date: 2018-10-05
Publication date: 2024-05-29
Anticipated expiration: 2038-10-05
Also published as: CN113168887A; CN113168887B; EP3633681B1; US20210391032A1; EP3633681A1; JP7410138B2; CA3115180A1; WO2020070307A1; PL3633681T3; EP3633681C0; JP2022512612A

Abstract

En un primer aspecto de la presente divulgación, se proporciona un método implementado por computadora para predecir una afinidad de unión de una molécula de unión de consulta a una molécula diana de consulta, teniendo la molécula de unión de consulta una primera secuencia de aminoácidos y teniendo la molécula diana de consulta una segunda secuencia de aminoácidos, comprendiendo el método: calcular, con al menos un procesador, la afinidad de unión para la molécula de unión de consulta a la molécula diana de consulta como una combinación ponderada de valores de unión de referencia de pares de subsecuencias de unión de referencia-diana, en donde los pesos de la combinación ponderada se basa en puntuaciones de similitud. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Procedimiento y sistema para la predicción de la afinidad de unión y procedimiento de generación de un péptido de unión a proteínas candidato

Antecedentes

La presente divulgación se refiere a predicciones computacionales de la afinidad de unión entre moléculas ligantes y moléculas diana, por ejemplo, entre péptidos y proteínas, o entre pares de proteínas.

La comprensión de la unión molecular es importante en muchos contextos biológicos. Por ejemplo, en el desarrollo de terapias farmacológicas o biológicas es importante comprender cómo y con qué fuerza una molécula terapéutica candidata se une a su diana prevista, o un péptido patógeno se une a una proteína de la superficie celular.

En los vertebrados, las moléculas del complejo mayor de histocompatibilidad (MHC) han evolucionado para unirse a péptidos patógenos o propios, formando un complejo MHC-péptido que posteriormente es transportado a la superficie celular por la maquinaria celular. Las moléculas de MHC usualmente se denominan MHC de clase I o MHC de clase II. Aunque tienen una función similar, las moléculas del MHC de clase I liberan péptidos derivados endógenamente desde el interior de una célula a la superficie celular, mientras que las moléculas de MHC de clase II son responsables de la liberación de péptidos exógenos o extracelulares a la superficie celular, donde ocurre el reconocimiento posterior de los péptidos por células T CD8+ (citotóxicas) o CD4+ (auxiliares). Este reconocimiento luego inicia o propaga una respuesta inmunitaria. Hay varios pasos interdependientes críticos en la vía de presentación del antígeno de clase I, incluido el procesamiento de antígenos mediante el proteosoma y el transporte TAP, y la vía de clase II que incluye la internalización del antígeno exógeno, la captura en endosomas y la posterior hidrólisis mediada por proteasas. Sin embargo, el paso de unión de MHC es el mecanismo de selección más importante para las vías de procesamiento de antígenos endógenos y exógenos y es un requisito (aunque no suficiente) para la presentación exitosa de péptidos patógenos y para neoantígenos mutados en el cáncer. La importancia de la unión de MHC como principio central de la respuesta inmunitaria adaptativa ha llevado a una extensa investigación en la identificación y medición precisa de la afinidad de unión del MHC al péptido en varios campos de investigación, incluidas las enfermedades infecciosas, el desarrollo de vacunas, los trasplantes, las enfermedades autoinmunes e inmunoterapia contra el cáncer.

En humanos, las moléculas de MHC de clase I están codificadas por tres genes polimórficos en la región genómica del antígeno leucocitario humano (HLA) de clase I denominada HLA-A, HLA-B y HLA-C. Los tres genes son extremadamente polimórficos, con más de 10.000 alelos caracterizados. Al igual que la clase I, las moléculas del MHC de clase II están codificadas por tres genes polimórficos denominados HLA-DR, HLA-DQ y HLA-DP. El alto grado de polimorfismo en las moléculas del MHC y la variabilidad inherente de los aminoácidos en las secuencias peptídicas antigénicos ha impulsado la necesidad de desarrollar herramientas computacionales capaces de predecir con precisión las afinidades de unión del péptido a MHC, lo que ha dado como resultado numerosos enfoques exitosos. Sin embargo, se requiere la disponibilidad de grandes cantidades de datos experimentales para entrenar buenos modelos predictivos. Durante varios años, se han realizado grandes esfuerzos experimentales para acumular mediciones de la afinidad de unión de péptidos a MHC para algunos de los alelos del MHC más comunes. No obstante, la gran mayoría de los alelos todavía no están cubiertos adecuadamente en las bases de datos actualmente disponibles sobre mediciones de afinidad de unión de péptidos a MHC. Para varios de estos alelos, los predictores de mejor rendimiento suelen ser modelos "específicos de alelos", lo que significa que solo están entrenados y, por lo tanto, solo pueden predecir un alelo MHC específico. Los modelos específicos de alelo generalmente requieren una cantidad sustancial de datos de afinidad de unión, lo que los hace adecuados sólo para un pequeño número de alelos bien estudiados. Varios enfoques algorítmicos han aprovechado la disponibilidad de suficientes datos de entrenamiento para construir enfoques exitosos específicos de alelos, que van desde redes neuronales hasta máquinas de vectores de soporte (SVM), pero también enfoques más mecanísticamente interpretables, como matrices de puntuación de posición específica (PSSM) o enfoques basados en modelos moleculares.

Se han realizado varios intentos para crear herramientas computacionales que implementen modelos "panalelos" que puedan generar predicciones de afinidad de unión entre diferentes alelos del MHC. Estos han sido entrenados principalmente utilizando enfoques basados en redes neuronales y generalmente se dividen en una de dos categorías. Un modelo "pan-específico" está restringido a predicciones entre los alelos en los que se ha entrenado, mientras que un modelo "pan" hace predicciones basadas en secuencias del MHC y, por lo tanto, puede hacer predicciones para alelos del MHC arbitrarios ode novo.

El objetivo general de los modelos pan-alelos es predecir patrones de unión generales, aplicables a todos los alelos, lo que permite predicciones incluso para alelos con pocos o ningún dato de entrenamiento. Para hacerlo, generalmente se ha considerado deseable que un modelo refleje las interacciones físicas entre la molécula de MHC y el péptido, por ejemplo, utilizando datos de estructura cristalina obtenidos para complejos MHC-péptido.

A partir de los datos estructurales se sabe que el componente de una molécula de MHC que interactúa con el péptido consiste en una hendidura de unión altamente polimórfica, formada por dos cadenas de aminoácidos que forman dos hélices casi paralelas. Para el MHC de clase I, se ha observado que sólo un pequeño número de los 182 aminoácidos que forman las moléculas del MHC de clase I se encuentran en las inmediaciones de un aminoácido peptídico unido (por ejemplo, a una distancia de 4,0 Angstroms de cualquier aminoácido de un péptido unido). Estos aminoácidos del MHC proximales al péptido que describen la hendidura de unión pueden denominarse "pseudosecuencia" (véase, por ejemplo, Nielsen et al, PLoS One 2007, 2:e796).

La manera en la que el péptido se une a la proteína MHC se puede resumir usando lo que se ha denominado en la literatura un "mapa de puntos de contacto", "mapa de posiciones de contacto", o simplemente "mapa de contacto" (cada uno de los cuales se usará indistintamente a continuación). En general, un mapa de puntos de contacto define un mapeo entre los residuos de aminoácidos de una molécula ligante (como un péptido) y los residuos de aminoácidos correspondientes de una molécula diana (como una proteína MHC) a la que está unida, donde los residuos de aminoácidos correspondiente son residuos de la molécula diana que están dentro de una distancia umbral de los residuos de aminoácidos en la molécula ligante de manera que tienen suficiente interacción física con los residuos de la molécula ligante para contribuir a la formación del complejo ligante-diana. Por ejemplo, los residuos que están dentro de 4 Angstroms de los residuos de la molécula ligante pueden formar parte del mapa de puntos de contacto.

Un mapa de puntos de contacto se puede representar como una tabla o una matriz en la que las filas representan aminoácidos de la pseudosecuencia de la molécula diana y las columnas representan aminoácidos de la molécula ligante. Una entrada(t, b)de la tabla es igual a 1 si el aminoácido b de la molécula ligante está dentro de la distancia predefinida del aminoácido t de pseudosecuencia. Un ejemplo específico de un mapa de puntos de contacto para moléculas de MHC de clase I se puede encontrar en Nielsen et al. Un ejemplo adicional de moléculas MHC de clase II se puede encontrar en Karosiene et al, Immunogenetics 2013, 65:711-724.

Se han utilizado mapas de puntos de contacto para construir los llamados modelos de "bolsillo" de unión de péptido-MHC, en los que cada aminoácido (monómero) del péptido se trata como una unidad de unión separada que está unida a uno o más aminoácidos de la pseudosecuencia del MHC que se supone que se encuentran en la proximidad del monómero en función del mapa de puntos de contacto. Los aminoácidos proximales de la pseudosecuencia del MHC pueden denominarse "bolsillo de unión". Esto permite la predicción de patrones de unión del MHC para alelos en los que hay pocos o ningún dato de entrenamiento disponible, haciendo coincidir los bolsillos de unión con ocurrencias similares de subunidades estructurales en los datos de entrenamiento y luego sumando todas las contribuciones de afinidad de unión de las subunidades coincidentes.

Es deseable proporcionar un procedimiento para la predicción de afinidades de unión que mejore los enfoques anteriores, o al menos proporcione una alternativa útil.

El documento de patente WO 2004/003221 se refirió a procedimientos para la predicción de la afinidad de unión de péptidos por proteínas. Morten Nielsen et al: "NetMHCpan-3.0; improved prediction of binding to MHC class I molecules integrating information from multiple receptor and peptide length datasets (NetMHCpan-3.0; predicción mejorada de la unión a moléculas de MHC de clase I integrando información de múltiples conjuntos de datos de longitud de péptidos y receptores)", Genome Medicine, vol. 8, no. 1, 30 de marzo de 2016 (2016-03-30), DOI: 10.1186/s13073-016-0288-x, proporciona procedimientos adicionales para predecir la afinidad de unión.

Sumario

En términos generales, la presente divulgación propone un procedimiento y un sistema para la predicción de la afinidad de unión en la que el enfoque de bolsillo de la técnica anterior se extiende más allá del uso de monómeros. Por consiguiente, en ciertas realizaciones, es posible capturar la influencia de los residuos de longitud de n-meros de aminoácidos contextuales (donde n está entre 2 y la longitud del péptido) tanto en el péptido como en la molécula de MHC.

En un primer aspecto de la presente divulgación, se proporciona un procedimiento implementado por ordenador de acuerdo con la reivindicación 1 adjunta.

La afinidad de unión predicha se determina de forma más fiable que las técnicas de la técnica al considerar las relaciones contextuales de los bolsillos de unión de MHC y mejora la precisión de la predicción de la afinidad de unión de una manera que representa mejor la complejidad biológica de la unión del péptido al MHC. La técnica reduce efectivamente la complejidad combinatoria del modelado en comparación con las técnicas existentes. La operación de similitud puede generar puntuaciones de similitud respectivas generando una primera puntuación de similitud para una comparación entre una subsecuencia ligante de consulta y una subsecuencia ligante de referencia, y una segunda puntuación de similitud para una comparación entre una subsecuencia diana de consulta y una subsecuencia diana de referencia, y combina la primera puntuación de similitud. y la segunda puntuación de similitud.

Preferentemente, a la primera puntuación de similitud se le puede dar un valor distinto de cero en el caso de una coincidencia exacta, y un valor de cero en caso contrario.

Más preferentemente, a la segunda puntuación de similitud se le puede dar un valor distinto de cero en el caso de una coincidencia exacta, y un valor de cero en caso contrario.

En ciertas realizaciones, la operación de similitud puede comprender una alineación de secuencia entre una subsecuencia ligante de consulta y una subsecuencia ligante de referencia, y/o una alineación de secuencia entre una subsecuencia diana de consulta y una subsecuencia diana de referencia. Preferentemente la operación de similitud utiliza la matriz BLOSUM80.

En ciertas realizaciones, la operación de similitud puede comprender: generar un gráfico bipartito que comprende un primer conjunto de nodos y un segundo conjunto de nodos, conteniendo el primer conjunto de nodos solo subsecuencias ligantes y conteniendo el segundo conjunto de nodos solo subsecuencias diana, siendo los pesos de borde del gráfico bipartito iguales a los valores de unión conocidos asociados; y determinar una proyección monopartita del gráfico bipartito para el primer conjunto de nodos y/o el segundo conjunto de nodos, en el que las puntuaciones de similitud son pesos de borde de la proyección monopartita.

En estas realizaciones se puede calcular una puntuación de similitud para un par de nodos del primer conjunto determinando un conjunto de nodos comunes del segundo conjunto al que están conectados ambos nodos del par de nodos del primer conjunto; y calcular una correlación lineal entre los pesos de borde correspondientes del gráfico bipartito. Se puede calcular una puntuación de similitud para un par de nodos del segundo conjunto determinando un conjunto de nodos comunes del primer conjunto al que están conectados ambos nodos del par de nodos del segundo conjunto; y calcular una correlación lineal entre los pesos de borde correspondientes del gráfico bipartito.

Las posiciones de los residuos de aminoácidos de contacto se pueden determinar de acuerdo con un mapa de puntos de contacto.

La etapa de determinar las posiciones de contacto puede comprender además simular una subsecuencia ligante de consulta virtual para su uso en el mapa de puntos de contacto en función de la subsecuencia ligante de consulta virtual, en el que la subsecuencia ligante de consulta virtual tiene una longitud diferente a la subsecuencia ligante de consulta, y/o simular un conjunto de puntos de contacto para su uso en el mapa de puntos de contacto. Una cantidad de puntos de contacto en el conjunto de puntos de contacto puede ser diferente de la longitud de la subsecuencia ligante de consulta y/o de la subsecuencia ligante de referencia. De esta manera, el procedimiento puede ser aplicable a diferentes longitudes, por ejemplo, donde k < 9, o k > 9, para un mapa de puntos de contacto de 9 unidades. Preferentemente, el mapa de puntos de contacto puede definirse para contener información de longitud diferente. En ciertas realizaciones, el procedimiento puede comprender reducir, o expandir, una subsecuencia ligante de consulta más grande o más pequeña para ajustarse al mapa de puntos de contacto o mapear múltiples residuos de aminoácidos a un punto de contacto de modo que el efecto físico del mapa de puntos de contacto resulte en un número determinado de bolsillos.

En ciertas realizaciones, la longitud máxima de una subsecuencia ligante de consulta puede ser L, L > 1, y el conjunto de una o más subsecuencias ligantes de consulta puede comprender todas las subsecuencias posibles de la primera secuencia de aminoácidos de longitud entre 1 y L.

La operación de similitud puede comprender ponderar cada par de subsecuencias ligantes-diana de referencia de acuerdo con las posiciones de aminoácidos de la subsecuencia ligante de referencia respectiva.

Preferentemente, la segunda secuencia de aminoácidos puede ser una secuencia de proteína MHC. Más preferentemente, la secuencia de proteínas MHC puede ser una secuencia de proteína HLA.

Calcular la afinidad de unión puede comprender calcular un producto de una matriz de datos de referencia, una matriz de transposición de datos de consulta y un vector de los valores de unión de referencia, en el que las entradas de la matriz de datos de referencia son indicativas de la presencia o ausencia de subsecuencias de referencia en las respectivas secuencias ligantes de referencia y/o secuencias diana de referencia, y las entradas de la matriz de transposición de datos de consulta son indicativas de la presencia o ausencia de subsecuencias de referencia en las respectivas secuencias ligantes de consulta y/o secuencias diana de consulta; y en el que las entradas de la matriz de datos de referencia y las entradas de la matriz de datos de consulta se ponderan en función de las puntuaciones de similitud. En esta realización, el producto se puede calcular mediante una técnica de cálculo de matriz dispersa.

La presente invención es aplicable tanto a moléculas de MHC de clase I como a moléculas de MHC de clase II.

De acuerdo con un aspecto adicional de la invención, se puede proporcionar un procedimiento de generación de al menos un péptido de unión a proteínas candidato, comprendiendo el procedimiento: obtener secuencias de aminoácidos de una pluralidad de péptidos y una secuencia de aminoácidos de una proteína; determinar, para cada péptido, una afinidad de unión predicha a la proteína, mediante un procedimiento de acuerdo con una cualquiera de los aspectos anteriores de la invención; y seleccionar uno o más péptidos candidatos de la pluralidad de péptidos en función de la respectiva afinidad de unión predicha.

La secuencia de aminoácidos de la proteína se puede obtener mediante uno de: pruebas serológicas de anticuerpos, procedimientos de hibridación de oligonucleótidos, procedimientos basados en la amplificación de ácidos nucleicos (incluidos, entre otros, procedimientos basados en la reacción en cadena de la polimerasa), predicción automatizada basada en ADN o ARN. secuenciación, secuenciación de péptidosde novo,secuenciación de Edman o espectrometría de masas.

El procedimiento puede comprender además sintetizar uno o más péptidos candidatos.

Además, el procedimiento puede comprender además codificar el péptido candidato en una secuencia de ADN o ARN correspondiente. Además, el procedimiento puede comprender incorporar la secuencia en un genoma de un sistema de administración bacteriano o viral para crear una vacuna.

Por lo tanto, las vacunas basadas en péptidos, ADN o ARN se construyen de manera más confiable para un paciente individual ya que la afinidad de unión se puede predecir de manera más efectiva, particularmente cuando hay pocos o ningún dato de referencia disponible para los alelos. La invención ha demostrado un rendimiento competitivo con respecto al de las herramientas de la técnica en una evaluación de validación cruzada y un rendimiento superior para cualquier subconjunto de alelos que tienen poca o ninguna cobertura en los datos de referencia disponibles.

De acuerdo con un aspecto adicional de la invención, se puede proporcionar un sistema de predicción de afinidad de unión para predecir una afinidad de unión de una molécula ligante de consulta a una molécula diana de consulta, teniendo la molécula ligante de consulta una primera secuencia de aminoácidos y teniendo la molécula diana de consulta una segunda secuencia de aminoácidos, comprendiendo el sistema al menos un procesador en comunicación con al menos un dispositivo de memoria, teniendo el al menos un dispositivo de memoria almacenado en el mismo instrucciones para hacer que al menos un procesador realice un procedimiento de acuerdo con una cualquiera de los aspectos anteriores de la invención.

Breve descripción de los dibujos

Ahora se describirán en detalle las realizaciones, únicamente a modo de ejemplo, con referencia a las figuras adjuntas, en las que:

Las Figuras 1A y 1B muestran una realización de un procedimiento para la predicción de la afinidad de unión de un ligante a una diana;

La Figura 2 representa esquemáticamente la generación de una representación de una secuencia de aminoácidos como un conjunto de subsecuencias;

La Figura 3 muestra un ejemplo de un mapa de contacto para su uso en el procedimiento de las Figura 1A y 1B;

La Figura 4 muestra ejemplos de subsecuencias diana (MHC) generadas para su uso en el procedimiento; Las Figuras 5 a 7 representan etapas en la generación de datos de referencia para su uso en el procedimiento; y

Las Figuras 8 a 10 representan diversos procedimientos para adaptar una secuencia de aminoácidos de consulta que no coincide con una secuencia de aminoácidos de referencia.

Descripción detallada

Los procedimientos de acuerdo con ciertas realizaciones permiten predicciones computacionales de una afinidad de unión de una molécula ligante de consulta, tal como un péptido, a una molécula diana de consulta, tal como una proteína. Cada una de la molécula ligante de consulta y la molécula diana de consulta tiene una secuencia de aminoácidos respectiva. Las predicciones se realizan sobre la base de datos de referencia que comprenden pares de ligante-diana de referencia, teniendo cada par un valor de unión conocido (medido), que puede ser un valor de IC50 medido en nM u otro valor basado en IC50, por ejemplo. Los datos de referencia también pueden denominarse datos de entrenamiento en la presente memoria descriptiva.

El valor de unión no necesita ser una medida directa de la afinidad de unión siempre que refleje la fuerza de unión relativa entre un ligante y un objetivo (es decir, en relación con otros pares de ligante-diana). Usualmente, los datos de referencia pueden obtenerse al menos en parte de una base de datos pública tal como Immune Epitope Database (IEDB) (www.iedb.org), GPCRdb (www.gpcrdb.org) o BRENDA (http://www.brendaenzymes.org).

Con referencia a la Figura 1, un procedimiento 100 de acuerdo con ciertas realizaciones comprende una etapa 105 de acceder al almacén de datos de referencia de pares de ligante-diana de referencia. Cada par de ligantediana de referencia comprende una secuencia de aminoácidos ligante de referencia, tal como una secuencia peptídica, y una secuencia de aminoácidos diana de referencia, tal como una secuencia de proteína MHC. La siguiente discusión se centrará en la unión péptido-MHC, pero se entenderá que los procedimientos y sistemas discutidos a continuación pueden adaptarse fácilmente a otros conjuntos de datos en los que estén disponibles secuencias ligantes emparejadas y secuencias diana y los valores de unión correspondientes.

Con el fin de generar una predicción para un par de péptido-MHC de consulta que no está en los datos de referencia, un procedimiento de acuerdo con las realizaciones primero genera (etapa110) una representación de la secuencia peptídica de consulta como un conjunto de una o más subsecuencias peptídicas de consulta que se expanden colectivamente a lo largo de la secuencia peptídica de consulta, teniendo al menos una de estas subsecuencias dos o más aminoácidos de longitud. Por ejemplo, una posible representación se genera descomponiendo la secuencia peptídica en todos los 2-meros contiguos posibles, como se muestra en la Figura 2(b), en la que los 2-meros se colocan en mosaico a lo largo y, por lo tanto, expanden colectivamente la secuencia peptídica en forma superpuesta a intervalos de 1 residuo. Otra posible representación es en términos de 3-meros, en los que al menos algunas de las subsecuencias de 3-meros no son contiguas, como se muestra en la Figura 2(g). Nuevamente, toda la longitud del péptido de 9-meros está abarcada colectivamente por las de 3 unidades (es decir, cada residuo de péptido está contenido en al menos uno de los 3-meros).

A continuación, para cada subsecuencia peptídica de consulta, el procedimiento determina (etapa115) las posiciones de contacto de los residuos de aminoácidos de contacto en la secuencia de MHC de consulta. Usualmente, esto se hace mediante el uso de un mapa de contacto adecuado. Por ejemplo, para secuencias de MHC de clase I, se puede utilizar el mapa de contacto de Nielsen et al., que se reproduce en la Figura 3. Sin embargo, en general se podría utilizar cualquier mapa de puntos de contacto, ya sea previsto o experimental. Usando el mapa de contacto de Nielsen et al., el primer 2-mero de la Figura 2(b), que tiene posiciones (1, 2), tendría posiciones de contacto correspondientes c = (7, 9, 24, 45, 59, 62, 63, 66, 67, 70, 99, 159, 163, 167, 171) en la secuencia de MHC de consulta.

De manera análoga a la terminología de bolsillos de unión de la técnica anterior, las unidades de unión no monoméricas de las presentes realizaciones pueden describirse como "bolsillos de orden superior" o HOP. En el contexto de la unión péptido-MHC, las subsecuencias peptídicas de consulta individuales pueden denominarse HOP peptídicos de consulta, y las subsecuencias de MHC de consulta correspondientes, que se ensamblan a partir de los residuos de MHC en las posiciones de contacto correspondientes (por ejemplo, como se derivan de un mapa de contacto), pueden denominarse HOP de MHC de consulta. Por lo tanto, cada HOP es una subsecuencia peptídica o de la secuencia de MHC, según corresponda. El proceso de generación de un HOP a partir de un péptido o secuencia de MHC, utilizando uno o más conjuntos de posiciones de aminoácidos de la secuencia, puede denominarse descomposición de HOP.

Una vez que se ha determinado un HOP de MHC de consulta para cada HOP peptídico de consulta, los pares de HOP pueden almacenarse (por ejemplo, en RAM o en una base de datos) como pares de subsecuencias peptídicas-MHC de consulta (HOP).

A continuación, el procedimiento genera (etapa120), utilizando los pares de ligante-diana de referencia (péptido-MHC), un conjunto de datos de referencia. El conjunto de datos de referencia puede comprender una pluralidad de filas, conteniendo cada fila una subsecuencia peptídica de referencia, una subsecuencia de MHC de referencia y un valor de unión de referencia. Las subsecuencias peptídicas de referencia son HOP peptídicos de referencia que se generan utilizando las mismas posiciones de aminoácidos que las utilizadas para generar los HOP peptídicos de consulta. De manera similar, las subsecuencias de MHC de referencia son HOP de referencia de MHC que se generan utilizando las mismas posiciones de contacto que se utilizan para generar los HOP de MHC de consulta. Un par HOP de péptido-MHC de referencia está asociado con un valor de unión de referencia que es igual al valor de unión del par de péptido-MHC del que se derivaron los HOP.

Ahora se describirá un ejemplo particular de descomposición de HOP y la generación de un conjunto de datos de referencia con referencia a la Figura 4 a la Figura 7. Las secuencias mostradas no son secuencias reales peptídicas o de MHC, sino que se han elegido simplemente con fines ilustrativos. Como se muestra en la Figura 5, los valores de unión están disponibles para los alelos HLA-X y HLA-Y unidos a uno de varios péptidos diferentes, pero en el presente ejemplo, se desea predecir la unión al alelo HLA-X, de un nuevo péptido ABYDEFGHI que no está representado en los datos de referencia, y de un péptido ABCDEFGHI que está representado en los datos de referencia, pero cuya unión al alelo HLA-Z es desconocida. La descomposición de<h>O<p>se ilustra sólo para las posiciones (1, 2) y (1, 3) del péptido, pero se entenderá que se usa el mismo procedimiento para otras posiciones del péptido según sea necesario para expandir colectivamente toda la secuencia peptídica en la manera discutida anteriormente.

No se muestran las secuencias completas de los tres alelos, pero para las tres posiciones (1, 2, 3), los HOP de MHC correspondientes se pueden generar usando un mapa de contacto apropiado como se describió anteriormente. En el ejemplo ilustrado en la Figura 4, cada residuo peptídico está en proximidad con 3 residuos de MHC de acuerdo con el mapa de contacto particular utilizado. Se entenderá que, en general, diferentes residuos peptídicos pueden estar en proximidad con menos o más residuos de MHC que este, dependiendo de la forma exacta del mapa de contacto u otros medios utilizados para determinar las posiciones de contacto.

Para el péptido de consulta ABYDEFGHI, el HOP peptídico en las posiciones (1, 2) se genera determinando los aminoácidos en esas posiciones a lo largo de la secuencia, es decir, AB. De manera similar, el HOP peptídico en las posiciones (1, 3) es AY. Los HOP de MHC correspondientes para los dos conjuntos de posiciones para el alelo HLA-X vienen dados por la concatenación de los HOP que se muestran en la Figura 4. De este modo, para las posiciones (1, 2), el HOP de MHC para HLA-X es ABCd Ef , y para las posiciones (1, 3), el HOP de MhC es ABCABD.

Se puede llevar a cabo el mismo proceso para los datos de referencia, como se muestra en la Figura 5. Por ejemplo, como se muestra en la primera fila, el péptido ABCDEFGHI tiene una descomposición de HOP AB en las posiciones (1, 2) y una descomposición de HOP AC en las posiciones (1, 3). No es necesario regenerar los HOP de MHC para HLA-X, ya que la secuencia de MHC de referencia en este caso es la misma que la secuencia de MHC de consulta.

Como se muestra en la Figura 5, cada par HOP peptídico de HOP-MHC tiene un valor de unión asociado que es igual al valor de unión del par de péptido-MHC a partir del cual se generó. Debido a que las descomposiciones de HOP para diferentes pares de secuencias no son necesariamente únicas, el procedimiento puede incluir una etapa adicional de calcular un resumen de los diferentes valores de unión para pares de HOP repetidos, por ejemplo, tomando la media o la mediana de los valores de unión. Esto se ilustra en la Figura 5, en la que, por ejemplo, el valor de unión del emparejamiento ABCDEF-AB se calcula como la media de los valores individuales (0,9, 0,8, 0,8, 0,9, 0,5).

Una vez que se han realizado todas las descomposiciones de HOP para las secuencias peptídicas y de MHC de referencia, y se ha calculado un resumen apropiado para pares de HOP repetidos, el resultado es un conjunto de datos de referencia que comprende, en este caso, dos tablas: una primera tabla 510 para posición de contacto (1, 2), y una segunda tabla 520 para la posición de contacto (1, 3). Se apreciará que, en el caso de un conjunto completo de posiciones de contacto que abarca toda la secuencia peptídica, se generarán tablas adicionales de datos de referencia para crear el conjunto de datos de referencia.

Volviendo a la Figura 1B, en la siguiente etapa 125 del procedimiento, se realiza al menos una operación de similitud de secuencia en los respectivos pares HOP de péptido-MHC de consulta y los pares HOP de péptido-MHC de referencia para generar una pluralidad de puntuaciones de similitud. para cada par HOP de péptido-MHC de consulta.

En un ejemplo, a la puntuación de similitud se le puede dar un valor de 1 en el caso de una coincidencia exacta entre el par HOP de consulta y el par HOP de referencia, y un valor de 0 en caso contrario. De este modo, por ejemplo, el par HOP de consulta AB-ABCDEF en la posición (1, 2) del péptido se le asignaría una puntuación de similitud de 1, ya que coincide exactamente con AB-ABCDEF en la primera fila de la tabla de datos de referencia en la Figura 5, pero a AY-ABCABD en la posición (1, 3) se le asignaría una puntuación de 0 porque no hay coincidencia en la tabla de datos de referencia en la Figura 5.

En otro ejemplo, la puntuación de similitud se puede calcular usando una matriz de sustitución de aminoácidos, como la que se muestra en la Figura 4. Esto permite la inclusión de contribuciones a la predicción de la afinidad de unión de secuencias que son similares (de una manera biológicamente significativa), pero no idénticas, a la secuencia de consulta. La puntuación de similitud se puede calcular por separado para los HOP peptídicos y los HOP de MHC. De este modo, por ejemplo, se puede imponer una coincidencia exacta para el<h>O<p>peptídico, pero se puede usar una matriz de sustitución para el HOP de MHC.

Por ejemplo, el alelo MHC de consulta HLA-Z no está representado en los datos de referencia de la Figura 5, pero se ha determinado que tiene HOP de MHC ABCDEX en la posición (1, 2) y ABCXYD en la posición (1, 3). Aunque ABCDEX no tiene coincidencias exactas en los datos de referencia para la posición (1, 2), si se utiliza la matriz de sustitución de la Figura 4, se puede calcular una puntuación de similitud (normalizada) de 0,79 y utilizarla para ponderar la contribución de ABCDEX para la predicción general de la afinidad de unión como se explicará con mayor detalle a continuación.

En otro ejemplo, la puntuación de similitud se puede calcular usando una operación de similitud de vecindad de red, en la que se genera una red bipartita a partir de los HOP de MHC y los HOP peptídicos, siendo los pesos de los bordes de la red los valores de unión de los respectivos pares de péptido-MHC y proyecciones monopartitas de la red realizadas, como se explicará con mayor detalle a continuación.

Volviendo a la Figura 1B, la siguiente etapa 130 del procedimiento incluye calcular la afinidad de unión para el péptido de consulta a la proteína MHC de consulta como una combinación ponderada, típicamente una suma, de los valores de unión (de los datos de referencia) de los pares HOP de péptido-MHC de referencia. Los pesos de la combinación ponderada se basan en las puntuaciones de similitud y pueden incluir contribuciones de más de una operación de similitud. Por ejemplo, se pueden aplicar tanto la similitud de secuencia como la similitud de vecindad de red.

Las realizaciones amplían el concepto de bolsillos de unión más allá del enfoque de monómero y realizan inferencias basadas en todos los posibles bolsillos de n-meros dentro de un complejo de péptido-MHC de kmeros, parak>n> 1, para mejorar la predicción de unión de MHC-péptido. Al abarcar bolsillos de MHC-péptido de orden superior, se incluye la influencia de los residuos de longitud de n-meros de aminoácidos contextuales tanto en el péptido como en la molécula de MHC, mejorando así la precisión de la predicción de la afinidad de unión de una manera que representa mejor la complejidad biológica de unión MHC-péptido.

Mediante la incorporación de la similitud de secuencia y vecindad sola, o de manera conjunta, es posible realizar predicciones para alelos de MHC que no están bien representados (o no están representados en absoluto) en los datos de referencia disponibles. El presente procedimiento proporciona un predictor de unión de MHC-péptido físicamente interpretable y altamente generalizable.

A continuación, se describirán con mayor detalle aspectos adicionales de las realizaciones anteriores.

Descomposición de HOP

En un ejemplo, la unión de un péptido de k-meros a una hendidura de unión de MHC, por ejemplo, una de 9-meros, se puede modelar como ocho interacciones de bolsillo de unión de MHC-péptido de 2-meros, siete interacciones de bolsillo de unión de 3-meros, y así sucesivamente como número (k -n+ 1) de interacciones de n-meros. Denotaremos este enfoque, utilizando sólo segmentos de n-meros contiguos, como el enfoque "conectado". Las Figuras 2(b) y 2(c) ilustran el enfoque conectado para los HOP peptídicos de 2 y 3-meros. En otro ejemplo, el péptido lineal puede considerarse como un bucle cerrado. Para los HOP de 3-meros generados a partir de un péptido de 9-meros, esto implica agregar los 3-meros "conectados en bucle" que consisten en las posiciones peptídicas (8, 9, 1) y (9, 1,2).

Si bien tales realizaciones pierden algunos aspectos de interpretabilidad física al modelar la interacción MHC-péptido de esta manera, son ventajosas porque rectifican un posible sesgo hacia los residuos peptídicos centrales en el enfoque conectado. En el caso de 3-meros, por ejemplo, las posiciones 1 y 9 del aminoácido peptídico terminal en el enfoque conectado solo estarán cubiertas por un 3-mero cada una, (1, 2, 3) y (7, 8, 9), respectivamente. Las posiciones de residuo 2 y 8 estarán cubiertas por dos 3-meros, y las posiciones restantes por tres 3-meros. Utilizando el enfoque de descomposición en bucle cerrado, siempre habrá nueve n-meros descompuestos a partir de un 9-mero. A esto lo llamamos el enfoque del "bucle". El enfoque de bucle se ilustra para 3-meros en la Figura 2(e).

En un ejemplo adicional, podemos considerar todas las n-combinaciones posibles para la interacción del bolsillo de unión de MHC-péptido en cuestión, donde el número de n-meros viene dado por el coeficiente binomial

y ' J " posibles combinaciones de n-meros, respectivamente. Si bien se aleja aún más de la interpretabilidad física, dado que la mayoría de los n-meros ahora no son contiguos, este enfoque de descomposición aumenta en gran medida la posibilidad de encontrar interacciones de bolsillo de unión de MHC-péptido que coincidan entre los datos de referencia y de consulta. Además, no hay sesgo de posición. A esto lo llamamos el enfoque "completo". Esto se ilustra para 3-meros en la Figura 2(g).

Para un péptido de longitudk= 9 unido a una molécula de MHC, cuyos 9 bolsillos de unión están dados por un mapa de puntos de contacto, definimos lo siguiente para una interacción de bolsillo de unión de MHC-péptido de n-meros:

- Unaposición de contactoconsiste enknúmeros no repetidos (de 1 a 9 para un monómero), que indican las posiciones de los residuos peptídicos y los correspondientes bolsillos de unión de MHC (p. ej., derivados de acuerdo con un mapa de contacto).

- UnBolsillo de Orden Superior (HOP)es la realización del complejo de unión de MHC-péptido, es decir, loskresiduos peptídicos unidos y los correspondientes bolsillos de unión de MHC, en la posición de contacto dada.

- UnHOPpeptídicoes el componente peptídico de un HOP. Por ejemplo, la posición de contacto (1, 3, 4) y el péptido "ABCDEFGHI" dan como resultado el HOP peptídico "ACD".

- UnHOP de MHCes el componente MHC de un HOP, como se analizó anteriormente en el contexto de la Figura 1.

Las realizaciones del presente procedimiento se pueden aplicar usando un único valorny un único enfoque ("completo", "bucle" o "conectado"), o combinando varios n-valores y enfoques. Se ha descubierto que el enfoque "completo" proporciona un rendimiento superior en general.

Para los fines de la discusión siguiente, se puede definir la siguiente función HOP:

en la que I es una molécula de MHC, X un péptido y c<E>C(n)una única posición de contacto entre el conjunto de posiciones de contacto C para el enfoque y el valornen cuestión.(i,x)cdenota la realización de HOP deIy X en la posición de contacto c, dondeies el HOP de MHC y x es el HOP peptídico. Denotamos las moléculas de MHC conIyJ,los HOP de MHC con las correspondientes letras minúsculasiyj,los péptidos completos con X y Y, y los péptidos HOP correspondientemente con x yy.Cabe señalar que sólo los HOP que pertenecen a la misma posición de contactocpueden compararse directamente, y que es posible que pares desiguales de MHC-péptido,(I,X), se descompongan en varios HOP idénticos,(i,x)c,siempre que exista una superposición adecuada en las secuencias de aminoácidos del MHC y del péptido, como se analizó anteriormente.

Considere un par de consulta MHC-péptido(I,X)con afinidad de unión desconocida y componentes HOPH(c,I,X)^(i,x)c .Dado un conjunto de datos de referencia de pares MHC-péptido(J,Y), con las correspondientes afinidades de uniónwjy,y componentes HOPH: (c,J,Y)^(j,y)c,se puede usar la siguiente expresión para predecir la contribución de la afinidad de unión del único componente HOP(i,x)ca la afinidad de unión entreIy X:

Sim(í,y ; x, y) ■Wjy (c,I, X)

Pixíc,Sim) = (<2>)

en la que{(j,y)c}es el conjunto de todos los HOP únicos con c<E>C(k).Además,Sim(i,j; x,y) es una métrica de similitud general que proporciona una puntuación de similitud cuantitativa entre dos HOP cualesquiera(i,x)cy(j,y)c .Los pesos pueden representarse mediante la expresión:

X{H<c,;.y)=g,y),} GlobalSim(7J,X, Y) ■ w]Y

wjy(c, I, X)

2{í/(cj1K)=Ü,y)c}|CilobalSim(7,/;X,y,)| J<(3)>

en la que{H(c,J,Y)=(j,y)c} es el conjunto de todas las entradas en los datos de referencia para las cuales el par MHC-péptido(J, Y)se descompone en HOP(j,y)cywjyes el valor de afinidad de unión transformado asociado con el par MHC-péptido(J,Y). El operador de similitud GlobalSim(I,J; X,Y)es independiente de HOP, es decir, "global" dentro del marco, y proporciona una puntuación de similitud cuantitativa entre dos pares cualesquiera de péptidos MHC(I, X)y(J,Y). En ciertas realizaciones, GlobalSim(I,J; X,Y)= 1, que es el equivalente a dejar que la Ecuación (3) sea simplemente el promedio de los valores de afinidad de unión para todos los pares MHC-péptido que contienen el HOP(j,y)c .Usualmente, todas las métricas de similitud se definen en el intervalo de 0 a 1, donde 1 implica una similitud perfecta mientras que 0 implica ninguna similitud o una similitud mínima.

La Ecuación (2) expresa la contribución de una única posición de contacto a la predicción de la afinidad de unión total del par MHC-péptido(I,X). Sumando todas las posiciones de contacto para el enfoque de n-meros en cuestión, es posible calcular la predicción de la afinidad de unión para un par MHC-péptido de consulta(I,X)mediante la siguiente:

en la queA(c)es un peso de valor de anclaje que permite dar más importancia a ciertas posiciones que a otras en la interacción de unión MHC-péptido. Las posiciones peptídicas 2 y 9 son ejemplos de tales posiciones para la unión de HLA.

En ciertas realizaciones, puede ser deseable incluir la posibilidad de tener múltiples valores n, con múltiples opciones de métricas de similitud asociadas. Por lo tanto, en tales realizaciones, la predicción de la afinidad de unión se puede obtener sumando las contribuciones de las diferentes combinaciones deny Sim de la siguiente manera:

en la queN(n,Sim) es el número de coincidencias HOP únicas parany Sim en cuestión, es decir, el número de elementos de suma distinta de cero en la Ecuación (2) en todas las posiciones de contactocen la Ecuación (4). La cantidad restante, f(n, Sim), es un valor de ponderación de importancia que permite flexibilidad al combinar varios enfoques individuales, por ejemplo, permitiendo que a los 3-meros se les dé el doble de importancia que a los 2-meros. La Ecuación (5) puede considerarse como una forma de combinar múltiples enfoques, permitiendo que varios modelos basados en varias métricas de similitud y valores n contribuyan a cada predicción de afinidad de unión.

A partir de las Ecuaciones anteriores (2, 4, 5), será evidente que el presente procedimiento proporciona flexibilidad en el sentido de que son posibles muchas opciones diferentes de la métrica de similitud HOP Sim(/j ;x,y).

En ciertas realizaciones, las operaciones de similitud en HOP peptídicos y HOP de MHC se realizan por separado. Como tal, la métrica de similitud general se puede expresar de la siguiente manera:

Sim( i , j ; x,y) = MHCSim(tJ) ■ PepSim(x, y), (6)

en la que MHCSim(/,j) proporciona la puntuación de similitud entre los HOP/yjdel MHC, y PepSim(x,y) la puntuación de similitud entre los péptidos HOP x y y.

En ciertas realizaciones, la longitud de un péptido de consulta puede ser diferente de la longitudkde los péptidos en los datos de referencia y/o el mapa de puntos de contacto. En este caso, el péptido de consulta puede transformarse en uno o más k-meros "virtuales". En las Figuras 8 a 10 se ilustran diferentes maneras de realizar lo anterior. De manera similar, el conjunto de puntos de contacto puede simularse para crear una hendidura de unión de MHC "virtual" o un bolsillo "virtual", como quedará claro en el siguiente ejemplo.

Por ejemplo, si los datos de referencia contienen 9-meros y el péptido de consulta es un 11-mero, en un enfoque "conectado" del problema, se puede pasar un abultamiento 800 de 2 aminoácidos a través de todo el péptido, comenzando y terminando con los 2 aminoácidos más externos que cuelgan de cada extremo de la hendidura de unión, como se muestra en la Figura 8(a). Hay 10 de estos péptidos virtuales por cada 11-meros físicos (no 9, ya que hay 2 extremos y 8 "intermedios" en un péptido de 9-meros). Otro enfoque, denominado enfoque "completo", ¡lustrado en la Figura 8(b), permite protuberancias y colgantes (802a, 802b) de longitud 1 y, por lo tanto, da como

como resultado una explosión combinatoria del número de péptidos virtuales parakgrande, ya que

parak >9. Otro enfoque, llamado enfoque de "ventana móvil", se ¡lustra en la Figura 9 y da como resultado 3 péptidos virtuales 902 para cada 11-mero físico 900.

Los enfoques de "ventana móvil", "conectado" y "completo" también son aplicables ak< 9, pero con abultamientos y colgantes sustituidos por inserciones de espacios. El número de péptidos virtuales también es menor, en comparación conk> 9, ya que el péptido físico es más pequeño.

Parak< 9, también podemos implementar una estructura de "estiramiento" peptídico, como se muestra en la Figura 10(a), en la que los aminoácidos individuales 1000 pueden ocupar más de un bolsillo, p. ej, pares de bolsillos adyacentes (1002, 1004) o (1004, 1006). Es decir, en lugar de insertar espacios, se pueden insertar duplicados de aminoácidos adyacentes para simular aminoácidos individuales que se extienden a lo largo de los bolsillos.

Parak> 9, podemos implementar adicionalmente un enfoque de "compresión" de péptidos, en la que se duplican una o más posiciones de péptidos, comprimiendo dos aminoácidos en el bolsillo de MHC único duplicado, como se muestra en la Figura 10(b). Por ejemplo, los aminoácidos 1050 y 1052 se pueden "comprimir" en el bolsillo 1060, o en el bolsillo 1062, y así sucesivamente.

En algunas realizaciones, los procedimientos anteriores se pueden combinar, por ejemplo, permitiendo que se combinen todos los enfoquesk >9 y que se combinen todos los enfoquesk <9, usando optimización u otros procedimientos de aprendizaje, para encontrar qué configuraciones de péptido virtual / MHC tienen más sentido en todos los datos. Por ejemplo, se pueden aplicar varias combinaciones de los diferentes procedimientos a uno o más conjuntos de datos de entrenamiento, y la combinación que proporcione el mejor rendimiento cuando se aplica a un conjunto de datos de prueba se puede seleccionar como la combinación óptima. Por consiguiente, una predicción de la afinidad de unión realizada utilizando los enfoques combinados puede comprender una suma ponderada sobre las contribuciones de predicción de la afinidad de unión de cada par virtual de péptido-MHC, lo que da como resultado una predicción de afinidad de unión por par físico de péptido-MHC.

Como se habrá observado, el k-mero "virtual" o hendidura de unión puede considerarse una simulación que permite utilizar múltiples consultas de longitud con el mapa de puntos de contacto. En los mapas de puntos de contacto convencionales, un péptido lineal de longitud fija se asigna a un conjunto de residuos de MHC de longitud fija. Para diferentes longitudes, el péptido puede dividirse en combinaciones de k-meros y cada combinación es procesada.

En un ejemplo de la técnica de k-meros simulada propuesta, un subconjunto del péptido de consulta de k-meros se puede mapear a un subconjunto de los puntos de contacto. Se pueden mapear múltiples aminoácidos peptídicos a cualquier número de bolsillos y, por lo tanto, el residuo a cualquier bolsillo traduciendo (o transcodificando) el k-mero de consulta en una secuencia diferente que se puede asignar a los puntos de contacto.

Los ejemplos anteriores incluyen reducir (o expandir) un péptido de consulta más grande (o más pequeño) para ajustarlo a un mapa de puntos de contacto o mapear múltiples aminoácidos a un punto de contacto de modo que el efecto físico dé como resultado un número determinado de bolsillos.

De esta manera, la técnica del mapa de puntos de contacto puede ser aplicable a diferentes longitudes de péptidos, por ejemplo, cuandok< 9, ok> 9, para un mapa de puntos de contacto de 9-meros. El mapa de puntos de contacto puede definirse para que contenga información de longitud diferente. De hecho, la técnica se puede aplicar a k-meros de longitudes diferentes a aquellas para las que está "diseñado" el mapa de puntos de contacto. Se propone una manera de abordar interacciones complejas entre dos proteínas/moléculas tridimensionales siempre que haya una manera de expresar los puntos de contacto entre las subsecuencias de aminoácidos objetivo y las subsecuencias de aminoácidos ligantes (subsecuencias de aminoácidos no contiguos de muchos a muchos).

Ejemplos de métricas de similitudSim(/,j/x,y)

Similitud básica

En una forma, los componentes de la métrica de similitudSim(/,j;x,y)en la Ecuación (6) se pueden expresar como:

'PepSim (x,y) = [(*>' x ^ y ' (7)

Esto es equivalente a requerir que el HOP de consulta coincida exactamente con al menos una entrada en el conjunto de datos de referencia para que contribuya a la predicción de la afinidad de unión. Al aplicar estas métricas, la Ecuación (2) se puede escribir como:

en la queNes el número de coincidencias exactas de HOP encontradas en los datos de referencia.

Similitud de secuencia

En algunas realizaciones, una operación de similitud puede comprender determinar una similitud de secuencia entre un HOP peptídico de consulta y un HOP peptídico de referencia, y/o una similitud de secuencia entre un HOP de MHC de consulta y un HOP de MHC de referencia.

El factor de similitud de MHC individual en la Ecuación (6) se puede escribir como:

SeqSim(t,7)ff

MHCSeqSim(¡,j)

SeqSim(i,i ) a '<( 9)>

y de manera equivalente para la similitud de secuencia peptídica, PepSeqSim(x,y). El parámetroa esun parámetro de ajuste que, como se entenderá, se puede aplicar para proporcionar un umbral suave, ya que regula la influencia de similitudes fuertes en comparación con las débiles sin eliminar datos explícitamente (un umbral duro, por otro lado, establecería puntuaciones de similitud por debajo del umbral en cero). Permitir que dicho parámetro se ajuste durante el entrenamiento puede conducir a un rendimiento del modelo mucho mejor que sia= 1. El rendimiento del modelo se puede evaluar utilizando el coeficiente de correlación de Pearson entre los valores de unión verdaderos y predichos, y el área bajo una curva (AUC) de características de receptor-operador (ROC) que se genera al tratar los puntos de datos con valores de IC50 á 500 nM como si estuvieran en la clase ligada y aquellos con valores por encima de ese umbral como si estuvieran en la clase no ligada. Estas métricas se denominarán en todo momento PCC y AUC, respectivamente.

En ciertas realizaciones, la similitud de secuencia se puede determinar usando la alineación BLOSUM. Ventajosamente, se ha descubierto que el uso de la matriz BLOSUM80 da como resultado el mejor rendimiento (nuevamente, medido por PCC y AUC) entre las matrices BLOSUM probadas por los presentes inventores. Sin embargo, se apreciará que otras matrices de puntuación, ya sea basadas en consideraciones evolutivas, consideraciones fisicoquímicas (tales como vectores de información topológica y estructural para aminoácidos codificados y no codificados - VTSA, y/o Vectores de puntuación de componentes principales de propiedades Hidrófobas, Estéricas y Electrónicas - VHSE), o ambos, también se pueden utilizar.

Similitud de vecindad de red bipartita

En algunas realizaciones, una operación de similitud puede comprender determinar una similitud de vecindad de red. En tales realizaciones, para una posición de contacto c dada, se puede generar una red bipartita (gráfico), en la que los componentesiy x del MHC y del HOP peptídico son los nodos superior e inferior, respectivamente. No hay conexiones directas ni bordes (enlaces) entre dos HOP de MHC o dos HOP peptídicos. Todos los bordes directos están entre los HOP de MHC y los HOP peptídicos, con valores de afinidad de unión como pesos de borde asociados. Utilizando la covarianza de estos pesos de borde en los nodos superiores o inferiores (HOP de MHC o peptídicos) en la red bipartita, es posible hacer predicciones para HOP que no existen en los datos de referencia. En el caso de las similitudes de vecindad de HOP de MHC, por ejemplo, la proyección monopartita ponderada de la red HOP de MHC-péptido se determina reemplazando todos los HOP peptídicos compartidos por cualquier par HOP de MHC con un único valor de peso que indique cuán similar es el par HOP de MHC. interactuó con el conjunto de HOP peptídicos compartidos. Existen varias formas de determinar el valor de peso, pero se ha descubierto que la correlación lineal entre pares de afinidades de unión proporciona el mejor rendimiento en términos de PCC y AUC. El factor HOP de MHC en la ecuación (genSim) se puede expresar como

MHCNbrSim(ij)

en la queNes el número de HOP peptídicos vecinos compartidos (nodos inferiores) y entre los HOP de MHC (nodos superiores)iyj,y laswson valores de peso de afinidad de unión efectiva para el par HOP de MHC con subíndice en cuestión (en el marco generalizado, Ecuación (3) también se puede aplicar a estos valores de peso). Se utiliza una expresión equivalente para la similitud de vecindad peptídica, PepNbrSim(x,y).

Aunque la operación de similitud de vecindad no puede permitir la inferencia de componentes HOPde novo,es ventajosa porque los datos de prueba no son necesarios para calcular las puntuaciones de similitud. En otras palabras, el modelo se puede entrenar sin ningún conocimiento previo de los datos de prueba. Esto puede permitir tiempos de predicción más cortos, que pueden ser preferibles a tiempos de entrenamiento cortos al menos en algunas circunstancias. También simplifica la implementación de otras técnicas, como elbootstrapping.

En algunas realizaciones, son posibles alternativas a la Ecuación (10). Para redes monopartitas, la métrica de superposición topológica ponderada (wTO) se ha aplicado previamente con éxito a varios sistemas biológicos. Véase, por ejemplo, K. Nowick, T. Gernat, E. Almaas, y L. Stubbs, "Differences in human and chimpanzee gene expression patterns define an evolving network of transcription factors in brain(Las diferencias en los patrones de expresión génicos de humanos y chimpancés definen una red en evolución de factores de transcripción en el cerebro)",Actas de la Academia Nacional de Ciencias, vol. 106, no. 52, págs. 22358-22363, 2009.

La wTO entre el nodo/vérticeiyjse puede calcular mediante:

en la quea¡jes un elemento en la matriz de adyacencia ponderada de la red ykies la conectividad ponderada/no ponderada (fuerza/grado del nodo) del nodoi.Por consiguiente, se puede utilizar una versión bipartita de esta métrica como métrica de similitud de vecindad de HOP, es decir, puede reemplazar el lado derecho de la Ecuación (10). Se puede expresar como:

en la que bwTO significa "diferencia topológica ponderada bipartita",i, json nodos superiores y x son nodos inferiores ykies el equivalente bipartito a la conectividad en la expresión wTO (suma de los vecinos de los nodos inferiores). Si el denominador es cero, el valor de bwTO también es cero. Alternativamente, se puede utilizar una métrica similar de "diferencia topológica ponderada bipartita" (bwTD) en lugar de la Ecuación (10b):

yjvl

bwTDL ix \<l^ ix a xj\>

i](10c)

£ £ max(|1a ixL |<a>«11)

Se ha descubierto que tanto bwTO como bwTD funcionan bien en algunos contextos, pero la Ecuación (10) ha surgido como la mejor opción general de similitud de vecindad basada en el rendimiento de predicción (PCC y AUC).

Parámetros de similitud

Tanto para la similitud de secuencia como de vecindad, y otros enfoques de similitud concebibles, puede ser ventajoso aplicar un parámetro de ajuste a, como se hace en las Ecuaciones (9) y (10), a fin de ajustar las puntuaciones de similitud de tal manera que a los HOP similares se les da la contribución de afinidad de unión adecuada en comparación con los HOP diferentes. En realizaciones en las que los valores de similitud oscilan entre 1 (idéntico) y 0 (diferente), podemos aplicarapara ajustar las proporciones entre los valores de similitud preservando su orden. También puede ser ventajoso aplicar un límite de similitud, ya sea en forma de una puntuación de similitud mínima o en forma de un número máximo fijomde puntuaciones similares. En el caso de similitud de secuencia de MHC, por ejemplo, donde MHCSim = MHCSeqSim y PepSim es la métrica de similitud binaria Básica, la Ecuación (2) se puede escribir como:

X/" Xy SeqSim(i,y)“ ■wjy

Pix(c,MHCSeqSim)

XjnXy|SeqSim(iJ/ ) a|(11)

en la que la suma dejamsimplemente significa que sumamos losmHOP de MHCjque son más similares a HOP de MHCi.

Optimización de parámetros

Hay varios parámetros libres en el marco general, que van desde los parámetros específicos de métricas de similitud, como los parámetros de ajuste y los valores de corte, hasta los parámetros más generalmente aplicables, como los pesos de posición de anclaje y los pesos de importancia de aproximación,f(n,Sim). Se pueden utilizar varias estrategias de optimización para encontrar estos parámetros, incluidos procedimientos tanto locales como globales.

En algunas realizaciones, se puede utilizar el enfoque de optimización de parámetros paso a paso que se detalla a continuación. Sin embargo, se apreciará que se pueden realizar muchos otros procesos de optimización de parámetros usando diversos procedimientos conocidos por los expertos en la técnica.

1. Se ha descubierto que los pesos de anclaje,A(c),en general no se ven afectados por los cambios en la configuración experimental, siempre que se evalúen en una configuración pan-alélica. Son, por lo tanto, la primera clase de parámetro que encontramos. Serían adecuados varios esquemas de optimización, pero elegimos aplicar la evolución diferencial (DE), ya que es posible optimizar para obtener los mejores valores de AUC, lo que, junto con la naturaleza global de la DE, se cree que proporciona parámetros menos propensos al sobreajuste. Se pueden elegir pares HOP básicos completos para 1, 2 y 3-meros como predictor para este paso. El algoritmo DE se ejecuta varias veces durante varios múltiplos de entrenamiento/prueba para garantizar parámetros generalizados, y los valores de anclaje promedio se pasan al siguiente paso. Cabe señalar que solo los 9 pesos de anclaje de monómero se consideran variables, ya que los pesos de anclaje de orden superior restantes se calculan como promedios de sus contribuciones de monómero.

2. Este paso es específico de cada enfoque de similitud, definido por un valorn(número de bolsillos en el enfoque) y una métrica de similitud, es decir,(n,Sim) en las ecuaciones. En este caso, los pares HOP básicos completos para 1, 2, 3-meros con los parámetros de anclaje encontrados en el paso anterior se combinan con la similitud específica (vecindario o secuencia) definida por (n, Sim) como el predictor para la optimización. Usando un algoritmo de optimización DE similar al del paso 1, solo hay 2 variables para optimizar para cada optimización específica, a saber, el parámetro de corte de sumamy el parámetro de potenciaa.DE se adapta muy bien a este paso, a diferencia de los procedimientos locales (como los mínimos cuadrados), ya quemes un número entero. También en este caso, la optimización se ejecuta varias veces para varios múltiplos de entrenamiento/prueba para garantizar parámetros generalizados, y los valores promedio demya(para cada enfoque específico (n, Sim)) se pasan al siguiente paso.

3. Siguiendo los pasos 1 y 2, se generaron los pesos de anclajeA(c)y todos los valoresmyanecesarios para los diversos enfoques de similitud. La parte restante es ajustar los parámetros de contribución de predicción fde cada enfoque (n, Sim) para que el rendimiento general de predicción sumado sea óptimo. Los parámetros de ajuste de curvas (a ybeny=ax+ b) también se pueden agregar a las variables de optimización para obtener predicciones de IC50 que se asemejen a las mediciones de IC50 reales en los datos de entrenamiento. Dado que el espacio variable es fluido y se comporta bastante bien, se puede utilizar la optimización de mínimos cuadrados, minimizando la distancia cuadrada general entre los valores verdaderos y predichos. Esto es casi equivalente a optimizar para valores de PCC elevados, que es una característica deseada para un procedimiento de regresión. Nuevamente, la optimización se ejecuta varias veces, con diferentes condiciones iniciales, para varios múltiplos de entrenamiento/prueba para generar una lista de conjuntos de parámetros (cada uno de los cuales resulta óptimo para su conjunto de entrenamiento/prueba y condiciones iniciales). El conjunto de parámetros final se encuentra aplicando algún procedimiento estadístico a esta lista, a través de promedios (media, mediana), correlación general máxima u otros procedimientos. Por correlación general máxima, nos referimos al conjunto de parámetros que tiene la correlación media más grande con todos los demás conjuntos de parámetros, que por lo tanto podrían denominarse "parámetros de consenso".

En un ejemplo, los datos de la IEDB se pueden dividir en dos subconjuntos, con un primer subconjunto usado para entrenamiento y un segundo subconjunto usado para pruebas. Por ejemplo, el primer y segundo subconjuntos pueden ser (1) todos los datos de afinidad de unión agregados a la IEDB hasta 2009 (denominados en la presente memoria descriptiva Kim09), y (2) todos los datos de afinidad de unión agregados entre 2010 y 2013 (denominados en la presente memoria descriptiva Kim13). Las mediciones de afinidad de unión (IC50/EC50) se pueden transformar usando la transformada logarítmica: 1-log(IC<50>)/log(500<2>), en la que la base logarítmica refleja el valor umbral predeterminado para el cual se dice que un par MHC-péptido se une (el ligante tiene IC50 á 500 nM). Además, se puede omitir parte de los datos para ayudar en las pruebas de sobreajuste, en un procedimiento denominado cegamiento de datos, por ejemplo, omitiendo de forma reproducible pseudoaleatoriamente el 0,5% de los datos de vinculación descritos anteriormente.

La evaluación del procedimiento se realizó mediante varios experimentos numéricos: (1) entrenamiento con los datos de Kim09 y prueba con los datos de Kim13, (2) realización de una validación cruzada de 5 veces usando los 5 múltiplos predefinidos en los datos de Kim09 (donde un "múltiplo" como se utiliza en la presente memoria descriptiva se refiere a un subconjunto de datos que no se superpone con ningún otro subconjunto), (3) entrenamiento con todos los datos no incluidos en el conjunto de datos ciegos al 0,5% y pruebas en el conjunto ciego, y (4) combinando los conjuntos de datos Kim09 y Kim13, dejando un alelo fuera para la prueba, mientras se entrena con todos los alelos restantes. Los cuatro tipos de experimentos se denominan a continuación: (1) Kim09-Kim13, (2) Kim09 5 veces, (3) Ciego y (4) LOAO (dejar un alelo fuera). Se utilizaron dos métricas de evaluación para cada experimento: el coeficiente de correlación de Pearson (PCC) entre los valores de unión verdaderos y predichos, y el área bajo la curva (AUC) de características de receptor-operador (ROC), utilizando el estándar de IC<50>á500 nM como el umbral de unión (es decir, un ligante y una diana se clasifican como unidos si el IC50 es menor o igual al umbral, y no consolidados en caso contrario). La curva ROC puede generarse mediante cualquier procedimiento conocido en la técnica. Por ejemplo, las funciones disponibles en los paquetes de Python NumPy y SciPy se pueden utilizar para generar la curva ROC.

Se descubrió que los pesos de la posición de anclaje de pan-alelos eran altamente estables en subconjuntos aleatorios y, por simplicidad, se eligieron para fijarlos como la solución óptima para la validación cruzada de 5 veces de Kim09. Se implementaron anclajes específicos de alelos para el marco de predicción específico de alelos de similitud de secuencia, pero no se intentaron en un marco pan-alelo. Los parámetros específicos de la métrica de similitud se encontraron utilizando la evolución diferencial en un esquema de entrenamiento pseudoaleatorio de 20 veces donde 5 alelos y el 5% de los datos quedaron fuera del entrenamiento y se usaron para las pruebas. También se intentó una validación cruzada quíntuple más tradicional, lo que dio como resultado modelos de buen rendimiento para todos los experimentos excepto para LOAO, lo cual es sensato ya que estos modelos nunca fueron "forzados" a predecir alelos MHC desconocidos durante el entrenamiento. También se encontró que los parámetros de similitud eran estables para varios subconjuntos, después de un número suficiente de iteraciones y, por lo tanto, también se mantuvieron estáticos para todos los enfoques pan en los resultados que se analizan a continuación. A fin de determinar los pesos de importancia del enfoque, optamos por un marco de entrenamiento dual en el que: (1) los modelos para los experimentos LOAO se entrenaron utilizando el mismo esquema de validación cruzada de 20 veces que el anterior, mientras que (2) los modelos para los otros experimentos se entrenaron utilizando validación cruzada estándar, con 1000 inicializaciones de parámetros aleatorios para cada múltiplo, donde los parámetros de consenso final se eligieron como el conjunto con la correlación promedio más alta con los otros miles de conjuntos de parámetros.

Cálculo de la predicción de la afinidad de unión

En una implementación, las predicciones de afinidad de unión en las Ecuaciones (2), (4) y (5) se pueden determinar realizando descomposiciones de HOP apropiadas en los datos de referencia, almacenando los resultados en uno o más diccionarios o tablashash,y luego, para cada consulta de HOP, se realiza una búsqueda de los resultados almacenados. Las sumas ponderadas se pueden calcular recorriendo diferentes descomposiciones de HOP, métricas de similitud, etc.

Alternativamente, algunas implementaciones pueden usar una codificación de matriz dispersa para calcular la afinidad de unión. Por ejemplo, la biblioteca de matrices dispersas de SciPy se puede utilizar junto con la funcionalidad NumPy para lograr eficacia de memoria y velocidad que supera con creces una implementación de diccionario iterativo más sencilla.

Comenzamos definiendo la matriz H, que es una matriz (#filas de datos * #ID de HOP). Los ID de HOP son números enteros que identifican de forma única cualquier HOP de MHC-péptido (ligante-diana). Para cada fila de datos, hay una secuencia de MHC (pseudosecuencia) y un péptido, que se pueden descomponer en N HOP (N = 9 si solo se incluyen HOP monoméricos). Para la fila de datos p, cada HOP tiene un ID de HOP asociado q. Comenzando con el marco Básico, a todos estos pares(p, q)se les asigna un valor de 1,0 en la matriz. Como referencia, la suma de cada fila en esta matriz básica(Basic)esN.

La matriz viene en dos versiones, "entrenamiento" y "prueba", en la queHtrainse construye utilizando los datos de entrenamiento (referencia), mientras queHtestse construye utilizando los datos de prueba (consulta). En su forma más simple (sin anclajes, sin promedios HOP duplicados), las predicciones básicas se pueden encontrar mediante:

P ~[ ^test X ^train XJ ]0 [ ^tcst X ^train X ® ]>(12)

en la queyes un vector de columna de forma (#filas de datos de entrenamiento * 1) que contiene los valores de

afinidad de unión asociados con los datos de entrenamiento, D es un vector unitario con la misma forma que y, yP esun vector de predicción de forma (#filas de datos de prueba * 1) que contiene las predicciones. El operador0denota división por elementos, por lo que se puede considerar que los corchetes más a la derecha contienen la normalización.

Para promediar los HOP duplicados, realizamos una suma a lo largo de las columnas deHtrain,dejándonos con un vector de fila de forma (1 * #ID de HOP). Al expandir este vector de suma a lo largo de las columnas hasta la forma deHtrain,podemos realizar una operación de división por elementos con la matriz de suma, denotada por M:

■^traín ^traín(Z) M ,(13 )

De manera similar, si queremos aplicar pesos de anclaje, simplemente realizamos una multiplicación por elementos (notación: O) entre la matriz A de pesos de anclaje, que tiene la misma forma que H, yHtestoHtrain.Como referencia, A tiene un máximo de N valores únicos y todas las columnas constan de elementos iguales (ya que es el mismo HOP). En cuanto a la implementación, esto no es tan engorroso como parece, porque podemos explotar esta estructura predecible de A evitando crear una matriz densa en forma de H. Lo mismo ocurre con la operación anterior con M. Aplicación de anclajes:

Hasta ahora no hemos considerado similitudes. Agregar similitudes al marco generalmente afecta todo el proceso, incluidos los pesos de anclaje y las normalizaciones, y debe aplicarse antes de cualquier otra operación. Si se utiliza similitud de vecindad o similitud de secuencia o ambas, ya no hayNHOP para cada fila. Más bien, el número de HOP por fila se ve afectado por n, Sim, m yay, en general, es desigual para cada fila. Sin embargo, una característica común para todas las filas es que siempre hay solo N elementos por fila iguales a 1,0 (paraadistinto de cero). A los demás elementos se les da un valor de similitud<E>[0,1). El proceso de poblar la matriz con estos elementos de similitud puede ser el siguiente:

1. Para cada HOP (descompuesto de la fila de datosp),encuentre losmHOP más similares existentes en los datos.

2. Para cada HOP, encuentre los ID de HOP q que coincidan con los m resultados encontrados en 1.

3. Sea el elemento(p, q)igual a la puntuación de similitud entre el HOP de origen y el HOP similar dado por Sim ya.

En lo anterior, HOP puede ser un HOP (completo) de MHC-péptido, HOP de MHC o HOP peptídico, dependiendo del enfoque elegido. Esto se puede hacer para múltiples similitudes, de modo que:

H = H Bas\c+ tfs im A ^SimB ■ ■ ■ - ( 15 ) siempre y cuando no existan elementos superpuestos entre las similitudes (si es así, se debe aplicar alguna regla para asegurar que los elementos estén entre 0 y 1).

Usualmente, las similitudes de secuencia solo se aplican a la matriz de "prueba", ya que las secuencias de consulta determinan qué similitudes necesitamos calcular para las predicciones. Las similitudes de vecindad usualmente solo se aplicarían a la matriz de "entrenamiento", ya que NbrSim se limita a hacer predicciones para HOP de MHC y peptídicos que ya existen en los datos de entrenamiento.

Las similitudes de secuencia y vecindad se pueden incorporar en la predicción de la siguiente manera (las autosimilitudes se eliminan de NbrSim y SeqSim, ya que ya están contenidas en la matriz básica):

^ t r a i n = ^ t r a i n Basic ^ t r a i n NbrSim ■ ( 10 )

Mse encuentra a partir deHtminde manera similar a la matriz de sumaManalizada anteriormente. Entonces:

^ tra in — ^ tra in 0^ ■

Además, añadiendo anclajes:

trainHtra in 0 / 1

La matriz de consulta es:

^ te s t^ te stBasic 3" ^ te s t SeqSim>

y las predicciones se encuentran, como antes, por:

P =[ « te s t X tftTain X y ] 0 [H testXH?rmnX 0 ] .

Si, como se mencionó anteriormente, el péptido de consulta tiene una longitudkdiferente a la de los péptidos de referencia, entonces se puede predecir la afinidad de unión para un único k-mero usando estos pasos:

- El k-mero se transforma en pares virtuales de péptido-MHC utilizando uno o una combinación de los procedimientos de descomposición descritos anteriormente.

- Se predice un valor de afinidad de unión para cada par virtual de péptido-MHC (denominado "predicción virtual" más adelante).

- La afinidad de unión del k-mero se encuentra mediante uno de:

o Seleccionar el valor de la mejor predicción virtual (valor IC50 más bajo).

o Calcular el promedio (media, mediana, etc.) de todas las predicciones virtuales.

o Promediar un subconjunto de predicciones virtuales, como el 10% o los 3 mejores valores.

o Realizar un promedio ponderado de todas las predicciones virtuales, si se puede adquirir un conjunto de pesos de importancia del par virtual de péptido-MHC.

Resultados de la evaluación

Procedimiento básico de pan-alelos

Se aplicó el procedimiento básico de pan-alelos (Ecuaciones (7) y (8)), utilizando la descomposición de HOP representada esquemáticamente y denominada "1, 2, 3-meros completos" en la Figura 2(h). También permitimos la optimización de los valores de peso de anclaje y aproximación, A(c) yf(n)en las ecuaciones (4) y (5) respectivamente. Utilizando los experimentos de validación descritos anteriormente, obtuvimos el rendimiento que se muestra en la Tabla 1 para el procedimiento básico de pan-alelos de 1, 2 y 3-meros. Cada una de las tablas en la presente son para 9-meros para demostrar las técnicas descritas. El procedimiento proporcionó un valor de AUC de 0,920 y un valor de PCC de 0,752 para el experimento Kim09-Kim13, con valores comparables para la validación cruzada de 5 veces de Kim09. Estos valores superan los valores reportados por herramientas metodológicamente comparables, como PickPocket, Nebula y sNebula. Ventajosamente, por lo tanto, la versión básica de pan-alelos del presente procedimiento es capaz de lograr predicciones competitivas con enfoques específicos de alelos, pero sin requerir grandes cantidades de datos de entrenamiento.

Las predicciones de LOAO tuvieron un promedio ponderado general de AUC = 0,849 y PCC = 0,608. En algunos casos, las predicciones para alelos que comparten muy pocos (HLA-A-01-01 y HLA-A-29-02), o ninguno (HLA-B-46-01), HOP de MHC con los alelos de MHC en el conjunto de entrenamiento, fueron peores que el promedio.Procedimiento de pan-alelos con inferencia de similitud de secuencia

El hecho de agregar inferencia de similitud de secuencia mediante el uso de la Ecuación (9) aumenta efectivamente el tamaño de los datos de entrenamiento, donde también se agregan puntos de datos provenientes de pares de MHC-péptido con secuencias suficientemente similares al HOP de consulta. El enfoque de similitud de secuencia se puede aplicar con respecto a los HOP de MHC, los HOP peptídicos o ambos al mismo tiempo, como se describió anteriormente. Para generar los resultados a continuación, consideramos solo las métricas de similitud de un solo factor, es decir, la similitud de secuencia peptídica y de MHC, y no la métrica de similitud de secuencia de orden superior que combina ambos factores de similitud antes mencionados.

El rendimiento del procedimiento de similitud de secuencia superó ligeramente el rendimiento del procedimiento básico en general, con AUC = 0,926 y PCC = 0,765 para el experimento Kim09-Kim13, por ejemplo. Como se muestra en la Tabla 2, los resultados de los experimentos LOAO muestran una mejora considerable para alelos como HLA-A-01-01, HLA-A-29-02 y HLA-B-46-01, que tienen pocas o ningunas coincidencias de HOP de MHC exactas en los datos de entrenamiento. Ventajosamente, al permitir que el procedimiento se base en datos de alelos/péptidos del MHC con segmentos de secuencia similares al alelo/péptido de consulta, vemos un gran aumento en el rendimiento de estos alelos. El AUC aumenta de 0,551 a 0,795 para HLA-A-01-01, de 0,5 (es decir, aleatorio) a 0,930 para HLA-B-46-01, con los aumentos correspondientes para los valores de PCC. El promedio ponderado total del rendimiento de LOAO de similitud de secuencia da como resultado un AUC = 0,900 y un PCC = 0,683, lo cual es respetable considerando que todas las predicciones se hicieron para alelos que no están contenidos en los datos de entrenamiento de su predictor. Estos resultados indican que el procedimiento de similitud de secuencia puede generalizarse bien para alelosde novoo subrepresentados en los datos de entrenamiento.

Procedimiento de pan-alelos con imputación de datos de similitud de vecindad

El procedimiento de similitud de vecindad es, al igual que el procedimiento de similitud de secuencia, una extensión del procedimiento básico, en el que se incluyen contribuciones de HOP de MHC y peptídicos que comparten características de unión a través de los datos de referencia, como se describió anteriormente.

El procedimiento de similitud de vecindad de red de pan-alelos añade similitudes de vecindad de HOP de MHC y peptídicos al procedimiento básico de pan-alelos de 1, 2 y 3-meros, análogo al enfoque de similitud de secuencia. El desempeño del procedimiento de similitud de vecindad se muestra en la Tabla 3. Se observó un aumento moderado en las puntuaciones de AUC y PCC con respecto al procedimiento Básico. Las puntuaciones son casi idénticas a las del procedimiento de similitud de secuencia. La prueba Kim09-Kim13 arroja AUC=0,928 y PCC=0,766. Estos experimentos entre alelos muestran la solidez del enfoque de vecindad en la situación en la que los componentes del HOP de consulta generalmente están bien cubiertos en los datos de entrenamiento. Los experimentos de LOAO siguieron la tendencia general de los resultados del procedimiento Básico (Tabla 1), con un AUC promedio = 0,850 y un PCC = 0,616, aunque con variaciones significativas para algunos alelos individuales.

Procedimiento de pan-alelos con estrategias de similitud combinadas

La combinación de los enfoques de similitud de secuencia y similitud de vecindad permite que el presente procedimiento incorpore las ventajas de las estrategias de similitud de vecindad de secuencia y de red, aprovechando la combinación de imputación de datos de entrenamiento con inferencia de similitud de secuencia. Para la estrategia combinada, permitimos HOP de n-meros de longitudes superiores a 3, lo que, en su mayoría, resultó en ligeros aumentos de rendimiento si los datos de la prueba se parecían mucho a los datos de entrenamiento, con disminuciones significativas en caso contrario, debido a tendencias de sobreajuste. Por lo tanto, el experimento LOAO se limitó a 1, 2 y 3-meros, como antes. Los resultados combinados de LOAO se parecen mucho a los del enfoque de similitud de secuencia, aunque con mejoras leves o sustanciales para casi todos los alelos, lo que da como resultado un AUC promedio = 0,921 y un PCC = 0,731.

Como se muestra en la Tabla 4, el enfoque combinado mejora los enfoques anteriores para todos los experimentos, con AUC = 0,930 y PCC = 0,770 para la prueba Kim09-Kim13, como se muestra en la Figura 5, y aumentos similares para los otros experimentos. Los modelos no fueron alterados ni ajustados después de revelar el conjunto de datos ciegos, lo que claramente indica una buena generalización y al mismo tiempo proporciona un rendimiento superior sobre los otros enfoques.

Se apreciará de la discusión anterior que las realizaciones del presente procedimiento proporcionan un rendimiento mejorado en comparación con los enfoques basados en bolsillos centrados en monómeros de la técnica anterior en la predicción de la afinidad de unión de péptidos a MHC para alelos que tienen poca o ninguna cobertura en las bases de datos de entrenamiento. Al menos algunas limitaciones de los procedimientos de la técnica anterior pueden superarse mediante la integración de inferencias de similitud a partir de vecindades de redes bipartitas HOP de n-meros y/o alineamientos de secuencias. El rendimiento del marco general integrado y la inferencia de red supera el de los enfoques pan-alélicos metodológicamente comparables, alcanzando un rendimiento general que se acerca a los mejores enfoques de redes neuronales de su clase para las pruebas de rendimiento de datos estándar de IEDB. Las puntuaciones promedio de AUC de 0,93 a 0,95 y las puntuaciones de PCC de 0,77 a 0,81 demuestran capacidades superiores de clasificación y regresión del enfoque descrito. Los resultados más convincentes que demuestran la poderosa utilidad de las realizaciones del presente procedimiento se pueden ver en los experimentos LOAO, que demuestran un rendimiento promedio de AUC = 0,92 y PCC = 0,73. Por lo tanto, el presente procedimiento es capaz de realizar predicciones útiles de afinidad de unión para alelos del MHC poco comunes y poco estudiados.

En la presente memoria descriptiva proporcionamos un uso claro del procedimiento en el diseño de vacunas. Sin embargo, se entenderá que las técnicas descritas en la presente memoria descriptiva podrían aplicarse igualmente al diseño de células T adaptadas que reconozcan los objetivos identificados. De manera similar, las técnicas también podrían usarse para identificar la carga de neoantígenos en un tumor y cuando esto se use como biomarcador, es decir, para predecir la respuesta a la terapia.

Volviendo ahora a la Figura 11, se muestra un ejemplo de un sistema adecuado para implementar realizaciones del procedimiento. El sistema 1100 comprende al menos un servidor 1110 que está en comunicación con un almacén de datos de referencia 1120. El servidor también puede estar en comunicación con un dispositivo automatizado de síntesis de péptidos 1130, por ejemplo, a través de una red de comunicaciones 1140.

En ciertas realizaciones, el servidor puede obtener secuencias de aminoácidos de una pluralidad de péptidos y una secuencia de aminoácidos de una proteína y determinar, para cada péptido, una afinidad de unión predicha a la proteína usando los pasos descritos anteriormente. En función de la respectiva afinidad de unión predicha, el servidor puede seleccionar uno o más péptidos candidatos de la pluralidad de péptidos.

Los péptidos candidatos pueden enviarse al dispositivo automatizado de síntesis de péptidos 1130 para sintetizar el péptido. El dispositivo automatizado de síntesis de péptidos 1130 genera epítopos diana sintéticamente, es decir, en este ejemplo, péptidos diana. Las técnicas para la síntesis automatizada de péptidos son bien conocidas en la técnica y se entenderá que se puede utilizar cualquier técnica conocida. Usualmente, el péptido diana se sintetiza utilizando una química de péptidos sintéticos en fase sólida estándar y se purifica mediante cromatografía líquida de alto rendimiento en fase inversa antes de formularlo en una solución acuosa. Si se usa para vacunación, antes de la administración la solución peptídica generalmente se mezcla con un adyuvante antes de administrarla al paciente.

La tecnología de síntesis de péptidos existe desde hace más de 20 años, pero ha experimentado rápidas mejoras en los últimos años. Por brevedad, no describimos en detalle dichas máquinas, pero un experto en la técnica entenderá su operación y dichas máquinas convencionales pueden adaptarse para recibir una proteína candidata del servidor.

El servidor puede comprender las funciones descritas anteriormente para predecir la afinidad de unión de una molécula ligante de consulta a una molécula diana de consulta. Las respectivas afinidades de unión pueden enviarse a un módulo de procesamiento adicional para identificar un epítopo objetivo en función de la afinidad de unión adecuada para la creación de una vacuna. Sin embargo, el servidor también puede funcionar para identificar un epítopo objetivo para el diseño de vacunas. Por supuesto, se entenderá que estas funciones pueden subdividirse entre diferentes entidades de procesamiento de una red informática y diferentes módulos de procesamiento en comunicación entre sí. Por ejemplo, el servidor puede recibir una o más moléculas de consulta a través de una red informática y devolver una afinidad de unión adecuada o un conjunto de epítopos candidatos. La consulta puede recibirse electrónicamente desde una red informática o ingresarse en una interfaz gráfica de usuario.

Las técnicas para predecir la afinidad de unión y, basándose en esa afinidad de unión, para identificar un péptido candidato pueden integrarse en un ecosistema más amplio para el desarrollo de vacunas personalizadas. Los ecosistemas de desarrollo de vacunas de ejemplo son bien conocidos en la técnica y se describen en un alto nivel para el contexto, pero por motivos de brevedad no describimos el ecosistema en detalle.

En un ecosistema de ejemplo, una primera etapa de muestra puede ser aislar el ADN de una biopsia de tumor y un control de tejido sano compatible. En una segunda etapa de secuencia, se secuencian los datos y se identifican las variantes, es decir, las mutaciones. En una etapa del perfilador inmunológico, los péptidos mutados asociados pueden generarse«in silico».

Mediante el uso de los péptidos mutados asociados y las técnicas descritas en este caso, se puede predecir y seleccionar un neoantígeno e identificar epítopos diana para el diseño de vacunas. Es decir, la secuencia peptídica candidata elegida en función de su afinidad de unión predicha se determina usando la técnica descrita en la presente memoria descriptiva.

A continuación, los epítopos diana se generan sintéticamente usando técnicas convencionales como se describe anteriormente. Antes de la administración, la solución peptídica usualmente se mezcla con un adyuvante antes de administrarla al paciente (vacunación).

Los epítopos diana adecuados predichos mediante los procedimientos descritos en la presente memoria descriptiva también se pueden usar para crear otros tipos de vacunas distintas de las vacunas basadas en péptidos. Por ejemplo, los péptidos diana podrían codificarse en la secuencia de ADN o ARN correspondiente y usarse para vacunar al paciente. Tenga en cuenta que el ADN usualmente se inserta en un constructo de plásmido. Alternativamente, el ADN puede incorporarse al genoma de un sistema de administración bacteriano o viral (también puede ser ARN, dependiendo del sistema de administración viral), que se puede usar para vacunar al paciente, de modo que la vacuna fabricada en un virus o bacteria genéticamente modificados que fabrica las dianas después de la inmunización en el paciente, es decir,in vivo.

En la Figura 12 se muestra un ejemplo de un servidor 1110 adecuado. En este ejemplo, el servidor incluye al menos un microprocesador 1200, una memoria 1201, un dispositivo de entrada/salida opcional 1202, tal como un teclado y/o pantalla, y una interfaz externa 1203, interconectados a través de un bus 1204 como se muestra. En este ejemplo, la interfaz externa 1203 se puede utilizar para conectar el servidor 1110 a dispositivos periféricos, tales como las redes de comunicaciones 1140, el almacén de datos de referencia 1120, otros dispositivos de almacenamiento o similares. Aunque se muestra una única interfaz externa 1203, esto es solo con fines de ejemplo y, en la práctica, se pueden proporcionar múltiples interfaces usando diversos procedimientos (por ejemplo, Ethernet, serie, USB, inalámbrico o similares).

En uso, el microprocesador 1200 ejecuta instrucciones en forma de software de aplicaciones almacenado en la memoria 1201 para permitir que se realicen los procesos requeridos, incluida la comunicación con el almacén de datos de referencia 1120 para recibir y procesar datos de entrada, y/o con un dispositivo de cliente para recibir datos de secuencia para consultar moléculas de unión y consultar moléculas diana, y para generar predicciones de afinidad de unión de acuerdo con los procedimientos descritos anteriormente. El software de aplicaciones puede incluir uno o más módulos de software y puede ejecutarse en un entorno de ejecución adecuado, tal como un entorno de sistema operativo o similar.

Por consiguiente, se apreciará que el servidor 1200 puede formarse a partir de cualquier sistema de procesamiento adecuado, tal como un dispositivo de cliente, PC, servidor web, servidor de red o similares adecuadamente programados. En un ejemplo particular, el servidor 1200 es un sistema de procesamiento estándar tal como un sistema de procesamiento basado en la arquitectura Intel, que ejecuta aplicaciones de software almacenadas en un almacenamiento no volátil (por ejemplo, disco duro), aunque esto no es esencial. Sin embargo, también se entenderá que el sistema de procesamiento podría ser cualquier dispositivo de procesamiento electrónico tal como un microprocesador, procesador de microchip, configuración de compuerta lógica, firmware opcionalmente asociado con la implementación de lógica tal como un FPGA (Arreglo de Compuertas Lógicas Programables en Campo), o cualquier otro dispositivo electrónico, sistema o disposición. Por consiguiente, si bien se utiliza el término servidor, esto es solo para fines de ejemplo y no pretende ser limitante.

Aunque el servidor 1200 se muestra como una única entidad, se apreciará que el servidor 1200 se puede distribuir en varias ubicaciones geográficamente separadas, por ejemplo, mediante el uso de sistemas de procesamiento y/o bases de datos 1201 que se proporcionan como parte de un entorno basado en la nube. Por lo tanto, la disposición descrita anteriormente no es esencial y podrían usarse otras configuraciones adecuadas.

Tabla 1. Resultados del procedimiento básico

Tabla 2. Resultados del procedimiento de similitud de secuencia

Tabla 3. Resultados del procedimiento de similitud de vecindad

Tabla 4. Resultados del procedimiento combinado

Claims

REIVINDICACIONES

1. Un procedimiento implementado por ordenador para predecir una afinidad de unión de un péptido ligante de consulta a una molécula de MHC diana de consulta, teniendo el péptido ligante de consulta una primera secuencia de aminoácidos y la molécula de MHC diana de consulta teniendo una segunda secuencia de aminoácidos con numeración de residuos definida, comprendiendo el procedimiento:

acceder, con al menos un procesador, a un almacén de datos de referencia de pares de ligante-diana de referencia que comprenden respectivas secuencias de aminoácidos ligantes de referencia emparejadas y secuencias de aminoácidos diana de referencia correspondientes, teniendo cada par de ligante-diana de referencia un valor de unión conocido asociado;

generar, con al menos un procesador, una representación de la primera secuencia de aminoácidos como un conjunto de subsecuencias ligantes de consulta que se extienden colectivamente a lo largo de la primera secuencia de aminoácidos, comprendiendo cada subsecuencia ligante de consulta uno o más residuos de aminoácidos en posiciones respectivas a lo largo de la primera secuencia de aminoácidos y que tiene una longitud menor que la longitud de la primera secuencia de aminoácidos, en el que al menos una de las subsecuencias ligantes de consulta comprende dos o más residuos de aminoácidos;

para cada subsecuencia ligante de consulta del conjunto de subsecuencias ligantes de consulta, determinar las posiciones de contacto de los residuos de aminoácidos de contacto en la segunda secuencia de aminoácidos de un mapa de puntos de contacto que comprende la numeración de residuos y ensamblar una subsecuencia diana de consulta correspondiente a partir de los residuos de aminoácidos de contacto en las posiciones de contacto en el mapa de puntos de contacto, para generar de este modo pares de subsecuencias ligantes-diana de consulta, de modo que la subsecuencia diana de consulta represente residuos de aminoácidos de MHC en proximidad a cada residuo de aminoácido de la subsecuencia ligante de consulta de acuerdo con el mapa de puntos de contacto;

generar, con al menos un procesador, a partir de los pares de ligante-diana de referencia, un conjunto de datos de referencia que comprende una pluralidad de conjuntos de pares de subsecuencias ligantes-diana de referencia, cada par de subsecuencias ligantes-diana de referencia en el conjunto de pares de subsecuencias ligantes-diana que tiene una subsecuencia ligante de consulta correspondiente en el conjunto de subsecuencias ligantes de consulta, comprendiendo cada par de subsecuencias ligantes-diana de referencia: una subsecuencia ligante de referencia que comprende residuos de aminoácidos de la secuencia de aminoácidos ligante de referencia respectiva en posiciones correspondientes a aquellas posiciones de la subsecuencia ligante de consulta correspondiente en la primera secuencia de aminoácidos, y una subsecuencia diana de referencia que comprende residuos de aminoácidos de la secuencia diana de referencia respectiva en las posiciones de contacto derivadas del mapa de puntos de contacto;

asignar a cada par de subsecuencias ligantes-diana de referencia un valor de unión de referencia basado en el valor de unión conocido del par de ligante-diana de referencia a partir del cual se generó, de modo que cada par de ligante-diana de referencia se descomponga en un conjunto de subsecuencias correspondientes a cada una de las subsecuencias ligantes de consulta y la subsecuencia diana de consulta correspondiente, con cada conjunto de subsecuencias asignado al valor de unión conocido del par de ligante-diana de referencia;

realizar, con al menos un procesador, al menos una operación de similitud en los pares de subsecuencias ligantes-diana de consulta respectivos y los pares de subsecuencias ligantes-diana de referencia para generar una pluralidad de puntuaciones de similitud para cada par de subsecuencias ligantes-diana de consulta, de modo que las puntuaciones de similitud representan una contribución a la afinidad de unión a partir de subsecuencias en el conjunto de pares de subsecuencias ligantesdiana de referencia que son similares a la subsecuencia ligante-diana de consulta respectiva; y calcular, con al menos un procesador, la afinidad de unión para el péptido ligante de consulta a la molécula de MHC diana de consulta como una combinación ponderada de los valores de unión de referencia de los pares de subsecuencias ligantes-diana de referencia, en el que los pesos de la combinación ponderada se basan en las puntuaciones de similitud.

2. Un procedimiento implementado por ordenador de acuerdo con la reivindicación 1, en el que la operación de similitud genera puntuaciones de similitud respectivas generando una primera puntuación de similitud para una comparación entre una subsecuencia ligante de consulta y una subsecuencia ligante de referencia, y una segunda puntuación de similitud para una comparación entre una subsecuencia diana de consulta y una subsecuencia diana de referencia, y combina la primera puntuación de similitud y la segunda puntuación de similitud.

3. Un procedimiento implementado por ordenador de acuerdo con la reivindicación 2, en el que a la primera puntuación de similitud se le asigna un valor distinto de cero en el caso de una coincidencia exacta, y un valor de cero en caso contrario y/o en el que a la segunda puntuación de similitud se le asigna un valor distinto de cero en el caso de una coincidencia exacta, y un valor de cero en caso contrario.

4. Un procedimiento implementado por ordenador de acuerdo con una cualquiera de las reivindicaciones 1 a 2, en el que la operación de similitud comprende una alineación de secuencia entre una subsecuencia ligante de consulta y una subsecuencia ligante de referencia, y/o una alineación de secuencia entre una subsecuencia diana de consulta y una subsecuencia diana de referencia.

5. Un procedimiento implementado por ordenador de acuerdo con una cualquiera de las reivindicaciones 1 a 2 o 4, en el que la operación de similitud comprende: generar un gráfico bipartito que comprende un primer conjunto de nodos y un segundo conjunto de nodos, conteniendo el primer conjunto de nodos únicamente subsecuencias ligantes y conteniendo el segundo conjunto de nodos solo subsecuencias diana, siendo los pesos de los bordes del gráfico bipartito iguales a los valores de unión conocidos asociados; y determinar una proyección monopartita del gráfico bipartito para el primer conjunto de nodos y/o el segundo conjunto de nodos, en el que las puntuaciones de similitud son pesos de borde de la proyección monopartita.

6. Un procedimiento implementado por ordenador de acuerdo con la reivindicación 5, en el que una puntuación de similitud para un par de nodos del primer conjunto se calcula determinando un conjunto de nodos comunes del segundo conjunto al que están conectados ambos nodos del par de nodos del primer conjunto; y calcular una correlación lineal entre los pesos de borde correspondientes del gráfico bipartito.

7. Un procedimiento implementado por ordenador de acuerdo con la reivindicación 5 o la reivindicación 6, en el que una puntuación de similitud para un par de nodos del segundo conjunto se calcula determinando un conjunto de nodos comunes del primer conjunto al que están conectados ambos nodos del par de nodos del segundo conjunto; y calcular una correlación lineal entre los pesos de borde correspondientes del gráfico bipartito.

8. Un procedimiento implementado por ordenador de acuerdo con una cualquiera de las reivindicaciones anteriores, en el que la etapa de determinar las posiciones de contacto además comprende simular una subsecuencia ligante de consulta virtual para su uso en el mapa de puntos de contacto en función de la subsecuencia ligante de consulta, en el que la subsecuencia ligante de consulta virtual tiene una longitud diferente a la subsecuencia ligante de consulta y/o simula un conjunto de puntos de contacto para su uso en el mapa de puntos de contacto.

9. Un procedimiento implementado por ordenador de acuerdo con una cualquiera de las reivindicaciones anteriores, en el que la longitud máxima de una subsecuencia ligante de consulta es L,L> 1, y el conjunto de una o más subsecuencias ligantes de consulta comprende todas las subsecuencias posibles de la primera secuencia de aminoácidos de longitud entre 1 y L.

10. Un procedimiento implementado por ordenador de acuerdo con una cualquiera de las reivindicaciones anteriores, en el que la operación de similitud comprende ponderar cada par de subsecuencias ligantesdiana de referencia de acuerdo con las posiciones de aminoácidos de la subsecuencia ligante de referencia respectiva.

11. Un procedimiento implementado por ordenador de acuerdo con una cualquiera de las reivindicaciones anteriores, en el que la segunda secuencia de aminoácidos es una secuencia de proteína HLA.

12. Un procedimiento implementado por ordenador de acuerdo con una cualquiera de las reivindicaciones anteriores, en el que calcular la afinidad de unión comprende calcular un producto de una matriz de datos de referencia, una matriz de transposición de datos de consulta y un vector de los valores de unión de referencia, en el que las entradas de la matriz de datos de referencia son indicativas de la presencia o ausencia de subsecuencias de referencia en las respectivas secuencias ligantes de referencia y/o secuencias diana de referencia, y las entradas de la matriz de transposición de datos de consulta son indicativas de la presencia o ausencia de subsecuencias de referencia en las respectivas secuencias ligantes de consulta y/o las secuencias diana de consulta; y en el que las entradas de la matriz de datos de referencia y las entradas de la matriz de datos de consulta se ponderan de acuerdo con las puntuaciones de similitud.

13. Un procedimiento de generación de al menos un péptido de unión a proteínas candidato, comprendiendo el procedimiento:

obtener secuencias de aminoácidos de una pluralidad de péptidos y una secuencia de aminoácidos de una proteína;

determinar, para cada péptido, una afinidad de unión predicha a la proteína, mediante un procedimiento de acuerdo con una cualquiera de las reivindicaciones 1 a 12; y

seleccionar uno o más péptidos candidatos de la pluralidad de péptidos en función de la respectiva afinidad de unión predicha.

14. El procedimiento de la reivindicación 13, que además comprende sintetizar el uno o más péptidos candidatos o codificar el péptido candidato en una secuencia de ADN o ARN correspondiente y/o incorporar la secuencia en un genoma de un sistema de administración bacteriano o viral para crear una vacuna.

15. Un sistema de predicción de afinidad de unión para predecir una afinidad de unión de una molécula ligante de consulta a una molécula diana de consulta, teniendo la molécula ligante de consulta una primera secuencia de aminoácidos y teniendo la molécula diana de consulta una segunda secuencia de aminoácidos, comprendiendo el sistema al menos un procesador en comunicación con al menos un dispositivo de memoria, teniendo el al menos un dispositivo de memoria almacenadas en el mismo instrucciones para hacer que el al menos un procesador realice un procedimiento de acuerdo con una cualquiera de las reivindicaciones 1 a 12.