ES2333422T3

ES2333422T3 - Sintesis de glicoproteinas.

Info

Publication number: ES2333422T3
Application number: ES03777634T
Authority: ES
Inventors: Peter G. Schultz; Lei Wang; Zhiwen Zhang
Original assignee: Scripps Research Institute
Current assignee: Scripps Research Institute
Priority date: 2002-10-16
Filing date: 2003-10-15
Publication date: 2010-02-22
Anticipated expiration: 2023-10-15
Also published as: IL196906A0; US7825226B2; JP2006507358A; WO2004035605A2; US7560535B2; SG160203A1; IL196907A0; HK1074855A1; IL196905A; EP1558747A2; EP1558747A4; US20050209133A1; WO2004035605A3; US7217809B2; US7199222B2; EP1558747B1; IL196908A0; US6927042B2; US7834159B2; US20050186657A1

Abstract

Método para la síntesis de una glicoproteína, comprendiendo el método: a) incorporar en una proteína un aminoácido no natural que comprende un primer grupo reactivo; en el que la etapa de incorporación comprende la incorporación del aminoácido no natural en la proteína con un par ARNt ortogonal/aminoacil ortogonal-ARNt sintetasa (O-ARNt/O-RS), en el que el O-ARNt reconoce un codón selector e incorpora el aminoácido no natural en la proteína como respuesta al codón selector, y en el que los ORS aminoacilan el O-ARNt con el aminoácido natural; y, b) poner en contacto la proteína con un residuo sacárido que comprende un segundo grupo reactivo, en donde el primer grupo reactivo reacciona con el segundo grupo reactivo para unir el residuo sacárido al aminoácido no natural, produciendo por tanto la glicoproteína.

Description

Síntesis de glicoproteínas.

\global\parskip0.900000\baselineskip

Campo de la invención

La invención se encuentra en el campo de los glicopéptidos, glicoproteínas y miméticos relacionados, y métodos para la síntesis de glicopéptidos, glicoproteínas y miméticos relacionados.

Antecedentes de la invención

La modificación post-traducción de las proteínas mediante glicosilación puede afectar el desdoblamiento y la estabilidad de las proteínas, modificar la actividad intrínseca de las proteínas, y modular sus interacciones con otras biomoléculas. Ver, p. ej., Varki, A. (1993) Glycobiology 3:97-130. Las glicoproteínas naturales se encuentran presentes frecuentemente como una población de muchas glicoformas diferentes, lo cual hace difícil el análisis de la estructura del glicano y el estudio de los efectos de glicosilación en la estructura y función de las proteínas. En consecuencia, son necesarios métodos para la síntesis de proteínas naturales y no naturales homogéneamente glicosiladas para la comprensión sistemática de la función del glicano, y para el desarrollo de mejores terapéuticos de glicoproteínas.

Un procedimiento previamente conocido para elaborar proteínas que tienen los patrones de glicosilación deseados hace uso de glicosidasas para convertir una glicoproteína heterogénea natural en un simple núcleo homogéneo, sobre el cual los sacáridos pueden injertarse en secuencia con glicosiltransferasas. Ver, p. ej., Witte, K., et al., (1997) J. Am. Chem. Soc. 119:2114-2118. Una limitación de este procedimiento es que los sitios principales de glicosilación se encuentran predeterminados por la línea celular en la cual se expresa la proteína. Alternativamente, un glicopéptido que contiene la estructura de glicano deseada puede sintetizarse mediante síntesis de péptido en fase sólida. Este glicopéptido puede acoplarse a otros péptidos o a fragmentos de proteína recombinante para producir una glicoproteína más grande mediante ligación química natural, (ver, p. ej., Shin, Y., et al., (1999) J. Am. Chem. Soc. 121:11684-11689) ligación de proteína expresada, (ver, p. ej., Tolbert, T.J., y Wong, C.H. (2000) J. Am. Chem. Soc. 122:5421-5428), o con proteasas diseñadas. Ver, p. ej., Witte, K., et al., (1998) J. Am. Chem. Soc. 120:1979-1989. Tanto la ligación química natural como la ligación de proteína expresada son muy efectivas con proteínas pequeñas, y necesitan un residuo de cisteína en la terminal N del glicopéptido. Cuando se utiliza una proteasa para ligar péptidos entre sí, el sitio de ligación debe colocarse alejado del sitio de glicosilación para producir buen acoplamiento, Ver, p. ej., Witte, K., et al., (1998) J. Am. Chem. Soc. 120:1979-1989. Un tercer procedimiento es modificar las proteínas con sacáridos directamente utilizando métodos químicos. Puede lograrse una buena selectividad con derivados sacáridos de haloacetamida, que se acoplan al grupo tiol de cisteína, (ver, p. ej., Davis, N. J. y Flitsch, S.L. (1991) Tetrahedron Lett. 32:6793-6796; y Macmillan, D., et al., (2002) Org. Lett 4:1467-1470), pero este método puede volverse problemático con proteínas que tiene más de un residuo de cisteína.

De acuerdo con esto, existe la necesidad de métodos mejorados para elaborar glicoproteínas que tienen un patrón de glicosilación deseado. La invención cumple esta y otras necesidades, como será aparente al revisar la siguiente descripción.

Resumen de la invención

La invención proporciona métodos para la síntesis de glicoproteínas. Estos métodos implican, en algunas realizaciones, incorporar en una proteína un aminoácido no natural que comprende un primer grupo reactivo; y poner en contacto la proteína con un residuo sacárido que comprende un segundo grupo reactivo, en donde el primer grupo reactivo reacciona con el segundo grupo reactivo para unir el residuo sacárido al aminoácido no natural. Las glicoproteínas producidas mediante estos métodos también se incluyen en la invención. El primer grupo reactivo, es en algunas realizaciones, un residuo electrofílico (p. ej., un residuo ceto, un residuo aldehído, y/o lo similar) y el segundo grupo reactivo es un residuo nucleofílico. En algunas realizaciones, el primer grupo reactivo es un residuo nucleofílico y el segundo grupo reactivo es un residuo electrofílico (p. ej., un residuo ceto, un residuo aldehído, y/o lo similar). Por ejemplo, un residuo electrofílico se une al residuo sacárido y el residuo nucleofílico se une al aminoácido no natural. El residuo sacárido puede incluir un solo residuo de carbohidrato, o el residuo sacárido puede incluir dos o más residuos de carbohidrato.

En algunas realizaciones, los métodos implican además poner en contacto el residuo sacárido con una glicosiltransferasa, un residuo donante de azúcar, y otros reactivos requeridos para la actividad de la glicosiltransferasa durante un tiempo suficiente y bajo las condiciones apropiadas para transferir un azúcar desde el residuo donante de azúcar hacia el residuo sacárido. El producto de esta reacción, si se desea, puede ponerse en contacto mediante al menos una segunda glicosiltransferasa, junto con el residuo donante de azúcar apropiado.

En ciertas realizaciones, el método comprende además poner en contacto el residuo sacárido con una o más de una \beta1-4N-acetilglucosaminiltransferasa, una \alpha1,3fucosiltransferasa, una \alpha1,2fucosiltransferasa, una \alpha1,4fucosiltransfe-
rasa, una \beta1-4galactosiltransferasa, una sialiltransferasa, y/o lo similar, para formar una estructura de oligosacárido biantenaria o triantenaria.

En una realización, el residuo sacárido comprende un GlcNAc terminal, el residuo donante de azúcar es UDP-Gal y la glicosiltransferasa es una \beta-1,4-galactosiltransferasa. En una realización, el residuo sacárido comprende un GlcNAc terminal, el residuo donante de azúcar es UDP-GlcNAc y la glicosiltransferasa es una \beta1-4N-acetilglucosaminiltransferasa. Opcionalmente, el método comprende además poner en contacto el producto de la reacción de N-acetilglucosaminiltransferasa con una \beta1-4manosiltransferasa y GDP-manosa para formar un residuo sacárido que comprende Man\beta1-4GlcNAc\beta1-4GlcNAc-. Opcionalmente, el método comprende además poner en contacto el residuo Man\beta1-4GlcNAc\beta1-4GlcNAc- con una \alpha1-3manosiltransferasa y GDP-manosa para formar un residuo sacárido que comprende Man\alpha1-3Man\beta1-4GlcNAc\beta1-4GlcNAc-. Opcionalmente, el método comprende además poner en contacto el residuo Man\alpha1-3Man\beta1-4GlcNAc\beta1-4GlcNAc- con una \alpha1-6manosiltransferasa y GDP-manosa para formar un residuo sacárido que comprende Man\alpha1-6(Man\alpha1-3)Man\beta1-4GlcNAc\beta1-4GlcNAc-. Opcionalmente, el método comprende además poner en contacto el residuo Man\alpha1-6(Man\alpha1-3)Man\beta1-4GlcNAc\beta1-4GlcNAc- con una \beta1-2N-acetilglucosaminiltransferasa y UDP-GlcNAc para formar un residuo sacárido que comprende Man\alpha1-6(GlcNAc\beta1-2Man\alpha1-3)Man\beta1-4GlcNAc\beta1-4GlcNAc-. Opcionalmente, el método comprende además poner en contacto el residuo Man\alpha1-6(GlcNAc\beta1-2Man\alpha1-3)Man\beta1-4GlcNAc\beta1-4GlcNAc- con una \beta1-2N-acetilglucosaminiltransferasa y UDP-GlcNAc para formar un residuo sacárido que comprende GlcNAc\beta1-2Man\alpha1-6(GlcNAc\beta1-2Man\alpha1-3)Man\beta1-4GlcNAc\beta1-4GlcNAc-.

La etapa de incorporación en una proteína de un aminoácido no natural que comprende un primer grupo reactivo, en algunas realizaciones, comprende utilizar un par ARNt ortogonal/aminoacil ortogonal-ARNt sintetasa (O-ARNt/O-RS), en donde el O-ARNt reconoce un codón selector e incorpora el aminoácido no natural dentro de la proteína en respuesta al codón selector, y en donde la O-RS preferentemente aminoacila el O-ARNt con el aminoácido no natural. Por ejemplo, el O-RS comprende una secuencia de aminoácidos que comprende cualquiera de las SEQ ID NO.: 1, 2 o 3. Opcionalmente, el O-ARNt comprende un mutARNTyr CUA. En algunas realizaciones el aminoácido no natural se incorpora en el polipéptido in vivo.

La invención proporciona también glicoproteínas que comprenden un residuo sacárido y un polipéptido. En ciertas realizaciones en las glicoproteínas de la invención, el residuo sacárido se une al polipéptido mediante un producto de reacción de una reacción nucleofílica entre un primer grupo reactivo unido a un aminoácido no natural presente en el polipéptido y un segundo grupo reactivo unido al residuo sacárido. En ciertas realizaciones, el primer grupo reactivo es un residuo electrofílico (p. ej., residuo ceto, residuo aldehído, y/o lo similar) y el segundo grupo reactivo es un residuo nucleofílico.

En ciertas realizaciones, el residuo nucleofílico de la invención incluye, pero no se limita a, hidrazida, hidroxilamina, semicarbazida, carbohidrazida, sulfonilhidrazida y similares. Por ejemplo, los residuos nucleofílicos incluyen, pero no se limitan a, p. ej., -NR1-NH2(hidrazida), -NR1(C=O)NR2NH2(semicarbazida), -NR1(C=S) NR2NH2(tiosemicarbazida), -(C=O)NR1NH2(carbonilhidrazida), -(C=S)NR1NH2(tiocarbonilhidrazida), -(SO2)NR1NH2 (sulfonilhidrazida), -NR1NR2(C=O)NR3NH2(carbazida), -NR1NR2 (C=S)NR3NH2(tiocarbazida), -O-NH2(hidroxilamina), y similares, en donde cada R1, R2 y R3 es independientemente H, o alquilo que tiene de 1-6 carbonos.

En ciertas realizaciones de la invención, un producto de reacción de la invención comprende, p. ej., una oxima, una amida, una hidrazona, una hidrazona reducida, una carbohidrazona, una tiocarbohidrazona, una sulfonilhidrazona, una semicarbazona, una tiosemicarbazona, y similares.

Otros aspectos de la invención incluyen métodos para la síntesis de una glicoproteína incorporando en una proteína un aminoácido no natural que comprende un residuo sacárido. Es también una característica de la invención una glicoproteína producida mediante el método. En ciertas realizaciones, la etapa de incorporación comprende utilizar un par ARNt ortogonal/aminoacil ortogonal-ARNt sintetasa (O-ARNt/O-RS), en donde el O-ARNt reconoce un codón selector e incorpora el aminoácido no natural que comprende un residuo sacárido (p. ej., una \beta-O-GlcNAc-L-serina, una tri-acetil-\beta-GlcNAc-serina, una tri-O-acetil-GalNAc-\alpha-treonina, una \alpha-GalNAc-L-treonina, y/o lo similar) dentro de la proteína en respuesta al codón selector, y en donde la O-RS preferentemente aminoacila el O-ARNt con el aminoácido no natural. En una realización, la etapa de incorporación se lleva a cabo in vivo. Por ejemplo, la O-RS comprende una secuencia de aminoácidos que comprende cualquiera de las SEQ ID NO.: 4, 5 o 6, o se encuentra codificada por un polinucleótido que comprende una secuencia de polinucleótidos de cualquiera de las SEQ ID NO.: 8, 9, o 10. Opcionalmente, el O-ARNt comprende un mutARNTyr CUA. Estos métodos pueden implicar además poner en contacto el residuo sacárido con una glicosiltransferasa, un residuo donante de azúcar, y otros reactivos requeridos para la actividad de la glicosiltransferasa durante un tiempo suficiente y bajo las condiciones apropiadas para transferir un azúcar del residuo donante de azúcar hacia el residuo sacárido.

En ciertas realizaciones, el método comprende además poner en contacto el producto de la reacción de glicosiltransferasa con al menos una segunda glicosiltransferasa y un segundo residuo donante de azúcar. En una realización, el residuo sacárido comprende un GlcNAc terminal, el residuo donante de azúcar es UDP-GlcNAc y la glicosiltransferasa es una \beta1-4N-acetilglucosaminiltransferasa. En otra realización, el residuo sacárido comprende un GlcNAc terminal, el residuo donante de azúcar es UDP-Gal y la glicosiltransferasa es \beta1-4-galactosiltransferasa. Pueden agregarse azúcares adicionales.

En ciertas realizaciones, una glicosiltransferasa de la invención incluye, pero no se limita a, p. ej., una galactosiltransferasa, una fucosiltransferasa, una glucosiltransferasa, una N-acetilgalactosaminiltransferasa, una N-acetilglucosaminiltransferasa, una glucuroniltransferasa, una sialiltransferasa, una manosiltransferasa, una transferasa de ácido glucurónico, una transferasa de ácido galacturónico, una oligosacariltransferasa, y similares.

\global\parskip1.000000\baselineskip

La invención también proporciona células huésped (p. ej., células de mamífero, células de levadura, células bacteriales, células vegetales, células de hongos, células arqueobacteriales, células de insecto, y/o lo similar) que son útiles para sintetizar una glicoproteína. Estas células huésped contienen: a) un aminoácido no natural que comprende un residuo sacárido; b) un ARNt ortogonal que reconoce un codón selector; c) una ARNt sintetasa de aminoacilo ortogonal (O-RS) que cataliza la unión del aminoácido no natural al ARNt ortogonal; d) un polinucleótido que codifica para una glicosiltransferasa; y e) una secuencia de polinucleótidos que codifica para un polipéptido y comprende al menos un codón selector.

También proporciona la invención composiciones que incluyen un sistema de traducción. Los sistemas de traducción incluyen un ARNt ortogonal (O-ARNt) y una ARNt sintetasa de aminoacilo ortogonal (O-RS), en donde la O-RS preferentemente aminoacila el O-ARNt con un aminoácido no natural que comprende un residuo sacárido (p. ej., \beta-O-GlcNAc-L-serina, una tri-acetil-\beta-GlcNAc-serina, una tri-O-acetil-GalNAc-\alpha-treonina, una \alpha-GalNAc-L-treonina, y/o lo similar) y el O-ARNt reconoce al menos un codón selector. En ciertas realizaciones, la O-RS comprende una secuencia de aminoácidos que comprende cualquiera de las SEQ ID NO.: 4, 5 o 6, o se encuentra codificada por un polinucleótido que comprende una secuencia de polinucleótidos de cualquiera de las SEQ ID NO.: 8, 9, o 10. Opcionalmente, el O-ARNt comprende un mutARN Tyr CUA.

Los polipéptidos y polinucleótidos artificiales (p. ej., hechos por el hombre y que no se presentan de manera natural) también son características de la invención. Por ejemplo, un polipéptido artificial de la invención incluye, p. ej., (a) un polipéptido que comprende una secuencia de aminoácidos como se muestra en cualquiera de las SEQ ID NO.: 4-6; (b) un polipéptido que comprende una secuencia de aminoácidos codificada por una secuencia de polinucleótidos como se muestra en cualquiera de las SEQ ID NO.: 8-10; (c) un polipéptido que es específicamente inmunorreactivo con un anticuerpo específico para un polipéptido de (a), o (b); y (d) una secuencia de aminoácidos que comprende una variante conservadora de (a), (b) o (c). También se proporcionan anticuerpos y antisueros que son específicamente inmunorreactivos con un polipéptido artificial de la invención. Un polinucleótido artificial de la invención incluye, p. ej., (a) un polinucleótido que comprende una secuencia de nucleótidos como se establece en cualquiera de las SEQ ID NO.: 8-10; (b) un polinucleótido que es complementario, o que codifica para una secuencia de polinucleótidos de (a); (c) un polinucleótido que codifica para un polipéptido que comprende, una secuencia de aminoácidos como se establece en cualquiera de las SEQ ID NO.: 1-6, o una variante conservadora de las mismas; (d) un polinucleótido que codifica para un polipéptido artificial; (e) un ácido nucleico que se híbrida a un polinucleótido de (a), (b), (c), o (d) bajo condiciones altamente rigurosas sobre sustancialmente la longitud total del ácido nucleico; (f) un polinucleótido que es al menos 98% idéntico a un polinucleótido de (a), (b), (c), (d) o (e); y (h) un polinucleótido que comprende una variante conservadora de (a), (b), (c), (d), (e) o (f).

Definiciones

Antes de describir la invención en detalle, se entenderá que esta invención no se limita a dispositivos particulares o sistemas biológicos, que, por supuesto, pueden variar. También se entenderá que la terminología utilizada en la presente es para el propósito de describir solo realizaciones particulares, y no pretende ser limitante. Como se utiliza en esta especificación y en las reivindicaciones anexas, las formas de singular "un(una)", y "el(la)"incluyen referentes en plural a menos que el contenido lo dicte claramente de otra manera. De este modo, por ejemplo, la referencia a "una célula" incluye una combinación de dos o más células; la referencia a "bacteria" incluye mezclas de bacterias y similares.

Ortogonal: Como se utiliza en la presente, el término "ortogonal" se refiere a una molécula (p. ej., un ARNt ortogonal (O-ARNt) y/o una ARNt sintetasa de aminoacilo ortogonal (O-RS)) que se utiliza con una eficiencia reducida por una molécula correspondiente que es endógena a una célula u otro sistema de traducción. Ortogonal se refiere a la incapacidad o reducida eficiencia, p. ej., menor que 20& de eficiencia, menor que 10% de eficiencia, menor que 5% de eficiencia, o menor que 1% de eficiencia, de un ARNt ortogonal para funcionar con una ARNt sintetasa endógena, o de una RS ortogonal para funcionar con un ARNt endógeno en el sistema de traducción de interés. Por ejemplo, un ARNt ortogonal en un sistema de traducción de interés se aminoacila por cualquier RS endógena de un sistema de traducción de interés con eficiencia reducida o incluso de cero, al compararse a la aminoacilación de un ARNt endógeno por una RS endógena. En otro ejemplo, una RS ortogonal aminoacila cualquier ARNt endógeno en el sistema de traducción de interés con eficiencia reducida o incluso de cero, en comparación con la aminoacilación del ARNt endógeno por una RS endógena.

Aminoacila preferentemente: El término "aminoacila preferentemente" se refiere a una eficiencia de, p. ej., aproximadamente 70% de eficiencia, aproximadamente 75% de eficiencia, aproximadamente 85% de eficiencia, aproximadamente 90% de eficiencia, aproximadamente 95% de eficiencia, o p. ej., aproximadamente 99% de eficiencia o más, a la cual una O-RS aminoacila un O-ARNt con un aminoácido no natural comparado con un ARNt que se presenta naturalmente o un material de inicio utilizado para generar el O-ARNt. El aminoácido no natural se incorpora entonces en una cadena creciente de polipéptidos con alta fidelidad, p. ej., en más de aproximadamente 75% de eficiencia para un codón selector dado, en más de aproximadamente 80% de eficiencia para un codón selector dado, en más de aproximadamente 90% de eficiencia para un codón selector dado, en más de aproximadamente 95% de eficiencia para un codón selector dado, o en más de aproximadamente 99% o más de eficiencia para un codón selector dado.

Codón selector: El término "codón selector" se refiere a los codones reconocidos por un O-ARNt en el proceso de traducción y no típicamente reconocidos por un ARNt endógeno. El ciclo de anti-codón de O-ARNt reconoce el codón selector en el mARN e incorpora su aminoácido, p. ej., un aminoácido no natural, en este sitio en el polipéptido. Los codones selectores pueden incluir, p. ej., codones de no sentido, tales como los codones de paro, p. ej., codones ámbar, ocre, y ópalo; cuatro o más codones base; codones derivados de pares base naturales o no naturales y/o lo similar. Para un sistema dado, un codón selector también puede incluir uno de los codones naturales de tres bases, en donde el sistema endógeno no utiliza dicho codón natural de tres bases, p. ej., un sistema que carece de un ARNt que reconoce el codón natural de tres bases o un sistema en donde el codón natural de tres bases es un codón raro.

ARNt supresor: Un ARNt supresor es un ARNt que altera la lectura de un ARN mensajero (mARN) en un sistema de traducción dado. Un ARNt supresor puede leerse a través de p. ej., un codón de paro, un codón de cuatro bases, un codón raro y/o lo similar.

Sistema de traducción: El término "sistema de traducción" se refiere a los componentes necesarios para incorporar un aminoácido que se presenta naturalmente en una cadena creciente de polipéptido (proteína). Los componentes de un sistema de traducción pueden incluir, p. ej., ribosomas, ARNts, sintetasas, mARN y similares. Los componentes de la invención pueden agregarse a un sistema de traducción in vivo o in vitro. Un sistema de traducción puede ser una célula, ya sea procariótica, p. ej., una célula de E. coli, una célula Archael, etc., o eucariótica, p. ej., una célula de levadura, mamífero, vegetal, insecto, etc.

Aminoácido no natural: Como se utiliza en la presente, el término "aminoácido no natural" se refiere a cualquier aminoácido, aminoácido modificado, y/o análogo de aminoácido que no sea uno de los 20 aminoácidos que se presentan de manera natural o seleno cisteína o pirrolisina.

Residuo sacárido: Como se utiliza en la presente, el término "residuo sacárido" se refiere a residuos de azúcar naturales y no naturales (i.e., un residuo de azúcar que no se presenta naturalmente, p. ej., un residuo de azúcar que se encuentra modificado, p. ej., en una o más posiciones hidroxilo o amino, p. ej., dehidroxilado, deaminado, esterificado, etc., p. ej., 2-deoxiGal es un ejemplo de un residuo de azúcar no natural). El término "carbohidrato" tiene la fórmula general (CH2O)n e incluye, pero no se limita a, p. ej., monosacáridos, disacáridos, oligosacáridos y polisacáridos. Los oligosacáridos son cadenas compuestas de unidades de sacárido, que se conocen alternativamente como azúcares. Las unidades de sacárido pueden disponerse en cualquier orden y la unión entre dos unidades de sacárido puede presentarse en cualquiera de aproximadamente diez maneras diferentes.

Se utilizan en la presente las siguientes abreviaturas:

Ara: = arabinosil;

Fru: = fructosil;

Fuc: = fucosil;

Gal: = galactosil;

GalNAc: = N-acetilgalactosaminil;

Glc: = glucosil;

GlcNAc: = N-acetilglucosaminil;

Man: = manosil; y

NeuAc: = sialil (típicamente N-acetilneuraminil).

Se considera que los oligosacáridos tienen un extremo de reducción y un extremo de no reducción, ya sea o no que el sacárido en el extremo de reducción sea de hecho un azúcar de reducción. De acuerdo con la nomenclatura aceptada, los oligosacáridos se ilustran en la presente con el extremo de no reducción a la izquierda y el extremo de reducción a la derecha. Todos los oligosacáridos descritos en la presente con el nombre o abreviatura para el sacárido de no reducción (p. ej., Gal), seguido por la configuración del enlace glicosídico (a o b), el enlace de anillo, la posición de anillo del sacárido de reducción involucrado en el enlace, y después el nombre o abreviatura del sacárido de reducción (p. ej., GlcNAc). La unión entre dos azúcares puede expresarse, por ejemplo, como 2,3, 2\rightarrow3,2-3, o (2,3). Las uniones naturales y no naturales (p. ej., 1-2, 1-3, 1-4, 1-6, 2-3, 2-4, 2-6, etc.) entre dos azúcares se incluyen en la invención. Cada sacárido es una piranosa.

El término "ácido siálico" (abreviado "Sia") se refiere a cualquier miembro de una familia de azúcares carboxilados de nueve carbonos. El miembro más común de la familia del ácido siálico es el ácido N-acetil-neuramínico (ácido 2-ceto-5-acetamido-3,5-dideoxi-D-glicero-D-galactononulopiranos-1-ónico) (frecuentemente abreviado como Neu5Ac, NeuAc, o NANA). Un segundo miembro de la familia es el ácido N-glicolil-neuramínico (Neu5Gc o NeuGc), en el cual el grupo N-acetilo de NeuAc se encuentra hidroxilado. Un tercer miembro de la familia del ácido siálico es el ácido 2-ceto-3-deoxi-nonulosónico (KDN) (Nadano et al., (1986) J. Biol. Chem. 261:11550-11557; Kanamori et al., (1990) J. Biol.Chem. 265:21811-21819. También se encuentran incluidos los ácidos siálicos 9-sustituidos tales como un 9-O-C1-C6 acil-Neu5Ac como 9-O-lactil-Neu5Ac o 9-O-acetil-Neu5Ac, 9-deoxi-9-fluoro-Neu5Ac y 9-azido-9-deoxi-Neu5Ac. Para revisión de la familia del ácido siálico, ver, p. ej., Varki (1992) Glycobiology 2:25-40; Sialic Acids: Chemistry, Metabolism and Function, R. Schauer, Ed. (Springer-Verlag, New York (1992). La síntesis y uso de los compuestos de ácido siálico en un procedimiento de sialilación se describen, por ejemplo, en la solicitud internacional WO 92/16640, publicada el 1 de octubre de 1992.

Los sustratos donantes para glicosiltransferasas son azúcares nucleótidos activados. Tales azúcares activados consisten generalmente de difosfato de uridina y guanosina, y monofosfato de citidina, derivados de los azúcares en los cuales el difosfato o monofosfato nucleósido sirve como un grupo de salida. Los sistemas bacteriales, vegetales y de hongos pueden utilizar algunas veces otros azúcares nucleótidos activados.

A menos que se defina de otra manera en la presente o abajo en el resto de la especificación, todos los términos técnicos y científicos utilizados en la presente tienen el mismo significado comúnmente comprendido por los de experiencia ordinaria en la técnica a la cual pertenece la invención.

Breve descripción de los dibujos

La Figura 1 ilustra esquemáticamente ejemplos de dos diagramas (una vía secuencial y una vía convergente) para unir un residuo sacárido a un polipéptido que incluye un aminoácido no natural.

La Figura 2 ilustra el análisis HPLC de la reacción de acoplamiento entre el sacárido 1 de aminooxi (de la Figura 1) y la proteína I mutante de dominio Z (de la Figura 1) que contiene p-acetil-L-fenilalanina a 7 horas y 26 horas.

La Figura 3 ilustra el espectro MALDI-FTICR MS de alta resolución de la proteína I mutante de dominio Z (de la Figura 1), los miméticos II, III y IV de glicoproteína (de la Figura 1). Se muestra el grupo isotópico 2+ de cada espectro.

La Figura 4 ilustra la expresión de la mioglobulina mutante Gly4\rightarrowA (\sim18.5 kD). Las proteínas se purificaron mediante cromatografía de afinidad Ni2+- y se disolvieron mediante SDS-PAGE. El gel se coloreó con plata.

La Figura 5 ilustra el análisis MALDI-TOF del peso molecular de la mioglobulina mutante Gly4\rightarrowA.

La Figura 6, Panel A, B y C ilustra la caracterización de la mioglobulina mutante purificada conteniendo un aminoácido glicosilado. El Panel A ilustra el enlace de una lectina específica para GlcNAc, Banderiraea simplicifolia II (BSII), para mioglobulina de tipo silvestre y glicomioglobulina. El Panel B ilustra galactosiltransferasa on-blot marcando glicomioglobulina con UDP-[H3]galactosa. El Panel C ilustra el análisis cuantitativo de la reacción de galactosiltransferasa, que se efectuó en solución, y la galactosa radiomarcada se normalizó de modo que 1.0 corresponde a 100% de transferencia.

Descripción detallada

Las modificaciones post-traslacionales de proteínas regulan muchos procesos biológicos, incluyendo el metabolismo, la transducción de señal, y la expresión del gen. Sin embargo, las pruebas sintéticas asociadas con la generación de poblaciones homogéneas de proteínas selectivamente modificadas, han impedido estudios detallados de los efectos de estas modificaciones en la estructura y función de la proteína. Por ejemplo, la glicosilación es una de las más comunes modificaciones post-traslacionales de las proteínas en eucariotos y afecta el desdoblamiento de un amplio rango de funciones de la proteína, y la secreción para el reconocimiento biomolecular y la vida media en suero. Ver, p. ej., R.A. Dwek (1996) Chem. Rev. 96:683. Aunque ha habido avances significativos en nuestra comprensión de los efectos de la glicosilación, los papeles específicos de las cadenas de oligosacáridos y las relaciones entre sus estructuras y funciones apenas comienzan a comprenderse. Ver, p. ej., C.R. Bertozzi, & L.L. Kiessling, (2001) Science 291:2357. La prueba principal es que las glicoproteínas se producen típicamente como una mezcla de glicoformas, dificultando el aislamiento de glicoformas únicas de fuentes naturales. Se han desarrollado diversos métodos para sintetizar glicoformas estructuralmente definidas, pero todas imponen severas restricciones en el tamaño, cantidad y/o calidad de la glicoproteína producida. Ver, p. ej., P. Sears, & C.H. Wong (2001) Science 291:2344; M. Wacker et al., (2002) Science 298:1790; B.G. Davis (2002) Chem. Rev. 102:579; y H.C. Hang, & C.R. Bertozzi, (2001) Acc. Chem. Res. 34:727. La invención resuelve este y otros problemas, y proporciona glicoproteínas y miméticos de glicoproteína, y métodos para la síntesis de glicoproteínas que tienen patrones de glicosilación deseados. Las glicoproteínas y miméticos de glicoproteínas de la invención tienen utilidad en la producción de glicoformas de glicoproteínas terapéuticas y/o facilitan los estudios en las estructuras y funciones de las proteínas glicosiladas.

Glicosilación

La invención proporciona métodos para sintetizar glicoproteínas. En ciertas realizaciones, estos métodos implican la incorporación dentro de la proteína de un aminoácido no natural que comprende un primer grupo reactivo; y la reacción del primer grupo reactivo con un segundo grupo reactivo que se encuentra unido a un residuo sacárido, formando así una unión covalente y uniendo el residuo sacárido a la proteína.

Se conoce una amplia variedad de grupos reactivos adecuados por los expertos en la técnica. Tales grupos reactivos adecuados pueden incluir, por ejemplo, grupos amino, hidroxilo, carboxilo, carboxilato, carbonilo, alquenilo, alquinilo, aldehído, éster, éter (p. ej., tioéter), amida, amina, nitrilo, vinilo, sulfuro, sulfonilo, fosforilo, o similarmente químicamente reactivos. Los grupos reactivos adecuados adicionales incluyen, pero no se limitan a, maleimida, N-hidroxisuccinimida, sulfo-N-hidroxisuccinimida, ácido nitrilotriacético, hidroxilo activado, haloacetilo (p. ej., bromoacetilo, yodoacetilo), carboxilo activado, hidracida, epoxi, aziridina, sulfonilcloruro, trifluorometildiaziridina, piridildisulfuro, N-acil-imidazolo, imidazolocarbamato, vinilsulfona, succinimidilcarbonato, arilazida, anhídrido, diazoacetato, benzofenona, isotiocianato, isocianato, imidoéster, fluorobenceno, biotina y avidina.

En algunas realizaciones, uno de los grupos reactivos es un residuo electrofílico, y el segundo grupo reactivo es un residuo nucleofílico. Tanto el residuo nucleofílico como el residuo electrofílico pueden unirse a la cadena lateral del aminoácido no natural; el grupo correspondiente se une entonces al residuo sacárido. Los residuos electrofílicos adecuados que reaccionan con residuos nucleofílicos para formar un enlace covalente son conocidos por los expertos en la técnica. Tales residuos electrofílicos incluyen, pero no se limitan a, p. ej., un grupo carbonilo, un grupo sulfonilo, un grupo aldehído, un grupo cetona, un grupo éster impedido, un grupo tioéster, un grupo imino estable, un grupo epóxido, un grupo aziridina, etc. Los residuos nucleofílicos adecuados que pueden reaccionar con residuos electrofílicos son conocidos por los expertos en la técnica. Tales nucleófilos incluyen, por ejemplo, aminas alifáticas o aromáticas, tales como etilenodiamina. En otras realizaciones, el grupo reactivo es -NR1-NH2(hidrazida), -NR1(C=O)NR2NH2(semicarbazida), -NR1(C=S)NR2NH2(tiosemicarbazida), -(C=O)NR1NH2(carbonilhidrazida), -(C=S)NR1NH2(tiocarbonilhidrazida), -(SO2)NR1NH2(sulfonilhidrazida), -NR1NR2(C=O)NR3NH2(carbazida), -NR1NR2(C=S)NR3NH2(tiocarbazida), -O-NH2(hidroxilamina), y similares, en donde cada R1, R2 y R3 es independientemente H, o un residuo alquilo que tiene de 1-6 carbonos, preferentemente H. En un aspecto de la invención, el grupo reactivo es una hidrazida, hidroxilamina, semicarbazida, carbohidrazida, una sulfonilhidrazida o lo similar.

El producto de la reacción entre el residuo nucleofílico y electrofílico típicamente incorpora los átomos originalmente presentes en el residuo nucleofílico. Los enlaces típicos obtenidos al reactivar los aldehídos o cetonas con los residuos nucleofílicos incluyen productos de reacción tales como una oxima, una amida, una hidrazona, una hidrazona reducida, una carbohidrazona, una tiocarbohidrazona, una sulfonilhidrazona, una semicarbazona, una tiosemicarbazona, o de funcionalidad similar, dependiendo del residuo nucleofílico utilizado y del residuo electrofílico (p. ej., aldehído, cetona, y/o lo similar) que se reactiva con el residuo nucleofílico. Los enlaces con ácidos carboxílicos se refieren típicamente como carbohidrazidas o como ácidos hidroxámicos. Los enlaces con ácidos sulfónicos se refieren típicamente como sulfonilhidrazidas o N-sulfonilhidroxilaminas. El enlace resultante puede estabilizarse subsecuentemente mediante reducción química.

En ciertas realizaciones, la glicoproteína se sintetiza incorporando un aminoácido no natural, al cual se une un residuo sacárido, en un polipéptido. Por ejemplo, puede utilizarse una O-ARNt/O-RS ortogonal que incorpora el aminoácido no natural con el residuo sacárido en una cadena creciente de polipéptidos en respuesta a un codón selector. Ver, p. ej., la sección en la presente titulada "Preparación de Proteínas que Tienen un Aminoácido No Natural".

Glicosiltransferasas

La invención proporciona métodos en los cuales se glicosila adicionalmente un residuo sacárido enlazado con aminoácidos o un aminoácido no natural que incluye un residuo. Estas etapas de glicosilación se efectúan preferentemente enzimáticamente utilizando, por ejemplo, una glicosiltransferasa, glicosidasa u otra enzima conocida por los expertos en la técnica. En algunas realizaciones, se realiza una pluralidad de etapas enzimáticas en una sola mezcla de reacción que contiene dos o más glicosiltransferasas diferentes. Por ejemplo, puede conducirse una etapa de galactosilación y de sialización simultáneamente incluyendo tanto sialiltransferasa como galactosiltransferasa en la mezcla de reacción.

Para las síntesis de sacárido enzimáticas que involucran reacciones glicosiltransferasa, las células recombinantes de la invención contienen opcionalmente al menos un gen heterólogo que codifica una glicosiltransferasa. Se conocen muchas glicosiltransferasas, así como sus secuencias de polinucleótido. Ver, p. ej., "The WWW Guide To Cloned Glicosyltransferases", (disponible en la red en www.vei-co.uk/TGN/gt_guide.htm). Las secuencias de aminoácidos de glicosiltransferasa y las secuencias de nucleótidos que codifican para glicosiltransferasas a partir de las cuales pueden deducirse las secuencias de aminoácidos también se encuentran en diversas bases de datos públicamente disponibles incluyendo GenBank, Swiss-Prot, EMBL, y otras.

Las glicosiltransferasas que pueden emplearse en las células de la invención incluyen, pero no se limitan a, galactosiltransferasas, fucosiltransferasas, glucosiltransferasas, una N-acetilgalactosaminiltransferasas, N-acetilglucosaminiltransferasas, glucuroniltransferasas, sialiltransferasas, manosiltransferasas, transferasas de ácido glucurónico, transferasas de ácido galacturónico, oligosacariltransferasas, y similares. Las glicosiltransferasas adecuadas incluyen aquellas obtenidas de eucariotas así como de procariotas.

Un aceptor para las glicosiltransferasas se encontrará presente en la glicoproteína que va a modificarse mediante los métodos de la invención. Los aceptores adecuados, incluyen, por ejemplo, aceptores galactosil tales como Gal\beta1,4GalNAc-, Gal\beta1,3GalNAc-, lacto-N-tetraosa-, Gal\beta1,3GlcNAc-, Gal\beta1,4GlcNAc-, Gal\beta1,3Ara-,
Gal\beta1,6GlcNAc-, y Gal\beta1,4Glc-(lactosa). Otros aceptores conocidos por los expertos en la técnica (ver, p. ej., Paulson et al., (1978) J. Biol. Chem. 253:5617-5624). Típicamente, los aceptores forman parte de una cadena de residuo sacárido unida a la glicoproteína.

Las cantidades o concentraciones de enzima se expresan en Unidades de actividad, que es una medición del grado inicial de catálisis. Una Unidad de actividad cataliza la formación de 1 \mumol de producto por minuto a una temperatura dada (típicamente 37ºC) y un valor pH (típicamente 7.5). De este modo 10 Unidades de una enzima es una cantidad catalítica de esa enzima en donde 10 \mumols de sustrato se convierten en 10 \mumol de producto en un minuto a una temperatura de 37ºC y a un valor pH de 7.5. Las enzimas pueden utilizarse libres en solución o pueden unirse a un soporte tal como un polímero. La mezcla de reacción es por tanto sustancialmente homogénea al principio, aunque puede formarse un poco de precipitado durante la reacción.

Las reacciones de glicosilación incluyen, en adición a la glicosiltransferasa y aceptor apropiado, un azúcar de nucleótido activado que actúa como un donante de azúcar para la glicosiltransferasa. Las reacciones también pueden incluir otros ingredientes que facilitan la actividad de glicosiltransferasa. Estos ingredientes pueden incluir un catión divalente (p. ej., Mg+2 o Mn+2), materiales necesarios para la regeneración ATP, iones de fosfato, y solventes orgánicos. Las concentraciones y cantidades de los varios reactivos utilizados en el proceso dependen de numerosos factores incluyendo condiciones de reacción tales como temperatura y valor pH, y la selección y cantidad de sacáridos aceptores que va a glicosilarse. El medio de reacción también puede comprender detergentes solubilizantes (p. ej., Triton o SDS) y solventes orgánicos tales como metanol o etanol, si es necesario.

Los oligosacáridos producidos utilizando los métodos de la invención pueden analizarse mediante métodos conocidos por los expertos en la técnica. Por ejemplo, las unidades de carbohidratos pueden separarse de los residuos de carbohidratos mediante eliminación \beta alcalina, por ejemplo, y separarse del polipéptido mediante filtración de gel. Los oligosacáridos resultantes se separan uno del otro utilizando una o más técnicas estándar, tales como filtración de gel, HPLC, cromatografía de capa delgada, y cromatografía de intercambio de iones, o una combinación de las mismas, y pueden analizarse completamente. El análisis estructural completo de las unidades de oligosacárido purificadas requiere la determinación de las unidades de monosacárido, su forma de anillo, configuración (D o L), enlace anomérico (\alpha o \beta), las posiciones de los enlaces entre los azúcares y su secuencia. En adición, se establece la posición de todo grupo subsecuente. Puede utilizarse análisis de metilación para determinar las posiciones de los enlaces glicosídicos entre los monosacáridos. La configuración anomérica de los residuos de azúcar puede dirigirse utilizando, p. ej., espectroscopia 1H NMR. Las condiciones y métodos utilizados para efectuar un análisis estructural de carbohidratos completo se describen generalmente en Beeley, Laboratory Techniques in Biochemistry and Molecular Biology, eds. Burdon and Knippenberg, Elsevier, Amsterdam (1985), Hounsell, "Glycoanalysis Protocols", Meth. Mol. Biol. Vol. 76, 1998, y El Rassi Carbohydrate Análisis: High Performance Liquid Chromatography and Capillary Electrophoresis, Elsevier Science Ltd., Vol. 58 (1994).

Las técnicas adicionales para caracterizar totalmente los azúcares de un oligosacárido incluyen FAB-MS (bombardeo atómico rápido-espectrometría de masa) y NMR (espectroscopia de resonancia magnética nuclear, particularmente 1H-NMR y 13C-NMR). Estas técnicas son complementarias. Ejemplos de cómo se utilizan estas técnicas para caracterizar completamente la estructura de un oligosacárido pueden encontrarse en el análisis por Spellman et al., (1989) J. Biol. Chem. 264:14100, y Stanley et al., (1988) J. Biol. Chem. 263:11374. Otros métodos incluyen bombardeo atómico rápido de ión positivo-espectroscopia de masa (FAB-MS) y análisis de metilación mediante cromatografía de gas-espectroscopia de masa de impacto de electrón (GC/EI-MS) (ver solicitud EPO No. 89305153.2).

Síntesis in vivo de glicoproteínas

Para sintetizar una glicoproteína in vivo, se puede introducir en un vector de expresión un polinucleótido que codifica un polipéptido de interés. El polinucleótido también puede incluir uno o más codones selectores en las posiciones en las cuales se desea la unión de un residuo sacárido. El vector de expresión se introduce en una célula huésped que incluye un aminoácido no natural, p. ej., un aminoácido no natural que comprende un residuo en donde puede anexarse un residuo sacárido, tal como un aminoácido derivado de aldehído o ceto, o un aminoácido no natural que incluye un residuo sacárido; un ARNt ortogonal que reconoce el codón selector; y una ARNt sintetasa de aminoacilo ortogonal (O-RS) que cataliza la unión del aminoácido no natural al ARNt ortogonal. La O-RS une el aminoácido no natural al ARNt ortogonal, que entonces introduce el aminoácido no natural dentro de la proteína naciente.

En algunas realizaciones, la célula huésped incluye además uno o más polinucleótidos que codifican para glicosiltransferasas. Tales células huésped pueden catalizar la adición de uno o más azúcares al residuo sacárido que se encuentra unido al aminoácido no natural.

Se encuentran disponibles varios métodos muy conocidos para introducir ácidos nucleicos objetivo en células bacteriales, cualquiera de los cuales puede utilizarse en la invención. Estos incluyen: fusión de las células recipiente con protoplastos bacteriales que contienen el ADN, electroporación, bombardeo de proyectiles, e infección con vectores virales, etc. Las células bacteriales pueden utilizarse para amplificar el número de plásmidos que contienen estructuras de ADN de esta invención. Las bacterias se cultivan hasta la fase logarítmica y los plásmidos dentro de las bacterias pueden aislarse mediante una variedad de métodos conocidos en la técnica (ver, por ejemplo, Sambrook, infra). En adición, se encuentra comercialmente disponible una abundancia de equipos para la purificación de plásmidos de bacterias (ver, p. ej., EasyPrep^{TM}, FlexiPrep^{TM}, ambos de Pharmacia Biotech; StrataClean^{TM}, de Stratagene; y QIAprep^{TM} de Qiagen). Los plásmidos aislados y purificados se manipulan entonces adicionalmente para producir otros plásmidos, utilizados para transfectar células o incorporados en vectores relacionados para infectar
organismos.

Las células huésped diseñadas pueden cultivarse en un medio nutriente convencional modificado según sea apropiado para actividades tales como, por ejemplo, exploración de etapas, activación de promotores o selección de transformantes. Estas células opcionalmente pueden cultivarse en organismos transgénicos.

Otras referencias útiles, p. ej., para aislar y cultivar células (p. ej., para subsecuente aislamiento del ácido nucleico) incluyen Freshney (1994) Culture of Animal Cells, a Manual of Basic Technique, tercera edición, Wiley-Liss, New York y las referencias citadas en los mismos; Payne et al., (1992) Plant Cell and Tissue Culture in Liquid Systems John Wiley & Sons, Inc., New York, NY; Gamborg and Phillips (eds) (1995) Plant Cell Tissue and Organ Culture; Fundamental Methods Springer Lab Manual, Springer-Verlag (Berlin Heidelberg New York) y Atlas and Parks (eds) The Handbook of Microbiological Media (1993) CRC Press, Boca Raton, FL.

Textos generales que describen las técnicas biológicas moleculares incluyen Berger and Kimmel, Guide To Molecular Cloning Techniques, Methods in Enzymology volumen 152 Academic Press, Inc., San Diego, CA (Berger); Sambrook et al., Molecular Cloning-A Laboratory Manual (3º Ed), Vol. 1-3 Cold Spring Harbor Laboratory, Cold Spring Harbor, New York, 2001 ("Sambrook") y Current Protocols in Molecular Biology F.M. Ausubel et al., eds.,Current Protocols, una asociación de capitales entre Greene Publishing Associates, Inc. y John Wiley & Sons, Inc., (suplementado a través del 2003) ("Ausubel")). Estos textos describen la mutagénesis, el uso de vectores, promotores y muchos otros tópicos relevantes relacionados con, p. ej., la generación de genes que incluyen codones selectores para la producción de proteínas que incluyen aminoácidos no naturales, ARNts ortogonales, sintetasas ortogonales, y pares de los mismos.

Preparación de proteínas que tienen un aminoácido no natural

Las características de la invención incluyen la producción de glicoproteínas que incluyen un aminoácido no natural, p. ej., un aminoácido no natural que comprende un residuo en donde puede anexarse un residuo sacárido, o un aminoácido no natural que incluye un residuo sacárido. En ciertas realizaciones, la invención implica la producción de glicoproteínas que incluyen uno o más aminoácidos no naturales a los cuales se encuentran unidos grupos reactivos adecuados que pueden formar un enlace covalente al reactivarse con un segundo grupo reactivo. En algunas realizaciones, los aminoácidos no naturales comprenden un residuo electrofílico, p. ej., aminoácidos aldehído o derivados de ceto, y los residuos aldehído o ceto se reactivan con un residuo nucleofílico para anexar un residuo sacárido al polipéptido o proteína. Las proteínas que contienen aminoácidos no naturales se sintetizan mediante células en las cuales la maquinaria biosintética de la proteína se ha alterado para acomodar aminoácidos adicionales genéticamente codificados utilizando pares ortogonales de ARNt/ARNt sintetasa de aminoacilo (O-ARNt/O-RS). En particular, las células incluyen ARNt ortogonal que reconoce un codón selector (p. ej., codones de paro, codones de cuatro bases, y similares), y una ARNt sintetasa de aminoacilo ortogonal que puede anexar un aminoácido derivado de aldehído o ceto al ARNt ortogonal.

En ciertas realizaciones, la invención implica la producción de glicoproteínas que incluyen uno o más aminoácidos no naturales que incluye un residuo sacárido. Las proteínas que contienen aminoácidos no naturales se sintetizan por medio de células en las cuales la maquinaria biosintética de la proteína se ha alterado para acomodar aminoácidos adicionales genéticamente codificados utilizando pares ortogonales de ARNt/ARNt sintetasa de aminoacilo (O-ARNt/O-RS). En particular, las células incluyen un ARNt ortogonal que reconoce un codón selector (p. ej., codones de paro, codones de cuatro bases, y similares), y una ARNt sintetasa de aminoacilo ortogonal que puede anexar el aminoácido no natural con el residuo sacárido al ARNt ortogonal.

Esta tecnología permite la incorporación específica en el sitio de los aminoácidos no naturales directamente en proteínas in vivo. De manera importante, el aminoácido no natural se agrega al repertorio genético, en lugar de sustituirse por uno de los 20 aminoácidos comunes. La proteína puede tener uno o múltiples (iguales o diferentes) aminoácidos no naturales en una posición particular en la proteína. A diferencia de los métodos anteriores para derivatizar proteínas, el uso de pares de O-ARNt/O-RS permite producir proteínas que tienen un aminoácido no natural en solo uno de los sitios en los cuales se presenta un aminoácido particular en una proteína, según se desee, en lugar de derivatizar ese aminoácido particular en cada sitio en el cual se presenta en una proteína.

Para producir una glicoproteína, pueden utilizarse células huésped y organismos adaptados para la incorporación in vivo del aminoácido no natural a través de pares de ARNt/RS ortogonales. Las células huésped se diseñan genéticamente (p. ej., se transforman, transducen o transfectan) con uno o más vectores que expresan el ARNt ortogonal, la ARNt sintetasa ortogonal, y un vector que codifica la proteína que va a derivatizarse. Cada uno de estos componentes puede encontrarse en el mismo vector, o cada uno puede encontrarse en un vector separado, dos componentes pueden encontrarse en un vector y el tercer componente en un segundo vector. El vector puede encontrarse, por ejemplo, en forma de un plásmido, una bacteria, un virus, un polinucleótido desnudo, o un polinucleótido conjugado.

Las regiones de codificación para el ARNt ortogonal, la ARNt sintetasa ortogonal y la proteína que va a derivatizarse se encuentran operablemente enlazadas a elementos de control de expresión del gen que son funcionales en la célula huésped deseada. Los vectores típicos contienen terminadores de transcripción y traducción, secuencias de iniciación de transcripción y traducción, y promotores útiles para la regulación de la expresión del ácido nucleico objetivo particular. Los vectores opcionalmente comprenden casetes genéricos de expresión que contienen al menos una secuencia de terminación independiente, secuencias que permiten la replicación del casete en eucariotos, o procariotos, o en ambos (p. ej., vectores de conexión) y marcadores de selección para sistemas tanto procarióticos como eucarióticos. Los vectores son adecuados para replicación y/o integración en procariotos, eucariotos, o preferentemente en ambos. Ver Giliman & Smith, Gene 8:81 (1979); Roberts et al., Nature, 328:731 (1987); Schneider, B., et al., Protein Expr. Purif. 6435:10 (1995); Berger and Kimmel, supra, Sambrook, supra, y Ausubel, supra. Un catálogo de Bacterias y Bacteriófagos útil para clonación se proporciona, p. ej., por la ATCC, p. ej., The ATCC Catalogue of Bacteria and Bacteriophage (1992) Gherna et al., (eds.) publicado por la ATCC. También se encuentran procedimientos básicos adicionales para secuenciado, clonación y otros aspectos de la biología molecular y consideraciones teóricas subyacentes en Watson et al., (1992) Recombinant DNA Second Edition Scientific American Books, NY. Proteins and Polypeptides of Interest.

Por ejemplo, los métodos para producir glicoproteínas incluyen el crecimiento de la célula en un medio apropiado, en donde la célula comprende un ácido nucleico que comprende al menos un codón selector y codifica para una proteína, proporcionando un aminoácido no natural, p. ej., un aminoácido no natural que comprende un residuo en donde puede anexarse un residuo sacárido, o un aminoácido no natural que incluye un residuo sacárido, e incorporar el aminoácido no natural en la posición especificada en la proteína durante la tanslación del ácido nucleico con el al menos un codón selector, produciendo así la proteína. La célula comprende además: un ARNt ortogonal (O-ARNt) que funciona en la célula y reconoce el codón selector; y una ARNt sintetasa de aminoacilo ortogonal (O-RS) que preferentemente aminoacila el O-ARNt con el aminoácido no natural, p. ej., un aminoácido no natural que comprende un residuo en donde puede anexarse un residuo sacárido, o un aminoácido no natural que incluye un residuo sacárido. La publicación WO 2002/085923, titulada "IN VIVO INCORPORATION OF UNNATURAL AMINO ACIDS" describe este proceso y se incorpora en la presente por referencia. Por ejemplo, cuando un par de O-ARNt/O-RS se introduce en un huésped el par conduce a la incorporación in vivo del aminoácido no natural, p. ej., un aminoácido no natural que comprende un residuo en donde puede anexarse un residuo sacárido, o un aminoácido no natural que incluye un residuo sacárido, que puede agregarse de manera exógena al medio de crecimiento, en una proteína, en respuesta a un codón selector. Opcionalmente, las composiciones de la invención pueden encontrarse en un sistema de traducción in vitro, o en sistema(s) in vivo.

Una célula de la invención proporciona la capacidad de sintetizar o producir glicoproteínas en muy útiles cantidades. En un aspecto, la composición opcionalmente incluye, p. ej., al menos 10 microgramos, al menos 50 microgramos, al menos 75 microgramos, al menos 100 microgramos, al menos 200 microgramos, al menos 250 microgramos, al menos 1 miligramo, al menos 10 miligramos o más de la glicoproteína, o una cantidad que puede lograrse con métodos de producción de proteína in vivo (se proporcionan en la presente detalles acerca de la producción y purificación de proteínas). En otro aspecto, la proteína se encuentra opcionalmente presente en la composición a una concentración de p. ej., al menos 10 microgramos de proteína por litro, al menos 50 microgramos de proteína por litro, al menos 75 microgramos de proteína por litro, al menos 100 microgramos de proteína por litro, al menos 200 microgramos de proteína por litro, al menos 250 microgramos de proteína por litro, al menos 500 microgramos de proteína por litro, al menos 1 miligramo de proteína por litro, o al menos 10 miligramos de proteína por litro o más, en, p. ej., un lisado celular, un amortiguador, un amortiguador farmacéutico, u otra suspensión líquida (p. ej., en un volumen, p. ej., de cualquiera desde aproximadamente 1 nl hasta aproximadamente 100 l). Es una característica de la invención la producción de grandes cantidades (p. ej., mayores que las típicamente posibles con otros métodos, p. ej., traducción in vitro) de una proteína en una célula incluyendo al menos un aminoácido no natural, p. ej., un aminoácido no natural que comprende un residuo en donde puede anexarse un residuo sacárido, o un aminoácido no natural que incluye un residuo sacárido.

Puede realizarse la incorporación de un aminoácido no natural, p. ej., un aminoácido no natural que comprende un residuo en donde puede anexarse un residuo sacárido, o un aminoácido no natural que incluye un residuo sacárido, para, p. ej., cambios de diseño en la estructura y/o función de la proteína, p. ej., para cambiar el tamaño, acidez, nucleofilicidad, enlace de hidrógeno, hidrofobicidad, accesibilidad de sitios objetivo de proteasa, acceso de objetivo a un residuo de proteína, etc. Las proteínas que incluyen un aminoácido no natural, p. ej., un aminoácido no natural que comprende un residuo en donde puede anexarse un residuo sacárido, o un aminoácido no natural que incluye un residuo sacárido, puede tener propiedades catalíticas o físicas mejoradas, o incluso completamente nuevas. Por ejemplo, las siguientes propiedades se modifican opcionalmente por la inclusión de un aminoácido no natural, p. ej., un aminoácido no natural que comprende un residuo en donde puede anexarse un residuo sacárido, o un aminoácido no natural que incluye un residuo sacárido en una proteína: toxicidad, biodistribución, propiedades estructurales, propiedades espectroscópicas, propiedades químicas y/o fotoquímicas, capacidad catalítica, vida media (p. ej., vida media en suero), capacidad para reaccionar con otras moléculas, p. ej., covalentemente o no covalentemente, y similares. Son útiles las composiciones que incluyen proteínas que incluyen al menos un aminoácido no natural, p. ej., un aminoácido no natural que comprende un residuo en donde puede anexarse un residuo sacárido, o un aminoácido no natural que incluye un residuo sacárido, p. ej., para nuevas terapias, diagnósticos, enzimas catalíticas, enzimas industriales, enlace de proteínas (p. ej., anticuerpos), y p. ej., el estudio de la estructura y función de proteínas. Ver, p. ej., Dougherty, (2000) Unnatural Amino Acids as Probes of Protein Structure and Function, Current Opinion in Chemical Biology, 4:645-652.

En un aspecto de la invención, una composición incluye al menos una proteína con al menos uno, p. ej., al menos dos, al menos tres, al menos cuatro, al menos cinco, al menos seis, al menos siete, al menos ocho, al menos nueve, o al menos diez o más aminoácidos no naturales, p. ej., un aminoácido no natural que comprende un residuo en donde puede anexarse un residuo sacárido, o un aminoácido no natural que incluye un residuo sacárido, y/o que incluye otro aminoácido no natural. Los aminoácidos no naturales pueden ser el mismo o diferente, p. ej., puede haber 1, 2, 3, 4, 5, 6, 7, 8, 9, o 10 o más sitios diferentes en la proteína que comprenden 1, 2, 3, 4, 5, 6, 7, 8, 9 o 10 o más aminoácidos no naturales diferentes. En otro aspecto, una composición incluye una proteína con al menos uno, pero menos que todos, de un aminoácido particular presente en la proteína sustituido con el aminoácido no natural, p. ej., un aminoácido no natural que comprende un residuo en donde puede anexarse un residuo sacárido, o un aminoácido no natural que incluye un residuo sacárido. Para una proteína dada con más de un aminoácido no natural, los aminoácidos no naturales pueden ser idénticos o diferentes (p. ej., la proteína puede incluir dos o más tipos diferentes de aminoácidos no naturales, o puede incluir dos del mismo aminoácido no natural). Para una proteína dada con más de dos aminoácidos no naturales, los aminoácidos no naturales pueden ser el mismo, diferente, o una combinación de múltiples aminoácidos no naturales del mismo tipo con al menos un aminoácido no natural diferente.

Esencialmente cualquier proteína (o porción de la misma) que incluye un aminoácido no natural p. ej., un aminoácido no natural que comprende un residuo en donde se anexa un residuo sacárido, tal como un aminoácido derivado de aldehído o ceto, o un aminoácido no natural que incluye un residuo sacárido (y cualquier ácido nucleico correspondiente, p. ej., que incluye uno o más codones selectores) puede producirse utilizando las composiciones y métodos en la presente. No se ha intentado identificar los cientos de miles de proteínas conocidas, todas las cuales pueden modificarse para incluir uno o más aminoácidos no naturales, p. ej., adaptando cualquier método de mutación disponible para incluir uno o más codones selectores apropiados en un sistema relevante de traducción. Los depositarios de secuencia comunes para proteínas conocidas incluyen GenBank EMBL, DDBJ y el NCBI. Otros depositarios pueden identificarse fácilmente buscando en internet.

Típicamente, las proteínas son, p. ej., al menos 60%, al menos 70%, al menos 75%, al menos 80%, al menos 90%, al menos 95%, o al menos 99% o más idénticas a cualquier proteína disponible (p. ej., proteína terapéutica, una proteína de diagnóstico, una enzima industrial o una porción de las mismas, y similares), y comprenden uno o más aminoácidos no naturales. Pueden encontrarse ejemplos de proteínas terapéuticas, de diagnóstico y otras que pueden modificarse para comprender uno o más aminoácidos no naturales, p. ej., un aminoácido no natural que comprende un residuo en donde se anexa un residuo sacárido, o un aminoácido no natural que incluye un residuo sacárido, pero sin limitarse a aquellos en la WO 2002/085923, supra. Ejemplos de proteínas terapéuticas, de diagnóstico y otras que pueden modificarse para comprender uno o más aminoácidos no naturales que comprenden un aminoácido, en donde un residuo sacárido se enlaza y/o un aminoácido no natural que incluye un residuo sacárido, incluyen, pero no se limitan a, p. ej., alfa-1 antitripsina, angiostatina, factor antihemolítico, anticuerpos (abajo se encuentran detalles adicionales acerca de los anticuerpos), apolipoproteína, apoproteína, factor natriurético atrial, polipéptido natriurético atrial, péptidos atriales, quimiosinas C-X-C (p. ej., T39765, NAP-2, ENA-78, Gro-\alpha, Gro-\beta, IP-10, GCP-2, NAP-4, SDF-1, PF4, MIG), calcitonina, quimiosinas CC (p. ej., proteína-1 quimioatrayente de monocitos, proteína-2 quimioatrayente de monocitos, proteína-3 quimioatrayente de monocitos, proteína-1 alfa inflamatoria de monocitos, proteína-1 beta inflamatoria de monocitos, RANTES I309, R83915, R91733, HCC1, T58847, D31065, T64262, ligando CD40, ligando C-kit, colágeno, factor de estimulación de colonia (CSF), factor 5a de complemento, inhibidor de complemento, receptor 1 de complemento, citosinas, (p. ej., péptido-78 epitelial de activación de neutrófilo, GRO\alpha/MGSA, GRO\beta, GROg, MIP-1\alpha, MIP-1\delta, MCP-1), factor de crecimiento epidérmico (EGF), eritropoyetina ("EPO", representando un objetivo preferido para la modificación mediante la incorporación de uno o más aminoácidos no naturales). Toxinas de exfoliación A y B, Factor IX, Factor VII, Factor VIII, Factor X, factor de crecimiento de fibroblasto (FGF), fibrinogen, fibronectin, G-CSF, GM-CSF, glucocerebrosidasa, gonadotropina, factores de crecimiento, proteínas Hedgehog (p. ej., Sonic, Indian, Desert), hemoglobina, factor de crecimiento de hepatocitos (HGF), hirudina, albúmina de suero humano, insulina, factor de crecimiento similar a la insulina (IGF), interferones (p. ej., IFN-\alpha, IFN-\beta, IFN-g), interleucinas (p. ej., IL-1, IL-2, IL-3, IL-4, IL-5, IL-6, IL-7, IL-8, IL-9, IL-10, IL-11, IL-12, etc.) factor de crecimiento de queratinocito (KGF), lactoferrina, factor inhibidor de leucemia, luciferasa, neurturina, factor inhibidor de neutrófilo (NIF), oncostatina M, proteína osteogénica, hormona paratiroidea, PD-ECSF, PDGF, hormonas de péptido (p. ej., hormona humana del crecimiento, pleyotropina, proteína A, Proteína G, exotoxinas pirogénicas A, B y C, relaxina, renina, SCF, receptor 1 de complemento soluble, I-CAM 1 soluble, receptores solubles de interleucina (IL, 1, 2, 3, 4, 5, 6, 7, 9, 10, 11, 12, 13, 14, 15), receptor soluble TNF, somatomedina, somatostatina, somatotropina, estreptoquinasa, superantígenos, i.e., enterotoxinas estafilococales (SEA; SEB, SEC1, SEC2, SEC3, SED, SEE), dismutasa superóxido (SOD), toxina del síndrome de choque tóxico (TSST-1), alfa 1 timosina, activador plasminógeno de tejido, factor beta de necrosis tumoral (TNF beta), receptor del factor de necrosis tumoral (TNFR), factor alfa de necrosis tumoral (TNF alfa), factor de crecimiento endotelial vascular (VEGEF), uroquinasa y muchas otras.

Una clase de proteínas que pueden prepararse utilizando las composiciones y métodos para la incorporación in vivo de un aminoácido no natural, p. ej., un aminoácido no natural que comprende un residuo en donde puede anexarse un residuo sacárido, o un aminoácido no natural que incluye un residuo sacárido descrito en la presente, incluye moduladores transcripcionales o una porción de los mismos. Ejemplos de moduladores transcripcionales incluyen genes y proteínas de modulador transcripcional que modulan el crecimiento celular, la diferenciación, regulación o lo similar. Los moduladores transcripcionales se encuentran en procariotos, virus y eucariotos, incluyendo hongos, plantas, levaduras, insectos, y animales, incluyendo mamíferos, proporcionando un amplio rango de objetivos terapéuticos. Se apreciará que la expresión y los activadores transcripcionales regulan la transcripción mediante muchos mecanismos, p. ej., enlazándose a receptores, estimulando una cascada de señal de transducción, regulando la expresión de factores de transcripción, enlazándose a promotores y mejoradores, enlazándose a proteínas que se enlazan a promotores y mejoradores, desenrollando ADN, dividiendo pre-mARN, poliadenilando el ARN, y degradando el ARN.

Una clase de proteínas de la invención (p. ej., proteínas con uno o más aminoácidos no naturales que comprenden un aminoácido, en donde se enlaza un residuo sacárido, y/o un aminoácido no natural que incluye un residuo sacárido) incluye activadores de expresión tales como citosinas, moléculas inflamatorias, factores de crecimiento, sus receptores, y productos oncógenos, p. ej., interleucinas (p. ej., IL-1, IL-2, IL-8, etc.), interferones, FGF, IGF-I, IGF-II, FGF, PDGF, TNF, TGF-\alpha, TGF-\beta, EGF, KGF, SCF/c-Kit, CD40L/CD40, VLA-4/VCAM-1, ICAM-1/LFA-1, e hialurin/CD44; moléculas de señal de transducción y los productos oncógenos correspondientes, p. ej., Mos, Ras, Raf, y Met; y activadores y supresores transcripcionales, p. ej., p53, Tat, Fos, Myc, Jun, Myb, Rel y receptores de hormona esteroide tales como aquellos para estrógeno, progesterona, testosterona, aldosterona, el ligando del receptor LDL y corticosterona.

También se proporcionan mediante la invención enzimas (p. ej., enzimas industriales) o porciones de las mismas con al menos un aminoácido no natural, p. ej., un aminoácido no natural que comprende un residuo en donde se anexa un residuo sacárido, o un aminoácido no natural que incluye un residuo sacárido. Ejemplos de enzimas incluyen, pero no se limitan a, p. ej., amidasas, aminoácido racemasas, acilasas, dehalogenasas, dioxigenasas, diarilpropano peroxidasas, epimerasas, epóxido hidrolasas, esterasas, isomerasas, quinasas, glucosa isomerasas, glicosidasas, glicosil transferasas, haloperoxidasas, monooxigenasas (p. ej., p450s), lipasas, lignina peroxidasas, nitrilo hidratasas, nitrilasas, proteasas, fosfatasas, subtilisinas, transaminasa y nucleasas.

Muchas proteínas que pueden modificarse de acuerdo con la invención se encuentran disponibles comercialmente (ver, p. ej., el catálogo y lista de precios de Sigma BioSciences 2002), y las secuencias y genes de proteína correspondientes y típicamente, muchas de sus variantes son muy conocidas (ver, p. ej., GenBank). Cualquiera de ellas puede modificarse mediante la inserción de uno o más aminoácidos no naturales que comprende un aminoácido, en donde se enlaza un residuo sacárido o que incluye un aminoácido no natural que incluye un residuo sacárido de acuerdo con la invención, p. ej., para alterar la proteína con respecto a una o más propiedades terapéuticas, de diagnóstico, o enzimáticas de interés. Ejemplos de las propiedades terapéuticamente relevantes incluyen la vida media en suero, la vida media en almacenamiento, estabilidad, inmunogenicidad, actividad terapéutica, detectabilidad (p. ej., mediante la inclusión de grupos indicadores (p. ej., marcas o sitios de enlace de marcas) en los aminoácidos no naturales, especificidad, reducción de LD50 u otros efectos secundarios, la capacidad para entrar al cuerpo a través del tracto gástrico (p. ej., disponibilidad oral), o lo similar. Ejemplos de las propiedades diagnósticas relevantes incluyen la vida media en almacenamiento, estabilidad, actividad diagnóstica, detectabilidad, especificidad o lo similar. Ejemplos de las propiedades enzimáticas relevantes incluyen la vida media en almacenamiento, estabilidad, especificidad, actividad enzimática, capacidad de producción, o lo similar.

También puede modificarse una variedad de otras proteínas para incluir uno o más de los aminoácidos no naturales de la invención. Por ejemplo, la invención puede incluir la sustitución de uno o más aminoácidos naturales en una o más proteínas de vacuna con un aminoácido no natural que comprende un aminoácido, en donde un residuo sacárido se enlaza, o mediante la incorporación de un aminoácido no natural que incluye un residuo sacárido, p. ej., en proteínas de hongos infecciosos, p. ej., especies Aspergillus, Candida; bacterias, particularmente E. coli que sirve de modelo para bacterias patogénicas, así como bacterias médicamente importantes tales como Staphylococci (p. ej., aureus), o Streptococci (p. ej., pneumoniae); protozoos tales como esporozoos (p. ej., Plasmodia), rizópodos (p. ej., Entamoeba) y flagelados (tripanosoma, Leishmania, Tricomonas, Giardia, etc.); virus tales como los virus (+) de ARN (ejemplos incluyen Poxvirus p. ej., vaccinia; Picornavirus, p. ej., polio; Togavirus, p. ej., rubella; Flavivirus, p. ej., HCV; y Coronavirus), virus (-) de ARN (p. ej., Rhabdovirus, p. ej., VSV; Paramixovirus, p. ej., RSV; Ortomixovirus, p. ej., influenza; Bunyavirus; y Arenavirus), virus dsADN (Reovirus, por ejemplo), virus de ARN a ADN, i.e., Retrovirus, p. ej., VIH y HTLV y ciertos virus de ADN a ARN tales como Hepatitis B.

Las proteínas agrícolamente relacionadas tales como proteínas de resistencia a insectos (p. ej., las proteínas Cry), almidón y enzimas de producción de lípidos, toxinas vegetales y de insectos, proteínas de resistencia a las toxinas, proteínas de detoxificación de micotoxina, enzimas de crecimiento vegetal (p. ej., Ribulosa 1,5-Bifosfato Carboxilasa/Oxigenasa, "RUBISCO"), lipoxigenasa (LOX), y Fosfoenolpiruvato (PEP) carboxilasa son también objetivos adecuados para la modificación mediante la incorporación de aminoácidos no naturales y/o las adiciones de sacárido de la invención.

En ciertas realizaciones, la proteína o polipéptido de interés (o una porción del mismo) en los métodos y/o composiciones de la invención se codifica por un ácido nucleico. Típicamente, el ácido nucleico comprende al menos un codón selector, al menos dos codones selectores, al menos tres codones selectores, al menos cuatro codones selectores, al menos cinco codones selectores, al menos seis codones selectores, al menos siete codones selectores, al menos ocho codones selectores, al menos nueve codones selectores, diez o más codones selectores.

Definición de Polipéptidos mediante Inmunorreactividad

Debido a que los glicopolipéptidos de la invención proporcionan una variedad de nuevas secuencias de polipéptido (p. ej., que comprenden un aminoácido no natural que comprende un aminoácido, en donde puede enlazarse un residuo sacárido, o un aminoácido no natural que incluye un residuo sacárido en el caso de proteínas sintetizadas en los sistemas de traducción en la presente, o, p. ej., en el caso de las nuevas sintetasas, nuevas secuencias de aminoácidos estándar), los glicopolipéptidos también proporcionan nuevas características estructurales que pueden reconocerse, p. ej., en ensayos inmunológicos. La generación de antisueros, que específicamente se enlazan a los polipéptidos de la invención, así como de los polipéptidos que se enlazan por tales antisueros, son una característica de la invención. El término "anticuerpo", como se utiliza en la presente, incluye, pero no se limita a un polipéptido sustancialmente codificado por un gen de inmunoglobulina o genes de inmunoglobulina, o fragmentos de los mismos que se enlazan específicamente y reconocen un analito (antígeno). Los ejemplos incluyen anticuerpos policlonales, monoclonales, quiméricos, y de cadena única, y similares. Los fragmentos de inmunoglobulinas, incluyendo fragmentos Fab y fragmentos producidos por una biblioteca de expresión, incluyendo imagen fago, también se encuentran incluidos en el término "anticuerpo" como se utilizan en la presente. Ver, p. ej., Paul, Fundamental Immunology, 4ª Ed. 1999, Raven Press, New York, para la estructura del anticuerpo y la terminología.

Por ejemplo, la invención incluye proteínas sintetasa que se enlazan específicamente a, o que son específicamente inmunorreactivas con, un anticuerpo o antisuero generado contra un inmunógeno que comprende una secuencia de aminoácidos sintetasa seleccionados de uno o más de aquellos en las varias secuencias en la presente. Para eliminar la reactividad cruzada con otros homólogos, el anticuerpo o antisuero se sustrae con sintetasas disponibles, tales como Methanococcus jannaschii de tipo silvestre (M. jannaschii) tirosil sintetasa (TyrRS), o una sintetasa artificial conocida, tal como cualquiera de aquellas en la WO 2002/085923. Cuando la M. jannaschii tirosil sintetasa de tipo silvestre (TyrRS), o la secuencia previa, corresponde a un ácido nucleico, se genera opcionalmente un polipéptido codificado por el ácido nucleico y se utiliza para propósitos de sustracción de anticuerpo/antisuero.

En un formato típico, el inmunoanálisis utiliza antisuero policlonal levantado en contra de uno o más polipéptidos que comprenden una o más de las secuencias sintetasa de la presente, o una subsecuencia sustancial de la misma (i.e., al menos aproximadamente 30% de la secuencia de longitud total proporcionada). El conjunto de inmunógenos de polipéptido potenciales derivados de estas secuencias se refiere colectivamente abajo como "polipéptidos inmunogénicos". Los antisueros resultantes se seleccionan opcionalmente para tener baja reactividad cruzada contra los homólogos de sintetasa de control (TyrRS de tipo silvestre, y/o las sintetasas en la WO 2002/085923) y se retira toda reactividad cruzada, p. ej., mediante inmunoabsorción, con uno o más de los homólogos de sintetasa de control, previo al uso de un antisuero policlonal en el inmunoanálisis.

A fin de producir antisueros para su uso en un inmunoanálisis, se produce y se purifica uno o más de los polipéptidos inmunogénicos como se describe en la presente. Por ejemplo, puede producirse proteína recombinante en una célula recombinante. Una cepa criada de la misma familia de ratones (utilizada en este ensayo debido a que los resultados son más reproducibles dada la virtual identidad genética de los ratones) se inmuniza con la(s) proteína(s) inmunogénica(s) en combinación con un adyuvante estándar, tal como el adyuvante de Freund, y un protocolo estándar para inmunización de ratones (ver, p. ej., Harlow y Lane (1988) Antibodies, A Laboratory Manual, Cold Spring Harbor Publications, New York, para una descripción estándar de la generación de anticuerpos, formatos de inmunoanálisis y condiciones que pueden utilizarse para determinar la inmunorreactividad específica. También se encuentran en la presente referencias adicionales y descripción de los anticuerpos y puede aplicarse para definir los polipéptidos por inmunorreactividad). Alternativamente, uno o más polipéptidos sintéticos o recombinantes derivados de las secuencias descritas en la presente se conjugan a una proteína portadora y se utilizan como un inmunógeno. Detalles adicionales acerca de proteínas, anticuerpos, antisueros, etc. pueden encontrarse en la WO 2002/085923, supra.

Se recolecta y se titula el suero policlonal contra el polipéptido inmunogénico en un inmunoanálisis, por ejemplo, un inmunoanálisis de fase sólida con una o más de las proteínas inmunogénicas inmovilizadas en un soporte sólido. Se seleccionan los antisueros policlonales con una titulación de 106 o mayor, se depositan y se sustraen con los polipéptidos de sintetasa de control para producir los antisueros policlonales titulados depositados sustraídos.

Los antisueros policlonales titulados depositados sustraídos se prueban por reactividad cruzada contra los homólogos de control en un inmunoanálisis comparativo. En este ensayo comparativo, se determinan las condiciones discriminatorias de enlace para los antisueros policlonales titulados sustraídos lo que da como resultado al menos aproximadamente una señal 10 veces más alta que la proporción de señal a ruido para el enlace de los antisueros policlonales titulados para la sintetasa inmunogénica en comparación con el enlace a los homólogos de sintetasa de control. Es decir, la rigurosidad de la reacción de enlace se ajusta mediante la adición de competidores no específicos tales como albúmina o leche seca no grasosa, y/o ajustando las condiciones de sal, temperatura, y/o lo similar. Estas condiciones de enlace se utilizan en ensayos subsecuentes para determinar si un polipéptido de prueba (un polipéptido que se compara con los polipéptidos inmunogénicos y/o los polipéptidos de control) se enlaza específicamente por los antisueros policlonales sustraídos depositados. En particular, los polipéptidos de prueba que muestran al menos una señal 2-5x mayor que la proporción de señal a ruido que los homólogos de sintetasa de control bajo condiciones discriminatorias de enlace, y al menos aproximadamente una señal de ½ de la proporción de señal a ruido en comparación con el(los) polipéptidos(s) inmunogénico(s), comparte una similitud estructural sustancial con el polipéptido inmunogénico en comparación con sintetasas conocidas, y en consecuencia, es un polipéptido de la invención.

En otro ejemplo, los inmunoanálisis en el formato de enlace competitivo se utilizan para la detección de un polipéptido de prueba. Por ejemplo, como se anotó, los anticuerpos que reaccionan de manera cruzada se retiran de la mezcla de antisueros depositados mediante inmunoabsorción con los polipéptidos de control. El(los) polipéptido(s) inmunogénico(s) se inmovilizan entonces a un soporte sólido que se expone a los antisueros depositados sustraídos. Se agregan proteínas de prueba al ensayo para competir por el enlace a los antisueros sustraídos depositados. La capacidad de la(s) proteína(s) de prueba para competir por el enlace a los antisueros sustraídos depositados en comparación con la(s) proteína(s) inmovilizadas se compara con la capacidad de el(los) polipéptido(s) inmunogénicos agregados al ensayo para competir por el enlace (los polipéptidos inmunogénicos compiten efectivamente con los polipéptidos inmunogénicos inmovilizados para enlazarse a los antisueros depositados). La reactividad cruzada porcentual para las proteínas de prueba se calcula utilizando cálculos estándar.

\newpage

En un ensayo paralelo, la capacidad de las proteínas de control para competir por el enlace a los antisueros sustraídos depositados se determina opcionalmente en comparación con la capacidad de el(los) polipéptidos inmunogénicos para competir por el enlace a los antisueros. De nuevo, la reactividad cruzada porcentual para los polipéptidos de control se calcula utilizando cálculos estándar. Cuando la reactividad cruzada porcentual es al menos 5-10x tan alta como para los polipéptidos de prueba en comparación con los polipéptidos de control y/o cuando el enlace de los polipéptidos de prueba se encuentra aproximadamente en el rango del enlace de los péptidos inmunogénicos, se dice que los polipéptidos de prueba enlazan específicamente los antisueros sustraídos depositados.

En general, los antisueros inmunoabsorbidos y depositados pueden utilizarse en un inmunoanálisis competitivo de enlace como se describió en la presente para comparar cualquier polipéptido de prueba con el(los) polipéptido(s) inmunogénicos y/o de control. A fin de efectuar esta comparación, cada uno de los polipéptidos inmunogénicos de prueba y de control se analizan en un amplio rango de concentraciones y se determina la cantidad de cada polipéptido requerida para inhibir el 50% del enlace de los antisueros sustraídos a, p. ej., una proteína inmovilizado de control, de prueba o inmunogénico utilizando técnicas estándar. Si la cantidad del polipéptido de prueba requerida para el enlace en el análisis competitivo es menor a dos veces la cantidad del polipéptido inmunogénico que se requiere, entonces se dice que el polipéptido de prueba se enlaza específicamente a un anticuerpo generado para la proteína inmunogénica, a condición de que la cantidad sea al menos aproximadamente 5-10x tan alta como para el polipéptido de control.

Como una determinación adicional de la especificidad, el antisuero depositado opcionalmente se inmunoabsorbe completamente con el(los) polipéptido(s) inmunogénico(s) (en lugar de los polipéptidos de control) hasta que sea detectable poco o ningún enlace del antisuero depositado sustraído de polipéptido inmunogénico a el(los) polipéptidos inmunogénico(s) utilizado(s) en la inmunoabsorción. Este antisuero completamente inmunoabsorbido se prueba entonces por reactividad con el polipéptido de prueba. Si se observa poca o ninguna reactividad (i.e., no más de 2x la proporción de señal a ruido observada para enlazarse al antisuero completamente inmunoabsorbido al polipéptido inmunogénico), entonces el polipéptido de prueba se enlaza específicamente por el antisuero emitido por la proteína inmunogénica.

Pares de ARNt ortogonal y sintetasa ARNt de aminoacilo ortogonal

Los sistemas de traducción adecuados para elaborar proteínas que incluyen uno o más aminoácidos no naturales se describen en las solicitudes de patente Internacional WO 2002/086075, titulada "METHODS AND COMPOSITION FOR THE PRODUCTION OF ORTHOGONAL tRNA-AMINOACIL tRNA SYNTHETASA PAIRS" (METODOS Y COMPOSICIÓN PARA LA PRODUCCIÓN DE PARES DE ARNt ORTOGONAL.SINTETASA ARNt DE AMINOACILO ORTOGONAL), y la WO 2002/085923, supra. Cada una de estas solicitudes se incorpora en la presente por referencia en su totalidad. Tales sistemas de traducción comprende células que incluyen un ARNt ortogonal (O-ARNt), una ARNt sintetasa de aminoacilo ortogonal (O-RS), y un aminoácido no natural (por ejemplo, un aminoácido no natural que comprende un residuo en donde un residuo sacárido puede anexarse, tal como un aminoácido derivatizado de aldehído o ceto, o un aminoácido no natural que incluye un residuo sacárido), en donde la O-RS aminoacila el O-ARNt con un aminoácido no natural. La célula utiliza los componentes para incorporar el aminoácido no natural en una cadena creciente de polipéptido.

Un par ortogonal se compone de un O-ARNt, p. ej., un ARNt supresor, un ARNt de cambio de marco de lectura, o lo similar, y una O-RS. El O-ARNt no se encuentra acilado por sintetasas endógenas y es capaz de decodificar un codón selector, como se describió anteriormente. La O-RS reconoce el O-ARNt, p. ej., con un bucle de anticodón extendido, y preferentemente aminoacila el O-ARNt con un aminoácido no natural, p. ej., un aminoácido no natural que comprende un residuo en donde un residuo sacárido puede anexarse, o un aminoácido no natural que incluye un residuo sacárido. El desarrollo de múltiples pares de ARNt ortogonal/sintetasa puede permitir la simultánea incorporación de múltiples aminoácidos no naturales utilizando diferentes codones. Ver, Ejemplo 5 para secuencias ejemplificativas de O-ARNt y O-RS.

El O-ARNt y el O-RS pueden presentarse naturalmente o pueden derivarse por mutación de un ARNt y/o RS que se presentan de manera natural de una variedad de organismos, que se describen bajo fuentes y huéspedes. En varias realizaciones, el ARNt y O-RS se derivan de al menos un organismo. En otra realización, el O-ARNt se deriva de un ARNt que se presenta naturalmente o mutado que se presenta naturalmente de un primer organismo y la O-RS se deriva de RS que se presenta naturalmente o mutada que se presenta naturalmente de un segundo organismo.

Específicamente, estos métodos incluyen: (a) la generación de una biblioteca de ARNts derivados de al menos un ARNt de un primer organismo; (b) la selección de manera negativa de la biblioteca para ARNts que se encuentran aminoacilados por una ARNt sintetasa de aminoacilo (RS) de un segundo organismo en ausencia de una RS del primer organismo, proporcionando así un depósito de ARNts; (c) la selección del depósito de ARNts para miembros que se encuentran aminoacilados por una RS ortogonal inducida (O-RS), proporcionando con esto al menos un O-ARNt recombinante. El O-ARNt recombinante reconoce un codón selector y no se reconoce eficientemente por la RS del segundo organismo y preferentemente se encuentra aminoacilado por la O-RS. El método incluye también: (d) la generación de una biblioteca de RSs mutantes derivadas de al menos una ARNt sintetasa de aminoacilo (RS) de un tercer organismo; (e) la selección de la biblioteca de RSs para miembros que preferentemente aminoacilan el O-ARNt recombinante en presencia de un aminoácido no natural y un aminoácido natural, proporcionando con esto un depósito de RSs activas; y (f) la selección de maneranegativa del depósito para RSs activas que preferentemente aminoacilan el al menos un O-ARNt recombinante en ausencia del aminoácido no natural, proporcionando así el par específico de O-ARNt/O-RS, en donde el par específico de O-ARNt/O-RS comprende al menos una O-RS recombinante que es específica para el aminoácido no natural, p. ej., un aminoácido no natural que comprende un residuo en donde puede anexarse un residuo sacárido, o un aminoácido no natural que incluye un residuo sacárido, y el O-ARNt recombinante.

Una estrategia para generar un par ortogonal implica la generación de bibliotecas mutantes de las cuales separar y/o seleccionar un O-ARNt o O-RS.

Una segunda estrategia para la generación de un par ortogonal de ARNt /sintetasa implica la importación de un par heterólogo de ARNt/sintetasa, p. ej., la importación de un par de otro, p. ej., organismo fuente en la célula huésped. Las propiedades de la sintetasa heteróloga candidato incluyen, p. ej., que no carga ARNt de célula huésped, y las propiedades del ARNt heterólogo candidato incluyen, p. ej., que éste no se encuentra acilado por ninguna sintetasa de célula huésped. En adición, el ARNt heterólogo derivado del ARNt es ortogonal para todas las sintetasas de célula huésped.

Sintetasas ortogonales ARNt de aminoacilo (O-RS)

Una O-RS de la invención preferentemente aminoacila un O-ARNt con un aminoácido no natural, p. ej., un aminoácido no natural que comprende un residuo en donde puede anexarse un residuo sacárido, o un aminoácido no natural que incluye un residuo sacárido, in vitro o in vivo. Una O-RS de la invención puede proporcionarse al sistema de traducción, p. ej., una célula, o un sistema de traducción in vivo mediante un polipéptido que incluye una O-RS y/o mediante un polinucleótido que codifica una O-RS o una porción de la misma. Por ejemplo, una O-RS comprende una secuencia de aminoácidos como se describe en la SEQ ID NO.: 1-6, o una variante conservadora de la misma. En otro ejemplo, una O-RS o una porción de la misma, se encuentra codificada por una secuencia de polinucleótidos que codifica un aminoácido la SEQ ID NO.: 1-6, o una secuencia complementaria de polinucleótidos, o se encuentra codificada por un polinucleótido que comprende una secuencia de polinucleótidos de cualquiera de las SEQ ID NO.: 8, 9 o 10. Ver, p. ej., Tabla 2 y Ejemplo 5 en la presente para las secuencias de moléculas O-RS ejemplificativas. Ver también la sección titulada "Secuencias y Variantes de Ácido Nucleico y de Polipéptidos" en la presente.

Los métodos para producir una O-RS se basan en la generación de un depósito de sintetasas mutantes desde la estructura de una sintetasa de tipo silvestre, y después en la selección de RSs mutadas en base a su especificidad para un aminoácido no natural que tiene, p. ej., un residuo de aldehído o ceto o un residuo sacárido relativo a los veinte aminoácidos comunes. Para aislar tal sintetasa, los métodos de selección de la invención son: (i) sensitivo, dado que la actividad deseada de las sintetasas desde las rondas iniciales puede ser baja y la población pequeña; (ii) "regulable", dado que es deseable variar la rigurosidad de selección en diferentes rondas de selección; y, (iii) general, de modo que pueda utilizarse para diferentes aminoácidos no naturales.

Los métodos para generar una sintetasa ortogonal ARNt de aminoacilo incluyen mutar la sintetasa, p. ej., en el sitio activo en la sintetasa, en el sitio del mecanismo de edición en la sintetasa, en diferentes sitios combinando diferentes dominios de sintetasas, o lo similar, y aplicar un proceso de selección. Se utiliza una estrategia que se basa en la combinación de una selección positiva seguida por una selección negativa. En la selección positiva, la supresión del codón selector introducido en posición(es) no esencial(es) de un marcador positivo permite que las células sobrevivan bajo presión de selección positiva. En presencia de aminoácidos tanto naturales como no naturales, los sobrevivientes codifican de este modo para sintetasas activas que cargan el ARNt ortogonal supresor con un aminoácido natural o no natural. En la selección negativa en ausencia del aminoácido no natural, la supresión de un codón selector en posición(es) no esencial(es) de un marcador negativo retira las sintetasas con especificidades de aminoácido natural. Los sobrevivientes de la selección negativa y positiva codifican para sintetasas que aminoacilan (cargan) el ARNt ortogonal supresor solo con aminoácidos no naturales. Estas sintetasas pueden entonces someterse a mutagénesis adicional, p. ej., redistribución de ADN, otros métodos repetitivos de mutagénesis y/o lo similar.

La biblioteca de RSs mutantes puede generarse utilizando varias técnicas de mutagénesis conocidas en la técnica. Por ejemplo, las RSs mutantes pueden generarse mediante mutaciones específicas del sitio, mutaciones en punto aleatorio, recombinación homóloga, construcción quimérica o lo similar. Las bibliotecas quiméricas de RSs también se incluyen en la invención.

La selección positiva puede basarse en la supresión de un codón selector en in marcador de selección positiva que comprende un codón selector, p. ej., un codón ámbar de paro en el gen marcador de selección. El antibiótico u otro agente selectivo puede aplicarse como la presión positiva de selección. En adición, el marcador de selección puede utilizarse como marcador positivo y como marcador negativo, como se describe en la presente, en presencia y ausencia de un aminoácido no natural. Opcionalmente, el gen marcador de selección que comprende un codón selector se utiliza para la selección positiva y para la selección negativa se utiliza un marcador de selección negativa, p. ej., un marcador tóxico, tal como un gen barnasa que comprende al menos uno o más codones selectores.

La selección positiva también puede utilizarse en base a la supresión de un codón selector en una posición no esencial en el gen \beta-lactamasa, haciendo a las células resistentes a la ampicilina; y se utiliza una selección negativa utilizando ribonucleasa barnasa como marcador negativo. En contraste con la \beta-lactamasa, secretada en el periplasma, también puede utilizarse una cloranfenicol acetiltransferasa (CAT), que se localiza en el citoplasma; además, la ampicilina es bactericida mientras que el cloranfenicol es bacteriostático.

Una vez que las sintetasas se someten a la estrategia positiva y negativa de selección/separación, estas sintetasas pueden entonces someterse a mutagénesis adicional. Por ejemplo, puede aislarse un ácido nucleico que codifica para la O-RS; puede generarse un conjunto de polinucleótidos que codifican O-RSs mutadas (p. ej., mediante mutagénesis aleatoria, mutagénesis específica del sitio, recombinación o cualquier combinación de las mismas) a partir del ácido nucleico; y, estas etapas individuales o una combinación de estas etapas puede repetirse hasta obtener una O-RS mutada que preferentemente aminoacila el O-ARNt con el aminoácido no natural, p. ej., un aminoácido no natural que comprende un residuo en donde puede anexarse un residuo sacárido, o un aminoácido no natural que incluye un residuo sacárido. En un aspecto de la invención, las etapas se realizan múltiples veces, p. ej., al menos dos veces. Opcionalmente, la concentración del agente de selección varía.

También pueden utilizarse niveles adicionales de rigurosidad de selección/separación en los métodos de la invención, para producir O-ARNt, O-RS o pares de los mismos. La rigurosidad de selección o separación puede variar en una o ambas etapas del método para producir una O-RS. Esto podría incluir, p. ej., variar la cantidad del agente de selección/separación que se utiliza, etc. también pueden efectuarse rondas adicionales de selecciones positivas y/o negativas. La selección o separación también puede comprender uno o más de un cambio en la permeabilidad del aminoácido, un cambio en la eficiencia de traducción, un cambio en la fidelidad translacional, etc. Típicamente, los uno o más cambios se basan en una mutación en uno o más genes en un organismo en el cual se utiliza un par ortogonal de ARNt-ARNt para producir proteínas.

Pueden encontrarse detalles adicionales para producir O-RS, para alterar la especificidad del sustrato de la sintetasa, y otros ejemplos de O-RSs en la WO 2002/086075, supra.

ARNt (O-ARNts) ortogonales

Un ARNt (O-ARNt ortogonal de la invención media la incorporación de un aminoácido no natural, p. ej., un aminoácido no natural que comprende un residuo en donde puede anexarse un residuo sacárido, tal como un aminoácido derivatizado de aldehído o ceto, o un aminoácido no natural que incluye un residuo sacárido, en una proteína codificada por un polinucleótido que comprende un codón selector reconocido por el O-ARNt, p. ej., in vivo o in vitro.

Un ejemplo de O-ARNts de la invención es la SEQ ID NO.: 7. Ver Tabla 2 y Ejemplo 5, en la presente, para secuencias de moléculas de O-ARNt y O-RS ejemplificativas. Ver también la sección titulada "Secuencias y Variantes de Ácido Nucleico y de Polipéptidos" en la presente. En la molécula de ARNt, la Timina (T) se reemplaza con Uracilo (U). También pueden presentarse modificaciones adicionales a las bases. La invención incluye también variaciones conservadoras de O-ARNt. Por ejemplo, las variaciones conservadoras de O-ARNt incluyen aquellas moléculas que funcionan como el O-ARNt de la SEQ ID NO.: 7 y mantienen la estructura en forma de L del ARNt, pero no tienen la misma secuencia (y son diferentes de las moléculas de ARNt de tipo silvestre). Ver también la sección en la presente titulada "Secuencias y Variantes de Ácido Nucleico y de Polipéptidos".

Se proporcionan métodos para producir un ARNt (O-ARNt) recombinante ortogonal en la solicitud de patente Internacional WO 2002/086075, supra.

Por ejemplo, para mejorar la ortogonalidad de un ARNt mientras se preserva su afinidad hacia una RS deseada, los métodos incluyen una combinación de selecciones negativas y positivas con una biblioteca de ARNt supresor mutante en ausencia y en presencia de la sintetasa cognado, respectivamente. En la selección negativa, se introduce un
codón(es) selector(es) en un gen marcador, p. ej., un gen tóxico, tal como barnasa, en una posición no esencial. Cuando un miembro de la biblioteca de ARNt mutante, p. ej., derivado de Methanococcus jannaschii, se aminoacila por un huésped endógeno, p. ej., sintetasas de Escherichia coli (i.e., no es ortogonal al huésped, p. ej., sintetasa de Escherichia coli), el codón selector, p. ej., un codón ámbar, se suprime y el producto del gen tóxico produce guías para la muerte de la célula. Las células que albergan ARNts no funcionales, o ARNts que no pueden reconocerse por la sintetasa de interés son sensibles al antibiótico. En consecuencia, los ARNts que: (i) no son sustratos para el huésped endógeno, p. ej., Escherichia coli, sintetasas; (ii) pueden aminoacilarse por la sintetasa de interés; y (iii) son funcionales en la traducción, sobreviven a ambas selecciones.

Se construyen bibliotecas de ARNt mutado. Las mutaciones pueden introducirse en una posición(es) específi-
ca(s), p. ej., en posición(es) no conservadora(s), o en una posición conservadora, en posición(es) aleatoria(s), o una combinación de ambas en un bucle deseado de un ARNt, p. ej., un bucle anticodón, (brazo D, bucle V, brazo T y C) o una combinación de bucles o todos los bucles. Las bibliotecas quiméricas de ARNt también se incluyen en la invención. Debe notarse que las bibliotecas de ARNt sintetasas de diversos organismos (p. ej., microorganismos tales como eubacterias o arquebacterias) tales como las bibliotecas que comprenden una diversidad natural (ver, p. ej., la Patente de E.U. No. 6,238,884 para Short et al.; la Patente de E.U. No. 5,756,316 para Schallenberger et al.; la Patente de E.U. No. 5,783,431 para Petersen et al.; la Patente de E.U. No. 5,824,485 para Thompson et al.; la Patente de E.U. No. 5,958,672 para Short et al.), se construyen opcionalmente y se separan por pares ortogonales.

Pueden introducirse mutaciones adicionales en posición(es) específica(s), p. ej., en posición(es) no conservado-
ra(s), o en una posición conservadora, en posición(es) aleatorizada(s), o una combinación de ambas en un bucle o región deseada de un ARNt, p. ej., un bucle anticodón, una cepa aceptor, brazo o bucle D, brazo o bucle T y C, otras regiones de la molécula de ARNt o una combinación de los mismos. Típicamente, las mutaciones en un ARNt incluyen la mutación del bucle anticodón de cada miembro de la biblioteca de ARNts mutantes para permitir el reconocimiento de un codón selector. El método puede incluir además agregar una secuencia adicional (CCA) al término 3' del O-ARNt. Típicamente, un O-ARNt posee un mejoramiento de ortogonalidad para un organismo deseado en comparación con el material de inicio, p. ej., la pluralidad de secuencias de ARNt, mientras preserva su afinidad hacia una RS deseada.

Por ejemplo, en la selección negativa, un codón(es) selector(es) se introduce(n) en polinucleótidos que codifican un marcador de selección negativa, p. ej., una enzima que confiere resistencia antibiótica, p. ej., \beta-lactamasa, una enzima que confiere un producto detectable, p. ej., \beta-galactosidasa, cloranfenicol acetiltransferasa (CAT), p. ej., un producto tóxico, tal como barnasa, en una posición no esencial (p. ej., que aún produce una barnasa funcional), etc. La separación/selección se realiza opcionalmente haciendo crecer la población de células en presencia de un agente selectivo (p. ej., un antibiótico tal como ampicilina). En una realización, la concentración del agente de selección
varía.

Por ejemplo, para medir la actividad de los ARNts supresores, se utiliza un sistema de selección que se basa en la supresión in vivo del codón selector, p. ej., mutaciones de no sentido o mutaciones del cambio del marco de lectura introducidas en un polinucleótido que codifica un marcador de selección negativa, p. ej., un gen para \beta-lactamasa (bla). Por ejemplo, se construyen variantes de polinucleótidos, p. ej., variantes bla, con un codón selector en posición en una cierta posición. Las células, p. ej., bacterias, se transforman con estos polinucleótidos. En el caso de un ARNt ortogonal, que no puede cargarse eficientemente por sintetasas endógenas de E. coli, la resistencia al antibiótico, p. ej., resistencia a la ampicilina, debe ser de aproximadamente o menor que esa para una bacteria transformada sin plásmido. Si el ARNt no es ortogonal, o si una sintetasa heteróloga capaz de cargar el ARNt se co-expresa en el sistema, se observa un mayor nivel de resistencia al antibiótico, p. ej., ampicilina. Se seleccionan las células, p. ej., bacterias, que no son capaces de crecer en placas de agar LB con concentraciones de antibiótico aproximadamente iguales a las células transformadas sin plásmidos.

En el caso de un producto tóxico (p. ej., ribonucleasa barnasa), cuando un miembro de la pluralidad de ARNts potenciales se aminoacila por el huésped endógeno, p. ej., sintetasas de Escherichia coli (i.e., no es ortogonal para el huésped, p. ej., sintetasas de Escherichia coli), el codón selector se suprime y el producto tóxico de polinucleótidos producido condice a la muerte de la célula. Sobreviven las células que albergan ARNts ortogonales o ARNts no funcionales. Opcionalmente, el gen de ribonucleasa barnasa puede incluir dos o más codones ámbar. Las células sobrevivientes pueden seleccionarse, p. ej., utilizando un análisis de densidad celular de grado de comparación.

En una realización, el depósito de ARNts que son ortogonales para un organismo se somete a una selección positiva n la cual un codón selector se coloca en un marcador de selección positiva, p. ej., codificado por un gen de resistencia a drogas, tal como un gen de \beta-lactamasa. La selección positiva se lleva a cabo en una célula que comprende un polinucleótido que codifica o comprende un miembro del depósito de ARNts que son otrogonales para la célula, un polinucleótido que codifica un marcador de selección positiva, y un polinucleótido que codifica una RS cognado. En ciertas realizaciones, la segunda población de células comprende células que no se eliminaron mediante la selección negativa. Los polinucleótidos se expresan en la célula y la célula crece en presencia de un agente de selección, p. ej., ampicilina. Los ARNts se seleccionan entonces por su habilidad para aminoacilarse mediante la sintetasa cognado co-expresada y para insertar un aminoácido en respuesta a su codón selector. Típicamente, estas células muestran un aumento en la eficiencia de supresión en comparación con células que albergan ARNts no funcionales, o ARNts que no pueden reconocerse eficientemente por la sintetasa de interés. La célula que albergan los ARNts no funcionales que no se reconocen eficientemente por la sintetasa de interés son sensibles al antibiótico. En consecuencia, los ARNts que: (i) no son sustratos para el huésped endógeno, p. ej., Escherichia coli, sintetasas; (ii) pueden aminoacilarse por la sintetasa de interés; y (iii) son funcionales en la traducción, sobreviven a ambas selecciones.

La rigurosidad de la selección, p. ej., la selección positiva, la selección negativa o tanto la selección positiva como la negativa, en los métodos antes descritos, incluye opcionalmente la variación de la rigurosidad de la selección. Por ejemplo, debido a que la barnasa es una proteína extremadamente tóxica, la rigurosidad de la selección negativa puede controlarse introduciendo diferentes números de codones selectores en el gen de barnasa y/o utilizando un promotor inductible. En otro ejemplo, la concentración del agente de selección o separación varía (p. ej., concentración de ampicilina). En un aspecto de la invención, la rigurosidad varía debido a que la actividad deseada puede ser baja durante rondas anteriores de separación. De este modo, se aplican criterios de selección menos rigurosos en las rondas anteriores y se aplican criterios más rigurosos en rondas posteriores de selección. En ciertas realizaciones, la selección negativa, la selección positiva o tanto la selección negativa como la positiva, pueden repetirse múltiples veces. Pueden utilizarse múltiples marcadores diferentes de selección negativa, marcadores de selección positiva, o marcadores tanto de selección negativa como positiva. En ciertas realizaciones, el marcador de selección positiva y negativa puede ser el mismo.

Pueden utilizarse otros tipos de selecciones en la invención para generar, p. ej., O-RS, O-ARNt, y pares de O-ARNt/O-RS que utilizan, p. ej., un aminoácido no natural que comprende un residuo en donde puede anexarse un residuo sacárido, tal como un aminoácido derivatizado de aldehído o ceto, o un aminoácido no natural que incluye un residuo sacárido. Por ejemplo, la etapa de selección positiva, la etapa de selección negativa o ambas tapas de selección positiva y negativa pueden incluir el uso de un informante, en donde el informante se detecta mediante selección de células activada por fluorescencia (FACS). Por ejemplo, una selección positiva puede realizarse primero con un marcador de selección positiva, p. ej., un gen de cloranfenicol acetiltransferasa (CAT), en donde un gen CAT comprende un codón selector, p. ej., un codón ámbar de paro, en el gen CAT, que seguido por una separación de selección negativa, se basa en la incapacidad de suprimir codón(codones) selector(es), p. ej., dos o más codones, en posiciones dentro de un marcador negativo, p. ej., un gen de polimerasa T7 ARN, que efectúa la transcripción de otro gen, p. ej., GFP. En una realización, el marcador de selección positiva y el marcador de selección negativa pueden encontrarse en el mismo vector, p. ej., el plásmido. La expresión del marcador negativo conduce la expresión del informante, p. ej., la proteína verde fluorescente (GFP). La rigurosidad de la selección y la separación pueden variar, p. ej., la intensidad de la luz necesaria para la fluorescencia del informante puede variar. En otra realización, puede efectuarse una selección positiva con un informante como marcador de selección positiva que se separa mediante FACs, seguida por una separación de selección negativa, que se basa en la incapacidad para suprimir el(los) codón(codones) selector(es), p. ej., dos o más en las posiciones dentro de un marcador negativo, p. ej., un gen de barnasa. Ver también, p. ej., el Ejemplo 4 en la presente.

Opcionalmente, el informante se despliega en una superficie celular, en una imagen fago o lo similar. La visualización de superficie celular, p. ej., el sistema de visualización de superficie celular en base a OmpA, se basa en la expresión de un epítope particular, p. ej., un péptido C3 de poliovirus fusionado a una OmpA porin de membrana externa en la superficie de la célula de Escherichia coli. El epítope se despliega en la superficie celular solo cuando el codón selector en el mensaje de la proteína se suprime durante la traducción. El péptido desplegado contiene entonces el aminoácido reconocido por una de las sintetasas mutantes ARNt de aminoacilo en la biblioteca, y la célula que contiene el gen de sintetasa correspondiente puede aislarse con anticuerpos cultivados contra péptidos que contienen aminoácidos no naturales específicos. El sistema de visualización de superficie celular en base a OmpA se desarrolló y se optimizó por Georgiou et al., como una alternativa a la imagen fago. Ver, Francisco, J.A., Campbell, R., Iverson, B.L. & Georgiou, G., Production and fluorescence-activated cell sorting of Escherichia coli expressing a functional antibody fragment on the external surface, (Producción y separación celular activada por fluorescencia de Escherichia coli que expresa un fragmento funcional de anticuerpo en la superficie externa), Proc. Natl. Acad. Sci. U.S.A. 90:10444-8 (1993).

Las etapas de selección también pueden llevarse a cabo in vitro. El componente seleccionado, p. ej., sintetasa y/o ARNt, puede introducirse entonces en una célula para su uso en la incorporación in vivo de un aminoácido no natural.

Los métodos adicionales para producir un ARNt ortogonal pueden encontrarse, p. ej., en las solicitudes de patente Internacional WO 2002/086075, supra. Ver también Forster et al., (2003) Programming peptidomimetic synthetasas by translating genetic codes designed de novo (Programación de sintetasas peptidomiméticas trasladando códigos genéticos diseñados de novo) PNAS 100(11):6353-6357; y Feng et al., (2003), Expanding tRNA recognition of a tRNA synthetasa by a single aminoacid change, (Expansión del reconocimiento de ARNt de una ARNt sintetasa mediante un solo cambio de aminoácidos) PNAS 100(10):5676-5681.

Organismos fuente y huésped

Los componentes traslacionales para producir las glicoproteínas de la invención se derivan típicamente de organismos no eucarióticos. Por ejemplo, el O-ARNt ortogonal puede derivarse de un organismo no eucariótico (o una combinación de organismos), p. ej., una arquebacteria, tal como Methanococcus jannaschii, Methanobacterium thermoautotrophicum, Halobacterium tal como Haloferax volcanii y especies Halobacterium NRC-1, Archaeoglobus fulgidus, Pyrococcus furiosus, Pyrococcus horikoshii, Aeuropyrum pernix, Methanococcus maripaludis, Methanopyrus kandleri, Methanosarcina mazei (Mm), Pyrobaculum aerophilum, Pyrococcua abyssi, Sulfolobus solfataricus (Ss), Sulfolobus tokodaii, Thermoplasma acidophilum, Thermoplasma volcanium, o lo similar, o una eubacteria, tal como Escherichia coli Thermus thermophilus, Bacillus stearothermphilus, o lo similar, mientras que la O-RS ortogonal puede derivarse de un organismo no eucariótico (o una combinación de organismos), p. ej., una arquebacteria, tal como Methanococcus jannaschii, Methanobacterium thermoautotrophicum, Halobacterium tal como Haloferax volcanii y especies Halobacterium NRC-1, Archaeoglobus fulgidus, Pyrococcus furiosus, Pyrococcus horikoshii, Aeuropyrum pernix, Methanococcus maripaludis, Methanopyrus kandleri, Methanosarcina mazei, Pyrobaculum aerophilum, Pyrococcua abyssi, Sulfolobus solfataricus (Ss), Sulfolobus tokodaii, Thermoplasma acidophilum, Thermoplasma volcanium, o lo similar. En una realización, también pueden utilizarse fuentes eucarióticas, p. ej., plantas (p. ej., plantas complejas tales como monocots o dicots), algas, hongos, levaduras, animales (p. ej., mamíferos, insectos, antrópodos, etc.) o lo similar, como fuentes de O-ARNts y O-RSs.

Los componentes individuales de un par de O-ARNt/O-RS pueden derivarse del mismo organismo o de organismos diferentes. El par de ARNt-RS ortogonal puede utilizarse en una diversidad de organismos huésped, p. ej., un segundo organismo. En una realización, el par de O-ARNt/O-RS es del mismo organismo. Alternativamente, el O-ARNt y la O-RS del par de O-ARNt/O-RS son de diferentes organismos.

Codones selectores

Los codones selectores de la invención expanden la estructura genética de codón de la maquinaria biosintética de las proteínas para la incorporación de un aminoácido no natural, p. ej., un aminoácido no natural que comprende un residuo en donde puede anexarse un residuo sacárido, o un aminoácido no natural que incluye un residuo sacárido. Por ejemplo, un codón selector incluye, p. ej., un codón único de tres bases, un codón de no sentido, tal como un codón de paro, p. ej., un codón ámbar, o un codón ópalo, un codón no natural, al menos un codón de cuatro bases, un codón raro, o lo similar. Puede introducirse un número de codones selectores en un gen deseado, p. ej., uno o más, dos o más, más de tres, etc.

Los 64 codones genéticos codifican para 20 aminoácidos y tres codones de paro. Debido a que solo se necesita un codón de paro para la terminación traslacional, los otros dos pueden en principio utilizarse para codificar para aminoácidos no proteinógenos. El codón ámbar de paro, UAG, se ha utilizado con éxito en el sistema biosintético in vitro y en oocitos Xenopus para dirigir la incorporación de aminoácidos no naturales. Entre los tres codones de paro, el UAG es el codón de paro menos utilizado en Escherichia coli. Algunas especies de Escherichia coli contienen ARNts supresores naturales, que reconocen el UAG e insertan un aminoácido natural. En adición, estos ARNts supresores ámbar se han utilizado en mutagénesis de proteína convencional. En ciertas realizaciones de la invención, se utilizan otros codones de paro en la invención.

En una realización, los métodos implican el uso de un codón selector que es un codón de paro para la incorporación de aminoácidos no naturales in vivo. Por ejemplo, se genera un O-ARNt que reconoce al codón de paro, p. ej., UAG, y se aminoacila por una O-RS con un aminoácido no natural deseado. Este O-ARNt no es reconocido por las aminoacilo-ARNt sintetasas que se presentan de manera natural. Puede utilizarse mutagénesis convencional dirigida al sitio para introducir el codón de paro, p. ej., TAG, en el sitio de interés en el gen de proteína. Ver, p. ej., Sayers, J.R., Schmidt, W., Eckstein, F., 5', 3' Exonuclease in phosphorothioate-based oligonucleotide-directed mutagénesis, (Exonucleasa 5', 3'en la mutagénesis dirigida por oligonucleótidos en base a fosforotioato) Nucleic Acids Res., 791-802 (1988). Cuando la O-RS, O-ARNt y el gen mutante se combinan in vivo, el aminoácido no natural se incorpora en respuesta al codón UAG para dar una proteína que contiene el aminoácido natural en la posición especificada.

La incorporación de aminoácidos no naturales in vivo puede efectuarse sin perturbación significativa al huésped, p. ej., Escherichia coli. Por ejemplo, en células no eucarióticas, tales como Escherichia coli, debido a que la eficiencia de supresión para el codón UAG depende de la competencia entre el O-ARNt, p. ej., el ARNt supresor ámbar, y el factor 1 de desprendimiento (RF1) (que se enlaza al codón UAG e inicia el desprendimiento del péptido creciente del ribosoma), la eficiencia de supresión puede modularse, p. ej., ya sea incrementando el nivel de expresión de O-ARNt, p. ej., el ARNt supresor, o utilizando una especie deficiente en RF1.

Los aminoácidos no naturales, p. ej., los aminoácidos no naturales que comprenden un residuo en donde puede anexarse un residuo sacárido, tal como un aminoácido derivatizado de aldehído o ceto o aminoácidos no naturales que incluyen un residuo sacárido, también pueden codificarse con codones raros. Por ejemplo, cuando la concentración de arginina en una reacción de síntesis de proteína in vitro se reduce, el codón raro de arginina, AGG, ha probado ser eficiente para la inserción de Ala mediante un ARNt sintético acilado con alanina. Ver, p. ej., Ma et al., Biochemistry, 32:7939 (1993). En este caso, el ARNt sintético compite con el ARNtArg que se presenta naturalmente, que existe como una especie menor en Escherichia coli. Tales organismos no utilizan todos los codones triples. Un codón AGA no asignado en Micrococcus luteus se ha utilizado para la inserción de aminoácidos en un extracto de transcripción/traducción in vitro. Ver, p. ej., Kowal y Oliver, Nucl. Acid. Res., 25:4685 (1997). Los componentes de la invención pueden generarse para utilizar estos codones raros in vivo.

Los codones selectores comprenden además cuatro o más codones base, tal como, cuatro, cinco, seis o más codones base. Ejemplos de cuatro codones base incluyen, p. ej., AGGA, CUAG, UAGA, CCCU y similares. Ejemplos de cinco codones base incluyen p. ej., AGAAC, CCCCU, CCCUC, CUAGA, CUACU, UAGGC y similares. Por ejemplo, en presencia de O-ARNts mutados, p. ej., un ARNt supresor de estructura especial, con bucles de anticodón, p. ej., con al menos 8-10 nt bucles de anticodón, los cuatro o más codones base se leen como un solo aminoácido. En otras realizaciones, los bucles de anticodón pueden decodificar, p. ej., al menos cuatro codones base, al menos cinco codones base, o al menos seis codones base o más. Debido a que existen 256 codones de cuatro bases posibles, pueden codificarse múltiples aminoácidos no naturales en la misma célula utilizando los cuatro o más codones base. Ver Anderson et al., Exploring the Limits of Codon and Anticodon Size, Chemistry and Biology, (Explorando los Límites de Tamaño de Codones y Aniticodones, Química y Biología) Vol. 9, 237-244 (2002); y, Magliery, Expanding the Genetic Code: Selection of Eficiente Suppresors of Four-base Codons and Identification of "Shifty" Four-base Codon with a Library Approach in Escherichia coli, (Expansión del Código Genético: Selección de Supresores Eficientes de Codones de Cuatro bases e Identificación de Codones "Desplazados" de Cuatro Bases con un Proceso de Biblioteca en Escherichia coli) J. Mol. Biol. 307:755-769 (2001).

Los métodos de la invención incluyen el uso de codones extendidos en la supresión del cambio del marco de lectura. Cuatro o más codones base pueden insertar, p. ej., uno o múltiples aminoácidos no naturales en la misma proteína. Por ejemplo, los codones de cuatro bases se han utilizado para incorporar aminoácidos no naturales en proteínas utilizando métodos biosintéticos in vitro. Ver, p. ej., Ma et al., Biochemistry, 1993, 32 7939 (1993); y Osaka et al., J. Am. Chem. Soc. 121:34 (1999). Se utilizaron CGGG y AGO para incorporar simultáneamente 2-naftilalanina y derivado NBD de lisina en estreptavidina in vitro con dos ARNts supresores del cambio del marco de lectura químicamente acilados. Ver, p. ej., Osaka et al., J. Am. Chem. Soc., 121:12194 (1999). En un estudio in vivo, Moore et al., examinó la capacidad de derivados ARNtLeu con anticodones NCUA para suprimir codones UAGN (N puede ser U, A, G, o C), y encontró que la cuádrupla UAGA puede decodificarse por un ARNtLeu con un anticodón UCUA con una eficiencia de 13 a 26% con poca decodificación en el marco 0 o -1. Ver Moore et al., J. Mol. Biol.298:195 (2000). En una realización, pueden utilizarse en la invención codones extendidos en base a codones raros o a codones de no sentido, que pueden reducir la confusión en la lectura y la supresión del cambio del marco de lectura en otros sitios no
deseados.

También puede utilizarse un sistema de paso traslacional para incorporar un aminoácido no natural, p. ej., un aminoácido no natural que comprende un residuo en donde puede anexarse un residuo sacárido, o un aminoácido no natural que incluye un residuo sacárido, en un polipéptido deseado. En un sistema de paso traslacional, se inserta una secuencia grande en un gen pero no se traslada en proteínas. La secuencia contiene una estructura que sirve como una clave para inducir el ribosoma para saltar sobre la secuencia y resumir la traducción aguas debajo de la inserción.

Alternativamente, o en combinación con otros métodos antes descritos para incorporar un aminoácido no natural, p. ej., un aminoácido no natural que comprende un residuo en donde puede anexarse un residuo sacárido, o un aminoácido no natural que incluye un residuo sacárido, en un polipéptido, puede utilizarse in sistema de trans-traducción. Este sistema implica una molécula llamada tmARN presente en Escherichia coli. Esta molécula ARN se relaciones estructuralmente con un ARNt de alanilo y se aminoacila por la alanilo sintetasa. La diferencia entre tmARN y ARNt es que el bucle del anticodón se reemplaza con una secuencia grande especial. Esta secuencia permite que el ribosoma resuma la traducción en secuencias que se han detenido utilizando un marco de lectura abierto codificado dentro de tmARN como plantilla. En la invención, puede generarse un tmARN ortogonal que preferentemente se aminoacila con una sintetasa ortogonal y se carga con un aminoácido no natural. Al transcribir un gen utilizando el sistema, el ribosoma se detiene en un sitio específico; el aminoácido no natural se introduce en ese sitio, después la traducción se resume, utilizando la secuencia codificada dentro de tmARN ortogonal.

Para un sistema dado, el codón selector también puede incluir uno de los codones naturales de tres bases, en donde el sistema endógeno no utiliza (o rara vez utiliza) el codón base natural. Por ejemplo, éste incluye un sistema que carece de un ARNt que reconoce el codón natural de tres bases, y/o un sistema en donde el codón de tres bases es un codón raro.

Los codones selectores opcionalmente incluyen pares base no naturales. Estos pares base no naturales expanden adicionalmente el alfabeto genético existente. Un par base extra aumenta el número de codones triples de 64 a 125. Las propiedades de los terceros pares base incluyen el aparejamiento de base estable y selectivo, la incorporación enzimática eficiente al ADN con alta fidelidad por medio de una polimerasa, y la extensión inicial eficiente continua después de la síntesis del par base no natural naciente. Las descripciones de pares base no naturales que pueden adaptarse para métodos y composiciones incluyen, p. ej., Hirao et al., An unnatural base pair for incorporating amino acid analogues into protein, (Un par base no natural para incorporar análogos de aminoácido en proteínas) Nature Biotechnology, 20:177-182 (2002). Otras publicaciones relevantes se enlistan abajo.

Para uso in vivo, el nucleósido no natural es permeable a membrana y se fosforila para formar el trifosfato correspondiente. En adición, la información genética aumentada es estable y no se destruye por las enzimas celulares. Esfuerzos previos por Benner y otros tomaron ventaja de los patrones de enlace de hidrógeno que son diferentes de aquellos en los pares canónicos Watson-Crick, de los cuales el ejemplo más notable es el par iso-C:iso-G. Ver, p. ej., Switzer et al., J. Am. Chem. Soc., 111:8322 (1989); y Piccirilli et al., Nature, 1990, 343:33 (1990); Kool, Curr. Opin. Chem. Biol., 4:602 (2000). Estas bases en general deshacen los pares en cierto grado con bases naturales y no pueden replicarse enzimáticamente. Kool y colaboradores demostraron que las interacciones de empaque hidrofóbico entre bases pueden reemplazar el enlace de hidrógeno para conducir la formación del par base. Ver Kool, Curr. Opin. Chem. Biol., 4:602 (2000); y Guckian and Kool, Angew, Chem, Int. Ed. Engl., 36, 2825 (1998). En un esfuerzo por desarrollar un par base no natural que satisfaga todos los requerimientos anteriores, Schultz, Romesberg y colaboradores han sintetizado y estudiado sistemáticamente una serie de bases hidrofóbicas no naturales. Se encontró que un auto-par PICS:PICS es más estable que los pares base naturales, y puede incorporarse eficientemente en ADN por medio de un fragmento Klenow de Escherichia coli ADN polimerasa I (KF). Ver, p. ej., McMinn et al., J. Am. Chem. Soc., 121:11586 (1999); y Ogawa et al., J. Am. Chem. Soc., 122:3274 (2000). Un auto-par 3MN:3MN puede sintetizarse mediante KF con eficiencia y selectividad suficiente para la función biológica. Ver, p. ej., Ogawa et al., J. Am. Chem. Soc., 122:8803 (2000). Sin embargo, ambas bases actúan como un terminador de cadena para la replicación adicional. Se ha desarrollado recientemente una polimerasa de ADN mutante que puede utilizarse para replicar el auto-par PICS. En adición, puede replicarse un auto-par 7AI. Ver, p. ej., Tae et al., J. Am. Chem. Soc., 123:7439 (2001). También se ha desarrollado un nuevo par metalobase, Dipic:Py, que forma un par estable al enlazar Cu(II). Ver Megger et al., J. Am. Chem. Soc., 122:10714 (2000). Debido a que los codones extendidos y los codones naturales son intrínsecamente ortogonales a los codones naturales, los métodos de la invención pueden tomar ventaja de esta propiedad para generar ARNts ortogonales para ellos.

Aminoácidos no naturales

Como se utiliza en la presente, un aminoácido no natural se refiere a cualquier aminoácido, aminoácido modificado, o análogo de aminoácido diferente de selenocisteína y/o pirrolisina y los siguientes veinte aminoácidos alfa genéticamente codificados: alanina, arginina, asparagina, ácido aspártico, cisteína, glutamina, ácido glutámico, glicina, histidina, isoleucina, leucina, lisina, metionina, fenilalanina, prolina, serina, treonina, triptofán, tirosina, valina. La estructura genérica del aminoácido alfa se ilustra por la Fórmula I:

1

Un aminoácido no natural es típicamente cualquier estructura que tiene la Fórmula I en donde el grupo R es cualquier sustituyente diferente del utilizado en los veinte aminoácidos naturales. Ver, p. ej., Biochemistry por L. Stryer, 3ª ed. 1988, Freeman and Company, New York, para estructuras de los veinte aminoácidos naturales. Nótese que, los aminoácidos no naturales de la invención pueden ser compuestos que se presentan de manera natural diferentes a los veinte aminoácidos alfa anteriores.

Debido a que los aminoácidos no naturales de la invención difieren opcionalmente de los aminoácidos naturales solo en la cadena lateral, los aminoácidos no naturales típicamente pueden formar enlaces amida con otros aminoácidos, p. ej., naturales o no naturales, de la misma manera en la que se forman en proteínas que se presentan de manera natural. Sin embargo, los aminoácidos no naturales tienen grupos de cadena lateral que los distinguen de los aminoácidos naturales.

De particular interés para elaborar glicoproteínas de la invención son los aminoácidos no naturales en los cuales R en la Fórmula I incluye un residuo que puede reaccionar con un grupo reactivo unido a un residuo sacárido para enlazar el residuo sacárido a una proteína que incluye el aminoácido no natural. Los grupos R adecuados incluyen por ejemplo, ceto-, azido-, hidroxil-, hidracina, ciano-, halo-, aminooxi-, alquenilo, alquinilo, carbonilo, éter, tiol, seleno-, sulfonil-, borato, boronato, fosfo, fosfono, fosfina, heterocíclico, enona, imina, aldehído, éster, tioácido, tioéster, éster interrumpido, hidroxilamina, amina, y similares o cualquier combinación de los mismos. En algunas realizaciones, los aminoácidos no naturales tienen un enlazador fotoactivable.

En adición a los aminoácidos no naturales que contienen nuevas cadenas laterales, los aminoácidos no naturales también comprenden opcionalmente estructuras de estructura modificada, p. ej., como se ilustra mediante las estructuras de las Fórmulas II y III:

\vskip1.000000\baselineskip

2

\vskip1.000000\baselineskip

en donde Z comprende típicamente OH, NH2, SH, NH-R', o S-R'; X y Y, que pueden ser el mismo o diferente, típicamente comprenden S o O, y R y R', que son opcionalmente el mismo o diferente, se seleccionan típicamente de la misma lista de constituyentes para el grupo R descrito anteriormente para los aminoácidos no naturales que tienen la Fórmula I así como hidrógeno. Por ejemplo, los aminoácidos no naturales de la invención comprenden opcionalmente sustituciones en el grupo amino o carboxilo como se ilustra por las Fórmulas II y III. Los aminoácidos no naturales de este tipo incluyen, pero no se limitan a, ácidos \alpha-hidroxi, \alpha-tioácidos, o \alpha-aminotiocarboxilatos, p. ej., con cadenas laterales correspondientes a los veinte aminoácidos naturales comunes o cadenas laterales no naturales. En adición, las sustituciones en el \alpha-carbono incluyen opcionalmente aminoácidos L, D, o \alpha-\alpha-disustituidos tales como D-glutamato, D-alanina, D-metil-O-tirosina, ácido aminobutírico, y similares. Otras alternativas estructurales incluyen aminoácidos cíclicos, tales como análogos de prolina así como análogos de prolina de anillo de 3, 4, 6, 7, 8, y 9 miembros, aminoácidos \beta y g tales como \beta-alanina sustituida y ácido g-amino butírico.

Por ejemplo, muchos aminoácidos no naturales se basan en aminoácidos naturales, tales como tirosina, glutamina, fenilalanina, y similares. Los análogos de tirosina incluyen tirosinas para-sustituidas, tirosinas orto-sustituidas, y tirosinas meta sustituidas, en donde la tirosina sustituida comprende un grupo acetilo, un grupo benzoilo, un grupo amino, una hidracina, una hidroxiamina, un grupo tiol, un grupo carboxi, un grupo isopropilo, un grupo metilo, un hidrocarburo C6-C20 de cadena recta o ramificada, un hidrocarburo saturado o insaturado, o un grupo O-metilo, un grupo poliéter, un grupo nitro, o lo similar. En adición, también se contemplan los anillos arilo múltiplemente sustituidos. Los análogos de glutamina de la invención incluyen, pero no se limitan a, derivados \alpha-hidroxi, derivados g-sustituidos, derivados cíclicos, y derivados de glutamina sustituidos con amida. Los ejemplos de análogos de fenilalanina incluyen, pero no se limitan a, fenilalaninas meta-sustituidas, orto-sustituidas, y/o para-sustituidas, en donde el sustituyente comprende un grupo hidroxi, un grupo metoxi, un grupo metilo, un grupo alilo, un grupo aldehído o ceto, o lo similar.

Ejemplos específicos de aminoácidos no naturales incluyen, pero no se limitan a, p-acetil-L-fenilalanina, O-metil-L-tirosina, una L-3-(2-naftil)alanina, una 3-metil-fenilalanina, una O-4-alil-L-tirosina, una 4-propil-L-tirosina, una tri-O-acetil-GlcNAcb-serina, \beta-O-GlcNAc-L-serina, una tri-O-acetil-GalNAc-\alpha-treonina, una \alpha-GalNAc-L-treonina, una L-Dopa, una fenilalanina fluorada, una isopropil-L-fenilalanina, una p-azido-L-fenilalanina, una p-acil-L-fenilalanina, una p-benzoil-L-fenilalanina, una L-fosfoserina, una fosfonoserina, una fosfonotirosina, una p-yodo-fenilalanina, una p-bromofenilalanina, una p-amino-L-fenilalanina, una isopropil-L-fenilalanina, las listadas abajo, o en cualquier otra parte en la presente, y similares. Las estructuras de una variedad de aminoácidos no naturales se proporcionan, por ejemplo, en las Figuras 17, 18, 19, 26 y 29 de la WO 2202/085923.

Los aminoácidos no naturales adecuados para su uso en los métodos de la invención incluyen también los que tienen un residuo sacárido unido a la cadena lateral de aminoácidos. En una realización, un aminoácido natural con un residuo sacárido incluye un aminoácido serina o treonina con un residuo Man, GalNAc, Glc, Fuc, o Gal. Ejemplos de aminoácidos no naturales que incluyen un residuo sacárido incluyen, pero no se limitan a, p. ej., una tri-O-acetil-GlcNAc\beta-serina, una \beta-O-GlcNAc-L-serina, una tri-O-acetil-GalNAc-\alpha-treonina, una \alpha-GalNAc-L-treonina, una O-Man-L-serina, una tetra-acetil-O-Man-L-serina, una O-GalNAc-L- serina, una tri-acetil-O-GalNAc-L-serina, una Glc-L-serina, una tetraacetil-Glc-L-serina, una fuc-L-serina, una tri-acetil-fuc-L-serina, una O-Gal-L-serina, una tetra-acetil-O-Gal-L-serina, una beta-O-GlcNAc-L-treonina, una tri-acetil-beta-GlcNAc-L-treonina, una O-Man-L-treonina, una tetra-acetil-O-Man-L-treonina, una O-GalNAc-L-treonina, una tri-acetil-O-GalNAc-L-treonina, una Glc-L-treonina, una tetraacetil-Glc-L-treonina, una fuc-L-treonina, una tri-acetil-fuc-L-treonina, una O-Gal-L-treonina, una tetra-acetil-O-Gal-L-serina, y similares. La invención incluye formas no protegidas y acetiladas de las anteriores. Ver también WO 2003/031464A2, titulada "Remodeling and Glycoconjugation of Péptides" (Remodelación y Glicoconjugación de Péptidos); y, la Patente de E.U. No. 6,331,418, titulada "Saccharide Compositions, Methods and Apparatus for their synthesis" (Composiciones de Sacárido, Métodos y Aparatos para su síntesis).

Síntesis Química de Aminoácidos no Naturales

Muchos de los aminoácidos no naturales proporcionados anteriormente se encuentran comercialmente disponibles, p. ej., de Sigma (EUA) o Aldrich (Milwaukee, WI, EUA). Los que no se encuentran disponibles comercialmente se sintetizan opcionalmente como se proporciona en los ejemplos abajo o utilizando métodos estándar conocidos por los expertos en la técnica. Para técnicas de síntesis orgánica, ver, p. ej., Organic Chemistry por Fessendon and Fessendon, (1982, Segunda Edición, Willard Grant Press, Boston Mass.); Advanced Organic Chemistry por March (Tercera Edición, 1985, Wiley and Sons, New York); y Advanced Organic Chemistry por Carey y Sundberg (Tercera Edición, Partes A y B, 1990, Plenum Press, New York). Ver también WO 2002/085923 para una síntesis adicional de aminoácidos no naturales.

Por ejemplo, las fenilalaninas meta-sustituidas se sintetizan en un procedimiento como se subraya en la WO 2002/085923 (ver, p. ej., Figura 14 de la publicación). Típicamente, se agrega NBS (N-bromosuccinimida) a un compuesto de metilbenceno meta-sustituido para dar un bromuro de bencilo meta-sustituido, que entonces se reactiva con un compuesto malonato para dar la fenilalanina meta sustituida. Los sustituyentes típicos utilizados para la posición meta incluyen, pero no se limitan a, cetonas, grupos metoxi, alquilos, acetilos, y similares. Por ejemplo, se prepara 3-acetil-fenilalanina reactivando NBS con una solución de 3-metilacetofenona. Para más detalles ver los ejemplos abajo. Se utiliza una síntesis similar para producir una fenilalanina 3-metoxi. El grupo R en la posición meta del bromuro de bencilo en ese caso es -OCH3. Ver, p. ej., Matsoukas et al., J. Med. Chem. 1995, 38, 4660-4669.

En algunas realizaciones, el diseño de aminoácidos no naturales se inclina por la información conocida acerca de los sitios activos de sintetasas, p. ej., sintetasas de ARNt ortogonal utilizadas para aminoacilar un ARNt ortogonal. Por ejemplo, se proporcionan tres clases de análogos de glutamina, incluyendo derivados sustituidos en el nitrógeno de amida (1), un grupo metilo en la posición y (2), y un derivado de N-Cg-cíclico (3). En base a la estructura cristalina de rayos x de la GlnRS de E. coli, en la cual los residuos del sitio clave de enlace son homólogos a la GlnRS de levadura, los análogos se diseñaron para complementar un ordenamiento de las mutaciones de cadena lateral de los residuos dentro de una estructura de 10 \ring{A} de la cadena lateral de glutamina, p. ej., una mutación del sitio activo Phe233 para un aminoácido hidrofóbico pequeño puede complementarse mediante la masa estérica en la posición Cg de Gln.

Por ejemplo, N-ftaloil-L-glutámico 1,5-anhídrido (compuesto número 4 en la Figura 23 de la WO 2002/085923) se utiliza opcionalmente para sintetizar análogos de glutamina con sustituyentes en el nitrógeno de la amida. Ver, p. ej., King, F.E. & Kidd, D.A.A. A New Synthesis of Glutamine and of g-Dipeptides of Glutamic Acid from Phthylated Intermediates (Una nueva síntesis de glutamina y de g-dipéptidos de ácido glutámico a partir de Intermediarios Ftilados), J. Chem. Soc. 3315-3319 (1949); Friedman, O.M. & Chatterrji, R. Synthesis of Derivatives of Glutamine as Model Substrates for Anti-Tumor Agents (Síntesis de Derivados de Glutamina como Sustratos Modelo para Agentes Anti-Tumorales) J. Am. Chem. Soc. 81, 3750-3752 (1959); Craig, J.C. et al., Absolute Configuration of the Enantiomers of 7-Chloro-4[[4-(diethylamino)-1-metilbutil]amino]quinoline (Chloroquine) (Configuración absoluta de los enantiómeros de 7-cloro-4[[4-(dietilamino)-1-metilbutil]amino]quinolina) J. Org. Chem. 53, 1167-1170 (1988); y Azoulay, M., Vilmont, M. & Frappier, F. Glutamine analogues as Potential Antimalarials.(Análogos de glutamina como anti-malaria potenciales), Eur. J. Med. Chem. 26, 201-5 (1991). El anhídrido se prepara típicamente a partir de ácido glutámico mediante primera protección de la amina como la ftalimida seguida por reflujo en ácido acético. El anhídrido se abre entonces con un número de aminas, dando como resultado un rango de sustituyentes en la amida. La desprotección del grupo ftaloilo con hidracina produce un aminoácido libre como se mostró en la Figura 23 de la WO 2002/085923.

La sustitución en la posición y típicamente se logra a través de la alquilación del ácido glutámico. Verm p. ej., Koskinen, A.M.P. & Rapoport, H. Synthesis of 4-Susbstituted Prolines as Conformationally Constrained Amino Acid Analogues, (Síntesis de prolinas 4-sustituidas como análogos de aminoácido detenidas de manera conformacional) J. Org. Chem. 54, 1859-1866 (1989). Un aminoácido protegido, p. ej., como se ilustró mediante el compuesto número 5 en la Figura 24 de la WO 2002/085923 se preparó opcionalmente mediante la primera alquilación del residuo amino con 9-bromo-9-fenilfluoreno (PhflBr) (ver, p. ej., Christie, B.D. & Rapoport, H. Synthesis of Optically Pure Pipecolates from L-Asparagine. Application to the Total Synthesis of (+)-Apovincamine through Amino Acid Decarbonilation and Iminium Ion Cyclization, (Síntesis de pipecolatos ópticamente puros a partir de asparagina. Aplicación s la síntesis total de (+)- apovincamina a través de la descarbonilación del aminoácido y la ciclización del ión imino) J. Org. Chem. 1989, 1859-1866 (1985)) y después la esterificación del residuo ácido utilizando O-ter-butil-N,N'-diisopropilisourea. La adición de desprotonatos de regioselectividad KN(Si(CH3)3)2 en la posición \alpha del metil éster para formar el enolado, que se alquila entonces opcionalmente con un rango de yoduros de alquilo. La hidrólisis de t-butil éster y el grupo Phfl dio el análogo g-metil glutamina deseado (Compuesto número 2 en la Figura 24 de la WO 2002/085923).

Un análogo cíclico N-Cg, como se ilustra por el Compuesto número 3 en la Figura 25 de la WO 2002/085923, se prepara opcionalmente en 4 etapas a partir de Boc-Asp-Ot-Bu como se describió previamente. Ver, p. ej., Barton et al., Synthesis of Novel a-Amino-Acids and Derivatives Using Radical Chemistry: Synthesis of L-and S-a-Amino-Adipic Acids, L-a-aminopimelic Acid and Appropriate Unsaturated Derivatives, (Síntesis de nuevos a-aminoácidos y derivados utilizando química radical: síntesis de ácidos L- y S-a-aminoadípicos, ácido L-a-aminopimélico y derivados insaturados apropiados) Tetrahedron Lett., 43, 4297-4308 (1987) y Subasinghe et al., Quisqualic acid analogues: synthesis of beta-heterociclic 2-aminopropanoic acid derivatives and their activity at a novel quisqualate-sensitized site, (Análogos de ácido quiscuálico: síntesis de derivados de ácido beta-heterocílico 2-aminopropanoico y su actividad en un nuevo sitio sensibilizado con quiscualato) J. Med. Chem. 35 4602-7 (1992). La generación del anión de la N-t-Boc-Pirrolidinona, pirrolidinona u oxazolidona seguida por la adición del compuesto 7 como se mostró en la Figura 25, da como resultado un producto de adición Michael. La desprotección con TFA da como resultado entonces los aminoácidos libres.

En adición a los aminoácidos no naturales anteriores, también se ha diseñado una biblioteca de análogos de tirosina. En base a la estructura cristalina de B. stearothermophilus TyrRS, cuyo sitio activo es altamente homólogo al de la M. jannashii sintetasa, los residuos dentro de la estructura de 10 \ring{A} de la cadena lateral aromática de tirosina se mutaron (Y32, G34, L65, Q155, D158, A167, Y32 y D158). La biblioteca de análogos de tirosina, como se muestra en la Figura 26 de la WO 2002/085923, se ha diseñado para complementar una disposición de sustituciones para estos aminoácidos de sitio activo. Éstos incluyen una variedad de patrones de sustitución de fenilo, que ofrecen diferentes propiedades hidrofóbicas y de enlace de hidrógeno. Los análogos de tirosina se preparan opcionalmente utilizando la estrategia general ilustrada por la WO 2002/085923 (ver, p. ej., figura 27 de la publicación). Por ejemplo, un enolato de dietil acetamidomalonato se genera opcionalmente utilizando etóxido de sodio. Un análogo de tirosina deseado puede prepararse entonces agregando un bromuro de bencilo apropiado seguido por hidrólisis.

Incorporación Celular de aminoácidos no naturales

La incorporación de aminoácido no natural es un tema que típicamente se considera al diseñar y seleccionar aminoácidos no naturales, p. ej., para la incorporación en una proteína. Por ejemplo, la alta densidad de carga de los a-aminoácidos sugiere que no es probable que estos compuestos sean celularmente permeables. Los aminoácidos naturales se incorporan en bacterias a través de una colección de sistemas de transporte en base a proteínas que despliegan grados variables de especificidad de aminoácidos. La invención proporciona en consecuencia una rápida separación para determinar cuáles aminoácidos no naturales, si existen, se incorporan por las células.

Por ejemplo, una variedad de aminoácidos no naturales se separan opcionalmente en un medio mínimo por su toxicidad a las células. Las toxicidades se seleccionan típicamente en cinco grupos: (1) no toxicidad, en el cual no se presenta ningún cambio significativo en los tiempos de duplicación; (2) baja toxicidad, en el cual los tiempos de duplicación se incrementan en menos de aproximadamente 10%; (3) toxicidad moderada, en el cual los tiempos de duplicación se incrementan por aproximadamente 10% hasta aproximadamente 50%; (4) alta toxicidad, en el cual los tiempos de duplicación aumentan por aproximadamente 50% hasta aproximadamente 100%; u (5) toxicidad extrema, en la cual los tiempos de duplicación se incrementan por más de aproximadamente 100%. Ver, p. ej., Liu, D.R., & Schultz, P.G. Progress toward the evolution of an organism with an expanded genetic code, (Progreso hacia la evolución de un organismo con un código genético extendido), PNAS, USA., 96, 4780-4785 (1999). La toxicidad de los aminoácidos que califican como altamente o extremadamente tóxicos se mide típicamente como una función de su concentración para obtener valores IC50. En general, los aminoácidos que son análogos muy cercanos de los aminoácidos naturales o que despliegan una funcionalidad reactiva demuestran las más altas toxicidades. La tendencia anterior sugiere que los mecanismos de toxicidad para estos aminoácidos no naturales pueden ser la incorporación en proteínas o la inhibición de las enzimas esenciales que procesan los aminoácidos naturales.

Para identificar las rutas de incorporación posibles para aminoácidos tóxicos, se repiten opcionalmente los análisis de toxicidad a niveles IC50, p. ej., en medio suplementado con un exceso de un aminoácido natural estructuralmente similar. Para aminoácidos tóxicos, la presencia de un exceso de aminoácido natural típicamente rescata la capacidad de las células para crecer en presencia de la toxina, presumiblemente debido a que el aminoácido natural compite efectivamente la toxina ya sea para incorporación celular o para enlace a enzimas esenciales. En estos casos, se asigna al aminoácido tóxico una posible ruta de incorporación y se marca un "alelo letal" cuya complementación se requiere para la supervivencia celular. Estos alelos letales son extremadamente útiles para analizar la capacidad de las células a incorporar aminoácidos no naturales no tóxicos. La complementación del alelo tóxico, evidenciada por la restauración del crecimiento celular, sugiere que el aminoácido no tóxico se incorpora por la célula, posiblemente mediante la misma ruta de incorporación que la asignada a un alelo letal. Una carencia de complementación es inconclusa. Para estudios de ejemplos y conclusiones ver los ejemplos proporcionados abajo.

Los resultados obtenidos, p. ej., como se describe en los ejemplos abajo, demuestran que la complementación de los alelos de aminoácidos no naturales letales es un método eficiente para determinar cualitativamente la incorporación de aminoácidos. Este método general se basa en la incorporación mediante permeasas de péptidos, que transportan dipéptidos y tripéptidos a través de la membrana citoplásmica. Las permeasas de péptidos no son muy específicas de cadena lateral, y los valores KD para sus sustratos son comparables a los valores KD de las permeasas de aminoácidos, p. ej., aproximadamente 0.1 mM hasta aproximadamente 10 mM). Ver, p. ej., Nickitenko et al., A structure of DppA, a periplasmic dipeptide transport/chemosensory receptor, (Una estructura de DppA, un transporte de dipéptido periplásmico/receptor quimiosensorial) Biochemistry 34, 16585-16595 (1995) y Dunten, P., Mowbray, S.L., Cristal structure of the dipeptide binding protein from Escherichia coli involved in active transport and chemotaxis, (Estructura cristalina de la proteína de enlace de dipéptido de Escherichia coli implicada en el transporte activo y quimiotaxis), Protein Science 4, 2327-34 (1995). Los aminoácidos no naturales se incorporan como conjugados de los aminoácidos naturales, tales como lisina, y se liberan en el citoplasma a la hidrólisis del dipéptido mediante una de las peptidasas endógenas de E. coli. Para probar este procedimiento, se sintetizan varios dipéptidos Unn-Lts y Lys-Unn mediante síntesis de fase sólida, y se prueba el crecimiento de una especie de E. coli deficiente en biosíntesis de lisina, en un medio mínimo de lisina en presencia y ausencia de estos péptidos. La única fuente de lisina disponible para estas células es el dipéptido que contiene el aminoácido no natural. La incorporación de fosfonoserina, fosfonotirosina, pentafluorofenilalanina, y serina cerrada se ha analizado de esta manera. En los cuatro casos, se observó crecimiento en concentraciones de dipéptido de 10 mM y más altas. Aunque la incorporación se analiza fácilmente con el método proporcionado en la presente, una alternativa para diseñar aminoácidos no naturales dóciles a las rutas de incorporación celular, es proporcionar rutas biosintéticas para crear aminoácidos in vivo.

Biosíntesis de Aminoácidos no Naturales

Muchas rutas biosintéticas existen ya en células para la producción de aminoácidos y otros compuestos. Aunque puede no existir un método biosintético para un aminoácido no natural particular en la naturaleza, p. ej., en E. coli, la invención proporciona tales métodos. Por ejemplo, las rutas biosintéticas para aminoácidos no naturales se generan opcionalmente en E. coli agregando nuevas enzimas o modificando las rutas de E. coli existentes. Nuevas enzimas adicionales son opcionalmente enzimas que se presentan de manera natural o enzimas desarrolladas artificialmente. Por ejemplo, la biosíntesis de p-aminofenilalanina (como se presenta, p. ej., en la WO 2002/085923) se basa en la adición de una combinación de enzimas conocidas de otros organismos. Los genes para estas enzimas pueden introducirse en una célula, p. ej., una célula de E. coli, transformando la célula con un plásmido que comprende los genes. Los genes, al expresarse en las células, proporcionan una ruta enzimática para sintetizar el compuesto deseado. Ejemplos de los tipos de enzimas que se agregan opcionalmente se proporcionan en los ejemplos abajo. Se encuentran secuencias de enzimas adicionales, p. ej., en Genbank. Las enzimas desarrolladas artificialmente también se agregan en una célula de la misma manera. De esta manera, la maquinaria celular y los recursos de una célula se manipulan para producir aminoácidos no naturales.

Se encuentra disponible una variedad de métodos para producir nuevas enzimas para su uso en rutas biosintéticas o para la evolución de las rutas existentes. Por ejemplo, la recombinación recursiva, p. ej., como se desarrolló por Maxygen, Inc. (en la red mundial en www.maxygen.com), se utiliza para desarrollar nuevas enzimas y rutas. Ver, p. ej., Stemmer 1994, "Rapid evolution of a protein in vitro by DNA shuffling", (Evolución rápida de una proteína in vitro mediante redistribución de ADN) Nature, Vol. 370 No. 4: Pg. 389-391; y Stemmer, 1994, "DNA Shuffling by random fragmentation and reassembly: In vitro recombination for molecular evolution" (Redistribución de ADN mediante fragmentación aleatoria y re-ensamblado: Recombinación in vitro para evolución molecular) Proc. Natl. Acad Sci USA, Vol. 91: Pg. 10747-10751. De manera similar, DesignPath^{TM}, desarrollado por Genencor (en la red mundial en genencor.com) se utiliza ópticamente para el diseño de la ruta metabólica, p. ej., para diseñar una ruta para la creación de un aminoácido no natural en E. coli. Esta tecnología reconstruye las rutas existentes en organismos huésped utilizando una combinación de nuevos genes, p. ej., identificados a través de genómicos funcionales, y evolución y diseño molecular. Diversa Corporation (en la red mundial en diversa.com) también proporciona tecnología para separar rápidamente bibliotecas de genes y rutas de genes, p. ej., para crear nuevas rutas.

Típicamente los métodos de biosíntesis de la invención, p. ej., la ruta para crear p-aminofenilalanina (pAF) a partir de corismato, no afectan la concentración de otros aminoácidos producidos en la célula. Por ejemplo una ruta utilizada para producir pAF a partir de corismato produce pAF en la célula mientras que las concentraciones de otros aminoácidos aromáticos típicamente producidos a partir de corismato no se afectan sustancialmente. Típicamente el aminoácido no natural producido con una ruta biosintética diseñada de la invención, se produce en una concentración suficiente para la eficiente biosíntesis de la proteína, p. ej., una cantidad celular natural, pero no a tal grado que afecte la concentración de los otros aminoácidos o que agote los recursos celulares. Las concentraciones típicas producidas in vivo de esta manera sonde aproximadamente 10 mM hasta aproximadamente 0.05 mM. Una vez que la bacteria se transforma con un plásmido que comprende los genes utilizados para producir las enzimas deseadas para una ruta específica y se genera un vigésimo primer aminoácido, p. ej., pAF, dopa, O-metil-L-tirosina, o lo similar, las selecciones in vivo se utilizan opcionalmente para optimizar adicionalmente la producción del aminoácido no natural tanto para la síntesis de la proteína ribosomal como para el crecimiento celular.

Secuencias y variantes de ácido nucleico y polipéptidos

Como se describió anteriormente y abajo, la invención proporciona secuencias de polinucleótidos de ácido nucleico, p. ej., O-ARNts y O-RSs, y secuencias de aminoácido de polipéptido, p. ej., O-RSs y p. ej., composiciones y métodos que comprenden dichas secuencias. Ejemplos de dichas secuencias, p. ej., O-ARNts y O-RSs se describen en la presente (ver Tabla 2, p. ej., SEQ ID NO. 1-10). Sin embargo, el experto en la técnica apreciará que la invención no se limita a las secuencias descritas en la presente, p. ej., los Ejemplos. El experto en la técnica apreciará que la invención también proporciona muchas secuencias no relacionadas con las funciones descritas en la presente, p. ej., que codifican para un O-ARNt o una O-RS.

La invención proporciona polipéptidos (p. ej., O-RSs) y polinucleótidos, p. ej., O-ARNt, polinucleótidos que codifican para O-RSs o porciones de las mismas, oligonucleótidos utilizados para aislar clones de aminoacil-ARNt sintetasa, etc. Los polipéptidos de la invención incluyen polipéptidos o proteínas con los aminoácidos no naturales de la invención. Un polipéptido de la invención incluye también un polipéptido artificial, p. ej., (a) un polipéptido que comprende una secuencia de aminoácidos como se muestra en cualquiera de las SEQ ID NO: 4-6; (b) un polipéptido que comprende una secuencia de aminoácidos codificada por una secuencia de polinucleótidos como se muestra en cualquiera de las SEQ ID NO.: 8-10; (c) un polipéptido que es específicamente inmunorreactivo con un anticuerpo específico para un polipéptido de (a), o (b); y (d) una secuencia de aminoácidos que comprende una variante conservadora de (a), (b) o (c). Se proporcionan también anticuerpos y antisueros que son específicamente inmunorreactivos con un polipéptido artificial de la invención. En una realización, una composición incluye un polipéptido de la invención y un excipiente (p. ej., amortiguador, agua, excipiente farmacéuticamente aceptable, etc.).

Los polinucleótidos de la invención incluyen aquellos que codifican para las proteínas o polipéptidos de interés de la invención con uno o más codones selectores. Un polinucleótido de la invención incluye también un polinucleótido de cualquiera de las SEQ ID NOs: 8, 9, o 10 o una variante conservadora de las mismas. Un polinucleótido de la invención incluye un polinucleótido que codifica para una secuencia de aminoácido que comprende las SEQ ID NO.: 1-6. Un polinucleótido de la invención también incluye un polinucleótido que codifica un polipéptido de la invención. De manera similar, un ácido nucleico artificial que se híbrida a un polinucleótido indicado anteriormente bajo condiciones altamente rigurosas sobre sustancialmente la longitud total del ácido nucleico (y es diferente a un polinucleótido natural) es un polinucleótido de la invención. Un polinucleótido artificial es un polinucleótido hecho por el hombre y que no se presenta naturalmente.

En ciertas realizaciones, un vector (p. ej., un plásmido, un cósmido, un fago, un virus, etc.) comprende un polinucleótido de la invención. En una realización, el vector es un vector de expresión. En otra realización, el vector de expresión incluye un promotor operablemente enlazado a uno o más de los polinucleótidos de la invención. En otra realización, una célula comprende un vector que incluye un polinucleótido de la invención.

El experto en la técnica también apreciará que se incluyen muchas variantes de las secuencias descritas en la invención. Por ejemplo, las variaciones conservadoras de las secuencias descritas que producen una secuencia funcionalmente idéntica se incluyen en la invención. Variantes de las secuencias de polinucleótido de ácido nucleico, en donde las variantes se híbridas a al menos una secuencia descrita, se consideran incluidas en la invención. Las sub-secuencias únicas de las secuencias descritas en la presente, determinadas, p. ej., por técnicas estándar de comparación de secuencia, también se incluyen en la invención.

\newpage

Variaciones conservadoras

Debido a la degeneración del código genético, las "sustituciones silentes" (i.e., sustituciones en una secuencia de ácido nucleico que no dan como resultado una alteración en un polipéptido codificado) son una característica implícita de toda secuencia de ácido nucleico que codifica para un aminoácido. De manera similar, "las sustituciones conservadoras de aminoácidos", en uno o pocos aminoácidos en una secuencia de aminoácidos se sustituyen con diferentes aminoácidos con propiedades altamente similares, también se identifican fácilmente como altamente similares a una estructura descrita. Tales variaciones conservadoras de cada secuencia descrita son una característica de la presente invención.

"Variaciones conservadoras" de una secuencia de ácido nucleico particular se refiere a aquellos ácidos nucleicos que codifican para secuencias de aminoácido idénticas o esencialmente idénticas, o, en donde el ácido nucleico no codifica para una secuencia de aminoácido, a secuencias esencialmente idénticas. El experto en la técnica reconocerá que las sustituciones, supresiones, o adiciones individuales que alteran, agregan o suprimen un solo aminoácido o un pequeño porcentaje de aminoácidos (típicamente menos del 5%, más típicamente menos del 4%, 2% o 1% (en una secuencia codificada son "variaciones conservadoramente modificadas" en donde las alteraciones dan como resultado la supresión de un aminoácido, la adición de un aminoácido, o la sustitución de un aminoácido con un aminoácido químicamente similar. De este modo las "variaciones conservadoras" de una secuencia de polipéptido listada de la presente invención incluyen sustituciones de un pequeño porcentaje, típicamente menos del 5%, más típicamente menos del 2% o 1%, de los aminoácidos de la secuencia de polipéptidos, con un aminoácido conservadoramente no natural que comprende un aminoácido, en donde se enlaza un residuo sacárido y/o un aminoácido no natural que incluye un residuo sacárido del mismo grupo de sustitución conservadora. Finalmente, la adición de secuencias que no alteran la actividad codificada de una molécula de ácido nucleico, tal como la adición de una secuencia no funcional, es una variante conservadora del ácido nucleico básico.

Son muy conocidas en la técnica las tablas de sustitución conservadora que proporcionan aminoácidos funcionalmente similares. Lo siguiente describe grupos de ejemplos que contienen aminoácidos naturales que incluyen "sustituciones conservadoras" para los mismos.

Grupos de Sustitución Conservadora

1	Alanina (A)	Serina (S)	Treonina (T)

2	Ácido aspártico (D)	Ácido glutámico (E)

3	Asaparagina (N)	Glutamina (Q)

4	Arginina (N)	Lisina (K)

5	Isoleucina (I)	Leucina (L)	Metionina (M)	Valina (V)

6	Fenilalanina (F)	Tirosina (Y)	Triptofano (W)

Hibridación de Ácido Nucleico

La hibridación comparativa puede utilizarse para identificar los ácidos nucleicos de la invención, tal como las SEQ ID NO.: 7, 8, 9, o 10, incluyendo variaciones conservadoras de los ácidos nucleicos de la invención, y este método de hibridación comparativa es un método preferido para distinguir los ácidos nucleicos de la invención. En adición, los ácidos nucleicos objetivo que se hibridan a un ácido nucleico representado, p. ej., por las SEQ ID NO: 7, 8, 9, o 10, bajo condiciones de alta, ultra alta y ultra-ultra alta rigurosidad son una característica de la invención. Ejemplos de tales ácidos nucleicos incluyen aquellos con una o pocas sustituciones silentes o conservadoras de ácido nucleico en comparación con una secuencia de ácido nucleico dada.

Se dice que un ácido nucleico de prueba se híbrida específicamente a un ácido nucleico de sonda cuando se hibrida al menos ½ tan bien a la sonda como al objetivo complementario perfectamente adaptado, i.e., con una proporción de señal a ruido de al menos ½ tan alta como la hibridación de la sonda al objetivo bajo condiciones en las cuales la sonda perfectamente adaptada se enlaza al objetivo complementario perfectamente adaptado con una proporción de señal a ruido que es de al menos aproximadamente 5x-10x tan alta como la observada para la hibridación a cualquiera de los ácidos nucleicos no adaptados.

Los ácidos nucleicos se "hibridan" cuando se asocian, típicamente en solución. Los ácidos nucleicos se hibridan debido a una variedad de fuerzas psico-químicas bien caracterizadas, tales como enlace de hidrógeno, exclusión de solvente, apilamiento de base y similares. Una extensa guía para la hibridación de ácidos nucleicos se encuentra en Tijssen (1993) Laboratory Techniques in Biochemistry and Molecular Biology-Hibridization with Nucleic Acid Probes parte I capítulo 2, "Overview of principles of hibridization and the strategy of nucleic acid probe assays", (Revisión de principios de hibridación y la estrategia de los análisis de sondas de ácido nucleico), (Elsevier, New York), así como en Ausubel, supra. Hames y Higgins (1995) Gene Probes 1 IRL Press en Oxford University Press, Oxford, Inglaterra (Hames y Higgins 1) y Hames y Higgins (1995) Gene Probes 2 IRL Press en Oxford University Press, Oxford, Inglaterra (Hames y Higgins 2) proporcionan detalles acerca de la síntesis, marcado, detección y cuantificación de ADN y ARN, incluyendo oligonucleótidos.

Un ejemplo de condiciones rigurosas de hibridación para la hibridación de los ácidos nucleicos complementarios que tienen más de 100 residuos complementarios en un filtro en un inmunoanálisis Southern o northern es formalina al 50% con 1 mg de heparina a 42ºC, llevando a cabo la hibridación durante la noche. Un ejemplo de condiciones rigurosas de lavado es un lavado 0.2x SSC a 65ºC durante 15 minutos (ver Sambrook, supra para una descripción de amortiguador SSC). Frecuentemente el lavado de alta rigurosidad se encuentra precedido por un lavado de baja rigurosidad para retirar la señal de sonda anterior. Un ejemplo de lavado de baja rigurosidad es 2x SSC a 40ºC durante 15 minutos. En general, una proporción de señal a ruido de 5x (o mayor) que esa observada para una sonda no relacionada en el análisis particular de hibridación indica la detección de una hibridación específica.

Las "condiciones rigurosas de lavado de hibridación" en el contexto de los experimentos de hibridación del ácido nucleico tales como las hibridaciones de inmunoanálisis Southern y northern, dependen de la secuencia y son diferentes bajo diferentes parámetros ambientales. Se encuentra una extensa guía para la hibridación de ácidos nucleicos en Tijssen (1993), supra, y en Hames y Higgins, 1 y 2. La hibridación y condiciones de lavado rigurosidad fácilmente pueden determinarse empíricamente para cualquier ácido nucleico de prueba. Por ejemplo, para determinar las condiciones rigurosas de hibridación y lavado, las condiciones de hibridación y lavado se incrementan gradualmente (p. ej., incrementando la temperatura, disminuyendo la concentración de sal, incrementando la concentración de detergente y/o incrementando la concentración de solventes orgánicos tales como formalina en la hibridación o lavado), hasta cumplir un conjunto seleccionado de criterios. Por ejemplo, en condiciones de hibridación y lavado altamente rigurosas, las condiciones de hibridación y de lavado se incrementan gradualmente hasta que una sonda se enlaza a un objetivo complementario perfectamente adaptado con una proporción de señal a ruido que sea de al menos 5x tan alta como la observada para la hibridación de la sonsa a un objetivo no adaptado.

Se seleccionan condiciones "muy rigurosas" que sean iguales al punto de fusión térmica (Tm) para una sonda particular. La Tm es la temperatura (bajo resistencia iónica y pH definidos) a la cual el 50% de la secuencia de prueba se hibrida a una sonda perfectamente adaptada. Para los propósitos de la presente invención, generalmente, se selecciona que las condiciones de hibridación y lavado "altamente rigurosas" sean aproximadamente 5ºC más bajas que la Tm para la secuencia específica a una resistencia iónica y pH definidos.

Las condiciones de hibridación y lavado de "ultra alta rigurosidad" son aquellas en las cuales la rigurosidad de las condiciones de hibridación y lavado se incrementan hasta que la proporción de señal a ruido para el enlace de la sonda al ácido nucleico objetivo complementario perfectamente adaptado sea al menos 10x tal alta como la observada para la hibridación a cualquiera de los ácidos nucleicos objetivo no adaptados. Un ácido nucleico objetivo que se híbrida a una sonda bajo tales condiciones, con una proporción de señal a ruido de al menos ½ de aquella del ácido nucleico objetivo complementario perfectamente adaptado, se dice que se enlaza a la sonda bajo condiciones de ultra alta rigurosidad.

De manera similar, pueden determinarse niveles incluso mayores de rigurosidad incrementando gradualmente las condiciones de hibridación y/o lavado del análisis de hibridación relevante. Por ejemplo, aquellos en los cuales la rigurosidad de las condiciones de hibridación y lavado se incrementan hasta que la proporción de señal a ruido para enlazar las sonda al ácido nucleico objetivo complementario perfectamente adaptado es al menos 10x, 20x, 50x, 100x, o 500x o más tan alta como la observada para la hibridación a cualquiera de los ácidos nucleicos objetivo no adaptados. Un ácido nucleico objetivo que se híbrida a una sonda bajo tales condiciones, con una proporción de señal a ruido de al menos ½ de la del ácido nucleico objetivo complementario perfectamente adaptado para enlazarse a la sonda bajo condiciones de rigurosidad ultra-ultra-altas.

Los ácidos nucleicos que no se hibridan entre sí bajo condiciones rigurosas son aún sustancialmente idénticos si los polipéptidos que codifican son sustancialmente idénticos. Esto ocurre, p. ej., cuando se crea una copia de un ácido nucleico utilizando la máxima degeneración del codón permitida por el código genético.

Subsecuencias únicas

En un aspecto, la invención proporciona un ácido nucleico que comprende una subsecuencia única en un ácido nucleico seleccionado de las secuencias de O-ARNts y O-RSs descritas en la presente. La subsecuencia única es única en comparación con un ácido nucleico que corresponde a cualquier secuencia de ácido nucleico O-ARNt u O-RS conocida. La alineación puede efectuarse utilizando, p. ej., un conjunto BLAST de parámetros de falla. Cualquier subsecuencia única es útil, p. ej., como una sonda para identificar los ácidos nucleicos de la invención.

De manera similar, la invención incluye un polipéptido que comprende una subsecuencia única en un polipéptido seleccionado de las secuencias de O-RSs descritas en la presente. Aquí, la subsecuencia única es única en comparación con un polipéptido que corresponde a cualquier secuencia de polipéptidos previamente conocida.

La invención proporciona también ácidos nucleicos objetivo que se hibridan bajo condiciones rigurosas a un oligonucleótido de codificación único que codifica para una subsecuencia única en un polipéptido seleccionado de las secuencias de O-RS en donde la subsecuencia única es única en comparación con un polipéptido que corresponde a cualquiera de los polipéptidos de control (p. ej., secuencias de origen de las cuales se derivan las sintetasas de la invención, p. ej., por mutación). Las secuencias únicas se determinan como se anotó anteriormente.

Comparación, identidad y homología de secuencia

Los términos "idéntica" o porcentaje de "identidad", en el contexto de dos o más secuencias de ácido nucleico o polipéptidos, se refieren a dos o más secuencias o subsecuencias que son la misma o tienen un porcentaje especificado de residuos de aminoácido o nucleótidos que son el mismo, al compararse y alinearse para correspondencia máxima, medidas utilizando uno de los algoritmos de comparación de secuencia descritos abajo (u otros algoritmos disponibles para las personas expertas) o mediante inspección visual.

La frase "sustancialmente idéntico" en el contexto de dos ácidos nucleicos o polipéptidos (p. ej., ADNs que codifican una O-ARNt u O-RS, o la secuencia de aminoácidos de una O-RS) se refiere a dos o más secuencias o subsecuencias que tienen al menos aproximadamente 60%, aproximadamente 80%, aproximadamente 90-95%, aproximadamente 98%, aproximadamente 99% o más de identidad del residuo de nucleótido o de aminoácido, al compararse y alinearse para máxima correspondencia, medida utilizando un algoritmo de comparación de secuencia o mediante inspección visual. Tales secuencias "sustancialmente idénticas" se consideran típicamente "homólogas", sin referencia al linaje real. Preferentemente, la "identidad sustancial" existe sobre una región de las secuencias que es de al menos aproximadamente 50 residuos de longitud, más preferentemente sobre una región de al menos aproximadamente 100 residuos, y de mayor preferencia, las secuencias son sustancialmente idénticas sobre al menos aproximadamente 150 residuos, o sobre la longitud total de las dos secuencias que van a compararse.

Las proteínas y/o secuencias de proteína son homólogas cuando se derivan, natural o artificialmente, de una proteína o secuencia de proteína ancestral común. De manera similar, los ácidos nucleicos y/o secuencias de ácido nucleico son homólogas cuando se derivan, natural o artificialmente, de un ácido nucleico o secuencia de ácido nucleico ancestral común. Por ejemplo, cualquier ácido nucleico que se presenta naturalmente puede modificarse por cualquier método de mutagénesis disponible para incluir uno o más codones selectores. Al expresarse, este ácido nucleico mutagenizado codifica un polipéptido que comprende uno o más aminoácidos no naturales. El proceso de mutación, por supuesto, puede alterar adicionalmente uno o más codones estándar, asimismo cambiando con ello uno o más aminoácidos estándar en la proteína mutante resultante. La homología generalmente se infiere de la similitud de secuencia entre dos o más ácidos nucleicos o proteínas (o sus subsecuencias). El porcentaje preciso de similitud entre las secuencias que es útil para establecer la homología varía con el ácido nucleico y la proteína en cuestión, pero rutinariamente se utiliza tan poco como un 25% de similitud de secuencia para establecer la homología. También pueden utilizarse niveles más altos de similitud de secuencia, p. ej., 30%, 40%, 50%, 60%, 70%, 80%, 90%, 95%, o 99% o más, para establecer la homología. Los métodos para determinar los porcentajes de similitud de secuencia (p. ej., BLASTP u BLASTN que utilizan parámetros de falla) se describen en la presente y se encuentran generalmente disponibles.

Para comparación de secuencias y determinación de homología, típicamente una secuencia actúa como una secuencia de referencia con la cual se comparan las secuencias de prueba. Al utilizar un algoritmo de comparación de secuencia, se introducen secuencias de prueba y de referencia en una computadora, se diseñan coordenadas de subsecuencia, según sea necesario, y se diseñan los parámetros de programa de algoritmos de secuencia. El algoritmo de comparación de secuencia calcula entonces el porcentaje de identidad de secuencia para la(s) secuencia(s) de prueba relativa(s) a la secuencia de referencia, en base a los parámetros de programa diseñados.

La óptima alineación de las secuencias para su comparación puede conducirse, p. ej., mediante el algoritmo de homología local de Smith & Waterman, Adv. Appl. Math. 2:482 (1981), mediante el algoritmo de alineación de homología de Needlemann & Wunsch, J. Mol. Biol. 48:443 (1970), mediante la búsqueda del método de similitud de Pearson & Lipman, Proc. Natl. Acad Sci USA 85:2444 (1988), mediante implementaciones computarizadas de estos algoritmos (GAP., BESTFIT, FASTA y TFASTA en el Wisconsin Genetics Software Package, Genetics Computer Group, 575 Science Dr., Madison, WI), o mediante inspección visual (ver generalmente Ausubel et al., infra).

Un ejemplo de un algoritmo adecuado para determinar la identidad de secuencia porcentual y la similitud de secuencia es el algoritmo BLAST, que se describe en Altschul et al., J. Mol. Biol. 215:403-410 (1990). El software para llevar a cabo análisis BLAST se encuentra disponible públicamente a través del National Center for Biotechnology Information (www,ncbi,nlm,nih.gov/). Este algoritmo implica primero identificar pares de secuencia de alto puntaje (HSPs) identificando palabras cortas de longitud W en la secuencia de consulta, que se adaptan o satisfacen algún puntaje T de umbral valuado positivamente al alinearse con una palabra de la misma longitud en una secuencia de la base de datos. T se refiere como el umbral de puntaje de palabra de entorno (Altschul et al., supra). Estos golpes iniciales de palabra de entorno actúan como semillas para iniciar búsquedas para encontrar HSPs más largos que los contengan. Los golpes de palabra se extienden entonces en ambas direcciones a lo largo de cada secuencia durante tanto como el puntaje acumulativo de alineación se incremente. Los puntajes acumulativos se calculan utilizando, para secuencias de nucleótido, los parámetros M (puntaje de recompensa para un par de residuos adaptables; siempre > 0) y N (puntaje de castigo para residuos que no se adaptan, siempre < 0). Para las secuencias de aminoácidos, se utiliza una matriz de puntaje para calcular el puntaje acumulativo. La extensión del golpe de palabra en cada dirección se detiene cuando: el puntaje de alineación acumulativo cae por la cantidad X desde su máximo valor alcanzado; el puntaje acumulativo llega a cero o por debajo, debido a la acumulación de una o más alineaciones de residuo de puntaje negativo; o se alcanza el final de cualquier secuencia. Los parámetros del algoritmo BLAST W, T, y X determinan la sensibilidad y velocidad de la alineación. El programa BLASTN (para secuencias de nucleótido) utiliza como fallas una longitud de palabra (W) de 11, una expectativa (E) de 10, un corte de 100, M=5, N=4 y una comparación de ambas cuerdas. Para secuencias de aminoácido, el programa BLASTP utiliza como fallas una longitud de palabra (W) de 3, una expectativa (E) de 10, y la matriz de puntaje BLOSUM62 (ver Henikoff & Henikoff (1989) Proc. Natl. Acad Sci USA 89:10915).

Además de calcular el porcentaje de identidad de secuencia, el algoritmo BLAST también lleva a cabo un análisis estadístico de la similitud entre dos secuencias (ver, p. ej., Karlin & Altschul, Proc. Natl. Acad Sci USA 90:5873-5787 (1993)). Una medida de similitud proporcionada por el algoritmo BLAST es la probabilidad de la suma más pequeña (R(N)), que proporciona una indicación de la probabilidad mediante la cual ocurrirá por casualidad la adaptación entre dos secuencias de nucleótidos o aminoácidos. Por ejemplo, un ácido nucleico se considera similar a una secuencia de referencia si la probabilidad de la suma más pequeña en una comparación del ácido nucleico de prueba con el ácido nucleico de referencia es menor que aproximadamente 0.1, más preferentemente menor que aproximadamente 0.01, y de mayor preferencia menos que aproximadamente 0.001.

Mutagénesis y Otras Técnicas de Biología Molecular

Los polinucleótidos y polipéptidos de la invención y utilizados en la invención pueden manipularse utilizando técnicas biológicas moleculares. Los textos generales que describen técnicas biológicas moleculares incluyen Berger y Kimmel, supra; Sambrook, supra, y Ausubel, Supra. Estos textos describen mutagénesis, el uso de vectores, promotores y muchos otros tópicos relevantes relacionados con, p. ej., la generación de genes que incluyen codones selectores para la producción de las glicoproteínas de la invención, ARNts ortogonales, sintetasas ortogonales, y sus
pares.

En la invención se utilizan diversos tipos de mutagénesis, p. ej., para mutar moléculas ARNt, para producir bibliotecas de ARNts, para producir bibliotecas de sintetasas, para insertar codones selectores que codifican un aminoácido no natural, p. ej., un aminoácido no natural que comprende un residuo en donde puede anexarse un residuo sacárido, o un aminoácido no natural que incluye un residuo sacárido, en una proteína o polipéptido de interés. Éstos incluyen pero no se limitan a mutagénesis de punto aleatorio dirigida al sitio, recombinación homóloga, redistribución de ADN u otros métodos de mutagénesis recursivos, construcción quimérica, mutagénesis utilizando patrones que contienen uracilo, mutagénesis dirigida al oligonucleótido, mutagénesis de ADN modificada por fosforotioato, mutagénesis utilizando ADN de doble ranura o lo similar, o cualquier combinación de las mismas. Los métodos adicionales adecuados incluyen reparación del punto de no adaptación, mutagénesis utilizando especies huésped deficientes en reparación, restricción selección y restricción-purificación, mutagénesis de supresión, mutagénesis mediante síntesis total del gen, reparación de rompimiento de cuerda doble y similares. La mutagénesis, p. ej., que implica estructuras quiméricas, también se incluye en la presente invención. En una realización, la mutagénesis puede guiarse mediante información conocida de la molécula que se presenta naturalmente o de la molécula alterada o mutada que se presenta naturalmente, p. ej., secuencia, comparaciones de secuencia, propiedades físicas, estructura cristalina o lo similar.

Las células huésped se encuentran genéticamente diseñadas (p. ej., transformadas, transducidas o transfectadas) con los polinucleótidos de la invención o estructuras que incluyen un polinucleótido de la invención, p. ej., un vector de la invención, que puede ser, por ejemplo, un vector de clonación o un vector de expresión. Por ejemplo, las regiones de codificación para el ARNt ortogonal, la ARNt sintetasa ortogonal, y la proteína que va derivarse con p. ej., un aminoácido no natural que comprende un residuo en donde puede anexarse un residuo sacárido, tal como un aminoácido derivado de aldehído o ceto, o un aminoácido no natural que incluye un residuo sacárido, se encuentran operablemente enlazados a los elementos de control de expresión del gen que son funcionales en la célula huésped deseada. Los vectores típicos contienen terminadores de transcripción y traducción, secuencias de iniciación de transcripción y traducción y promotores útiles para la regulación de la expresión del ácido nucleico objetivo particular. Los vectores opcionalmente comprenden casetes de expresión genética que contienen al menos una secuencia terminador independiente, secuencias que permiten la replicación del casete en eucariotos, o procariotos, o ambos (p. ej., vectores de conexión) y marcadores de selección para sistemas tanto procarióticos como eucarióticos. Los vectores son adecuados para la replicación y/o la integración en procariotos, eucariotos, o preferentemente ambos. Ver Giliman & Smith, Gene 8:81 (1979); Roberts, et al., Nature, 328:731 (1987); Schneider, B., et al., Protein Expr. Purif. 6435:10 (1995); Ausubel, Sambrook, Berger (todos supra). El vector puede encontrarse, por ejemplo, en forma de un plásmido, una bacteria, un virus, un polinucleótido desnudo, o un polinucleótido conjugado, Los vectores se introducen en las células y/o microorganismos mediante métodos estándar incluyendo electroporación (From et al., Proc. Natl. Acad Sci USA 82, 5824 (1985), infección por vectores virales, penetración balística a alta velocidad por pequeñas partículas con el ácido nucleico ya sea dentro de la matriz de pequeñas perlas o partículas, o en la superficie (Klein et al., Nature 327, 70-73 (1987)) y/o lo similar.

Se proporciona un catálogo de Bacterias y Bacteriófagos útiles para la clonación, p. ej., por el ATCC, p. ej., The ATCC Catalogue of Bacteria and Bacteriophage (El Catálogo ATCC de Bacterias y Bacteriófagos) (1996) GHerna et al., (eds) publicado por la ATCC. También se encuentran procedimientos básicos adicionales para secuenciado, clonación y otros aspectos de la biología molecular y señalamiento de consideraciones teóricas en Sambrook (supra), Ausubel (supra), y en Watson et al., (1992) Recombinant DNA (ADN recombinante) Segunda Edición, Scientific American Books, NY. Además, esencialmente cualquier ácido nucleico (y virtualmente cualquier ácido nucleico marcado, ya sea estándar o no estándar) puede adecuarse u ordenarse estándar de cualquiera de una variedad de fuentes comerciales, tales como Midland Certified Reagent Company (Midland, TX mcrc.com), The Great American Gene Company (Ramona, CA, disponible en la red mundial en genco.com), ExpressGen Inc., (Chicago, IL, disponible en la red mundial en expressgen.com), Operon Technologies Inc., (Alameda, CA) y muchos otros.

Las células huésped diseñadas pueden cultivarse en un medio nutriente convencional modificado según sea apropiado para actividades tales como, por ejemplo, separación de etapas, activación de promotores o selección de transformantes. Estas células opcionalmente pueden cultivarse en organismos transgénicos. Otras referencias útiles, p. ej., para aislamiento y cultivo celular (p. ej., para el subsecuente aislamiento del ácido nucleico) incluyen Freshney (1994) Culture of Animal Cells, a Manual of Basic Technique, (Cultivo de células animales, un manual de técnicas básicas) tercera edición, Wiley-Liss, New York y las referencias citadas en las mismas; Payne et al., (1992) Plant Cell and Tissue Culture in Liquid Systems (Célula vegetal, cultivo de tejido y órganos en sistemas líquidos); John Wiley & Son, Inc. New York; Gamborg y Phillips (eds)(1995) Plant Cell, Tissue and Organ Culture; (Cultivo de célula vegetal, tejido, y órgano) Fundamental Methods Springer Lab Manual, Springer-Verlag (Berlín Heidelberg New York) y Atlas y Parks (eds) The Handbook of Microbiológical Media (1993) CRC Press, Boca Ratón FL.

Equipos

Los equipos también son una característica de la invención. Por ejemplo se proporciona un equipo para producir una glicoproteína que comprende al menos un residuo sacárido, en donde el equipo incluye un contenedor, que contiene una secuencia de polinucleótidos que codifica para una O-ARNt, y/o una O-ARNt y/o una secuencia de polinucleótidos que codifica para una O-RS y/o una O-RS. En una realización, el equipo incluye además un aminoácido no natural con un residuo sacárido, o un aminoácido no natural con un residuo para anexar un residuo sacárido. En otra realización, el equipo comprende además materiales de instrucción para producir la glicoproteína.

Ejemplos

Se ofrecen los siguientes ejemplos para ilustrar, pero no para limitar la invención. Se comprende que los ejemplos y realizaciones descritos en la presente son solo para propósitos ilustrativos y que se sugerirán varias modificaciones o cambios a la luz de los mismos a las personas expertas en la técnica y se incluirán dentro del espíritu y sustancia de esta solicitud y el alcance de las reivindicaciones anexas.

Ejemplo 1 Sistema para incorporar un grupo ceto funcional en proteínas

Este ejemplo describe un sistema para elaborar p-acetil-L-fenilalanina e incorporar este aminoácido no natural en una proteína.

Los códigos genéticos de la mayoría de los organismos conocidos codifican para los mismos veinte aminoácidos comunes como bloques de construcción para la biosíntesis de proteínas. Solo en casos raros se agrega selenocisteína (ver, p. ej., Bock, A., et al., (1991) Mol. Microbiol., 5:5125-520) o pirrolisina (ver, p. ej., Srinivasan, G., et al., (2002) Science, 296:1459-1462; y Hao, B., et al., (2002) Science, 296:1462-1466). Las cadenas laterales de los aminoácidos comunes comprenden un número sorprendentemente limitado de grupos funcionales - bases de nitrógeno, ácidos y amidas carboxílicas, alcoholes, y un grupo tiol, siendo el resto alcanos simples o grupos hidrofóbicos. La capacidad para aumentar los aminoácidos genéticamente codificados con nuevos aminoácidos, por ejemplo, los aminoácidos con cadenas laterales metálicas quelantes, fluorescentes, activas de reducción, fotoactivas o marcadas por rotación, aumentarían significativamente la capacidad para manipular las estructuras y funciones de proteínas y tal vez de los organismos vivos en sí. Recientemente, se reportó que al agregar nuevos componentes a la maquinaria traslacional de Escherichia coli, (E. coli) se puede incorporar específicamente en el sitio con alta fidelidad un número de aminoácidos no naturales (ver, p. ej., Wang, L., et al., (2001) Science, 292:498-500; Wang, L., et al., (2002) J. Am. Chem. Soc., 124:1836-1837; y Zhang, Z., et al., (2002) Angew. Chem. Int. Ed. Engl., 41:2840-2842) en proteínas in vivo. Este Ejemplo demuestra que este procedimiento puede generalizarse para agregar un aminoácido que contiene ceto al código genético de un organismo, p. ej., E. coli, y que la reactividad única del grupo ceto puede utilizarse para modificar proteínas selectivamente in vitro con una amplia variedad de agentes.

El grupo ceto se encuentra en todo sitio en la química orgánica y participa en un gran número de reacciones desde las reacciones de adición hasta las condensaciones de aldol. Además, la reactividad única del grupo ceto le permite ser modificado selectivamente con derivados de hidrazida e hidroxilamina en presencia de las otras cadenas laterales de aminoácidos. Ver, p. ej., Cornish, V.W., et al., (1996) J. Am. Chem. Soc., 118:8150-8151; Geoghegan, K.F., & Stroh, J.G., (1992) Bioconjug. Chem., 3:138-146; y, Mahal, L.K., et al., (1997) Science, 276:1125-1128. Aunque presente en cofactores (ver, p. ej., Begley, T.P., et al., (1997) en Top Curr. Chem. Eds. Leeper, F.J., & Vederas, J.C., (Springer-Verlag, New York), Vol. 195, pp. 93-142), metabolitos (ver, p. ej., Diaz, E., et al., (2001) Microbiol. Mol. Biol. Rev. 65:523-569) y como una modificación post-traslacional a las proteínas (ver, p. ej., Okeley, N.M., & van der Donk, W.A., (2000) Chem. Biol. 7, R159-R171), este importante grupo funcional se encuentra ausente de las cadenas laterales de los aminoácidos comunes. A fin de codificar genéticamente este grupo funcional en E. coli en forma de p-acetil-L-fenilalanina, se desarrolló un par de ARNt-sintetasa que es capaz de insertar este aminoácido específicamente en el sitio en proteínas en E. coli en respuesta a (y solo en respuesta a) un codón ámbar de no sentido. De manera importante, este par de ARNt-sintetasa es ortogonal a sus contrapartes para los 20 aminoácidos comunes, i.e., la sintetasa ortogonal (y solo la sintetasa ortogonal) aminoacila el ARNt ortogonal (y solo este ARNt) solo con el aminoácido no natural, y el ARNt acilado resultante inserta el aminoácido no natural solo en respuesta al codón ámbar.

Materiales y métodos

Preparación de p-acetil-L-fenilalanina: Fmoc-4-acetil-L-fenilalanina se adquirió de RSP Amino Acid Analogues, Inc., (Worcester, MA). Este compuesto (1.0 g, 2.3 mmol) se agitó con 4 ml de piperidina (20% en DMF) durante 2 horas a temperatura ambiente. El solvente se evaporó para obtener un polvo blanco. El sólido se resuspendió entonces en 10 ml de agua fría (ácido trifluoroacético (TFA) al 0.1%), y el sobrenadante se recolectó mediante filtración. Se utilizó HPLC de preparación en fase de reversa (Microsorb C18, Rainin Instrument Co., Inc., Woburn, MA) para separar el producto deseado de la mezcla de reacción (5-30% CH3CN en H2O con TFA al 0.1% a lo largo de 30 min.). El eluyente (tR = 12 min.) se liofilizó hasta obtener un sólido blanco (0.45 g, 88%). 1H NMR (400 MHz D2O): \delta 7.85-7.28 (m, 4H), 4.23 (dd, 1H, 5.4 Hz), 3.2 (m, 2H), 2.7 (s, 3H), Ionización MS de electroaspersión (ESI): [M+1]+, calculado para C11H13NO3 208.09, encontrado 208.47.

Síntesis de p-acetil-(\pm)-fenilalanina: ver, p. ej., Cleland, G.H., (1969) J. Org. Chem., 34:744-747. N-bromosuccinimida (NMB) se recristalizó previo al uso. NBS (18.5 g, 105 mmol) se agregó a una solución agitada de 4-metil acetofona (13.4 g, 100 mmol) en 400 ml de tetracloruro de carbono, seguido por la adición de 2',2'-azobisisobutironitrilo) (AIBN) (0.43 g, 2.5 mmol). La mezcla de reacción se calentó entonces hasta reflujo durante 4 horas. Después de completar la reacción (TLC:8:1/hexanos:EtOAc), la solución se lavó con agua (1 X 100 ml), 1 M de HCl acuoso (3 X 100 ml), NaHCO3 acuoso al 0.5% (3 X 100 ml) y salmuera (1 X 100 ml). La capa orgánica se recolectó y se secó sobre MgSO4 anhidro y el solvente se evaporó para obtener un sólido amarillo que se recristalizó con hexanos para producir la 1-(4-bromoetil-fenil)tanona deseada como un sólido (16.8 g, 78%). Se agregó etanol seco (50 ml) por goteo a piezas de sodio lavado con pentano (2.3 g, 0.1 mol) bajo una atmósfera de argón a lo largo de 15 minutos y la solución se agitó durante otros 15 minutos. Se agregó entonces dietil acetamidomalonato sólido (2.7 g, 10 mmol) a lo largo de 30 minutos con agitación, seguido por la adición por goteo de 1-(4-bromoetil-fenil)tanona (2.1 g, 10 mmol) en etanol seco a lo largo de 90 minutos. Después de calentar la mezcla hasta reflujo durante la noche y enfriarla, se agregaron dietil éter (150 ml) y agua (100 ml) a la solución. La capa orgánica se separó y se lavó sucesivamente con NaHCO3 al 0.5% (3 X 100 ml) y salmuera (1 X 100 ml). Después de secar sobre MgSO4 anhidro, el solvente se retiró in vacuo para producir un sólido gomoso café. Se agregó hexanos-diclorometano (4:1) al residuo y el material insoluble se filtró y se lavó exhaustivamente con 10:1 diclorometano-benceno para producir dietil éster de ácido 2-acetilamino-2-(4-acetil-bencil)malónico como un sólido amarillo (3.3 g, 95% producto crudo). Este compuesto se agitó con 4 M de HCl en dioxano durante la noche. La mezcla se evaporó entonces hasta secarse y se recristalizó con agua para producir p-acetil-(\pm)-fenilalanina (13.2 g, 64% producto total) como un sólido blanco. 1H NMR (400 MHz, D2O): \delta 7.85-7.28 (m, 4H), 4.27 (dd, 1H, 5.4 Hz), 3.30 (m, 2H), 2.68 (s, 3H), 13C NMR (400 MHz, D2O): \delta 195.8, 174.3, 145.9, 133.1, 128.9, 127.8, 60.2, 38.3, 26.5. MS (ESI) (M+1)+ calculado para C11H13NO3 208.09, encontrado 208.07.

Evolución de sintetasa mutante: En la selección positiva el plásmido pYC-J17 se utilizó para expresar el gen mutARN Tyr CUA y el gen de cloranfenicol acetil transferasa (CAT) con un codón TAG de paro en Asp112. Ver, p. ej., Wang, L. et al., (2001) Science 292:498-500. El ADN supercoiled que codifica para la biblioteca de tirosil-ARNt sintetasa (TyrRS) se transformó en células DH10B competentes de E. coli conteniendo pYC-J17. Las células se emplacaron en placas de medio mínimo conteniendo glicerol al 1% y 0.3 mM de leucina (GMML) con 17 \mug/ml de tetraciclina, 25 mg/ml de canamicina, 60 mg/ml de cloranfenicol, y 1 mM de p-acetil-L-fenilalanina. Después de la incubación a 37ºC durante 40 horas, las colonias se depositaron y los plásmidos se aislaron. Los plásmidos que codifican sintetasas mutantes (plásmidos pBK) se separaron de pYC-J17 utilizando electroforesis de gel y se transformaron en células competentes DH10B de E. coli que contienen pLWJ17B3 para la selección negativa. El plásmido pLWJ17B3 expresa el mutARN Tyr CUA bajo el control del promotor lpp y el terminador rrnC, y el gen de barnasa con tres codones ámbar en Gln2, Asp44, y Gly65 bajo el control del promotor de arabinosa. Las células transformadas crecieron en placas LB (Luria-Bertani) que contienen arabinosa al 0.2%, 50 \mug/ml de canamicina y 35 \mug/ml de cloranfenicol. Después de 8 horas, las células se retiraron de la placa, y los plásmidos pBK se purificaron para rondas de selección adicionales. En la segunda y tercera rondas de selección positiva, la concentración de cloranfenicol aumentó a 80 y 100 \mug/ml, respectivamente. Después de 3 selecciones positivas alternando con 2 selecciones negativas, se identificaron once TyrRS mutantes que produjeron un valor IC50 de 9 \mug/ml de cloranfenicol en ausencia de p-acetil-L-fenilalanina y 120 \mug/ml de cloranfenicol en presencia de p-acetil-L-fenilalanina en un ensayo CAT in vivo. Ver, p. ej., Wang, L., & Schultz, P.G. (2001) Chem Biol.8:883-890. Las secuencias de proteínas de estas TyrRS mutantes convergieron en 3 clones independientes LW1, LW5 y LW6, aunque el uso del codón de cada TyrRS mutante difiere.

Expresión y purificación de proteínas: Se utilizó el plásmido pLEIZ para expresar el gen de dominio Z con otro codón ámbar en la 7ª posición y un COOH terminal His6 tag bajo el control de un promotor T5 bacteriófago y un terminador t0, y el gen mutARN Tyr CUA bajo el control del promotor lpp y el terminador rrnC. El gen de sintetasa mutante aislado del clon LW1 (LW1RS) se codificó en el plásmido pBK-LW1RS bajo el control del promotor y terminador constitutivo de E. coli GlnRS. Las células DH10B de E. coli cotransformadas con pLEIZ y pBK-LW1RS crecieron en medio mínimo conteniendo glicerol al 1% y 0.3 mM de leucina (medio GMML) con 25 \mug/ml de canamicina, 34 \mug/ml de cloranfenicol, y 1.0 mM de p-acetil-(+)-fenilalanina. Cuando las células alcanzan un OD600 de 0.5, se agregó isopropilo-\beta-D-tiogalactopiranosida (IPTG) (1 mM) para inducir la expresión de la proteína. Después de 5 horas, las células se granularon y la proteína se purificó mediante cromatografía de afinidad Ni2+ bajo condiciones de desnaturalización de acuerdo con el protocolo del fabricante (Qiagen, Valencia, CA). Las proteínas se desalaron entonces con una columna PD-10 (Amersham Pharmacia, Piscataway, NJ) y se eluyeron en agua. El producto de proteínas se midió mediante un análisis Bradford (equipo BCA, Biorad, Hercules, CA). Se utilizaron alícuotas de proteína para electroforesis de gel de sodio dodecil sulfato-poliacrilamida (SDS-PAGE) y espectrometría de masa.

Modificación de proteínas in vitro con hidrazida fluorescente e hidrazida biotina: Las proteínas de tipo silvestre (wt) purificadas y de dominio Z mutante se intercambiaron en solución salina amortiguada con fosfato (amortiguador PBS, 100 mM de fosfato de potasio, pH 6.5, 0.5 M de cloruro de sodio) mediante diálisis. La hidrazida fluorescente 1 (Molecular Probe, Eugene, OR) o la hidrazida biotina 2 (Molecular Probe, Eugene, OR) se disolvió en DMF, y se agregaron a 0.07 \mumol de cada proteína en tubos eppendorff silanizados hasta una concentración final de 1 mM. Se agregó amortiguador PBS (pH 6.5) para llevar el volumen final a 0.5 ml. La mezcla de reacción se mantuvo a 25ºC durante 18 horas. El colorante no reactivado o biotina se retiró de la proteína utilizando una columna PD-10 (Amersham Pharmacia, Piscataway, NJ), y las proteínas se eluyeron con amortiguador PBS. Para determinar la eficiencia del marcado, las muestras de proteína eluidas se analizaron entonces mediante HPLC de fase de reversa (Agilent ZORBAX SB-C18, 4.6 mm x 250 mm, proporción de flujo 1.0 ml/min., 10\rightarrow40% CH3CN en 50 mM amortiguador de trietilamina acetato acuoso, pH 7.0 a lo largo de 70 min., Agilent, Palo Alto, CA). El tiempo de retención (tR) para el dominio Z mutante sin marcar fue de 39.3 min.; el tR para el dominio Z mutante marcado con hidrazida fluorescente fue de 40.7 min.; el tR para el dominio Z mutante marcado con hidrazida biotina fue de 40.9 min.

Medición del espectro de fluorescencia: Todos los espectros de emisión de fluorescencia se registraron utilizando un espectroflurómetro FluoroMax-2 (Instruments S.A., Inc. Edison, NJ) con excitación a 490 nm; paso de banda tanto de excitación como de emisión de 4 nm; un voltaje de tubo fotomultiplicador de 950 V; y a una proporción de exploración de 1 nm/seg. Se utilizaron diez nmol de cada proteína marcada. Los espectros reportados representan un promedio de 3 exploraciones.

Resultados y discusión El ceto aminoácido

El grupo ceto proporciona una única reactividad química no presente en los veinte aminoácidos comunes debido a su capacidad para participar en las reacciones de adición que implican ya sea el grupo carbonilo o la posición acídica C\alpha. Este grupo proporciona también una alternativa a la cisteína de aminoácido natural para la modificación selectiva de proteínas con una gran variedad de reactivos químicos. El grupo tiol reactivo de cisteína se ha utilizado extensamente para anexar diversas sondas biofísicas a proteínas. Ver, p. ej., Creighton, T.E., (1986) Methods Enzymol. 131:83-106; Altenbach, C., et al., (1990) Science 248:1088-1092; Brinkley, M. (1992) Bioconjug. Chem. 3:2-13; Giuliano, K.A., et al., (1995) Annu. Rev. Biophys. Biomol. Struct. 24:405-434; Mannuzzu, L.M., et al., (1996) Science 271:213-216; Griffin, B.A., et al., (1998) Science 281:269-272; Llopis, J., et al., (2000) Methods Enzymol. 327:546-564; y Gaietta, G., et al., (2002) Science 296:503-507. Desafortunadamente, el marcado de residuos únicos de cisteína se complica frecuentemente por la presencia de más de un residuo reactivo en una proteína, así como reacciones de intercambio en presencia de un tiol libre cuando se utiliza un enlace disulfuro. En consecuencia, la disponibilidad de un aminoácido no proteinógeno con reactividad ortogonal hace posible la modificación selectiva de proteínas en casos en que una cisteína única no puede marcarse selectivamente, o cuando se necesitan dos marcas diferentes. El grupo ceto reacciona fácilmente con hidrazidas, hidroxilaminas, y semicarbazidas bajo condiciones suaves en una solución acuosa, y formas de hidrazona, oxima, y enlaces de semicarbazona, respectivamente, que son estables bajo condiciones fisiológicas. Ver, p. ej., Jencks, W.P., (1959) J. Am. Chem. Soc. 81:475-481; Shao, J., & Tam, J.P., (1995) J. Am. Chem. Soc. 117:3893-3899.

Se han desarrollado varios métodos para incorporar selectivamente el grupo carbonilo en péptidos y proteínas pequeñas. Inicialmente, se introdujo un aldehído en la terminal N de los péptidos oxidando serina N-terminal o treonina con periodato. El grupo aldehído se acopló a informadores de biotina y fluorescentes (ver, p. ej., Geoghegan, K.F. & Stroh, J.G. (1992) Bioconjug. Chem. 3:138-146 o fragmentos de proteína que contienen una hidrazida COOH-terminal a través de un enlace de hidrazona (ver, p. ej., Gaertner, H.F., et al., (1994) J. Biol. Chem. 269:724-7230). El grupo carbonilo introducido mediante este método restringido al N-término de la proteína debe ser estable a la oxidación. Se empleó posteriormente la síntesis de péptido de fase sólida (SPPS) para la preparación de segmentos de péptido conteniendo ya sea hidrazida o hidroxilamina, que subsecuentemente se reactivaron con una matriz de núcleo de aldehído ramificada para formar dendrímeros de péptido (ver, p. ej., Shao, J. & Tam. J.P., (1995) J. Am. Chem. Soc. 117:3893-3899; Rose, K., (1994) J. Am. Chem. Soc. 116:30-33), o con un segmento de péptido que contiene ceto para formar proteínas sintéticas (ver, p. ej., Canne, L.E., et al., (1995) J. Am. Chem. Soc. 117:2998-3007). La SPPS permite que el grupo ceto se incorpore a lo largo de toda la proteína pero sufre las dificultades inherentes asociadas con la síntesis de grandes péptidos o proteínas. La limitación del tamaño puede superarse en algunos casos mediante ligación de la proteína expresada (EPL), en la cual un péptido sintético se liga químicamente al COOH-término de las proteínas recombinantes. Ver, p. ej., Muir, T.W., et al., (1998) Proc. Natl. Acad Sci USA 95:6705-6710. Un péptido que contiene un grupo cetona se preparó mediante SPPS y se ligó al dominio 3 de homología Src de la proteína Abelson tirosina quinasa. Ver, p. ej., Ayers, B., et al., (1999) Biopolymers 51:343-354.

También se ha utilizado un método biosintético in vitro para incorporar el grupo ceto en proteínas. Ver, p. ej., Cornish, V.W., et al., (1996) J. Am. Chem. Soc. 118:8150-8151. En este método, el aminoácido no natural que contiene el grupo ceto se acila químicamente a un ARNt supresor ámbar. Cuando el ARNt acilado y el gen mutante se combinan en un extracto in vitro capaz de soportar la biosíntesis de la proteína, el aminoácido no natural se incorpora selectivamente en respuesta a un codón UAG. Este método requiere que el supresor ARNt se encuentre químicamente aminoacilado con el aminoácido no natural in vitro, y el ARNt acilado se consume como un reactivo estequiométrico durante la traducción y no puede regenerarse, dando como resultado bajos rendimientos de proteína. Al desarrollar un par ortogonal de ARNt-sintetasa con especificidad para p-acetil-L-fenilalanina, puede incorporarse un aminoácido ceto en proteínas, p. ej., en respuesta al codón UAG directamente en células vivas de E. coli. No debe existir limitación de tamaño en la proteína objetivo mientras que pueda expresarse en el organismo, p. ej., E. coli, y debe ser posible expresar grandes cantidades de la proteína mutante. Además, mientras que el reactivo marcado sea permeable a la célula y no tóxico, puede ser posible introducir la marca selectivamente en células completas.

Evolución de sintetasas mutantes con especificidades para p-acetil-L-fenilalanina: Se utilizó una tirosil-ARNt sintetasa Methanococcus jannaschii (TyrRS) y un ARNt supresor ámbar de tirosina mutante (mutARN Tyr CUA) como punto de inicio para la generación de los pares ortogonales de ARNt-sintetasa. Previamente, este par mostró ser ortogonal en E. coli. Ver, p. ej., Wang, L., & Schultz, P.G., (2001) Chem. Biol. 8:883-890; y Wang, L., et al., (2000) J. Am. Chem. Soc. 122:5010-5011. Para cambiar la especificidad del aminoácido de la TyrRS a modo que cargue p-acetil-L-fenilalanina y no cualquiera de los 20 aminoácidos comunes, se generó una biblioteca de TyrRS mutantes M. jannaschii y se seleccionó. La estructura cristalina del TyrRS Bacillus stearothermophilus homóloga (ver, p. ej., Brick, P., et al., (1989) J. Mol. Biol. 208:83-98) se utilizó para identificar aquellos residuos que se encuentran dentro de 6.5 A de la para posición del anillo de arilo de la tirosina enlazada. Cinco residuos correspondientes (Tyr32, Glu107, Asp158, Ile159 y Leu162) en el sitio activo de TyrRS M. jannaschii se mutaron aleatoriamente mediante reacción de cadena de polimerasa (PCR) para generar una biblioteca de 1.6 x 109 en tamaño (ver, p. ej., Wang, L., et al., (2001) Science 292:498-500. Esta biblioteca de TyrRS mutante se pasó primero a través de una selección positiva en presencia de 1 mM de p-acetil-L-fenilalanina que se basa en la supresión de un codón ámbar de paro en un residuo no esencial (Asp112) en un gen de cloranfenicol acetil transferasa (CAT) codificado en el plásmido pYC-J17 (ver, p. ej., Wang, L., et al., (2001) Science 292:498-500) en E. coli. Las células que sobrevivieron en cloranfenicol deben codificar para una sintetasa mutante que aminoacila el mutARN Tyr CUA ya sea con un aminoácido(s) común(es) o p-acetil-L-fenilalanina. El ADN que codifica para las sintetasas mutantes se aisló entonces y se transformó en una especie de selección negativa que expresa el gen de una proteína tóxica, barnasa, conteniendo tres codones ámbar en sitios permisivos (codificados en pLWJ17B3 plásmido). Las células que codifican una sintetasa mutante que carga el mutARN Tyr CUA con aminoácidos naturales producirá barnasa y morirá. Debido a que no se agregó p-acetil-L-fenilalanina al medio de crecimiento en la selección negativa, las sobrevivientes deben codificar una sintetasa con especificidad para el aminoácido no natural. Después de 3 rondas de selección positiva a concentraciones incrementadas de cloranfenicol, alternando con 2 rondas de selección negativa, emergió un número de clones cuya supervivencia en cloranfenicol fue dependiente de la adición de p-acetil-L-fenilalanina. Estas TyrRSs se caracterizaron utilizando un análisis in vivo en base a la supresión del codón Asp 112TAG en el gen CAT. Ver, p. ej., Wang, L., & Schultz, P.G., (2001) Chem. Biol. 8:883-890. Se identificaron once TyrRS mutantes. Las células que expresan la sintetasa seleccionada y el mutARN Tyr CUA sobrevivieron en ausencia de p-acetil-L-fenilalanina en 9 mg/ml de cloranfenicol en placas de medio mínimo conteniendo glicerol al 1% y 0.3 mM de leucina (placa GMML); en presencia de este aminoácido natural, las células sobrevivieron en 120 mg/ml de cloranfenicol en placas GMML. Este resultado sugiere que la sintetasa mutante seleccionada tiene más alta actividad para p-acetil-L-fenilalanina que para los aminoácidos naturales. La secuenciación del ADN de estos mutantes reveló que éstos convergen en 3 mutantes independientes en el nivel de proteínas (LW1, LW5 y LW6), aunque tienen diferente uso del codón para los aminoácidos. Las mutaciones activas en el sitio de las sintetasas mutantes se listan en la Tabla 1. En base a la estructura cristalina de las TyrRS homólogas a partir de B. stearothermophilus, la cadena lateral conservada de Tyr32 y Asp158 de M. Jannaschii forma probablemente enlaces con el grupo hidroxilo del sustrato de tirosina. En las sintetasas mutantes, Tyr32 es mutada ya sea a Leu o Ala, y Asp158 muta a Gly158. Estas mutaciones deben desfavorecer el enlace de tirosina y al mismo tiempo pueden crear espacio extra para acomodar el grupo metilo de p-acetil-L-fenilalanina. La determinación de la estructura cristalina de rayos X de los mutantes debe aclarar los papeles exactos de estos mutantes.

\vskip1.000000\baselineskip

TABLA 1 Residuos de aminoácido en la TyrRS de M. jannaschii (MJ) WT y en las sintetasas mutantes desarrolladas con especificidades para p-Acetil-L-fenilalanina

3

Caracterización de proteínas mutantes que contienen p-acetil-L-fenilalanina

Para probar la capacidad de la sintetasa desarrollada y el muARNt para incorporar selectivamente p-acetil-L-fenilalanina en proteínas, se sustituyó un codón ámbar de paro en un sitio permisivo (Lys7) en el gen para el dominio Z de la proteína A de estafilococo (ver, p. ej., Nilsson, B., et al., (1987) Protein Eng. 1:107-113) con un His6 tag COOH-terminal. El dominio Z tiene un peso molecular de aproximadamente 7.9 kD, de modo que su masa puede medirse con muy alta precisión utilizando espectrometría de masa de resonancia de ion ciclotron (ICR). Las células transformadas con el mutARN Tyr CUA, LW1RS y el gen de dominio Z (Lys7TAG) crecieron en presencia de 1 mM de p-acetil-(+)-fenilalanina. La adición del aminoácido no natural no afectó la proporción de crecimiento de las células. La proteína mutante se purificó mediante cromatografía de afinidad Ni2+ con un rendimiento total aislado de 3.6 mg/l en medio mínimo. Para comparación, el rendimiento de dominio Z fue de 9.2 mg/l en medio mínimo cuando se reemplazó la TyrRS mutante con la TyrRS de tipo silvestre (wt). No se obtuvo ningún dominio Z en ausencia de p-acetil-(+)-fenilalanina, el muARNt o LW1RS, indicando una muy alta fidelidad en la incorporación del aminoácido no natural en este sitio. También se tuvo éxito al incorporar p-acetil-L-fenilalanina en otras proteínas tales como
Cdc42.

Tanto la proteína de dominio Z wt expresada por muARNt /WT TysRS como la proteína de dominio Z mutante expresada por el muARNt/LW1RS se analizaron por ionización de electroaspersión de la espectrometría de masa de resonancia de ion ciclotron Fourier (FT-ICR MS). Para la proteína de dominio Z wt se observaron tres picos con masas correspondientes a la proteína intacta, la proteína sin la primera metionina, y a la forma acetilada de la proteína sin la primera metionina (confirmada por análisis espectrométrico de masa en serie del fragmento de péptido tríptico digerido de N-terminal). Para la proteína del dominio Z mutante, la masa monoisotópica experimental de la proteína intacta fue de 7949.893 Da, que se encuentra dentro de 2.2 ppm de la masa teórica de 7949.874 Da. Otros dos picos corresponden a la proteína sin la primera metionina (Mexperimental = 7818.838 Da, Mteórica = 7818.833 Da) y su forma acetilada (Mexperimental = 7860.843 Da, Mteórica = 7860.844 Da), respectivamente. No se observó en el espectro ningún pico correspondiente a las proteínas mutantes con ningún oro aminoácido en la posición del codón ámbar. La proporción de señal a ruido de más de 1500 observada en el espectro dde masa de la proteína intacta se traduce a una fidelidad para la incorporación de p-acetil-L-fenilalanina mejor que 99.8%. La espectrometría de masa en serie de cromatografía líquida de digestión tríptica se llevó a cabo para confirmar la secuencia del péptido NH2-terminal. El ion precursor a 606.23 Da, que corresponde al ion molecular doblemente cargado del péptido tríptico NH2-terminal MTSVDNY*INK, se aisló y se fragmentó con un espectrómetro de masa de trampa de ion (ITMS). Las masas de ion de fragmento podrían asignarse de manera no ambigua, confirmando la incorporación específica en el sitio de p-aceil-L-fenilalanina. Estos resultados claramente demuestran que la sintetasa desarrollada junto con el muARNt incorpora p-acetil-L-fenilalanina y no un aminoácido natural en la posición codificada por el codón ámbar en ninguna otra posición.

Modificación de proteína específica en el sitio con hidrazida de fluorescencia

Enseguida determinamos si el grupo ceto de p-acetil-L-fenilalanina podría servir como ayuda química para la modificación específica en el sitio de proteínas in vitro. La proteína de dominio Z de p-acetil-L-fenilalanina (dominio Z mutante) y la proteína de dominio Z wt se trataron con 1 mM de hidrazida de fluorescencia (Esquema 1) a 25ºC durante 18 horas en amortiguador de fosfato. Después de la reacción, las proteínas se separaron del exceso de hidrazida de fluorescencia mediante cromatografía de exclusión de tamaño, y se analizaron con electroforesis de gel de sodio dodecil sulfato-poliacrilamida (SDS-PAGE). El gel se visualizó primero con un sistema de fluorovisualización, y después se colorearon con plata. La banda para el dominio Z mutante muestra una señal fluorescente aunque no puede detectarse fluorescencia de la banda de dominio Z wt. Se utilizaron alícuotas de estas dos proteínas para medir el espectro de fluorescencia con 490 nm de excitación. Solo la proteína de dominio Z conteniendo p-acetil-L-fenilalanina muestra un espectro de fluorescencia similar al de la fluorescencia. No se detectó ninguna señal de fluorescencia para el dominio Z wt, indicando que la reacción de marcado se presentó solo entre la hidrazida y la cetona, y no en ninguno de los grupos funcionales existentes en la proteína wt. El producto marcado se analizó con espectrometría de masa cuádruple de tiempo de vuelo (QTOF MS). Se obtuvo una masa monoisotrópica experimental de 8425.160 Da (Mteórica = 8424.958 Da), confirmando que la hidrazida de fluorescencia reaccionó con la proteína de dominio Z mutante en una proporción molar de 1:1. Para determinar el grado de marcado, la mezcla de reacción se separó mediante cromatografía líquida de alto desempeño (HPLC). La proporción del área pico del dominio Z marcado sobre la del dominio Z no marcado fue de 90 + 5%.

\newpage

Esquema 1

4

Modificación de proteína específica en el sitio con hidrazida biotina

Para demostrar la generalidad de este procedimiento, también marcamos el dominio Z con derivado de hidrazida biotina (Estructura C). El mutante purificado y el dominio Z wt se trataron con 1 mM de hidrazida biotina en amortiguador de fosfato a 25ºC durante 18 horas. Después de diálisis contra el amortiguador de fosfato para retirar el exceso de hidrazida biotina, las proteínas se sometieron a SDS-PAGE. Las proteínas separadas se transfirieron a una membrana de nitrocelulosa y se probaron con un conjugado específico a biotina de avidina-HRP. Como se esperaba, solo se detectó el dominio Z mutante conteniendo p-acetil-L-fenilalanina, indicando que se marcó con hidrazida biotina. No se observó ninguna señal para el dominio Z wt. La eficiencia del marcado fue de 80 + 10% como se determinó mediante análisis HPLC como se describió en el experimento de marcado con fluorescencia. Se confirmó que la proteína marcada mediante QTOF MS (Mexperimental = 8416.236, Mteórica = 8416.146 Da) es el producto formado entre una molécula de hidrazida biotina y una molécula de dominio Z mutante. Estos experimentos demostraron excelente especificidad de la ayuda de cetona para la modificación in vitro de proteínas.

5

En resumen, hemos incorporado específicamente en el sitio un nuevo grupo químico funcional, el grupo ceto, en proteínas in vivo. Este grupo funcional puede marcarse selectiva y eficientemente, p. ej., con fluorescencia y biotina in vitro mediante una reacción química específica entre el grupo ceto y los derivados de hidrazida. Este procedimiento hace posible marcar selectivamente proteínas con una amplia variedad de otros derivados de hidrazida o de hidroxilamina (incluyendo azúcares, marcas de rotación, queladores metálicos, agentes de reticulación, poliéteres, ácidos grasos y toxinas), ya sea como sondas de estructura y función de proteína, para generar proteínas con propiedades catalíticas o terapéuticas aumentadas, o para el desarrollo de bioanálisis utilizando proteínas. La capacidad para incorporar específicamente en el sitio una ayuda química única en proteínas directamente en una célula viva hace posible la modificación in vivo de proteínas con fluoróforos de molécula pequeña para la visualización in vivo de la localización de proteínas, el movimiento de las proteínas y los cambios de conformación en las proteínas en una resolución molecular. El marcado in vivo de proteínas que contienen p-acetil-L-fenilalanina con fluoróforos en E. coli también se hace posible mediante esta técnica.

\vskip1.000000\baselineskip

Ejemplo 2 Incorporación in vivo de análogos de meta-tirosina

Se generó una TyrRS ortogonal para la aminoacilación del mutARN Tyr CUA (descrita en el Ejemplo 1 de la WO2002/085923) con análogos de meta-tirosina.

Preparación de plásmidos de la biblioteca de TyrRS mutante: Se construyó una biblioteca de plásmidos que codifican para TyrRSs mutantes de M. jannaschii dirigidos en derivados de tirosina meta-sustituidos, siguiendo en general los métodos descritos en el Ejemplo 1 de la WO 2002/085923. Brevemente, seis residuos (Tyr32, Ala67, His70, Gln155, Asp158, Ala167) en el sitio activo de la TyrRS de M. jannaschii que se encuentran dentro de 6.9 A de la posición meta del anillo de arilo de la tirosina enlazada en la estructura cristalina de TyrRS de Bacillus stearothermophilus se mutaron a todos los 20 aminoácidos en el nivel de ADN utilizando el esquema del codón NNK como se describió en el Ejemplo 1 anterior. La biblioteca de plásmidos construida pBK-lib contuvo alrededor de 1X109 clones independientes.

Evolución de pares ortogonales de ARNt-sintetasa para la incorporación de m-acetil-fenilalanina: Después de 3 rondas de selección positiva y 2 rondas de selección negativa, emergieron cinco clones candidato (SEQ ID NO: 17-21 de la WO 2002/085923 y SEQ ID NO: 49-53 de la WO 2002/085923) cuya supervivencia en cloranfenicol dependió de la adición del aminoácido no natural. En ausencia de m-acetil-fenilalanina, el IC50 de resistencia al cloranfenicol para células que albergan el uno de los tres plásmidos TyrRS mutantes es de 20 mg/ml. En presencia de m-acetil-fenilalanina, el IC50 de la resistencia al cloranfenicol para las mismas células es de 100 mg/ml. La gran diferencia entre estos dos números refleja la capacidad de las sintetasas seleccionadas para especificar la incorporación de m-acetil-fenilalanina sobre los aminoácidos naturales en la célula. Los datos para m-metoxi-fenilalanina fueron similares; cinco clones se aislaron (SEQ ID NO: 22-26 de la WO 2002/085923 y la SEQ ID NO: 54-58 de la WO 2002/085923).

Expresión de proteínas de DHFR incorporado a aminoácidos no naturales: Las sintetasas m-metoxi fenilalanina y m-acetil fenilalanina seleccionadas anteriormente se utilizaron para incorporar los aminoácidos no naturales relevantes en respuesta a un codón ámbar en DHFR como se describió previamente en el Ejemplo 1 de la WO 2002/085923. Como control negativo, las células conteniendo tanto el par ortogonal de ARNt-sintetasa como el vector ámbar-mutante que codifica para DHFR crecieron en ausencia de aminoácidos no naturales. Los resultados de la expresión de proteínas se muestran en la Figura 10 de la WO 2002/085923. Estos resultados claramente demostraron la especificidad del par ortogonal de ARNt-sintetasa para incorporar m-metoxi fenilalanina y m-acetil fenilalanina no natural. Los rendimientos de la proteína DHFR expresada son de aproximadamente 0.5 mg/l de cultivo en ambos casos.

En una realización, los compuestos (p. ej., derivados de hidrazida) pueden utilizarse para marcar proteínas in vivo con al menos un aminoácido no natural, p. ej., análogo de meta tirosina.

\vskip1.000000\baselineskip

Ejemplo 3 Síntesis de miméticos de glicoproteína

La disponibilidad de un grupo funcional no proteinógeno con una reactividad única facilita grandemente la modificación química selectiva de proteínas. El grupo ceto es una ayuda química tal - se encuentra ausente de las cadenas laterales de aminoácidos naturales, y reacciona fácil y selectivamente con derivados de hidrazida e hidroxilamina bajo condiciones suaves en presencia de los aminoácidos comunes. Ver, p. ej., Cornish, V.W., et al., (1996) J. Am. Chem. Soc. 118:8150-8151 y las referencias en la misma. El grupo ceto se ha incluido en péptidos mediante síntesis de péptido en fase sólida, y se ha acoplado con derivados sacárido nucleofílicos para construir neoglicopéptidos. Ver, p. ej., Rodríguez, E.C., et al., (1998) J. Org. Chem. 63:7134-7135. Recientemente desarrollamos un método general que permite la incorporación específica en el sitio de aminoácidos no naturales en proteínas directamente en células vivas (ver, p. ej., WO 2002/085923; ver también, p. ej., Wang. L. Et al., (2001) Science 292:498-500. Un aminoácido que contiene ceto, p-acetil-L-fenilalanina, se ha incorporado con éxito en respuesta al codón ámbar de no sentido con una fidelidad de traducción mayor que 99.8%. Ver p. ej., Wang, L., et al., (2003) Proc. Natl. Acad. Sci U.S.A. 100:56-61. Este Ejemplo describe la preparación de miméticos homogéneos de glicoproteína utilizando la funcionalidad ceto genéticamente codificada junto con derivados sacárido aminooxi.

Se exploraron dos rutas para generar los miméticos de glicoproteína (ver Figura 1). En el primer procedimiento, un sacárido derivatizado con un grupo aminooxi se acopla primero al grupo ceto, y se anexan sacáridos adicionales enzimáticamente con glicosiltransferasas. En una segunda ruta más convergente, se prepara un glicano con una estructura definida como un derivado de aminooxi, y se acopla directamente a la proteína en un paso. El dominio Z de la proteína A de estafilococo se utilizó como proteína modelo (ver, p. ej., Nilsson, B., et al., (1987) Protein Eng. 1:107-113) debido a su tamaño relativamente pequeño (peso molecular 7.9 kD) que facilita la caracterización espectrométrica de masa con muy alta precisión.

El séptimo codón del gen correspondiente se mutó al codón TAG ámbar de paro y se agregó un tag His6 al término C para facilitar la purificación de las proteínas. Se incorporó p-acetil-L-fenilalanina en la posición ámbar para producir la proteína de dominio Z mutante mediante protocolos previamente reportados. Ver, p. ej., Wang, L., et al., (2003) Proc. Natl. Acad. Sci. U.S.A. 100:56-61. Aproximadamente se obtuvo 3.6 mg/l de proteínas después de la cromatografía de afinidad de níquel. El análogo de aminooxi de enlace veta de N-acetilglucosamina (GlcNAc) 1 de la Figura 1 se sintetizó entonces siguiendo los procedimientos publicados. Ver, p. ej., Cao, S., et al., (1995) Tetrahedron 51:6679-6686. La proteína de dominio Z mutante (10 mg/ml) y el sacárido aminooxi 1 (21 mM) se mezclaron en 100 mM de amortiguador de sodio acetato (pH 5.5) y se incubaron a 37ºC durante 7 a 26 horas. La mezcla de reacción se analizó mediante cromatografía líquida de fase de reversa de alto desempeño (HPLC) monitoreando la absorbencia a 280 nm (ver Figura 2). Solo se observaron dos picos principales, y los eluyentes correspondientes se caracterizaron mediante espectrometría de masa de resonancia de transformación de ion ciclotron Fourier asistida por matriz de desabsorción/ionización láser (MALDI-FTICR MS) (ver Figura 3). Las masas monoisotópicas obtenidas indican que un pico (tR = 44.8 min) corresponde al dominio Z mutante no reactivado (Mteórica = 7818.833 Da, Mexperimental = 7818.836 Da), y el otro pico (tR = 43.2 min) corresponde al dominio Z mutante derivatizado con el sacárido aminooxi 1 (Mteórica = 8036.924 Da, Mexperimental = 8036.914 Da). Cuando se expresa en E. coli, la proteína de dominio Z tiene tres formas: la proteína intacta, la proteínas sin la primera metionina, y la forma acetilada de la proteína sin metionina. La proteína intacta puede separarse de las otras dos formas utilizando HPLC de fase de reversa. Para simplificar el análisis de espectrometría de masa, se utilizó en este ejemplo la fracción purificada que contiene el dominio Z sin la primera metionina y su forma acetilada. Pueden observarse dos picos moleculares que corresponden a estas dos formas en todo el espectro de masa, como se marcaron en el espectro para III y IV en la Figura 2. Ver, Figura 1 para estructura. Como control, cuando se incorpora la tirosina en la séptima posición del dominio Z, no se observa proteína derivatizada de sacárido. Este hecho, junto con la masa de alta precisión (error < 1.2 ppm) observada para el dominio Z de sacárido modificado, confirmó que el sacárido aminooxi 1 se une al grupo ceto selectivamente. La eficiencia de acoplamiento se incrementa con el tiempo (determinado de las áreas de los picos de HPLC que corresponden al material de inicio y al producto): la conversión del material de inicio al producto fue de 42% después de 7 horas y mayor que 95% después de 26 horas. (Ver Figura 2).

A continuación se determinó si un segundo sacárido podría acoplarse al primero enzimáticamente. El abducto purificado II (5 mg/ml) (ver Figura 1 para estructura) se incubó con UDP-galactosa (UDP-Gal) (16 mM) y b-1,4-galactosiltransferasa (0.4 unidades/ml) en 150 mM de amortiguador HEPES (ácido N-2-hidroxietilpiperazina-N'-2-etanosulfónico) (pH 7.4) durante 48 horas a temperatura ambiente. Se sabe que beta-1,4-galactosltransferasa transfiere galactosa del nucleótido de azúcar a la posición 4 de un residuo GlcNAc para formar Galb1,4GlcNAc. Ver, p. ej., Schanbacher, F.L., y Ebner, K.E. (1970) J. Biol. Chem. 245:5057-5061. Después de la separación por HPLC, se identificó un nuevo pico (tR = 42.5 min). La masa monoisotrópica (Mteórica = 8198.977, Mexperimental = 8198.969) del eluyente medido por MALDI-FTICR MS confirmó que la galactosa se acopló a Glc Nac para producir el abducto III (Ver Figura 3). Ver Figura 1 para estructura. La eficiencia de acoplamiento determinada por análisis HPLC fue de aproximadamente 60%, un valor cercano al reportado previamente para b-1,4-galactosiltransferasa. Ver, p. ej., Witte, K., et al., (1997) J. Am. Chem. Soc. 119:2114-2118. Este resultado indica que el enlace no natural entre el primer sacárido y la proteína no afecta significativamente la reacción de glicosiltransferasa. La reacción adicional de esta proteína marcada con disacárido con ácido CMP-siálico y a-2,3-sialiltransferasa (ver, p. ej., Kitagawa, H., y Paulson, J.C., (1994) J. Biol. Chem. 269:1394-1401) dio como resultado la adición de ácido siálico a galactosa para producir IV (tR = 41.7 min), como se confirmó por MALDI-FTICR MS (Mteórica = 8490.072, Mexperimental = 8490.014) (Ver Figura 3). La eficiencia de acoplamiento para la conversión de III a IV fue de 65% en base al análisis HPLC. Ver Figura 1 para estructuras.

Los miméticos de glicoproteína III y IV también se prepararon utilizando una ruta convergente. Ver Figura 1. El aminooxi GlcNAc (0.05 M) se convirtió en 2 utilizando b-1,4-galactosiltransferasa (0.75 unidades/ml) y la UDP-galactosa donante de glicosilo en 70% de rendimiento total en 150 mM de amortiguador HEPES (pH 7.4). después de la purificación mediante HPLC de aminopropilo de gel de sílice, se agregó ácido siálico a 2(0.03 M) para producir 3 en el mismo amortiguador antes mencionado en aproximadamente 80% de rendimiento utilizando a-2,3-sialiltransferasa (0.22 unidades/ml) y ácido CMP-siálico (0.03 M). El análogo de aminooxi purificado 2 y 3 (13 y 7.2 mM, respectivamente) se acoplaron a la proteína de dominio Z (5 mg/ml) conteniendo p-acetil-L-fenilalanina en 100 mM de amortiguador acuoso de sodio acetato (pH 5.5) a temperatura ambiente para producir miméticos ded glicoproteína III y IV, respectivamente. Ver, Figura 1. Los III y IV resultantes fueron idénticos a los abductos correspondientes preparados por medio de la primera ruta secuencia, como se confirmó por los análisis HPLC y MALDI-FTICR MS. La eficiencia de acoplamiento de 2 a I y de 3 a I bajo las mismas condiciones de reacción durante 26 horas fueron de aproximadamente 76% y 60%, respectivamente. Los rendimientos fueron menores que el del acoplamiento de 1 a I (95%) probablemente debido al incrementado efecto estérico dado que el glicano se hace más complicado.

En resumen, hemos demostrado un método general para la síntesis de miméticos homogéneos de glicoproteína conteniendo sustituyentes de sacárido bien definidos.

Materiales y Métodos Experimentales

General: UDP-Gal, CMP-NeuAc, b-1,4-galactosiltransferasa (b-1,4-GalT) y a-2,3-sialiltransferasa (a-2,3-SialT) se adquirieron de Calbiochem. A menos que se señale de otra manera, todos los químicos se obtuvieron de Aldrich, Acros o Sigma y se utilizaron son purificación adicional. Las reacciones se monitorearon mediante cromatografía de capa delgada (TLC) utilizando colorante de ninhidrina o molibdato de cerio como agente revelador. Todas las reacciones no acuosas se llevaron a cabo en instrumentos de vidrio secados en horno bajo una atmósfera Ar inerte. Todos los solventes no acuosos se destilaron antes de usarlos. Los espectros NMR se registraron en espectrómetros Bruker AMX-400, AMX-500 o AMX-600 MHz y se refirieron a picos de solvente residual (CDCl3: 1H \delta 7.24, 13C \delta 77.0; CD3OD: 1H \delta 3.30, 13C \delta 49.0; D2O: 1H \delta 4.76).

Compuesto 2 de la Figura 1: El compuesto 1 de la Figura 1 (5 mg, 0.021 mmol) y UDP-Gal (21 mg, 0.032 mmol) se disolvieron en 350 ml de amortiguador HEPES (150 mM, pH 7.4) conteniendo una solución de MnCl2 recién preparada (2 mmol). B-1,4-GalT (0.3 U, 0.1 U ml-1) y fosfatasa alcalina (0.5 U, 1 U ml -1) se agregaron y la mezcla de reacción se agitó suavemente a temperatura ambiente durante 2 días. La mezcla de reacción se centrifugó y el sobrenadante se purificó mediante HPLC de aminopropilo de gel de sílice empleando una elución gradiente de 100:0 A:B a 50:50 A:B a lo largo de 90 min a una proporción de flujo de 1 ml min-1 en donde A = MeCN y B = H2O. El tiempo de reacción del producto deseado fue de 53 min. La liofilización de las fracciones de la columna produjeron un compuesto puro 2 de la Figura 1 (6 mg, 70%) como un polvo blanco; 1H NMR (D2O, 600 MHz) \delta 4.58 (d, J = 6.12, 1H), 4.42 (d, J = 7.44, 1H), 3.96 (d, J = 11.88, 1H), 3.87 (m, 1H), 3.78 (dd, J = 4.83, 12.3, 1H), 3.72-3.69 (m, 6H), 3.62 (dd, J = 3.06, 10.08, 1H), 3.56 (m, 1H), 3.50 (m, 1H), 1.98 (s, 3H). 13C NMR (D2O, 150 MHz) \delta 175.18, 103.98, 103.31, 78.63, 75.78, 75.13, 72.92, 72.82, 71.39, 68.99, 61.46, 60.43, 53.80, 22.55. HR-FTMS (pos) calculado para C14H26N2O11 [M+Na]+ = 421.1429, encontrado 421.1448.

Compuesto 3 de la Figura 1: El compuesto 2 de la Figura 1 (5.3 mg, 0.013 mmol) y CMP-NeuAc (10 mg, 0.016 mmol) se disolvieron en 450 ml de amortiguador HEPES (150 mM, pH 7.4) conteniendo una solución de MnCl2 recién preparada (5 mmol). a-2,3-SialT (22 mU, 3.7 mU ml-1) y fosfatasa alcalina (50 mU, 50 mU ml -1) se agregaron y la mezcla de reacción se agitó suavemente a temperatura ambiente durante 2 días. La mezcla de reacción se centrifugó y el sobrenadante se purificó mediante HPLC de aminopropilo de gel de sílice empleando una elución gradiente de 100:0 A:B a 0:100 A:B a lo largo de 30 min a una proporción de flujo de 1 ml min-1 en donde A = MeCN y B = H2O. Las fracciones correspondientes (27 min) se recolectaron y se liofilizaron para dar un polvo blanco (7 mg, 76%); 1H NMR (D2O, 600 MHz) \delta 4.55 (d, J = 8.34, 1H), 4.48 (d, J = 7.86, 1H), 4.04 (dd, J = 3.06, 9.60, 1H), 3.59-3.96 (m, 17H), 3.51 (m, 1H), 2.67 (dd, J = 4.80, 12.72, 1H), 1.98 (s, 3H), 1.96 (s, 3H), 1.75 (t, J = 12.30, 1H). ES-MS (neg) calculado para C25H43N3O19 [M+H]- = 688, encontrado 688.

Procedimiento General para acoplar un derivado sacárido de aminooxi a proteína de dominio Z mutante: En una reacción típica, el derivado sacárido de aminooxi (500 mg) y -1 mg de proteína de dominio Z mutante se disolvieron en 100 mM de amortiguador NaOAc, pH 5.5. Se agregó agua a un volumen total de 100 ml y la mezcla de reacción se agitó a 37ºC durante 26 horas. Después la mezcla de reacción se centrifugó y el sobrenadante se purificó mediante HPLC de fase de reversa en una columna Agilent ZORBAX SB-C18 4.6 mm x 250 mm empleando una elución gradiente de 90:10 A:B a 60:40 A:B a lo largo de 70 min a una proporción de flujo de 1 ml min-1 en donde A = H2O con 0.1% de TFA y B = MeCN con 0.1% de TFA. Las fracciones de columna se neutralizaron con amortiguador TrisCl (pH 7-0) y se desalaron con una columna de exclusión de tamaño. Después de eluirse con agua el eluyente se liofilizó para producir II, III y IV puros de la Figura 1 como un polvo blanco en 96%, 76% y 60% de rendimiento, respectivamente.

Preparación de miméticos de glicoproteínas III y IV (de la Figura 1) utilizando la ruta secuencial: Para la preparación de III de la Figura 1, el II de la Figura 1 (-0.5 mg) y UDP-Gal (1 mg) se disolvieron en 90 ml de 150 mM de amortiguador HEPES, pH 7.4 conteniendo una solución de MnCl2 recién preparada (0.5 mmol). B-1,4-GalT (40 mU, 40 mU ml-1) y fosfatasa alcalina (50 mU), 50 mU ml -1) se agregaron y la mezcla de reacción se agitó suavemente a temperatura ambiente durante 2 días. La mezcla de reacción se centrifugó y el sobrenadante se purificó mediante HPLC de fase de reversa. Para la preparación de IV de la Figura 1, el III de la Figura 1 (-0.5 mg) y CMP-NeuAc (0.5 mg) se disolvieron en 90 ml de 150 mM de amortiguador HEPES pH 7.4 conteniendo una solución de MnCl2 recién preparada (0.5 mmol). a-2,3-SialT (10 mU, 3.7 mU ml-1) y fosfatasa alcalina (50 mU, 50 mU ml -1) se agregaron y la mezcla de reacción se agitó suavemente a temperatura ambiente durante 2 días. La mezcla de reacción se centrifugó y el sobrenadante se purificó mediante HPLC de fase de reversa.

MALDI-FTICR MS: Un instrumento hecho en casa con una consola APEX II y un imán 9.4 T de Bruker Daltonics (Billerica, MA) se utilizó para los experimentos MALDI-FTICR MS. Los residuos de azúcar tienden a caer cuando se utiliza una preparación de muestra MALDI que involucra TFA. Utilizamos una matriz menos sensible pero más fría. La matriz es una mezcla de ácido 3-hidroxipicolínico (20 mg ml -1) y citrato de diamonio (1 mg ml -1). La descomposición de la glicoproteína se minimizó adicionalmente mediante la fuente MALDI especializada de presión intermedia del FTICR que reduce la fragmentación metaestable proporcionando un enfriamiento por colisión en la fuente.

\vskip1.000000\baselineskip

Ejemplo 4 Otra estrategia para la síntesis de glicoproteínas

En una realización de la invención, se ha desarrollado otra estrategia para sintetizar glicoproteínas homogéneas en un organismo. Por ejemplo, la mioglobulina conteniendo \beta-GlcNAc-serina en una posición definida puede expresarse en E. coli en buen rendimiento y con alta fidelidad. El residuo \beta-GlcNAc puede reconocerse mediante proteína de enlace carbohidrato o subsecuentemente modificada con una galactosiltransferasa. Este procedimiento puede ser aplicable a otras modificaciones post-traslacionales, p. ej., fosforilación de proteína, acetilación, metilación y similares.

La glicosilación es una de las más comunes modificaciones post-traslacionales de proteínas en eucariotos y afecta un amplio rango de las funciones de proteínas desde la duplicación y secreción para el reconocimiento biomolecular y la vida media en suero. Ver, p. ej., R.A. Dwek, (1996) Chem. Rev. 96:683. Aunque ha habido avances significativos en nuestra comprensión de los efectos de la glicosilación, apenas empiezan a comprenderse los roles específicos de las cadenas de oligosacárido y las relaciones entre sus estructuras y funciones. Ver, p. ej., C.R. Bertozzi, & L.L. Kiessling (2001) Science 291:2357. El reto principal es que las glicoproteínas se producen típicamente como una mezcla de glicoformas, dificultando aislar glicoformas únicas de fuentes naturales. Una variedad de métodos se han desarrollado para sintetizar glicoformas estructuralmente definidas, pero todos imponen severas restricciones en el tamaño, cantidad y/o calidad de las glicoproteínas producidas. Ver, p. ej., P. Sears, Y C. H. Wong (2001) Science 291:2344; M. Wacker et al., (2002) Science 298:1790; B.G. Davis (2002) Chem. Rev. 102:579; y H.C. Hang, & C.R. Bertozzi (2001) Acc. Chem. Res. 34:727. En este ejemplo, se describe una estrategia y los componentes utilizados para producir glicoformas únicas en E. coli, que incluyen el desarrollo de un par ortogonal de sintetasa-ARNt que codifica genéticamente un aminoácido glicosilado en respuesta a un codón selector, p. ej., un codón ámbar TAG. La incorporación genética de este y oros aminoácidos modificados con sacáridos directamente en proteínas puede aumentar significativamente nuestra capacidad tanto para analizar como para manipular la estructura y función de glicoproteínas.

Se desarrollaron métodos previamente que por primera vez permitieron la adición sistemática de aminoácidos con nuevas propiedades químicas y físicas para el código genético de E. coli (ver, p. ej., L. Wang, et al., (2001) Science 292:498; l. Wang et al., (2002) J. Am. Chem. Soc. 124:1836; Z. Zhang et al., (2002) Angew. Chem. Int. Ed. Engl. 41:2840; J. W. Chin et al., (2002) J. Am. Chem. Soc. 124:9026; J.W. Chin et al., (2002) Proc. Natl. Acad. Sci. U.S.A. 99: 11020; S.W. Santoro et al., (2002) Nat. Biotechnol. 20:1044; L. Wang et al., Proc. Natl. Acad. Sci. U.S.A. 100:56; y Z. Zhang et al., (2003) Biochemistry 42:6735) y levadura (ver, p. ej., J.W. Chin et al., Science (2003 en prensa). En este procedimiento, un par supresor ámbar de M. jannaschii TyrRS - muARNt que no reacciona de manera cruzada con ARNts endógenos y sintetasas se desarrolla para cargar únicamente un aminoácido no natural deseado. Esta metodología también permitirá incorporar directamente aminoácidos glicosilados, fosforilados o metilados en proteínas (ver, p. ej., T. Arslan, et al., (1997) J. Am. Chem. Soc. 119:10877), evitando la necesidad de la modificación selectiva enzimática o química de las proteínas. Se intentó incorporar b-O-GlcNAc-L-serina (Compuesto A, GlcNAc:N-acetilglucosamina)específicamente en el sitio en proteínas en E. coli. La modificación O-Glc-Nac se realiza en cualquier lugar en casi todos los eucariotos, se encuentra implicada en la regulación de la señalización de células, trafico de proteínas y crecimiento celular, y también es un sustrato a partir del cual se generan carbohidratos más complejos. Ver, p. ej., L. Wells., et al., (2001) Science 291:2376; y N. Lamarre-Vincent, & L. Hsieh-Wilson (2003) J. Am. Chem. Soc. 125:6612. Desafortunadamente, los derivados de sacárido con grupos hidroxilo libres se transfieren pobremente a través de la membrana de las células eucarióticas, sugiriendo que el Compuesto A de sustrato sería poco probablemente permeable a la célula. Ver, p. ej., A.k. Sarkar., et al., (1995) Proc. Natl. Acad. Sci. U.S.A. 92:3323. Sin embargo, se ha mostrado que la acetilación de los grupos hidroxilo de azúcares facilita el transporte a través de las membranas celulares y que los grupos acetilo hidroxilo pueden desacetilarse mediante estearasas citosólicas no específicas una vez dentro de la célula. Ver, p. ej., N. Lamarre-Vincent, & L. Hsieh-Wilson (2003) J. Am. Chem. Soc. 125:6612. En consecuencia, el derivado acetilado Compuesto B tri-acetil-b-GlcNAc-serina para el cual existe un precursor comercialmente disponible, N-Fmoc-tri-acetil-b-GlcNAc-serina, se utilizó en estos experimentos. Compuesto:

6

Se utilizó una serie de selecciones positivas y negativas para aislarse de una biblioteca de mutantes activos en el sitio, un TyrRS que carga específicamente el muARNt ortogonal con b-GlcNAc-serina en E. coli. En base a la estructura de rayos X de la TyrRS de Bacillus stearothermophilus homóloga, se construyeron dos bibiotecas con residuos activos en el sitio aleatorizados: uno, codificado mediante el plásmido pBK-lib-m, tuvo residuos Tyr32, Ala67, His70, Gln155, Asp158, y Ala167 aleatorizados, y un segundo, codificado por el plásmido pBK-lib, tuvo residuos Tyr32, Glu107, Asp158, y Leu162 aleatorizados. Estos residuos se encuentran todos dentro de 6.9 A del anillo de fenilo y son los residuos principales que forman el contenedor de enlace de sustrato. La biblioteca combinada tuvo aproximadamente 2.6 x 109 de clones independientes. Esta biblioteca se sometió entonces a una selección positiva, en base a la supresión de un codón ámbar introducido en Asp112 en el gen de cloranfenicol acetiltransferasa (CAT), para seleccionar TyrRS mutantes capaces de incorporar el aminoácido glicosilado. Las células qe sobrevivieron a altas concentraciones en cloranfenicol deben expresar una TyrRs mutante con la capacidad de insertar ya sea una b-GlcNAc-serina o un aminoácido endógeno en respuesta al codón ámbar Asp112TAG. Una selección negativa en base a la supresión de tres codones ámbar en el gen tóxico de barnasa, se utilizó entonces para suprimir de los clones seleccionados aquellas TyrRSs mutantes que incorporan aminoácidos endógenos. Después de cinco rondas de selección positiva y cuatro rondas de selección negativa, emergieron tres clones que sobrevivieron a alta concentración de cloranfenicol. Estos clones y sus mutaciones son como sigue: SI-90 (Glu107-Pro107, Asp158-Cys158, Ile159-Tyr159, Leu162-Arg162), S4-5 (Tyr32-Gly32, Glu107-Gly107, Asp158-Cys158, Leu162-His162, SI-5 (Glu107-Cys107, Asp158-His158, Ile159-Asp159, Leu162-Met162). Todos estos clones parecen ser altamente selectivos para b-GlcNAc-serina, dado que el reemplazo del Compuesto B con 1 mM de serina, a-tri-actil-GalNAc-treonina, a/b-tri-acetil-GalNAc-serina o b-tetra-acetil-Glu-asaparagina no permite el crecimiento celular por arriba de 30 mg/ml de cloranfenicol. Estaos resultados genéticos in vivo sugieren que las TyrRSs mutantes nuevamente seleccionadas tienen una especificidad excelente hacia b-GlcNAc-L-serina.

Para probar la eficiencia y fidelidad de la incorporación del Compuesto B, se generó un gen de mioglobulina mutante (Gly4TAG) conteniendo un codón ámbar en la cuarta posición y un tag His6 de terminal C. Ver, p. ej., S.W. Santoro et al., (2002) Nat. Biotechnol. 20:1044. Cuando la sintetasa mutante, S1-90, se co-expresó con los genes muARNt y Gly4TAG de mioglobulina en presencia del Compuesto B en medio mínimo, se produjo 1 mg/ml de mioglobulina mutante de longitud total (Ver Figura 4). Para comparación, 5.5 mg/l de mioglobulina de tipo silvestre se produjo bajo una condición similar, indicando un buen nivel de supresión para S1-90. En ausencia ya sea de S1-90, muARNt, o el Compuesto B, no se observó ninguna expresión de mioglobulina de longitud total mediante SDS-PAGE coloreada con plata (ver Figura 4).

La Figura 4 ilustra la expresión de la mioglobulina mutante Gly4-Compuesto A (-18.5 kD). Las proteínas se purificaron por cromatografía de afinidad Ni2+ y se disolvieron mediante SDS-PAGE. El gel se tiño con plata. El Lane 1 muestra que la mioglobulina se expresó en presencia del ARNt ortogonal, sintetasa S1-90, y el Compuesto B. La banda a -18 kDa corresponde a la mioglobulina de longitud total. El Lane 2 muestra proteínas eluidas después de la expresión en presencia del tARn ortogonal y la sintetasa S1-90 pero en ausencia del Compuesto B de sustrato. El Lane 3 muestra proteínas eluidas después de la expresión en presencia del ARNt ortogonal y el Compuesto B de sustrato pero en ausencia de la sintetasa S1-90. El Lane 4 muestra proteínas eluidas después de la expresión en presencia de sintetasa S1-90 y el Compuesto B de sustrato pero en ausencia del ARNt ortogonal. El Lane 5 contiene la mioglobulina purificada de tipo silvestre para comparación.

El análisis MALDI-TOF de alta resolución proporcionó una masa monoisotópica de la mioglobulina mutante purificada con His6 tag de 18430.1 Da, que concuerda dentro de 32 ppm con la masa teórica de Glc(OH)3Nac-serina que contiene mioglobulina sin metionina (Mteórica = 18429.5 Da). Ver Figura 5. Nótese que la pérdida del Met N-terminal es común en E. coli. En adición, no se observaron señales correspondientes ya sea a la glicomioglobulina O-acetilada o de mioglobulina de tipo silvestre. Los datos de espectro de masa confirman un alto grado de especificidad para la incorporación de GlcNAc-serina en mioglobulina (> 96%).

Se llevaron a cabo varios experimentos adicionales para caracterizar adicionalmente la mioglobulina mutante. Primero, se utilizó un análisis similar a ELISA para analizar el enlace de una lectina específica para GlcNAc, Bandeiraea simplicifolia II (BSII) (ver, p. ej., S. Ebisu et al., (1978), Carbohydr. Res. 61:129), a la mioglobulina de tipo silvestre y la glico-mioglobulina. Ver Figura 6, Panel A. la Figura 6, Panel A ilustra en enlace de la lectina específica para GlcNAc, Bandeiraea simplicifolia II (BSII) a la mioglobulina tipo silvestre y la glicomioglobulina. Se muestran valores A405 para el mioglobulina de tipo silvestre, glicomioglobulina, y el control negativo (sin agregar lectina). Gly4-Compuesto A de mioglobulina mutante (200 ng) y mioglobulina de tipo silvestre (200 ng) se inmovilizaron en pozos de placa de micro titulación y subsecuentemente se incubaron con BSII biotinilado y conjugado de estreptavidina-fosfatasa alcalina. Los pozos se incubaron con p-nitrofenil fosfato y se monitorearon midiendo la absorbencia a 405 nm. Las dos formas de mioglobulina s inmovilizaron en pozos de placa de micro titulación y después se incubaron con BSII biotinilada, conjugado de estreptavidina-fosfatasa alcaliba, y p-nitrofenil fosfato, respectivamente. Los pozos conteniendo mioglobulina de tipo silvestre produjeron una señal equivalente a los pozos de control negativo. En contraste, los pozos conteniendo glicomioglobulina produjeron una señal al menos 200 veces mayor que la de la mioglobulina de tipo silvestre, demostrando el reconocimiento selectivo mediante la lectina específica para GlcNAc. En adición, este resultado muestra que el carbohidrato no se ha modificado a otras formas isoméricas tales como GalNAc y ManNAc dado que esta lectina es altamente selectiva para GlcNAc (ver, p. ej., S. Ebisu et al., (1978) Carbohydr. Res. 61:129).

También investigamos si el residuo O-GlcNAc-serina en mioglobulina podría modificarse selectivamente con una galactosiltransferasa. Se sabe que beta-1,4-galactosiltransferasa transfiere galactosa (Gal) desde el nucleótido de azúcar UDP-Gal hasta la posición 4 de una N-acetilglucosamina (GlcNAc) para formar Galb1,4GlcNAc. Para determinar si la mioglobulina O-glicosilada puede modificarse con UDP-Gal, tanto la mioglobulina O-glicosilada como la de tipo silvestre se disolvieron en SDS-PAGE y se transfirieron a una membrana PVD. La membrana se incubó entonces con galactosiltransferasa de leche bovina y UDP-[H3]-galactosa radiactiva a temperatura ambiente durante 24 horas. Ver, p. ej., K. Kamemura et al., (2002) J. Biol. Chem. 277:19229. La incorporación de [H3]-Gal se monitoreó exponiendo la membrana a película de rayos X. Solo la glicomioglobulina se marcó; no se observó ninguna señal detectable para la mioglobulina de tipo silvestre. Ver, Figura 6, Panel B. La Figura 6, Panel B ilustra la galactosiltransferasa en mancha marcando la glicomioglobulina con UDO-[H3]galactosa. Se disolvieron mioglobulina de tipo silvestre (1 mg) y mioglobulina mutante de Gly4-Compuesto A (1 mg) por SDS-PAGE 12% y se transformaron en una membrana e PVD. La membrana se trató entonces con galactosiltransferasa de leche bovina (1 U), UDP-[H3]galactosa (0.5 mCi) y fosfatasa alcalina intestinal de calf (1 U) durante 24 horas a temperatura ambiente. Después de extensos lavados, la membrana se expuso a película de rayos X utilizando autorradiografía Aumentada.

Para el análisis cuantitativo, también se llevó a cabo la reacción de glicosilación en solución. Ver, p. ej., K. Witte et al., (1997) J. Am. Chem. Soc. 119:2114. Después de la incubación durante 48 horas a temperatura ambiente, se obtuvo un rendimiento de 72% de disacárido en base a la radio marca presente. Ver, Figura 6, Panel C. la Figura 6, Panel C ilustra el análisis cuantitativo de la reacción de galactosiltransferasa, que se llevó a cabo en solución, y la galactosa radio marcada se normalizó de modo que 1.0 corresponde a una transferencia al 100%. A las soluciones conteniendo mioglobulina de tipo silvestre purificada por HPLC (100 mg) y la mioglobulina mutante de Gly4-Compuesto A (100 mg) se agregó quinasa de piruvato (5 U), pirofosforilasa de UDP-glucosa (1 U), pirofosforilasa inorgánica (10 U), galactosa-1-fosfato-uridil transferasa (1 U), galactosiltransferasa de leche bovina (2 U), glucosa-1-fosfato (3 mmol), difosfato de uridilo (3 mmol), fosfoenolpiruvato (0.01 mmol), y DTT (2 mmol). Después de que la reacción se ajustó a un pH 7.2, se agregó [H3]-galactosa-1-fosfato (0.01 mmol). La reacción se llevó a cabo durante 48 horas a temperatura ambiente. Los productos de proteína se separaron con una columna PD-10 Sephadex 25. La radio marca incorporada se midió en un analizador de escintilación líquida.

\newpage

Estos estudios demostraron que la b-GlcNAc-L-serina puede incorporarse co-traslacionalmente en proteínas en E. coli con excelente especificidad y buen rendimiento. La b-GlcNAc-serina incorporada puede servir como sitio de glicosilación principal al cual pueden agregarse los sacáridos secuencialmente con glicosiltransferasa, p. ej., K. Kamemura et al., (2002) J. Biol. Chem. 277:19229.

Materiales y Métodos

Evolución dirigida de enzimas TyrRS mutantes. Los procedimientos generales para las selecciones positivas y negativas se han reportado previamente. Ver, p. ej., Z. Zhang et al., (2003) Biochemistry 42:6735. Brevemente, una combinación del plásmido pBK-lib-m (ver, p. ej., Z. Zhang et al., (2003) Biochemistry 42:6735) y pBK-lib (ver, p. ej., L. Wang et al., (2001) Science 282:498) se transformó en DH10B de E. coli competente que alberga el plásmido pRep(2)/YC (ver, p. ej., S.W. Santoro et al., (2002) Nat. Biotechnol. 20:1044). Las células transformadas crecieron en 500 ml de medio GMML (1 x M9 medio mínimo con glicerol al 1%, 0.3 mM de leucina, 1 mM de MgCl2, 0.1 mM CaCl2 y 0.5% de NaCl) conteniendo 40 mg/ml de tetraciclina, 50 mg/ml de canamicina, 68 mg/ml de cloranfenicol, y 1 mM de Compuesto B durante 60 horas a 37ºC. los plásmidos (pBK) se purificaron a partir de las células sobrevivientes y se transformaron en DH10B de E. coli que alberga pLWJ18B3 (ver, p. ej., L. Wang et al., (2001) Science 292:498= para iniciar la selección negativa. Las células se emplacaron entonces en placas LB (Luria-Bertani) conteniendo 40 mg/ml de cloranfenicol, 50 mg/ml de canamicina, y 0.02% de L-arabinosa y se incubaron a 37ºC durante 8 horas. Los plásmidos pBK se purificaron de las células sobrevivientes y se utilizaron para subsecuentes selecciones positivas y negativas. Después de cinco rondas de selecciones positivas y cuatro rondas de selecciones negativas, se aislaron y se secuenciaron tres pares candidato de ARNt-sintetasas ortogonales que confirieron resistencia al cloranfenicol dependiente del sustrato.

Expresión y caracterización de mioglobulina mutante. Células DH10B conteniendo pBAD/JYAMB-4TAF (ver, p. ej., S.W. Santoro et al., (2002) Nat. Biotechnol. 20:1044) y pS1-90, crecieron en un cultivo de 500 ml de GMML conteniendo canamicina, tetraciclina, 0.02% de L-arabinosa, 5 mM de FeCl3, y 0 o 1 mM del Compuesto B. Las células se granularon. Se lisaron, y las proteínas se purificaron mediante cromatografía de afinidad con perlas de NTA Ni2+ bajo condiciones naturales. Las proteínas se analizaron mediante SDS-PAGE al 12% y se tiñeron en plata. Alícuotas de proteínas purificadas se sometieron a análisis de espectrometría de masa de alta resolución. Se utilizó ionización de deabsorción de láser asistida por matriz (MALDI) con un espectrómetro de masa de tiempo de luz (TOF) (Votager DE-STR, Applied Biosystems, Foster City, CA) para medir el peso molecular de la proteína. Las muestras de proteína se deabsorbieron y se ionizaron mediante radiación de un láser de nitrógeno de 337 nm. El ácido sinapínico se utilizó como la matriz MALDI. Las reacciones de unión de lecitina y glicosiltransferadsa se llevaron a cabo siguiendo los protocolos establecidos (ver p. ej., K. Kamemura, et al., (2002), J. Biol. Chem., 277:19229; y, K. Witte, et al., (1997) J. Am. Chem. Soc. 119:2114).

\vskip1.000000\baselineskip

Ejemplo 5 Secuencias de O-RSs ejemplificativas

Las O-RSs ejemplificatrivas que pueden utilizarse en la invención incluyen las SEQ ID Nos: 1-6 (Ver Tabla 2), y las O-ARNt ejemplificativas que pueden utilizarse en la invención incluyen la SEQ ID NO.: 7. Los polinucleótidos ejemplificativos que codifican para O-RSs incluyen las SEQ ID Nos: 8-10.

Debe entenderse que los ejemplos y realizaciones descritos en la presente son para propósitos ilustrativos únicamente y que se sugerirán varias modificaciones o cambios a la luz de los mismos a las personas expertas en la técnica.

TABLA 2 Ejemplos de secuencias

8

9

10

11

12

\vskip1.000000\baselineskip

Referencias citadas en la descripción

Esta lista de referencias citadas por el solicitante está prevista únicamente para ayudar al lector y no forma parte del documento de patente europea. Aunque se ha puesto el máximo cuidado en su realización, no se pueden excluir errores u omisiones y la OEP declina cualquier responsabilidad en este respecto.

Documentos de patente citados en la descripción

\bullet US 5369017 A, Wang [0003]

\bullet WO 9216640 A [0029]

\bullet EP 89305153 A [0051]

\bullet WO 2002085923 A [0063] [0068] [0077] [0078] [0079] [0086] [0136] [0138] [0139] [0141] [0141] [0142] [0142] [0143] [0144] [0144] [0150] [0205] [0206] [0207] [0207] [0207] [0207] [0208] [0208] [0210]

\bullet WO 2002086075 A [0086] [0100] [0103] [0115]

\bullet US 6238884 B, Short [0105]

\bullet US 5756316 A, Schallenberger [0105]

\bullet US 5783431 A, Petersen [0105]

\bullet US 5824485 A, Thompson [0105]

\bullet US 5958672 A, Short [0105]

\bullet WO 2003031464 A2 [0137]

\bullet US 6331418 B [0137]

Documentos no procedentes de patentes citados en la descripción

\bulletVarki, A. Glycobiology, 1993, vol. 3, 97-130 [0002]

\bulletWitte, K. et al. J. Am. Chem. Soc., 1997, vol. 119, 2114-2118 [0003]

\bulletShin, Y. et al. J. Am. Chem. Soc, 1999, vol. 121, 11684-11689 [0003]

\bulletTolbert, T. J.; Wong, C.-H. J. Am. Chem. Soc., 2000, vol. 122, 5421-5428 [0003]

\bulletWitte, K. et al. J. Am. Chem. Soc., 1998, vol. 120, 1979-1989 [0003] [0003]

\bulletDavis, N. J.; Flitsch, S. L. Tetrahedron Lett., 1991, vol. 32, 6793-6796 [0003]

\bulletMacmillan, D. et al. Org Lett, 2002, vol. 4, 1467-1470 [003]

\bulletSchultz; Kunz. H. Exs, 1995, vol. 73, 201-228 [0003]

\bulletNadano et al. J. Biol. Chem., 1986, vol. 261, 11550-11557 [0029]

\bulletKanamori et al. J. Biol. Chem., 1990, vol. 265, 21811-21819 [0029]

\bulletVarki. Glycobiology, 1992, vol. 2, 25-40 [0029]

\bullet Sialic Acids: Chemistry. Metabolism and Function. Springer-Verlag, 1992 [0029]

\bullet R. A. Dwek. Chem. Rev., 1996, vol. 96, 683 [0038] [0223]

\bullet C. R. Bertozzi; L. L. Kiessling. Science, 2001, vol. 291, 2357 [0038] [0223]

\bullet P. Sears; C.H. Wong. Science, 2001, vol. 291, 2344 [0223]

\bullet M. Wacker et al. Science, 2002, vol. 298, 1790 [0223]

\bullet B. G. Davis. Chem. Rev, 2002, vol. 102, 579 [0038]

\bullet H. C. Hang; C. R. Bertozzi. Acc. Chem. Res., 2001, vol. 34, 727 [0038] [0223]

\bulletPaulson et al. J. Biol. Chem., 1978, vol. 253, 5617-5624 [0047]

\bulletBeeley. Laboratory Techniques in Biochemistry and Molecular Biology. Elsevier, 1985 [0050]

\bulletHounsell. Glycoanalysis Protocols. Meth. Mol. Biol., 1998, vol. 76 [0050]

\bullet El Rassi. Carbohydrate Analysis : High Performance Liquid Chromatography and Capillary Electrophoresis. Elsevier Science Ltd, 1994, vol. 58 [0050]

\bulletSpellman et al. J. Biol. Chem., 1989, vol. 264, 14100 [0051]

\bulletStanley et al. J. Biol. Chem., 1988, vol. 263, 11374 [0051]

\bulletFreshney. Culture of Animal Cells, a Manual of Basic Technique. Wiley-Liss, 1994 [0056] [0184]

\bulletPayne et al. Plant Cell and Tissue Culture in Liquid Systems. John Wiley&Sons, Inc, 1992 [0056] [0184]

\bullet Plant Cell, Tissue and Organ Culture. Fundamental Methods Springer Lab Manual. Springer-Verlag, 1995 [0056]

\bullet The Handbook of Microbiological Media. CRC Press, 1993 [0056] [0184]

\bulletBerger; Kimmel. Guide to Molecular Cloning Techniques, Methods in Enzymology. Academic Press, Inc, vol. 152 [0057]

\bulletSambrook et al. Molecular Cloning - A Laboratory Manual. Cold Spring Harbor Laboratory, 2001, vol. 1-3 [0057]

\bullet Current Protocols in Molecular Biology. Current Protocols. Greene Publishing Associates, Inc. and John Wiley & Sons, Inc, 2003 [0057]

\bulletGiliman; Smith. Gene, 1979, vol. 8, 81 [0062] [0182]

\bulletRoberts et al. Nature, 1987, vol. 328, 731 [0062] [0182]

\bulletSchneider, B. et al. Protein Expr. Purif., 1995, vol. 6435, 10 [0062] [0182]

\bullet TheATCCCatalogue of Bacteria and Bacteriophage. ATCC, 1992 [0062]

\bulletWatson et al. Recombinant DNA. Scientific American Books, 1992 [0062] [0183]

\bulletDougherty. Unnatural Amino Acids as Probes of Protein Structure and Function. Current Opinion in Chemical Biology, 2000, vol. 4, 645-652 [0065]

\bulletPaul. Fundamental Immunology. Raven Press, 1999 [0076]

\bulletHarlow; Lane. Antibodies, A Laboratory Manual. Cold Spring Harbor Publications, 1988 [0079]

\bulletFrancisco, J. A.; Campbell, R.; Iverson, B. L.; Georgoiu, G. Production and fluorescence-activated cell sorting of Escherichia coli expressing a functional antibody fragment on the external surface. Proc Natl Acad Sci U S A., 1993, vol. 90, 10444-8 [0113]

\bulletForster et al. Programming peptidomimetic synthetases by translating genetic codes designed de novo. PNAS, 2003, vol. 100 (11), 6353-6357 [0115]

\bulletFeng et al. Expanding tRNA recognition of a tRNA synthetase by a single amino acid change. PNAS, 2003, vol. 100 (10), 5676-5681 [0115]

\bulletSayers, J.R.; Schmidt, W.; Eckstein, F. 5',3' Exonuclease in phosphorothioate-based oligonucleotide-directed mutagenesis. Nucleic Acids Res., 1988, 791-802 [0120]

\bulletMa et al. Biochemistry, 1993, vol. 32, 7939 [0122] [0124]

\bulletKowal; Oliver. Nucl. Acid. Res., 1997, vol. 25, 4685 [0122]

\bulletAnderson et al. Exploring the Limits of Codon and Anticodon Size. Chemistry and Biology, 2002, vol. 9, 237-244 [0123]

\bulletMagliery. Expanding the Genetic Code: Selection of Efficient Suppressors of Four-base Codons and Identification of ''Shifty'' Four-base Codons with a Library Approach in Escherichia coli. J. Mol. Biol., 2001, vol. 307, 755-769 [0123]

\bulletHohsaka et al. J. Am. Chem. Soc., 1999, vol. 121, 34 [0124]

\bulletHohsaka et al. J. Am. Chem. Soc., 1999, vol. 121, 12194 [0124]

\bulletMoore et al. J. Mol. Biol., 2000, vol. 298, 195 [0124]

\bulletHirao et al. An unnatural base pair for incorporating amino acid analogues into protein. Nature Biotechnology, 2002, vol. 20, 177-182 [0128]

\bulletSwitzer et al. J. Am. Chem. Soc., 1989, vol. 111, 8322 [0129]

\bulletPiccirilli et al. Nature, 1990, vol. 343, 33 [0129]

\bulletKool. Curr. Opin. Chem. Biol., 2000, vol. 4, 602 [0129]

\bulletGuckian; Kool. Angew. Chem. Int. Ed. Engl., 1998, vol. 36, 2825 [0129]

\bulletMcMinn et al. J. Am. Chem. Soc., 1999, vol. 121, 11586 [0129]

\bulletOgawa et al. J. Am. Chem. Soc., 2000, vol. 122, 3274 [0129]

\bulletOgawa et al. J. Am. Chem. Soc., 2000, vol. 122, 8803 [0129]

\bulletTae et al. J. Am. Chem. Soc., 2001, vol. 123, 7439 [0129]

\bulletMeggers et al. J. Am. Chem. Soc., 2000, vol. 122, 10714 [0129]

\bullet L. Stryer. Biochemistry. Freeman and Company, 1988 [0131]

\bulletFessendon; Fessendon. Organic Chemistry. Willard Grant Press, 1982 [0138]

\bulletMarch. Advanced Organic Chemistry. Wiley and Sons, 1985 [0138]

\bulletCarey; Sundberg. Advanced Organic Chemistry. Plenum Press, 1990 [0138]

\bulletMatsoukas et al. J. Med. Chem., 1995, vol. 38, 4660-4669 [0139]

\bulletKing, F.E.; Kidd, D.A.A. A New Synthesis of Glutamine mid of \gamma-Dipeptides of Glutamic Acid from Phthylated Intermediates. J. Chem. Soc., 1949, 3315-3319 [0141]

\bulletFriedman, O.M.; Chatterrji, R. Synthesis of Derivatives of Glutamine as Model Substrates for Anti-Tumor Agents. J. Am. Chem. Soc., 1959, vol. 81, 3750-3752 [0141]

\bulletCraig, J.C. et al. Absolute Configuration of the Enantiomers of 7-Chloro-4 [[4-(diethylamino)-1-methylbutyl]amino]quinoline (Chloroquine). J. Org. Chem, 1988, vol. 53, 1167-1170 [0141]

\bulletAzoulay, M.; Vilmont, M.; Frappier, F. Glutamine analogues as Potential Antimalarials. Eur. J. Med. Chem., 1991, vol. 26, 201-5 [0141]

\bulletKoskinen, A.M.P.; Rapoport, H. Synthesis of 4-Substituted Prolines as Conformationally ConstrainedAminoAcid Analogues. J. Org. Chem., 1989, vol. 54, 1859-1866 [0142]

\bulletChristie, B.D.; Rapoport, H. Synthesis of Optically Pure Pipecolates from L-Asparagine. Application to the Total Synthesis of (+)-Apovincamine through Amino Acid Decarbonylation and Iminium Ion Cyclization. J. Org. Chem., 1985, 1859-1866 [0142]

\bulletBarton et al. Synthesis of Novel \alpha-Amino-Acids and Derivatives Using Radical Chemistry: Synthesis of Land D-\alpha-Amino-Adipic Acids, L-\alpha-aminopimelic Acid and Appropriate Unsaturated Derivatives. Tetrahedron Lett., 1987, vol. 43, 4297-4308 [0143]

\bulletSubasinghe et al. Quisqualic acid analogues: synthesis of beta-heterocyclic 2-aminopropanoic acid derivatives and their activity at a novel quisqualate-sensitized site. J. Med. Chem., 1992, vol. 35, 4602-7 [0143]

\newpage

\bulletLiu, D.R; Schultz, P.G. Progress toward the evolution of an organism with an expanded genetic code. PNAS, USA, 1999, vol. 96, 4780-4785 [0146]

\bulletNickitenko et al. A structure of DppA, a periplasmic depeptide transport/chemosensory receptor. Biochemistry, 1995, vol. 34, 16585-16595 [0149]

\bulletDunten, P.; Mowbray, S.L. Crystal structure of the dipeptide binding protein from Escherichia coli involved in active transport and chemotaxis. Protein Science, 1995, vol. 4, 2327-34 [0149]

\bulletStemmer. Rapid evolution of a protein in vitro byDNA shuffling. Nature, 1994, vol. 370 (4), 389-391 [0151]

\bulletStemmer. DNA shuffling by random fragmentation and reassembly: In vitro recombination for molecular evolution. Proc. Natl. Acad. Sci. USA., 1994, vol. 91, 10747-10751 [0151]

\bullet Overview of principles of hybridization and the strategy of nucleic acid probe assays. Tijssen. Laboratory Techniques in Biochemistry and Molecular Biology-Hybridization with Nucleic Acid Probes. Elsevier, 1993 [0163]

\bulletHames; Higgins. Gene Probes 1. IRL Press at Oxford University Press, 1995 [0163]

\bulletHames; Higgins. Gene Probes 2. IRL Press at Oxford University Press, 1995 [0163]

\bulletSmith; Waterman. Adv. Appl. Math., 1981, vol. 2, 482 [0177]

\bulletNeedleman; Wunsch. J. Mol. Biol, 1970, vol. 48, 443 [0177]

\bulletPearson; Lipman. Proc. Nat'l. Acad. Sci. USA, 1988, vol. 85, 2444 [0177]

\bulletAltschul et al. J. Mol. Biol., 1990, vol. 215, 403-410 [0178]

\bulletHenikoff; Henikoff. Proc. Natl. Acad. Sci. USA, 1989, vol. 89, 10915 [0178]

\bulletKarlin; Altschul. Proc. Nat'l. Acad. Sci. USA, 1993, vol. 90, 5873-5787 [0179]

\bulletFrom et al. Proc. Natl. Acad. Sci. USA, 1985, vol. 82, 5824 [0182]

\bulletKlein et al. Nature, 1987, vol. 327, 70-73 [0182]

\bullet TheATCCCatalogue of Bacteria and Bacteriophage. ATCC, 1996 [0183]

\bullet Plant Cell, Tissue and Organ Culture; Fundamental Methods. Springer Lab Manual, Springer-Verlag, 1995 [0184]

\bulletBock, A. et al. Mol. Microbiol., 1991, vol. 5, 515-520 [0188]

\bulletSrinivasan, G. et al. Science, 2002, vol. 296, 1459-1462 [0188]

\bulletHao, B. et al. Science, 2002, vol. 296, 1462-1466 [0188]

\bulletWang, L. et al. Science, 2001, vol. 292, 498-500 [0192] [0199] [0199] [0210]

\bulletWang, L. et al. J. Am. Chem. Soc., 2002, vol. 124, 1836-1837 [0188]

\bulletZhang, Z. et al. Angew. Chem. Int. Ed. Engl., 2002, vol. 41, 2840-2842 [0188]

\bulletCornish, V. W. et al. J. Am. Chem. Soc., 1996, vol. 118, 8150-8151 [0189] [0198]

\bulletGeoghegan, K. F.; Stroh, J. G. Bioconjug. Chem., 1992, vol. 3, 138-146 [0189] [0197]

\bulletMahal, L. K. et al. Science, 1997, vol. 276, 1125-1128 [0189]

\bulletBegley, T. P. et al. Top. Curr. Chem. Springer-Verlag, 1997, vol. 195, 93-142 [0189]

\bulletDiaz, E. et al. Microbiol. Mol. Biol. Rev., 2001, vol. 65, 523-569 [0189]

\bulletOkeley, N. M.; van der Donk, W. A. Chem. Biol., 2000, vol. 7, R159-R171 [0189]

\bulletCleland, G. H. J. Org. Chem., 1969, vol. 34, 744-747

\bulletWang, L.; Schultz, P. G. Chem. Biol., 2001, vol. 8, 883-890 [0192] [0199] [0199]

\bulletCreighton, T. E. Methods Enzymol., 1986, vol. 131, 83-106 [0196]

\bulletAltenbach, C. et al. Science, 1990, vol. 248, 1088-1092 [0196]

\bulletBrinkley, M. Bioconjug. Chem., 1992, vol. 3, 2-13 [0196]

\bulletGiuliano, K. A. et al. Annu. Rev. Biophys. Biomol. Struct., 1995, vol. 24, 405-434 [0196]

\bulletMannuzzu, L. M. et al. Science, 1996, vol. 271, 213-216 [0196]

\bulletGriffin, B. A. et al. Science, 1998, vol. 281, 269-272 [0196]

\bulletLlopis, J. et al. Methods Enzymol., 2000, vol. 327, 546-564 [0196]

\bulletGaietta, G. et al. Science, 2002, vol. 296, 503-507 [0196]

\bulletJencks, W. P. J. Am. Chem. Soc., 1959, vol. 81, 475-481 [0196]

\bulletShao, J.; Tam, J. P. J. Am. Chem. Soc., 1995, vol. 117, 3893-3899 [0196] [0197]

\bulletGaertner, H. F. et al. J. Biol. Chem., 1994, vol. 269, 7224-7230 [0197]

\bulletRose, K. J. Am. Chem. Soc., 1994, vol. 116, 30-33 [0197]

\bulletCanne, L. E. et al. J. Am. Chem. Soc., 1995, vol.117, 2998-3007 [0197]

\bulletMuir, T. W. et al. Proc. Natl. Acad. Sci. U S A, 1998, vol. 95, 6705-6710 [0197]

\bulletAyers, B. et al. Biopolymers, 1999, vol. 51, 343-354 [0197]

\bulletWang, L. et al. J. Am. Chem. Soc., 2000, vol. 122, 5010-5011 [0199]

\bulletBrick, P. et al. J. Mol. Biol., 1989, vol. 208, 83-98 [0199]

\bulletNilsson, B. et al. Protein Eng., 1987, vol. 1, 107-113 [0211]

\bulletCornish, V. W et al. J. Am. Chem. Soc., 1996, vol. 118, 8150-8151 [0210]

\bulletRodriguez, E. C. et al. J. Org. Chem, 1998, vol. 63, 7134-7135 [0210]

\bulletWang, L. et al. Proc. Natl. Acad. Sci. U.S.A., 2003, vol. 100, 56-61 [0210] [0212]

\bulletCao, S. et al. Tetrahedron, 1995, vol. 51, 6679-6686 [0212]

\bulletSchanbacher, F. L.; Ebner, K. E. J. Biol. Chem., 1970, vol. 245, 5057-5061 [0213]

\bulletWitte, K. et al. J. Am. Chem. Soc, 1997, vol. 119, 2114-2118 [0213]

\bulletKitagawa, H.; Paulson, J. C. J. Biol. Chem., 1994, vol. 269, 1394-1401 [0213]

\bullet B. G. Davis. Chem. Rev., 2002, vol. 102, 579 [0223]

\bullet L. Wang et al. Science, 2001, vol. 292, 498 [0224] [0233] [0233]

\bullet L. Wang et al. J. Am. Chem. Soc., 2002, vol. 124, 1836 [0224]

\bullet Z. Zhang et al. Angew. Chem. Int. Ed. Engl., 2002, vol. 41, 2840 [0224]

\bullet J. W. Chin et al. J. Am. Chem. Soc., 2002, vol. 124, 9026 [0224]

\bullet J. W. Chin et al. Proc. Natl. Acad. Sci. U S A, 2002, vol. 99, 11020 [0224]

\bullet S. W. Santoro et al. Nat. Biotechnol., 2002, vol. 20, 1044 [0224] [0226]

\bullet L. Wang et al. Proc. Natl. Acad. Sci. U S A, 2003, vol. 100, 56 [0224]

\bullet Z. Zhang et al. Biochemistry, 2003, vol. 42, 6735 [0233] [0233]

\bullet J. W. Chin et al. Science, 2003 [0224]

\bullet T. Arslan et al. J. Am. Chem. Soc., 1997, vol. 119, 10877 [0224]

\bullet L. Wells et al. Science, 2001, vol. 291, 2376 [0224]

\bullet N. Lamarre-Vincent; L. Hsieh-Wilson. J. Am. Chem. Soc., 2003, vol. 125, 6612 [0224] [0224]

\bullet A.K. Sarkar et al. Proc. Natl. Acad. Sci.US A, 1995, vol. 92, 3323 [0224]

\bullet S. Ebisu et al. Carbohyrdr. Res., 1978, vol. 61, 129 [0229]

\bullet S. Ebisu et al. Carbohydr. Res., 1978, vol. 61, 129 [0229]

\bullet K. Kamemura et al. J. Biol. Chem., 2002, vol. 277, 19229 [0230]

\bullet K. Witte et al. J. Am. Chem. Soc., 1997, vol. 119, 2114 [0231] [0234]

\bullet K. Kamemura et al. J. Biol. Chem, 2002, vol. 277, 19229 [0232] [0234]

\bullet S. W. Santoro et al. Nat. Biotechnol, 2002, vol. 20, 1044 [0233] [0234]

Claims

1. Método para la síntesis de una glicoproteína, comprendiendo el método:

a) incorporar en una proteína un aminoácido no natural que comprende un primer grupo reactivo; en el que la etapa de incorporación comprende la incorporación del aminoácido no natural en la proteína con un par ARNt ortogonal/aminoacil ortogonal-ARNt sintetasa (O-ARNt/O-RS), en el que el O-ARNt reconoce un codón selector e incorpora el aminoácido no natural en la proteína como respuesta al codón selector, y en el que los ORS aminoacilan el O-ARNt con el aminoácido natural; y,

b) poner en contacto la proteína con un residuo sacárido que comprende un segundo grupo reactivo, en donde el primer grupo reactivo reacciona con el segundo grupo reactivo para unir el residuo sacárido al aminoácido no natural, produciendo por tanto la glicoproteína.

2. Método de la reivindicación 1, en el que el primer grupo reactivo es un residuo electrofílico y el segundo grupo reactivo es un residuo nucleofílico.

3. Método de la reivindicación 2, en el que:

(a): el residuo electrofílico es un residuo ceto o un residuo aldehído; y/o

(b): el residuo nucleofílico se selecciona del grupo que consiste en:

: -NR^{1}-NH_{2}(hidrazida), -NR^{1}(C=O)NR^{2}NH_{2}(semicarbazida), -NR^{1}(C=S) NR^{2}NH_{2}(tiosemicarbazida), -(C=O)NR^{1}NH_{2}(carbonilhidrazida), -(C=S)NR^{1}NH_{2}(tiocarbonilhidrazida), -(SO_{2})NR^{1}NH_{2} (sulfonilhidrazida), -NR^{1}NR^{2}(C=O)NR^{3}NH_{2}(carbazida), -NR^{1}NR^{2} (C=S)NR^{3}NH_{2}(tiocarbazida), -O-NH_{2}(hidroxilamina), en donde cada R^{1}, R^{2} y R^{3} es independientemente H, o alquilo que tiene de 1-6 carbonos.

4. Método de la reivindicación 4, en el que el residuo nucleofílico se selecciona del grupo que consiste en hidrazida, hidroxilamina, semicarbazida y carbohidrazida.

5. Método de la reivindicación 2, en el que el producto de reacción comprende una oxima, una amida, una hidrazona, una carbohidrazona, una tiocarbohidrazona, una sulfonilhidrazona, una semicarbazona o una tiosemicarbazona.

6. Método de la reivindicación 6, en el que el producto de reacción comprende una hidrazona reducida.

7. Método de la reivindicación 1, en el que el primer grupo reactivo es un residuo nucleofílico y el segundo grupo reactivo es un residuo electrofílico.

8. Método de la reivindicación 8, en el que el residuo electrofílico es un residuo ceto o aldehído.

9. Método de la reivindicación 1, en el que el residuo sacárido comprende dos o más residuos de carbohidrato.

10. Método de la reivindicación 1, que comprende además:

c) poner en contacto el residuo sacárido con una glicosiltransferasa, un residuo donante de azúcar, y otros reactivos requeridos para la actividad de glicosiltransferasa durante un tiempo suficiente y bajo las condiciones apropiadas para transferir un azúcar proveniente del residuo donante de azúcar hacia el residuo sacárido.

11. Método de la reivindicación 11, en el que

(a) la glicosiltransferasa se selecciona del grupo que consiste en una galactosiltransferasa, una fucosiltransferasa, una glucosiltransferasa, una N-acetilgalactosaminiltransferasa, una N-acetilglucosaminiltransferasa, una glucuroniltransferasa, una sialiltransferasa, una manosiltransferasa, una transferasa de ácido glucurónico, una transferasa de ácido galacturónico, y una oligosacariltransferasa, o

(b) el método comprende además poner en contacto un producto de la etapa (c) con al menos una segunda glicosiltransferasa y un segundo residuo donante de azúcar; o

(c) el método comprende además poner en contacto el residuo sacárido con una o más \beta1-4N-acetilglucosaminiltransferasa, una \alpha1,3fucosiltransferasa, una \alpha1,2fucosiltransferasa, una \alpha1,4fucosiltransferasa, una \beta1-4galactosiltransferasa, una sialiltransferasa, para formar una estructura de oligosacárido biantenaria o triantenaria.

12. Método de la reivindicación 10, en el que

(a): el residuo sacárido comprende un GlcNAc terminal, el residuo donante de azúcar es UDP-Gal y la glicosiltransferasa es una \beta-1,4-galactosiltransferasa; o

(b): el residuo sacárido comprende un GlcNAc terminal, el residuo donante de azúcar es UDP-GlcNAc y la glicosiltransferasa es una \beta1-4N-acetilglucosaminiltransferasa.

13. Método de la reivindicación 12(b), en el que el método comprende además poner en contacto el producto de la reacción de N-acetilglucosaminiltransferasa con una \beta1-4manosiltransferasa y GDP-manosa para formar un residuo sacárido que comprende Man\beta1-4GlcNAc\beta1-4GlcNAc-.

14. Método de la reivindicación 13, en el que el método comprende además poner en contacto el residuo Man\beta1-4GlcNAc\beta1-4GlcNAc- con una \alpha1-3manosiltransferasa y GDP-manosa para formar un residuo sacárido que comprende Man\alpha1-3Man\beta1-4GlcNAc\beta1-4GlcNAc-.

15. Método de la reivindicación 14, en el que el método comprende además poner en contacto el residuo Man\alpha1-3Man\beta1-4GlcNAc\beta1-4GlcNAc- con una \alpha1-6manosiltransferasa y GDP-manosa para formar un residuo sacárido que comprende Man\alpha1-6(Man\alpha1-3)Man\beta1-4GlcNAc\beta1-4GlcNAc-.

16. Método de la reivindicación 15, en el que el método comprende además poner en contacto el residuo Man\alpha1-6(Man\alpha1-3)Man\beta1-4GlcNAc\beta1-4GlcNAc- con una \beta1-2N-acetilglucosaminiltransferasa y UDP-GlcNAc para formar un residuo sacárido que comprende Man\alpha1-6(GlcNAc\beta1-2Man\alpha1-3)Man\beta1-4GlcNAc\beta1-4GlcNAc-.

17. Método de la reivindicación 16, en el que el método comprende además poner en contacto el residuo Man\alpha1-6(GlcNac\beta1-2Man\alpha1-3)Man\beta1-4GlcNAc\beta1-4GlcNAc\beta1-4GlcNAc- con una \beta1-2N-acetilglucosaminiltransferasa y UDP-GlcNAc para formar un residuo sacárido que comprende GlcNAc\beta1-2Man\alpha1-6(GlcNAc\beta1-2Man\alpha1-3)Man\beta1-4GlcNAc\beta1-4GlcNAc-.

18. Método de la reivindicación 1, en el que el sistema de traducción comprende una célula.

19. Método de la reivindicación 1, en el que el sistema O-RS comprende una secuencia de aminoácidos que comprende cualquiera de las SEQ ID NO.: 1, 2 ó 3.

20. Método de la reivindicación 23, en el que el O-ARNt comprende un mutARN Tyr CUA (SEQ ID NO: 7).

21. Método de la reivindicación 1, en el que:

(a) incorporar el aminoácido no natural en la proteína comprende aminoacilar le OtARN con el aminoácido no natural; o

(b) incorporar el aminoácido no natural en la proteína comprende:

aminoacilar el OtARN con el aminoácido no natural, utilizando la ORS, en el que la ORS aminoacila el OtRNA más eficazmente que el ORS aminoacilata cualquier tARN endógeno del sistema de traducción y en el que el ORS aminoacilata el OtARN más eficazmente con el aminoácido no natural que con el aminoácido natural.

22. Método de la reivindicación 1, comprendiendo además la purificación de la glicoproteína.

23. Método de la reivindicación 1, en el que la glicoproteína se produce en una célula o lisado celular.

24. Método de la reivindicación 1, en el que se producen al menos aproximadamente 10 \mug de glicoproteína.

25. Método de la reivindicación 1, en el que la glicoproteína se produce en una célula o lisado celular en una concentración de al menos aproximadamente 10 \mug/litro.

26. Glicoproteína que comprende dos o más residuos polisacáridos unidos a dos o más aminoácidos no naturales en la glicoproteína, en la que el residuo sacárido se une al polipéptido mediante un producto de reacción de una reacción nucleofílica entre un primer grupo reactivo unido a un aminoácido no natural presente en el polipéptido y un segundo grupo reactivo unido al residuo sacárido.

27. Glicoproteína de la reivindicación 26, en la que el primer grupo reactivo es un residuo electrofílico y el segundo grupo reactivo es un residuo nucleofílico.

28. Glicoproteína de la reivindicación 26 o la reivindicación 27, en la que los residuos polisacáridos son iguales, o en el que los aminoácidos no naturales son los iguales.

29. Glicoproteína de la reivindicación 26 o la reivindicación 27, en la que los residuos polisacáridos son diferentes, o en el que los aminoácidos no naturales son los diferentes.

30. Glicoproteína de cualquiera de las reivindicaciones 26 a 29, en la que la glicoproteína comprende tres o más residuos polisacáridos unidos a tres o más aminoácidos no naturales en la glicoproteína.

31. Glicoproteína de la reivindicación 26, en la que:

(a) el residuos electrofílico es un residuo ceto o aldehído; y/o

(b) el residuo nucleofílico se selecciona del grupo que consiste en: -NR1-NH2(hidrazida), -NR1(C=O)NR2NH2 (semicarbazida), -NR1(C=S)NR2NH2(tiosemicarbazida), -(C=O) NR1NH2(carbonilhidrazida), -(C=S)NR1NH2(tiocarbonilhidrazida), -(SO2)NR1NH2(sulfonilhidrazida), -NR1NR2(C=O)NR3NH2(carbazida), -NR1NR2(C=S)
NR3NH2(tiocarbazida) o -O-NH2(hidroxilamina, en donde cada R1, R2 y R3 es independientemente H, o alquilo que tiene de 1-6 carbonos.

32. Glicoproteína de la reivindicación 27, en la que el residuo nucleofílico se selecciona del grupo que consiste en hidrazida, hidroxilamina, semicarbazida y carbohidrazida.

33. Glicoproteína de la reivindicación 28, en la que el producto de reacción comprende una oxima, una amida, una hidrazona, una carbohidrazona, una tiocarbohidrazona, una sulfonilhidrazona, una semicarbazona o una tiosemicarbazona.

34. Glicoproteína de la reivindicación 33, en la que el producto de reacción comprende una hidrazona reducida.

35. Glicoproteína de cualquiera de las reivindicaciones 26 a 34, presente en una célula o lisado celular.

36. Glicoproteína de cualquiera de las reivindicaciones 26 a 34, en la que la glicoproteína se produce utilizando un sistema de traducción en una célula.

37. Método para sintetizar una glicoproteína, comprendiendo el método la incorporación en una proteína de un aminoácido no natural que comprende un residuo sacárido, en el que el método comprende además poner en contacto el residuo sacárido con una glicosiltransferasa recombinante, un residuo donante de azúcar, y otros reactivos requeridos para la actividad de la glicosiltransferasa durante un tiempo suficiente y bajo las condiciones apropiadas para transferir un azúcar desde el residuo donante de azúcar hacia el residuo sacárido.

38. Método de la reivindicación 37, en el que la glicosiltransferasa se selecciona del grupo que consiste en una galactosiltransferasa, una fucosiltransferasa, una glucosiltransferasa, una N-acetilgalactosaminiltransferasa, una N-acetilglucosaminiltransferasa, una glucuroniltransferasa, una sialiltransferasa, una manosiltransferasa, una transferasa de ácido glucurónico, una transferasa de ácido galacturónico, y una oligosacariltransferasa.

39. Método de la reivindicación 37, en el que

(a) el método comprende además poner en contacto el producto de la reacción de glicosiltransferasa con al menos una segunda glicosiltransferasa y un segundo residuo donante de azúcar, o

(b) el residuo sacárido comprende una GlcNAc terminal, el residuo donante de azúcar es UDP-GlcNAc y la glicosiltransferasa es una \beta1-4N-acetilglucosaminiltransferasa, o

(c) el residuo sacárido comprende una GlcNAc terminal, el residuo donante de azúcar es UDP-Gal y la glicosiltransferasa es una \beta1-4-galactosiltransferasa.

40. Método de la reivindicación 37, en el que la etapa de incorporación comprende utilizar un par ARNt ortogonal/aminoacil ortogonal-ARNt sintetasa (O-ARNt/O-RS), en donde el O-ARNt reconoce un codón selector e incorpora el aminoácido no natural dentro de la proteína en respuesta al codón selector, y en donde la O-RS preferentemente aminoacila el O-ARNt con el aminoácido no natural.

41. Método de la reivindicación 41, en el que

la O-RS comprende una secuencia de aminoácidos que comprende cualquiera de las SEQ ID NO.: 4, 5 o 6.

el O-ARNt comprende un muARN Tyr CUA (SEQ ID NO:7).

42. Método de la reivindicación 37, en el que

(a) la etapa de incorporación es in vivo; o

(b) el aminoácido no natural comprende una \beta-O-GlcNAc-L-serina, una tri-acetil-\beta-GlcNAc-serina, una tri-O-acetil-GalNAc-\alpha-treonina, o una \alpha-GalNAc-L-treonina.

43. Célula huésped para sintetizar una glicoproteína, la célula huésped comprendiendo:

a) un aminoácido no natural que comprende un residuo sacárido;

b) un ARNt ortogonal que reconoce un codón selector;

c) una ARNt sintetasa de aminoacilo ortogonal (O-RS) que cataliza la unión del aminoácido no natural al ARNt ortogonal;

d) un polinucleótido que codifica una glicosiltransferasa recombinante; y

e) una secuencia de polinucleótidos que codifica para un polipéptido y comprende al menos un codón selector.

44. Célula huésped de la reivindicación 47, en la que

(a) la glicosiltransferasa recombinante se selecciona del grupo que consiste en: una galactosiltransferasa, una fucosiltransferasa, una glucosiltransferasa, una N-acetilgalactosaminiltransferasa, una N-acetilglucosaminiltransferasa, una glucuroniltransferasa, una sialiltransferasa, una manosiltransferasa, una transferasa de ácido glucurónico, una transferasa de ácido galacturónico, y una oligosacariltransferasa; y/o

(b) la célula huésped es una célula de mamífero, una célula de levadura, una célula bacterial, una célula vegetal, una célula de hongo, una célula arqueobacterial, o una célula de insecto.

45. Composición que comprende un sistema de traducción, comprendiendo el sistema de traducción un ARNt ortogonal (O-ARNt) y una ARNt sintetasa de aminoacilo ortogonal (O-RS),

en la que la O-RS preferentemente aminoacila el O-ARNt con un aminoácido no natural que comprende un residuo sacárido y el O-ARNt reconoce al menos un codón selector, en la que el aminoácido no natural comprende un aminoácido treonina que comprende un residuo Man, Gal, GalNac, Glc, GlcNAc p Fuc, o un aminoácido serina que comprende un residuo Man o Fuc.

46. Composición de la reivindicación 45, en la que

(a) la O-RS comprende una secuencia de aminoácidos que comprende un mutARN Tyr CUA (SEQ ID NO.: 7) o

(b) el aminoácido no natural comprende un tri-O-acetil-GalNac-\alpha-treonina, o un \alpha-GalNAc-L-treonina.

47. Polipéptido artificial seleccionado del grupo que consiste en:

(a) un polipéptido que comprende una secuencia de aminoácidos como se muestra en cualquiera de las SEQ ID NO.: 4-6;

(b) un polipéptido que comprende una secuencia de aminoácidos codificada por una secuencia de polinucleótidos como se muestra en cualquiera de las SEQ ID NO.: 8-10;

(c) un polipéptido que es específicamente inmunorreactivo con un anticuerpo específico para un polipéptido de (a), o (b); y

(d) una secuencia de aminoácidos que comprende una variante conservadora de (a), (b) o (c).

48. Polinucleótido artificial seleccionado del grupo que consiste en:

(a) un polinucleótido que comprende una secuencia de nucleótidos como se establece en cualquiera de las SEQ ID NO.: 8-10;

(b) un polinucleótido que es complementario, o que codifica para una secuencia de polinucleótidos de (a);

(c) un polinucleótido que codifica para un polipéptido que comprende, una secuencia de aminoácidos como se establece en cualquiera de las SEQ ID NO.: 1-6, o una variante conservadora de la misma;

(d) un polinucleótido que codifica para un polipéptido de la reivindicación 55;

(e) un ácido nucleico que se híbrida a un polinucleótido de (a), (b), (c), o (d) bajo condiciones altamente rigurosas sobre sustancialmente la longitud total del ácido nucleico;

(f) un polinucleótido que es al menos 98% idéntico a un polinucleótido de (a), (b), (c), (d) o (e); y

(h) un polinucleótido que comprende una variante conservadora de (a), (b), (c), (d), (e) o (f),

en el que el polinucleótido codifica un RS que aminoacila un tARN con \beta-GlcNAc-Serina.

\newpage

49. Polinucleótido de la reivindicación 48, en el que el polinucleótido es un ácido nucleico que comprende una subsecuencia e polinucleótido correspondiente a SEQ. ID NO: 8.

50. Polineucleótido de la reivindicación 49, en el que el vector es un vector de expresión que comprende un promotor enlazado operablemente a la subsecuencia que comprende SEQ ID NO:8.

51. Equipo que comprende:

un RS que aminoacila un TARN con \beta-GlcNAc-Serina;

un polinucleótido que codifica un RS que aminoacila un tARN con \beta-GlcNAc-Serina;

un vector que comprende un polinucleótido que codifica un RS que aminoacila un tARN con \beta-GlcNAc-Serina; o

un sistema de traducción que comprende un RS que aminoacila un tARN con \beta-GlcNAc-Serina o un polinucleótido que codifica un RS que aminoacila un tARN con \beta-GlcNAc-Serina.

52. Equipo de la reivindicación 51, en el que el RS, polinucleótido, vector o sistema de traducción está envasado en un recipiente.