ES2534282T3

ES2534282T3 - Un método para lograr la expresión polipeptídica mejorada

Info

Publication number: ES2534282T3
Application number: ES11163033.1T
Authority: ES
Inventors: Johannes Andries Roubos; VAN Noël Nicolaas Maria Elisabeth PEIJ
Original assignee: DSM IP Assets BV
Current assignee: DSM IP Assets BV
Priority date: 2006-06-29
Filing date: 2007-06-15
Publication date: 2015-04-21
Anticipated expiration: 2027-06-15
Also published as: US20140377800A1; BRPI0713795B1; CN101490262A; JP2009540845A; CN101490262B; EP2035561A1; WO2008000632A1; DK2423315T3; EA015925B1; JP5250850B2; BRPI0713795A2; US20090286280A1; US8812247B2; AU2007263880A1; CA2657975A1; EA200900096A1; EP2423315A1; PL2423315T3; EP2423315B1

Abstract

Un método de optimización de una secuencia codificante nucleotídica que codifica una secuencia de aminoácidos predeterminada, mediante el cual la secuencia codificante se optimiza para la expresión en una célula hospedante predeterminada, comprendiendo el método: a) generar al menos una secuencia codificante original que codifica la secuencia de aminoácidos predeterminada; b) generar al menos una secuencia codificante nuevamente generada a partir de esta al menos una secuencia codificante original sustituyendo en esta al menos una secuencia codificante original uno o más codones mediante un codón sinónimo; c) determinar un valor de adecuación de dicha al menos una secuencia codificante original y un valor de adecuación de dicha al menos una secuencia codificante nuevamente generada a la vez que se usa una función de adecuación que determina al menos una de adecuación de codón individual y adecuación del par de codones para la célula hospedante predeterminada; d) escoger una o más secuencias codificantes seleccionadas entre dicha al menos una secuencia codificante original y dicha al menos una secuencia codificante nuevamente generada según un criterio de selección predeterminado de manera que cuanto mayor es dicho valor de adecuación, mayor es la probabilidad de ser escogido; e) repetir las acciones b a d) a la vez que se trata dicha una o más secuencias codificantes seleccionadas como una o más secuencias codificantes originales en las acciones b) a d) hasta que se satisface un criterio de parada de iteración predeterminado en el que dicha función de adecuación se define por medio de: en la que cpi es un valor real mayor que cero, fitcp(g) es la función de adecuación del par de codones, fitsc(g) es una función de adecuación del codón individual, w((c(k), c(k + 1)) es un peso de un par de codones en una secuencia codificante g, /g/ es la longitud de dicha secuencia codificante, c(k) es el codón k-avo en dicha secuencia de codones, es una relación deseada de codón c(k), y es una relación real en la secuencia codificante g.

Description

Un método para lograr la expresión polipeptídica mejorada

Campo de la invención

La presente invención se refiere a un método para producir un polipéptido en una célula hospedante, en el que las secuencias nucleotídicas que codifican el polipéptido se han modificado con respecto a su uso de codones, en particular los pares de codones que se usan, para obtener expresión mejorada de la secuencia nucleotídica que codifica el polipéptido, y/o la producción mejorada del polipéptido.

Antecedentes de la técnica

La presente invención se refiere a métodos mejorados para producir polipéptidos. Se han aplicado numerosos enfoques para generar cepas para la sobreexpresión y/o producción de proteínas. Esto incluye, pero no se limita a, obtención de cepas con múltiples copias del gen que codifica la proteína de interés (POI), y aplicar secuencias promotoras fuertes.

Cada aminoácido específico es codificado por un mínimo de un codón y un máximo de seis codones. La investigación previa ha mostrado que el uso de codones en genes que codifican los polipéptidos de las células está predispuesto entre especies (Kanaya, S, Y. Yamada, Y. Kudo y T. Ikemura (1999) Studies of codon usage and tRNA genes at 18 unicellular organisms and quantification of Bacillus subtilis tRNAs: gene expression level and speciesspecific diversity of codon usage based on multivariate analysis. Gene 238:143-155). Publicaciones previas describen la optimización del uso de codones en una célula hospedante dada para mejorar la producción polipeptídica (como ejemplo, véase el documento WO 97/11086). Más específicamente, el documento WO 03/70957 describe el uso optimizado de codones en hongos filamentosos para producir polipéptidos de plantas. En todos estos casos de optimización “clásica” de codones, un codón nativo se ha sustituido por el codón más frecuente a partir de un conjunto de referencia de genes, mientras que la velocidad de traducción del codón para cada aminoácido se diseña para que sea elevada (optimizada).

Más recientemente, en el documento WO 03/85114, se describió la armonización del uso de codones, que tiene en cuenta la distribución de todos los codones en genes del organismo hospedante, suponiendo que estos afecten al plegamiento de la proteína.

La disponibilidad de genomas completamente secuenciados de muchos organismos en años recientes, por ejemplo Bacillus subtilis (Kunst et al. 1997), Bacillus amyloliquefaciens, Aspergillus niger (Pel et al., 2007, Nat Biotech. 25: 221-231), Kluyveromyces lactis, Saccharomyces cerevisiae (http://www.yeastgenome.org/), diversos genomas de plantas, ratón, rata y ser humano, ha ofrecido la posibilidad de analizar diferentes aspectos de las propias secuencias génicas con relación a su nivel de expresión natural (ARNm o nivel proteico). Un buen ejemplo es el análisis del uso (preferencia) de codones, y la optimización subsiguiente de codones individuales. Obsérvese que la optimización de codones individuales se entiende aquí que se refiere a técnicas de optimización de codones o de armonización de codones que se centran en la optimización de codones como entidades individuales independientes, en contraste con la optimización de pares de codones, que es el tópico de la actual descripción.

Mientras que el uso (preferencia) de codones individuales se ha estudiado ampliamente antes (para un resumen, véase Gustafsson et al., 2004, Trends Biotechnol. 22:346-353), solo hay unos pocos informes sobre el uso de pares de codones y para la optimización de pares de codones.

El efecto de unos pocos pares de codones específicos sobre desplazamientos del marco ribosómicos en E. coli se ha investigado, por ejemplo, para el par de codones AGG-AGG (Spanjaard y van Duin, 1988, Proc. Natl. Acad. Sci. USA 85:7967-7971; Gurvich et al., 2005, J. Bacteriol. 187:4023-432), y para los sitios UUU-YNN (Schwarz y Curran, 1997, Nucleic Acids Res. 25:2005-2011).

Gutman y Hatfield (1989, Proc. Natl. Acad. Sci USA 86:3699-3703) analizaron un conjunto más grande de secuencias para todos los posibles pares de codones para E. coli, y encontraron que los pares de codones están predispuestos direccionalmente. Además, observaron que los pares muy poco representados se usan casi el doble de frecuencia que los sobrerrepresentados en genes altamente expresados, mientras que en genes pobremente expresados se usan más frecuentemente los pares sobrerrepresentados. El documento US 5.082.767 (Hatfield y Gutman, 1992) describe un método para determinar las preferencias de emparejamiento de codones nativas relativas en un organismo y para alterar el emparejamiento de codones de un gen de interés de acuerdo con dichas preferencias de emparejamiento de codones para cambiar la cinética traduccional de dicho gen de una manera predeterminada, con ejemplos para E. coli y S. cerevisiae. Sin embargo, en su método, Hatfield y Gutman solo optimizan pares individuales de codones adyacentes. Además, en su patente (documento US 5.082.767), se reivindica cómo incrementar la cinética traduccional de al menos una porción de un gen mediante una secuencia modificada en la que se altera el emparejamiento de codones para incrementar el número de pares de codones que, en comparación con el uso de pares de codones al azar, son los más abundantes y sin embargo los pares de codones más subrepresentados en un organismo. Se describe un método para incrementar la traducción mediante una secuencia modificada en la que se altera el emparejamiento de codones para incrementar el número de pares

de codones que, en comparación con el uso de pares de codones al azar, son los pares de codones más sobrerrepresentados en un organismo.

Moura et al. (2005, Genome Biology, 6:R28) analizaron el ORFeoma de S. cerevisae completo, pero no encontraron una preferencia estadísticamente significativa para alrededor de 47% de los pares de codones. Los valores respectivos difirieron de una especie a otra, dando como resultado “mapas de contexto de codones” que se pueden considerar como “huellas dactilares específicas de las especies” del uso de pares de codones.

Boycheva et al. (2003, Bioinformatics 19(8):987-998) identificaron dos conjuntos de pares de codones en E. coli denominados hipotéticamente atenuantes e hipotéticamente no atenuantes al buscar pares de codones sobrerrepresentados y subrepresentados entre genes con una expresión alta y baja. Sin embargo, no proponen un método para aplicar este hallazgo, ni dieron ninguna prueba experimental para su hipótesis. Obsérvese que estos grupos se definen completamente opuestos a aquellos definidos por Gutman y Hatfield (1989, 1992, más arriba) quienes propusieron un efecto no atenuante para pares muy subrepresentados en genes muy expresados.

Buchan, Aucott y Stanfield (2006, Nucleic Acids Research 34(3):1015-1027) analizaron las propiedades del ARNt con respecto a la preferencia de los pares de codones.

En cuanto a las implicaciones de las preferencias en la utilización de pares de codones, Irwin et al. (1995, J. Biol. Chem. 270:22801-22806) demostraron en E. coli que la velocidad de síntesis disminuyó realmente de forma sustancial cuando se sustituye un par de codones muy subrepresentado por otro muy sobrerrepresentado, y aumentó cuando intercambia un par de codones ligeramente subrepresentado por uno más altamente subrepresentado. Esto es bastante extraordinario ya que es más bien lo opuesto de lo que se podría esperar dada la influencia de la preferencia de codones individuales sobre los niveles proteicos.

Sin embargo, ninguna de las técnicas citadas anteriormente describe cómo optimizar el uso de pares de codones de una secuencia de codones de longitud completa teniendo en cuenta el hecho de que por definición los pares de codones solapan, y de que por lo tanto la optimización de cada par de codones individuales afecta la preferencia de los pares de codones solapantes en dirección 5’ y en dirección 3’. Además, ninguna de las técnicas citadas describe un método que combine la optimización tanto de codones individuales como de pares de codones. La optimización de los pares de codones, teniendo en cuenta dicho solapamiento de pares de codones y la combinación opcional de dicha optimización de pares de codones con la optimización de codones individuales, mejoraría enormemente la expresión de la secuencia nucleotídica que codifica el polipéptido de interés, y/o mejoraría la producción de dicho polipéptido.

De este modo, todavía existe la necesidad en la técnica de nuevos métodos para optimizar secuencias codificantes para mejorar la producción de un polipéptido en una célula hospedante.

Sumario de la invención

Un objeto de la descripción es proporcionar un método para optimizar la secuencia codificante para la transcripción génica y traducción proteicas eficientes. A tal efecto, la invención proporciona un método de optimización de una secuencia nucleotídica que codifica una secuencia de aminoácidos predeterminada, mediante el cual la secuencia codificante se optimiza para la expresión en una célula hospedante predeterminada, comprendiendo el método: (a) generar al menos una secuencia codificante original que codifica la secuencia de aminoácidos predeterminada; (b) generar al menos una secuencia codificante recientemente generada a partir de esta al menos una secuencia codificante original sustituyendo en esta al menos una secuencia codificante original uno o más codones por un codón sinónimo; (c) determinar un valor de adecuación de dicha al menos una secuencia codificante original y un valor de adecuación de dicha al menos una secuencia codificante recientemente generada mientras se usa una función de adecuación que determina al menos una de la adecuación de un único codón y la adecuación de un par de codones para la célula hospedante predeterminada; (d) escoger una o más secuencias codificantes seleccionadas entre dicha al menos una secuencia codificante original y dicha al menos una secuencia codificante recientemente generada de acuerdo con un criterio de selección predeterminado de manera que cuanto mayor sea dicho valor de adecuación, mayor es la probabilidad de ser escogida; y (e) repetir las acciones b) a d) mientras se trata dicha una o más secuencias codificantes seleccionadas como una o más secuencias codificantes originales en las acciones b) a d) hasta que se satisface un criterio de parada de iteración predeterminado, según la reivindicación 1 aneja.

En realizaciones, la descripción aborda aspectos como el uso de codones individuales, la armonización de codones, el uso de dinucleótidos, y se refiere a esa preferencia del par de codones. El método se puede llevar a cabo mediante un programa de ordenador que se ejecuta en un ordenador que usa un algoritmo matemático para el análisis de secuencia y optimización de la secuencia, que se puede implementar en MATLAB (http://www.mathworks.com/).

Además de la optimización positiva de codones (por ejemplo, para la modulación de la expresión génica y producción proteica de una forma positiva), la descripción también proporciona un método para adaptar codones a pares de codones “malos” (es decir, optimización negativa de pares de codones). Este último método es útil con fines de control así como para modular la expresión génica de una manera negativa.

Breve descripción de los dibujos

La presente invención se define mediante las reivindicaciones anejas.

La Figura 1 muestra un montaje de ordenador en el que se puede llevar a cabo el método de la invención.

La Figura 2 muestra un diagrama de flujo de una realización de la invención.

La Figura 3 muestra una distribución de los valores de preferencia del par de codones para 3.721 pares de codones sentido:sentido en diferentes organismos. Los números en la esquina superior derecha de cada histograma son las desviaciones estándar para la distribución observada; los valores medios (no mostrados) están entre -0,06 y -0,01 para todos los organismos.

La Figura 4 muestra la correlación en la preferencia de pares de codones de diversos organismos. El coeficiente de correlación se muestra en la esquina superior derecha de cada subgráfica.

La Figura 5 muestra un mapa de preferencia de codones para A. niger. Los valores de preferencia oscilan de -0,67 a 0,54, en el que, en otros organismos, incluso pueden estar ligeramente por encima de +-0,9 (véase también la Figura 3). Las intensidades más elevadas de negro en estos diagramas representan valores de 0,9 (Figuras 5A y 5C para los valores positivos, verde en el original) y -0,9 (Figuras 5B y 5D para los valores negativos, rojo en el original). En las Figuras 5A y B, las filas y columnas están clasificadas según los codones según su orden alfabético. En las Figuras 5C y 5D, las filas se clasifican según el orden alfabético del nucleótido de la tercera posición como primer criterio de clasificación y el nucleótido de la posición central como segundo criterio de clasificación, y el nucleótido de la primera posición como el tercer criterio de clasificación.

La Figura 6 muestra un mapa de preferencia de codones para B. subtilus. Los valores de preferencia oscilan de -0,97 a 0,87, en el que, en otros organismos, incluso pueden estar ligeramente por encima de +-0,9 (véase también la Figura 3). Las intensidades más elevadas de negro en estos diagramas representan valores de 0,9 (Figura 6A para los valores positivos, verde en el original) y -0,9 (Figura 6B para los valores negativos, rojo en el original).

La Figura 7 muestra un mapa de preferencia de codones para E. coli. Los valores de preferencia oscilan de 0,97 a 0,85, en el que, en otros organismos, incluso pueden estar ligeramente por encima de +-0,9 (véase también la Figura 3). Las intensidades más elevadas de negro en estos diagramas representan valores de 0,9 (Figura 7A para los valores positivos, verde en el original) y -0,9 (Figura 7B para los valores negativos, rojo en el original).

La Figura 8 muestra un mapa de preferencia de codones para 479 genes muy transcritos de A. niger, análogo a las Figuras 5-7 previas. Las intensidades más elevadas de negro en estos diagramas representan valores de 0,9 (Figura 8A para los valores positivos, verde en el original) y -0,9 (Figura 8B para los valores negativos, rojo en el original). El valor de preferencia máximo en este grupo es 0,91, el mínimo es -1, es decir, algunos pares de codones posibles no se producen en absoluto, aunque sus codones individuales y el par de aminoácidos codificado sí lo hacen. Esto puede ser el resultado de un tamaño más pequeño de 188.067 pares de codones, en comparación con 5.885.942 en el genoma completo. Sin embargo, la razón principal será la subrepresentación real de tales pares debido a selección en genes muy expresados.

La Figura 9 muestra una gráfica de dispersión de preferencia en un grupo de 479 genes muy expresados (eje vertical) frente a la preferencia en todos los genes (horizontal) de A. niger. Se muestran los 3.721 pares de codones que no implican codones de parada. Los colores de gris claro a negro se asignaron según los valores absolutos de las puntuaciones z en el genoma global, es decir, los puntos claros en la gráfica no tienen una preferencia significativa en todos los genes, como la tuvieron los tamaños según las puntuaciones z absolutas en el grupo muy expresado, es decir, los puntos muy pequeños no tienen una preferencia significativa allí (aquí puntuación z<1,9). La línea negra continua indica dónde ambos valores de preferencia son iguales. La línea discontinua muestra la mejor aproximación lineal de la correlación real (identificada por análisis del componente principal); su pendiente es alrededor de 2,1.

Figura 10. Valores de adecuación de los 4.584 genes de A. niger en comparación con el logaritmo de sus niveles de transcripción. El coeficiente de correlación es -0,62.

La Figura 11 muestra la optimización de codones individuales frente a pares de codones. El tipo salvaje (fitsx(gFUA) = 0,165, fitcp(gFUA) = 0,033) no se ajusta en esta gráfica (estaría lejos a la derecha y por encima). Está claro que el parámetro cpi determina una solución intermedia entre la adecuación de codones individuales y de pares de codones. El gen óptimo es siempre aquel con los valores más bajos de fitsc y fitcp. Dada la posición de los puntos, no está claro por lo tanto para qué valor de cpi se podría obtener el mejor gen, puesto que todavía no sabemos si el uso de codones individuales o el uso de pares de codones es más importante. Sin embargo, los ejemplos proporcionan pruebas fuertes de que la adecuación de pares de codones es muy importante además de la adecuación de codones individuales, lo que significa que cpi

debería escogerse al menos >0.

La Figura 12 muestra dos diagramas que muestran la calidad de secuencia de los primeros 20 (de 499) codones de la FUA mencionada anteriormente (véase también el Ejemplo 2). Los puntos negros indican las relaciones de codones deseadas, mientras que las marcas x muestran las reales (en el gen completo), conectadas vía una línea discontinua. La adecuación de los codones individuales se puede interpretar entonces como el promedio de las longitudes de estas líneas discontinuas (obsérvese que para codones en los que la relación deseada y real es igual, como por ejemplo TGG (que no tiene codones sinónimos) en la posición 4 y 5, esta “longitud” es cero; obsérvese también que la “longitud” nunca puede ser negativa. A su vez, las barras en negro muestran los pesos del par formado por los dos codones adyacentes. Los puntos negros (en el centro, por debajo de las barras) indican el peso mínimo de cualquier par de codones que codifica el mismo dipéptido. La adecuación del par de codones es entonces la altura promedio de estas barras (obsérvese que la altura, como se usa aquí, puede bien ser negativa).

La Figura 13 representa la convergencia de fitcombi usando el enfoque de algoritmo genético descrito de la invención para la optimización del gen amyB que da como resultado SEC ID NO. 6.

La Figura 14 representa, por razones de explicación, una parte de un diagrama de distribución de codones individuales, como el que se muestra para el ejemplo en la Figura 15. Las dos gráficas indican el uso de codones individuales para los dos codones sinónimos que codifican fenilalanina: UUU (superior) y UUC (inferior). El eje X y el eje Y de ambas gráficas va de 0% a 100%. El histograma en gris es un histograma del uso de codones, normalizado para cada aminoácido (grupo de codones sinónimos), para un grupo de 250 genes de a. niger muy expresados, en el que los genes se agrupan en grupos que tienen 0%, >0 -<10%, 10 <20%, ... , 90 -<100%, 100%. Por ejemplo, 50% de los genes muy expresados caen en el grupo con un uso de 0% del codón UUU, y consiguientemente el uso de 100% del codón UUC para codificar fenilalanina. La barra blanca da el uso de codones del gen A (en este caso, WT amyB) en agrupamientos similares a los del histograma; de este modo, 100% en el agrupamiento 20-30% (20% siendo 3/15 codones UUU) par el gen A, y consiguientemente 100% en el agrupamiento 80-<90% (80% siendo 12/15 UUC). La barra negra da la estadística para el gen B (en este caso, la variante optimizada del codón individual para amyB). De forma similar, se puede crear una matriz de 16 veces 4 gráficas, que muestra la estadística para los 64 codones; véase, por ejemplo, la figura 15.

La Figura 15 (partes 1 y 2) representa la frecuencia de codones individuales para el gen amyB optimizado para el codón individual (negro) frente al gen amyB de tipo salvaje (blanco). El histograma gris representa la estadística para 250 genes muy expresados en A. niger. Está claro que ciertos codones, como aquel para cisteína (UGU/UGC), histidina (CAU/CAC), tirosina (UAU/UAC) y otros, se sometieron a mejoras reales.

La Figura 16 (partes 1 y 2) representa la frecuencia de codones individuales para un gen amyB que se ha optimizado con respecto tanto al codón individual como a pares de codones (negro) frente al gen amyB de tipo salvaje (blanco). El histograma gris representa la estadística para 250 genes muy expresados en A. niger. Está claro que estas gráficas se parecen enormemente a la situación para el gen optimizado para el codón individual representado en la Figura 15.

La Figura 17 representa una parte del diagrama completo (Figura 18) con la estadística del codón individual y del par de codones para el gen amyB de tipo salvaje WT de A. niger. En el eje X, se encuentran los codones subsiguientes en un gen que comienza en una posición 1 con el codón de partida ATG. El punto negro “.” indica la relación de codón individual diana para el codón en esta posición con respecto a sus codones sinónimos. Para ATG, ésta es 1,0 (100%). La cruz “x” es la relación de codones real en el gen mostrado; una línea discontinua muestra la diferencia entre la relación diana y la relación real. El peso del par de codones es un valor entre -1 y 1. La barra indica el peso del par de codones real de los codones adyacentes, mientras que el pentagrama indica el peso del par de codones sinónimo lograble óptimo (sin tener en cuenta los pares vecinos). Por ejemplo, la primera barra es -0,23, que es el peso para “ATG-GTC”, la segunda es 0,66, que es el peso para “GTC-GCG”.

La Figura 18 representa la estadística del codón individual y del par de codones para SEC ID NO. 2 (AmyB WT).

La Figura 19 representa la estadística del codón individual y del par de codones para SEC ID NO. 5 (AmyB optimizado para codón individual).

La Figura 20 representa la estadística del codón individual y del par de codones para SEC ID NO. 6 (AmyB WT optimizado para el codón individual y para el par de codones).

La Figura 21 representa un mapa plasmídico del vector de expresión pGBFINFUA-1. La Figura 21 también proporciona un mapa representativo para pGBFINFUA-2 y pGBFINFUA-3 plasmídicos. Todos los clones se originan a partir del vector de expresión pGBFIN-12 (descrito en el documento WO99/32617). Se indican las regiones de flanqueo glaA con respecto a las secuencias variantes del promotor de amyB y la secuencia de ADNc de amyB de A. niger que codifica alfa-amilasa. El ADN de E. coli se puede eliminar mediante digestión

con la enzima de restricción NotI, antes de la transformación de las cepas de A. niger.

La Figura 22 representa una representación esquemática de la integración a través de recombinación homóloga única. El vector de expresión comprende el marcador amdS seleccionable, y el promotor glaA conectado al gen amyB. Estas características están flanqueadas por regiones homólogas del locus glaA (3’ glaA y 3” glaA, respectivamente) para dirigir la integración en el locus glaA genómico.

La Figura 23 representa la actividad de alfa-amilasa en caldo de cultivo para cepas de A. niger que expresan tres constructos diferentes. Se representa la actividad de alfa-amilasa en caldo de cultivo de cepas de A. niger que expresan un constructo amyB nativo, en el que (1) la secuencia de iniciación de la traducción y la secuencia de terminación de la traducción se modificaron (pGBFINFUA-1), y (2) la secuencia de iniciación de la traducción, la secuencia de terminación de la traducción y el uso de codones individuales se modificaron (pGBFINFUA-2), y (3) ) la secuencia de iniciación de la traducción, la secuencia de terminación de la traducción y el uso de codones individuales y el uso de pares de codones se modificaron (pGBFINFUA-3) según un método de la invención. Las actividades de alfa-amilasa se representaron en unidades relativas [AU], con el promedio de las 6 cepas de una copia del grupo FUA1 de 10 cepas en el día 4 ajustado a 100%. Los diez transformantes por grupo indicados se aíslan independientemente y se cultivan los transformantes.

La Figura 24 (A y B) representa la frecuencia del codón individual para la optimización del codón individual para la especie Bacillus. La Figura 14 da una explicación de las subgráficas. El histograma gris presenta la distribución de codones para los 50 genes más expresados en B. subtilis; véase el texto. Las barras en negro indican la frecuencia de codones individuales diana.

La Figura 25 representa la estadística de codón individual y de par de codones para SEC ID NO. 14 (1/3), SEC ID NO. 17 (2/3) y SEC ID NO. 14 (3/3), optimizándose la secuencia usando optimización de par de codones + codón individual (1/3), codón individual (2/3), y optimización negativa de par de codones + codón individual (3/3), respectivamente. Véase la Figura 17 para una explicación de la gráfica.

Figura 26. Vector lanzadera pBHA-12 de E. coli/Bacillus. Se representan los sitios de clonación múltiple (MCS) 1 y 2.

Figura 27. Un ejemplo de clonación de un gen en el vector lanzadera pBHA-12 de E. coli/Bacillus. La Figura muestra la parte A y B (flechas grises) clonada de la SEC ID NO. 9. Se representan los sitios de clonación de la parte 1A: NdeI y BamHI, para la parte 1B SmaI y KpnI. La parte de E. coli se cortó usando PvuII.

Descripción detallada de la invención

Además de la preferencia de codón único, es probable que otras estructuras en la secuencia nucleotídica influyan igualmente en la expresión proteica, por ejemplo dinucleótidos o repeticiones de ciertas secuencias nucleotídicas cortas (después de todo, el uso de codones se puede interpretar como un patrón en secuencias trinucleotídicas en línea con el marco de lectura). Este trabajo presenta un método para identificar una preferencia por ciertos pares de codones, es decir, si los codones aparecen en el gen como si se seleccionasen según las relaciones de uso de codones identificadas, pero distribuidos entonces aleatoriamente en el gen (con respecto a la secuencia de aminoácidos), o si algunos codones aparecen más a menudo próximos a ciertos codones y menos a menudo próximos a otros.

Un análisis del par de codones también cubre otros aspectos, a saber, el uso de dinucleótidos alrededor de las fronteras del marco de lectura y una posible preferencia por ciertos nucleótidos individuales próximos a un codón. La presente invención describe métodos para generar una tabla de preferencia de pares de codones para un organismo hospedante dado, mediante la cual todos los ORFs identificados de genomas completos secuenciados se usan como grupos de entrada o seleccionados de genes, por ejemplo genes muy expresados. La presente invención describe un método en el que una tabla de preferencia de pares de codones así identificada se aplica subsiguientemente para la optimización de la distribución de pares de codones en un gen de interés (GOI) para mejorar la expresión de la proteína de interés (POI) correspondiente.

La optimización de codones individuales ofrece un buen punto de partida para mejorar los niveles de expresión de proteínas de interés. Mientras que otros trataron de superar los inconvenientes que resultan de la presencia de codones rechazados en el gen de interés mediante adaptación del organismo hospedante, inserciones de copias adicionales de genes de ARNt para los ARNt con baja abundancia (por ejemplo células competentes Stratagene BL21 CodonPlus™, cepas hospedantes Novagen Rosetta™, ambas de E. coli), la presente invención se enfoca en la adaptación de los propios genes de interés. Los codones indeseados en una secuencia genética se han sustituido

por los sinónimos, de manera que la distribución de codones individuales de la secuencia resultante fue tan próxima como fue posible a las relaciones de codones deseadas previamente identificadas.

Sin embargo, esta armonización de codones todavía tiene un número muy grande de genes posibles que son igualmente “óptimos”, puesto que la distribución de codones global en un gen optimizado es el criterio de selección, de manera que se pueden tener en cuenta fácilmente otras propiedades deseadas de la secuencia de codones, por ejemplo la ausencia de ciertos sitios de enzimas de restricción, o pares de codones que se sabe que provocan desplazamientos del marco. En una etapa posterior, se podría optimizar el uso de pares de codones hasta un grado limitado. Pero cuando se optimizan pares de codones de un gen, por ejemplo con respecto al uso de los más abundantes, el uso de codones individuales de la secuencia resultante puede no ser tan próximo al óptimo, puesto que puede haber pares de codones preferidos que consisten en codones individuales subrepresentados, de manera que se debe de encontrar un equilibrio entre la optimización de codones individuales y de pares de codones. La presente invención describe métodos que permiten equilibrar la optimización tanto de codones individuales como de pares de codones. La optimización de pares de codones que tiene en cuenta el solapamiento de pares de codones y la combinación opcional de dicha optimización del par de codones con la optimización de codones individuales mejora enormemente la expresión de la secuencia nucleotídica que codifica el polipéptido de interés, y/o mejora la producción de dicho polipéptido.

En el contexto de esta invención, una secuencia codificante nucleotídica o secuencia codificante se define como una secuencia nucleotídica que codifica un polipéptido. Los límites de la secuencia codificante están determinados generalmente por el codón de parada (habitualmente ATG en eucariotas, mientras que puede ser uno de ATG, CTG, GTG, TTG en procariotas) situado al comienzo del marco de lectura abierto en el extremo 5’ del ARNm, y por un codón de parada (generalmente uno de TAA, TGA, TAG, aunque existen excepciones a esta codificación “universal”) situado justo en dirección 3’ del marco de lectura abierto en el extremo 3’ del ARNm. Una secuencia codificante puede incluir, pero no se limita a, ADN, ADNc, ARN, y secuencias de ácido nucleico recombinante (ADN, ADNc, ARN) (obsérvese que esto es bien conocido en la técnica, que uracilo, U, sustituye el desoxinucleótido timidina, T, en ARN). Si la secuencia codificante está destinada a la expresión en una célula eucariota, se localizará en 3’ con respecto a la secuencia codificante una señal de poliadenilación y una secuencia de terminación de la transcripción. Una secuencia codificante comprende una secuencia codificante iniciadora de la transcripción, y opcionalmente una secuencia señal, y opcionalmente una o más secuencias intrónicas. Incluso aunque las expresiones “secuencia codificante” y “gen” no se refieren estrictamente a la misma entidad, ambas expresiones se usan frecuentemente de forma intercambiable aquí, y la persona experta entenderá a partir del contexto si la expresión se refiere a un gen completo o solamente a su secuencia codificante.

Método y montaje de ordenador para la adaptación de codón individual y/o de par de codones

En cuanto a las propiedades de uso de codón individual para genes muy expresados, una comparación “manual” de las relaciones de codones individuales en todos los genes y un grupo de los muy expresados ha conducido a algunas “relaciones de codones deseadas” para la mejora de genes con respecto a su nivel de expresión.

La adaptación del codón individual de un gen se puede realizar entonces: (1) calculando las relaciones reales en el gen, escogiendo repetidamente un codón (por ejemplo al azar) cuya relación deseada es menor que la real, y sustituyéndolo por uno sinónimo con una relación demasiado baja; o (2) calculando el número deseado de cada codón usando las “relaciones de codones deseadas”, obteniendo grupos de codones sinónimos, y escogiendo repetidamente un codón (por ejemplo al azar) de un grupo sinónimo que codifica el aminoácido preespecificado, para cada posición en el gen; obteniendo múltiples variantes usando el método (1) y/o (2) y basándose en criterios de selección adicionales escogiendo el gen más relevante (por ejemplo sitios de restricción deseados e indeseados y/o energía de plegamiento).

Sin embargo este enfoque no es adecuado para la adaptación de pares de codones, en primer lugar debido a que la inspección visual de los datos de preferencia para todos los pares de codones está fuera de cuestión a la vista de la complejidad, y en segundo lugar debido a que la alteración de un par de codones, que significa sustituir al menos uno de los dos codones participantes, también afectará a al menos uno de los pares de codones adyacentes, de manera que no serían alcanzables las “relaciones de pares de codones deseadas”. Debido a las restricciones implicadas por esto, un enfoque determinista se consideró demasiado complejo y no suficientemente prometedor, y entonces se escogió un enfoque de “algoritmo genético”.

Se observa que la expresión “algoritmo genético” puede ser confusa en el sentido de que parece relacionarse con ingeniería genética. Sin embargo, un “algoritmo genético” es un enfoque de ciencia de ordenadores que se usa para aproximar soluciones a problemas de optimización multidimensionales (Michalewicz, Z., Genetic Algorithms + Data Structure = Evolution Programs, Springer Verlag 1994; David E. Goldberg. Genetic Algorithms in Search, Optimization and Machine Learning. Addison-Wesley, Reading MA, 1989; http://en.wikipedia.org/wiki/Genetic_algorithm). En la presente invención, este enfoque se usa para resolver el problema de optimización de seleccionar el “mejor” gen posible, es decir, la secuencia codificante para una proteína particular de interés. En este enfoque, cada posición en el gen, es decir, cada codón, se puede considerar una dimensión, siendo el conjunto de valores discreto y determinado por los codones sinónimos disponibles.

Generalmente, en un algoritmo genético, inicialmente se genera a menudo aleatoriamente un conjunto de posibles “soluciones” al problema, o mediante variaciones de soluciones proporcionadas iniciales (aunque existen muchos otros métodos de enfoque). Este conjunto se denomina “población”; sus elementos son “individuos” o “cromosomas”, mayoritariamente representados por vectores (en el sentido matemático) que contienen coordenadas para cada dimensión. Puesto que los algoritmos genéticos se modelaron tras procesos implicados en selección natural, la mayoría de la terminología está tomada de la genética. Sin embargo, puesto que se aplican mayoritariamente (en este caso, de forma atípica) en el campo de la ciencia de ordenadores, pero se ha presentado algún ejemplo de aplicación de algoritmos genéticos en problemas de ciencia biológica, por ejemplo en la predicción de la estructura secundaria de proteínas (Armano et al. 2005 BMC Bioinformatics 1(6) Supl. 4:S3); la optimización de redes metabólicas in silico (Patil et al. 2005 BMC Bioinformatics. 23(6):308); datos de expresión de genes que se agrupan (Di Gesu et al. 2005 BMC Bioinformatics.7(6):289).

En el presente caso, un vector contiene codones. A partir de esa población, se crean nuevos individuos alterando ciertas posiciones de un individuo existente (“mutación”) o combinando una parte (es decir, ciertas coordenadas) de un individuo con otra parte (es decir, las coordenadas para las otras dimensiones) de otro individuo (“cruzamiento”). Entonces se examina cuán buenos son estos individuos (puesto que los nuevos son también posibles soluciones al problema de optimización inicial), y lo mejor (“los más adecuados”) de los individuos se toman nuevamente como población inicial para generar nuevos individuos (“nueva generación”; por ejemplo, se mantienen los mejores 10, 20, 30, 40, 50, 60%, pero existen muchas otras posibilidades para seleccionar un subconjunto de prole para obtener una convergencia hacia individuos más adecuados, por ejemplo selección mediante rueda de ruleta; véase Michalewicz, Z, 1994). Cuando se permite que se tome el mejor individuo a partir de la población inicial a lo largo de la siguiente generación, se asegura que con cada población la calidad de las posibles soluciones se hace mejor, o al menos permanece igual. Entonces se supone que con una ejecución de este algoritmo durante muchas generaciones (= iteraciones; algunos centenares hasta varios miles, dependiendo de la complejidad del problema) se obtendrá una solución próxima a la óptima. Se han investigado a conciencia algoritmos genéticos en la ciencia de ordenadores, incluyendo propiedades tales como la proporción óptima de tamaño de población y número de generaciones, cómo prevenir que el algoritmo se quede atascado en óptimos locales, etc., pero esto no debería importar demasiado aquí ahora. Para una información sobre cómo ajustar estos parámetros para el procedimiento de optimización actual, véase la descripción de algoritmo genético implementado en MATLAB en el Ejemplo 2.

Esto se explicará con detalle con referencia a la Figura 2. La Figura 2 muestra un diagrama de flujo de un algoritmo genético para la optimización génica. Tal algoritmo genético se puede llevar a cabo en un ordenador adecuadamente programado, un ejemplo del cual se mostrará en y se explicará primeramente con referencia a la Figura 1. La Figura 1 muestra un resumen de un montaje de ordenador que se puede usar para llevar a cabo el método según la invención. El montaje comprende un procesador 1 para llevar a cabo operaciones aritméticas.

Obsérvese que los algoritmos genéticos son generalmente no deterministas puesto que implican etapas aleatorizadas (por ejemplo criterios de selección al azar y/o elección del operador al azar y/o generación al azar de soluciones potenciales); sin embargo, existen excepciones que se comportan de manera determinista. “Algoritmos genéticos” es una herramienta genérica para aquellos algoritmos que trabajan con un grupo (denominado población) de soluciones potenciales, las cuales son por cribado y/o selección y/o eliminación, y/o (re)introducción de soluciones (nuevamente) generadas dirigida hacia una solución óptima usando uno o múltiples objetivos. Considerando esta definición, también los métodos descritos como programación evolutiva, algoritmos evolutivos, algoritmos genéticos clásicos, algoritmos genéticos con codificación real, hibridación simultánea, algoritmos de hormigas, y también métodos de Monte-Carlo y quimiotaxia, pertenecen a una clase similar de algoritmos, opuestos a los métodos que se basan en la convergencia de una única solución potencial con respecto a una solución óptima usando un algoritmo determinista, como programación lineal y algoritmos de gradientes. Además, una persona experta entenderá a partir del contexto si otro término original se refiere a la misma clase de algoritmos. Además, aunque el algoritmo genético es el método preferido, no se excluye ningún método distinto de los algoritmos genéticos para resolver el problema de optimización de codones individuales y/o de pares de codones como se describe en esta invención.

El procesador 1 está conectado a una pluralidad de componentes de memoria, incluyendo un disco duro 5, Memoria de Solo Lectura (ROM) 7, Memoria de Solo Lectura Programable Borrable Eléctricamente (EEPROM) 9, y Memoria de Acceso Aleatorio (RAM) 11. No todos estos tipos de memoria tienen que estar presentes necesariamente. Además, estos componentes de memoria no necesitan estar situados físicamente próximos al procesador 1, sino que pueden estar situados de forma remota con respecto al procesador 1.

El procesador 1 está conectado también a medios para introducir instrucciones, datos, etc., por un usuario, como un teclado 13, y un ratón 15. También se pueden proporcionar otros medios de entrada, tales como una pantalla táctil, una bola de guía y/o un conversor de voz, conocidos por las personas expertas en la técnica.

Se proporciona una unidad 17 de lectura conectada al procesador 1. La unidad 17 de lectura está dispuesta para leer datos de y posiblemente escribir datos en un soporte de datos como un disquete 19 o un CDROM 21. Otros soportes de datos pueden ser cintas, DVD, memory sticks, etc., como es conocido por las personas expertas en la técnica.

El procesador 1 también está conectado a una impresora 23 para imprimir los datos de salida en el papel, así como a una pantalla 3, por ejemplo un monitor o pantalla de LCD (pantalla de cristal líquido), o cualquier otro tipo de pantalla conocido por las personas expertas en la técnica.

El procesador 1 se puede conectar a una red 27 de comunicación, por ejemplo la Public Switched Telephone Network (PSTN), una red de área local (LAN), una red de área amplia (WAN), etc., por medios de I/O 25. El procesador 1 puede estar dispuesto para comunicarse con otros montajes de comunicación a través de la red 27.

El soporte 19, 21 de datos puede comprender un producto de programa de ordenador en forma de datos e instrucciones dispuestas para proporcionar al procesador la capacidad para llevar a cabo un método según la invención. Sin embargo, tal producto de programa de ordenador, como alternativa, se puede descargar vía la red 27 de telecomunicación.

El procesador 1 se puede implementar como un sistema por sí mismo, o como una pluralidad de procesadores que funcionan en paralelo, cada uno dispuesto para llevar a cabo subtareas de un programa de ordenador más grande, o como uno o más procesadores principales con varios subprocesadores. Partes de la funcionalidad de la invención se pueden llevar a cabo incluso mediante procesadores remotos que se comunican con el procesador 1 a través de la red 27.

Ahora se explicará el algoritmo genético de la Figura 2, cómo se puede llevar a cabo en el procesador 1 cuando ejecuta un programa de ordenador almacenado en su memoria.

En la acción 32, el ordenador genera uno o más genes que codifican una proteína predeterminada. Esto se puede hacer tomando datos para tal fin a partir de una tabla almacenada en la memoria del ordenador. Tales genes pueden ser, por ejemplo:

➢: ATG’GTT’GCA’TGG’TGG’TCT’...

➢: ATG’GTA’GCA’TGG’TGG’TCA’...

➢: ...

Para los fines del algoritmo, estos genes generados se denominan “genes originales”.

Tras la acción 32, el programa de ordenador lleva a cabo uno o más bucles de iteración al llevar a cabo las acciones 34-40 una o más veces.

En la acción 34, el programa de ordenador genera nuevos genes sustituyendo uno o más de los codones en el gen o genes originales por codones sinónimos, de manera que el gen o genes nuevamente generados todavía codifican la proteína predeterminada (proceso de cruzamiento y mutación). Para ser capaces de realizar esto, la memoria del ordenador almacena una tabla de uso de codones que muestra qué codones codifican qué aminoácidos. (Obsérvese que existen desviaciones del “código universal”, y se tienen en cuenta si este es el caso para los organismos hospedantes específicos; véase, por ejemplo, Laplaza et al., 2006, Enzyme and Microbial Technology, 38:741-747). Conociendo la secuencia de aminoácidos en la proteína, el programa de ordenador puede seleccionar codones alternativos a partir de la tabla, como son bien conocidos en la técnica. Usando el ejemplo de la acción 32, los genes nuevamente generados pueden ser (indicados en negrita):

En la acción 36, un valor de calidad de todos los genes, incluyendo los genes originales y los genes nuevamente generados, se determina mediante el programa de ordenador usando una función de adecuación que determina al menos una de adecuación del codón y adecuación del par de codones. Los ejemplos de tales funciones de adecuación se explicarán con detalle más abajo en la sección “Ejecución de la optimización del par de codones”.

En la acción 38, se selecciona un número de genes que muestran una mejor adecuación basada en la función de adecuación para tomar parte en el “proceso de reproducción” (cruzamiento y mutación), y se selecciona un número de genes que muestran la peor adecuación basada en la función de adecuación, para la eliminación de la población. Estos números pueden ser números predeterminados o pueden depender de una cantidad predeterminada de mejora de la adecuación. La selección de esos genes puede ser determinista, pero generalmente se sigue un proceso estocástico, en el que los “genes más adecuados” poseen una mayor probabilidad de ser seleccionados

para la reproducción, y lo opuesto para la supresión de la población. Este método se denomina selección por rueda de ruleta.

Los genes seleccionados resultantes para la reproducción pueden ser, por ejemplo (los genes no seleccionados se muestran con una línea de supresión):

En la acción 40, el programa de ordenador evalúa si se cumplen uno o más criterios de terminación. A menudo, uno de los criterios de terminación es un número máximo predeterminado de iteraciones. Los criterios alternativos son comprobar si la adecuación obtenida por los genes seleccionados mejora con al menos un valor umbral mínimo con respecto a la adecuación de los genes originales, o comprobar si la adecuación obtenida por los genes seleccionados mejora con al menos un valor umbral mínimo con respecto a la adecuación del gen que tuvo la mejor adecuación en n iteraciones anteriores (preferiblemente n es un valor escogido en <10, 100>). Si el criterio global de terminación no se satisface, el programa de ordenador vuelve nuevamente a la acción 34 mientras trata a los genes seleccionados como “genes originales”.

Si, en la acción 40, el programa de ordenador establece que la mejora está por debajo del valor umbral mínimo, más iteración de las acciones 34-38 no tienen mucho sentido y el programa continúa con la acción 42.

Se ha de entender que en la acción 40 se puede usar cualquier otro criterio de parada de iteración adecuado, como el número de iteraciones realizadas, para abandonar las acciones 34-40 de iteración y continuar con la acción 42.

En la acción 42, el gen con la mejor adecuación entre todos los genes seleccionados se selecciona y se presenta al usuario, por ejemplo vía el monitor o vía un impreso por medio de una impresora.

En el caso de adaptación génica usando un algoritmo genético, se debe de asegurar que el cruzamiento se realice siempre en una posición del marco de lectura, debido a que de otro modo la secuencia de aminoácidos resultante puede cambiar cuando se combina un nucleótido de uno y dos nucleótidos de otro codón. Para una mejor convergencia, se propone un operador de mutación modificado el cual, para este operador de mutación, solo se han permitido aquellas sustituciones de codones sinónimos que dan como resultado al menos un mejor uso del codón individual o un mejor uso del par de codones.

De manera que una cuestión importante para la optimización del par de codones ahora es cómo medir la calidad de los individuos. Esta función denominada de adecuación se puede considerar como la parte central del algoritmo genético, puesto que es la función real a optimizar. En la presente invención, un enfoque preferido es asignar un número real (denominado peso) a cada par de codones, y tomar el promedio de los pesos en un gen como su “adecuación”, dando así como resultado una función a minimizar.

En la actual descripción, el procedimiento de optimización génica se describe como un problema de minimización. Esto es un enfoque más bien arbitrario. Obsérvese que si se maximizara una función f, se podría igualmente buscar el mínimo de –f, de manera que esto no es una restricción a la generalidad.

Por tanto, se ha de identificar un método para determinar los pesos de los pares de codones, en el que los pares de codones considerados buenos para el nivel de expresión tienen un peso bajo, y los pares considerados malos tienen uno elevado.

Identificación de pesos de los pares de codones para la adaptación génica

Para la identificación de pesos de pares de codones que están relacionados con un nivel mayor de transcripción/expresión, y que pueden servir como información de entrada para la adaptación del uso de pares de codones, se pueden aplicar los siguientes métodos, que se ejemplifican aquí mediante A. niger, para el cual se conocen los niveles de transcripción para la mayoría de los genes expresados, y para B. subtilis, para la cual existen datos sobre los niveles de transcripción y también un conjunto de 300 genes muy expresados.

En A. niger, en el que existe una clasificación completa extraída de los datos de GeneChip para el conjunto mencionado anteriormente de 4.584 genes realmente expresados (véase el Ejemplo 1), se calcularon los pesos medios de los pares de codones de cada gen (es decir, el equivalente de los valores fitcp(g)). Después, los genes se clasificaron según los valores de adecuación (orden ascendente) y nivel de expresión (orden descendente). Puesto que se supone que los genes muy expresados tienen valores de adecuación de los pares de codones bajos, estas dos clasificaciones serían iguales cuando se usan pesos ideales de pares de codones, de manera que una comparación de estas dos clasificaciones puede dar información sobre la calidad de los pesos usados en la función de adecuación (en la que se dio ligeramente más atención a la clasificación “correcta” de los genes muy expresados que a la clasificación de los mediocres). Adicionalmente, se calculó el coeficiente de correlación (covarianza dividida entre la desviación estándar de cada variable) entre la clasificación y los pesos promedios de los pares de codones

de los 4.584 genes.

En los métodos de la invención se pueden usar varios posibles conjuntos de pesos, incluyendo uno o más seleccionados del grupo que consiste en: (i) valores de preferencia procedentes de todo el genoma; (ii) valores de preferencia procedentes de un grupo de genes muy expresados; (iii) preferencia con todos los valores que no tienen una cierta puntuación z mínima ajustada a cero (por lo cual la puntuación z se determina como se describe en el Ejemplo 1.1.4); (iv) valores de preferencia elevados a la potencia de 2 ó 3, 4, 5 o mayor (para dar a codones muy preferidos o muy rechazados una mejor/mayor influencia); (v) las propias puntuaciones z; (vi) diferencia de valores de preferencia/puntuaciones z a partir del grupo muy expresado y el genoma completo; y (vii) combinaciones de uno

o más de (i)-(vi).

Para el algoritmo genético, se han usado sus negaciones, puesto que los pares de codones preferidos se han identificado arbitrariamente con valores positivos, mientras que el algoritmo genético lleva a cabo la minimización. Esto se aplica a todos los pesos mencionados anteriormente.

Una matriz de pesos más preferida se puede obtener – como se describe anteriormente – calculando la “preferencia”

y de este modo

En las que w((ci,cj)) se define como un peso de un par de codones (ci,cj) en una secuencia g de codones. Obsérvese que, puesto que la función de optimización buscará un peso promedio mínimo, los dos términos del numerador se han invertido en comparación con la ecuación para los valores de preferencia, pero esto no afecta a la correlación con los niveles de expresión salvo que le cambia el signo.

A diferencia de otros ajustes de peso ensayados, los pares de codones que implican codones que están más subrepresentados en el grupo muy expresado obtienen aquí una ligera desventaja. De este modo, estos pesos son los únicos que también reflejan la diferente preferencia de codones individuales del grupo muy expresado y todos los genes. El uso de estos pesos conlleva el riesgo de rechazar algunos pares de codones que realmente tienen una preferencia positiva en el grupo muy expresado, pero consisten en (en el grupo muy expresado) codones usados muy raramente. Sin embargo, puesto que nuestras relaciones de codones individuales deseadas no son habitualmente idénticas a aquellas en el grupo de genes con expresión elevada, sino más “extremas” que éstas, la optimización de codones individuales reemplazaría a estos subrepresentados de cualquier manera, de manera que podemos considerar a los pesos descritos anteriormente muy convenientes para la optimización de pares de codones. De este modo, aunque los pesos del par de codones también refleja preferencia del codón individual en un grado limitado, para la optimización, el uso de codones individuales se considera como un aspecto adicional, separado.

Optimización de codones individuales y pares de codones usando un algoritmo genético

En el método de la invención, preferiblemente se usa un montaje de ordenador programado para llevar a cabo un algoritmo genético como se describe aquí anteriormente para llevar a cabo la adaptación de pares de codones o la adaptación combinada de codones individuales y pares de codones. La aplicación de un algoritmo genético para la adaptación de codones individuales es también posible y no se excluye de la invención, pero aquí los codones indeseados se pueden sustituir por codones sinónimos sin restricciones con respecto a codones vecinos, y por lo tanto el uso de un algoritmo genético no es realmente necesario.

En cuanto a los pares de codones, el cambio de un codón individual alterará habitualmente el peso de dos pares de codones, y por lo tanto la optimización de pares de codones está enormemente constreñida debido a que un cambio de un codón individual que sustituya a un par de codones no deseado siempre cambiará otro par de codones, y esto no es necesariamente un cambio a mejor, y la corrección de un cambio para el peor en un par de codones adyacente alterará entonces de nuevo otro par, y así sucesivamente.

Para el operador de mutación, solo se han permitido aquellas alteraciones de la secuencia de codones que no cambiaron la secuencia peptídica codificada y que mejoraron al menos una de la adecuación de codones individuales y la adecuación del par de codones, es decir, antes de cambiar un codón, el operador de mutación busca codones sinónimos que están subrepresentados (según las relaciones de codones individuales deseadas) o aquel en el que los dos pares de codones están implicados en tener mejores pesos. Se selecciona aleatoriamente cuál de los dos tipos de mutación se lleva a cabo. La ejecución del operador de “mutación” previo en cada codón individual es suficiente para crear un gen optimizado por codones individuales sin el uso del algoritmo genético.

La calidad de un gen se determina considerando dos aspectos, a saber, la “adecuación” de codones individuales y la “adecuación” de pares de codones. Esta última es simplemente el promedio de los pesos w((c(k), c(k+1)) de todos los pares de codones en una secuencia g de codones (o gen). Es decir, cuando g simboliza de nuevo la secuencia de codones, g su longitud (en codones) y c(k) su codón k-avo:

La adecuación de codones individuales se define como la diferencia de las relaciones de codones reales en el gen y las relaciones de codones diana, normalizada para el número de apariciones de cada codón. Las relaciones de codones individuales se definen y se pueden determinar como se describe aquí en el Ejemplo 1.1.2. Sea

la relación deseada (o frecuencia) del codón ck y , como antes, la relación real en el gen g, entonces la adecuación de los codones individuales se define como

De este modo, fitsc puede alcanzar valores en [0,1], estando la secuencia óptima próxima a 0, mientras que fitcp está limitado por los pesos, que aquí están también en [-1,1].

Para optimizar ambos aspectos, en una realización, se ha introducido una función de adecuación combinada:

Aquí, cpi, que representa “importancia del par de codones”, es un valor real mayor que cero, y determina cuál de las dos funciones de adecuación tiene más influencia sobre la adecuación combinada. Con cpi próxima a cero, el denominador se aproxima a cero cuando fitsc(g) se hace mejor (es decir, también próximo a cero), y de este modo pequeños cambios en fitsc(g) influyen en fitcombi(g) más que pequeños cambios en fitcp(g), mientras que con una cpi elevada, ligeras mejoras en fitcp(g) pueden tener un mayor efecto sobre fitcombi(g) que mejoras medias en fitsc(g). Obsérvese que los valores de fitcombi que se obtienen usando diferentes valores de cpi no son comparables (cpi próxima a 0 puede dar como resultado valores fitcombi próximos a -100, mientras que fitcombi está habitualmente entre 0 y -1 para cpi > 0,2).

En una realización, se añade una “penalización” si g contiene ciertas secuencias indeseadas, por ejemplo sitios de restricción o secuencias que dan como resultado estructuras secundarias indeseadas en el ARNm. Esto puede ser útil cuando se construyen genes sintéticos, pero en sí mismo no está relacionado con la optimización del uso de codones individuales y de pares de codones. Una función de adecuación modificada es:

en la que P(g) representa una función de penalización que crea un peso positivo en el caso de que una estructura de secuencia indeseada sea parte de un gen g.

Se ha de entender que en las realizaciones de la invención aquí las secuencias nucleotídicas y de aminoácidos pueden ser secuencias teóricas que existen solamente, por ejemplo, en el papel u otro soporte de datos preferiblemente legible por ordenador, o pueden existir como una realización creada tangible y físicamente.

La presente invención se define mediante las reivindicaciones anejas, es decir,

1. Un método de optimización de una secuencia codificante nucleotídica que codifica una secuencia de aminoácidos predeterminada, mediante el cual la secuencia codificante se optimiza para la expresión en una célula hospedante predeterminada, comprendiendo el método:

a) generar al menos una secuencia codificante original que codifica la secuencia de aminoácidos

predeterminada;

b) generar al menos una secuencia codificante nuevamente generada a partir de esta al menos una secuencia codificante original sustituyendo en esta al menos una secuencia codificante original uno o más codones mediante un codón sinónimo;

c) determinar un valor de adecuación de dicha al menos una secuencia codificante original y un valor de adecuación de dicha al menos una secuencia codificante nuevamente generada a la vez que se usa una función de adecuación que determina al menos una de adecuación de codón individual y adecuación del par de codones para la célula hospedante predeterminada;

d) escoger una o más secuencias codificantes seleccionadas entre dicha al menos una secuencia codificante original y dicha al menos una secuencia codificante nuevamente generada según un criterio de selección predeterminado de manera que cuanto mayor es dicho valor de adecuación, mayor es la probabilidad de ser escogido;

e) repetir las acciones b a d) a la vez que se trata dicha una o más secuencias codificantes seleccionadas como una o más secuencias codificantes originales en las acciones b) a d) hasta que se satisface un criterio de parada de iteración predeterminado

en el que dicha función de adecuación se define por medio de:

en la que

cpi es un valor real mayor que cero, fitcp(g) es la función de adecuación del par de codones, fitsc(g) es una función de adecuación del codón individual, w((c(k), c(k + 1)) es un peso de un par de codones en una secuencia codificante g, g es la longitud de dicha secuencia codificante, c(k) es el codón k-avo en dicha

secuencia de codones,

es una relación deseada de codón c(k), y

es una relación real en la secuencia codificante g.

2.: Un método según la reivindicación 1, en el que dicho criterio de selección predeterminado es tal que dicha una o más secuencias codificantes seleccionadas tienen un mejor valor de adecuación según un criterio predeterminado.

3.: Un método según la reivindicación 1 ó 2, en el que dicho método comprende, tras la acción e):

f) seleccionar una mejor secuencia codificante individual entre dicha una o más secuencias codificantes seleccionadas, en el que dicha mejor secuencia codificante individual tiene un mejor valor de adecuación que otras secuencias codificantes seleccionadas.

4.: Un método según una cualquiera de las reivindicaciones 1-3, en el que dicho criterio de parada de iteracción predeterminado es al menos uno de:

(a): evaluar si al menos una de dichas secuencias codificantes seleccionadas tiene un mejor valor de adecuación por encima de un valor umbral predeterminado;

(b): evaluar si ninguna de dichas secuencias codificantes seleccionadas tiene un mejor valor de adecuación por debajo de dicho valor umbral predeterminado;

(c): evaluar si al menos una de dichas secuencias codificantes seleccionadas tiene al menos 30% de los pares de codones con pesos de pares de codones positivos asociados para la célula hospedante predeterminada en dicha secuencia codificante original que se transforman en pares de codones con pesos negativos asociados; y,

(d): evaluar si al menos una de dichas secuencias codificantes seleccionadas tiene al menos 30% de los pares de codones con pesos positivos asociados por encima de 0 para la célula hospedante

predeterminada en dicha secuencia codificante original que se transforman en pares de codones con pesos asociados por debajo de 0.

5.: Un método según una cualquiera de las reivindicaciones 1 a 4, en el que cpi está entre 10-4 y 0,5.

6.: Un método según una cualquiera de las reivindicaciones 1-5, en el que dichos pesos w de los pares de

5 codones se toman a partir de una matriz de 61 x 61 de pares de codones sin codones de parada, o una matriz de 61 x 64 de pares de codones que incluye codones de parada, y en el que dichos pesos w del par de codones se calcula en base a un método a base de ordenador, usando como información de entrada al menos uno de:

(a) un grupo de secuencias nucleotídicas que consiste en al menos 200 secuencias nucleotídicas de 10 un hospedante predeterminado;

(b): un grupo de secuencias nucleotídicas que consiste en al menos 200 secuencias nucleotídicas de la especie a la que pertenece el hospedante predeterminado;

(c): un grupo de secuencias nucleotídicas que consiste en al menos 5% de las secuencias nucleotídicas que codifican la proteína en una secuencia genómica del hospedante predeterminado; y,

15 (d) un grupo de secuencias nucleotídicas que consiste en al menos 5% de las secuencias nucleotídicas que codifican la proteína en una secuencia genómica de un género relacionado con el hospedante predeterminado.

7. Un método según la reivindicación 6, en el que dichos pesos w de los pares de codones se determinan

para al menos 5%, 10%, 20%, 50%, y preferiblemente 100% de los posibles 61 x 64 pares de codones que 20 incluyen la señal de terminación como codón de parada.

8. Un método según la reivindicación 1-7, en el que dichos pesos w de pares de codones se toman de una matriz de 61 x 61 de pares de codones sin codones de parada, o una matriz de 61 x 64 de pares de codones que incluyen codones de parada, y en el que dichos pesos w de pares de codones se definen por medio de:

en la que los valores esperados combinados

se definen por medio de:

en la que representa la relación de codones individuales de ck en el conjunto de datos del genoma

completo, y las apariciones de un par (ci,cj) en el grupo muy expresado, y en el que el grupo muy expresado son los genes cuyos ARNm se pueden detectar a un nivel de al menos 20 copias por célula.

30 9. Un método según cualquiera de las reivindicaciones anteriores, en el que dicha secuencia nucleotídica codificante original que codifica una secuencia de aminoácidos predeterminada se selecciona de:

(a): una secuencia nucleotídica de tipo salvaje que codifica dicha secuencia de aminoácidos predeterminada;

(b): una traducción inversa de la secuencia de aminoácidos predeterminada, por lo que un codón para

35 una posición de aminoácido en la secuencia de aminoácidos predeterminada se escoge al azar de los codones sinónimos que codifican el aminoácido; y

(c) una traducción inversa de la secuencia de aminoácidos predeterminada, por lo que un codón para una posición de aminoácido en la secuencia de aminoácidos predeterminada se escoge según una preferencia de codones individuales para la célula hospedante predeterminada o una especie

40 relacionada con la célula hospedante.

10. Un método según cualquiera de las reivindicaciones 1-9, en el que dicha célula hospedante predeterminada es una célula de un microorganismo, preferiblemente un microorganismo de un género seleccionado de: Bacillus, Actinomycetis, Escherichia, Streptomyces, Aspergillus, Penicillium, Kluyveromyces,

Saccharomyces.

11. Un método según cualquiera de las reivindicaciones 1-9, en el que dicha célula hospedante predeterminada es una célula de un animal o planta, preferiblemente una célula de una estirpe celular seleccionada de CHO, BHK, NSO, COS, Vero, PER.C6™, HEK-293, Drosophila S2, Spodoptera Sf9 y

5 Spodoptera Sf21.

12.: Un ordenador que comprende un procesador y memoria, estando el procesador dispuesto para leer de dicha memoria y escribir en dicha memoria, comprendiendo la memoria datos e instrucciones montados para hacer que dicho procesador lleve a cabo el método de cualquiera de las reivindicaciones 1-11.

13.: Producto de programa de ordenador que comprende datos e instrucciones, y dispuesto para ser cargado

10 en una memoria de un ordenador que también comprende un procesador, estando el procesador dispuesto para leer de dicha memoria y escribir en dicha memoria, estando los datos e instrucciones dispuestos para hacer que dicho procesador lleve a cabo el método de cualquiera de las reivindicaciones 1-11.

14.: Soporte de datos proporcionado con un producto de programa de ordenador según la reivindicación 13.

15.: Un método según una cualquiera de las reivindicaciones 1 a 11, en el que la secuencia codificante que

15 codifica una secuencia de aminoácidos predeterminada generada con el método está comprendida en una molécula de ácido nucleico, en el que la secuencia codificante no es una secuencia codificante de origen natural, y en el que la secuencia codificante tiene una fitcp(g) de al menos por debajo de -0,1, y preferiblemente por debajo de -0,2, y más preferiblemente por debajo de -0,3 para una célula hospedante predeterminada.

20 16. Un método según una cualquiera de las reivindicaciones 1 a 11, en el que la secuencia codificante que codifica una secuencia de aminoácidos predeterminada generada con el método está comprendida en una molécula de ácido nucleico, en el que la secuencia codificante no es una secuencia codificante de origen natural, y en el que la secuencia codificante tiene una fitcp(g) de al menos por debajo de -0,1, y preferiblemente por debajo de -0,2 para una célula hospedante predeterminada, y una fitsci(g) de al menos por

25 debajo de 0,1 para una célula hospedante predeterminada.

En un primer aspecto, la descripción se refiere por lo tanto a un método de optimización de una secuencia codificante nucleotídica que codifica una secuencia de aminoácidos predeterminada, por lo que la secuencia codificante se optimiza para la expresión en una célula hospedante predeterminada. El método comprende preferiblemente las etapas de: (a) generar al menos una secuencia codificante original que codifica la secuencia de 30 aminoácidos predeterminada; (b) generar al menos una secuencia codificante nuevamente generada a partir de esta al menos una secuencia codificante original sustituyendo en esta al menos una secuencia codificante original uno o más codones mediante un codón sinónimo; (c) determinar un valor de adecuación de dicha al menos una secuencia codificante original y un valor de adecuación de dicha al menos una secuencia codificante nuevamente generada a la vez que se usa una función de adecuación que determina al menos una de adecuación de codón individual y 35 adecuación de par de codones para la célula hospedante predeterminada; (d) escoger una o más secuencias codificantes seleccionadas entre dicho al menos un gen original y dicha al menos una secuencia codificante nuevamente generada según un criterio de selección predeterminado, de manera que cuanto mayor es dicho valor de adecuación, mayor es la probabilidad de ser escogido; y, (e) repetir las acciones b) a d) mientras se trata dicha una o más secuencias codificantes seleccionadas como una o más secuencias codificantes originales en las

40 acciones b) a d) hasta que se satisface un criterio de parada de iteración predeterminado.

Según una realización de la descripción, el método comprende preferiblemente las etapas de: (a) generar al menos una secuencia codificante original que codifica la secuencia de aminoácidos predeterminada; (b) generar al menos una secuencia codificante nuevamente generada a partir de esta al menos una secuencia codificante original sustituyendo en esta al menos una secuencia codificante original uno o más codones mediante un codón sinónimo; 45 (c) determinar un valor de adecuación de dicha al menos una secuencia codificante original y un valor de adecuación de dicha al menos una secuencia codificante nuevamente generada a la vez que se usa una función de adecuación que determina la adecuación de par de codones para la célula hospedante predeterminada; (d) escoger una o más secuencias codificantes seleccionadas entre dicho al menos un gen original y dicha al menos una secuencia codificante nuevamente generada según un criterio de selección predeterminado, de manera que cuanto mayor es

50 dicho valor de adecuación, mayor es la probabilidad de ser escogido; y, (e) repetir las acciones b) a d) mientras se trata dicha una o más secuencias codificantes seleccionadas como una o más secuencias codificantes originales en las acciones b) a d) hasta que se satisface un criterio de parada de iteración predeterminado.

Según otra realización de la descripción, el método comprende preferiblemente las etapas de: (a) generar al menos una secuencia codificante original que codifica la secuencia de aminoácidos predeterminada; (b) generar al menos 55 una secuencia codificante nuevamente generada a partir de esta al menos una secuencia codificante original sustituyendo en esta al menos una secuencia codificante original uno o más codones mediante un codón sinónimo;

(c) determinar un valor de adecuación de dicha al menos una secuencia codificante original y un valor de adecuación de dicha al menos una secuencia codificante nuevamente generada a la vez que se usa una función de adecuación

que comprende determinar la adecuación de codón individual y la adecuación de par de codones para la célula hospedante predeterminada; (d) escoger una o más secuencias codificantes seleccionadas entre dicho al menos un gen original y dicha al menos una secuencia codificante nuevamente generada según un criterio de selección predeterminado, de manera que cuanto mayor es dicho valor de adecuación, mayor es la probabilidad de ser escogido; y, (e) repetir las acciones b) a d) mientras se trata dicha una o más secuencias codificantes seleccionadas como una o más secuencias codificantes originales en las acciones b) a d) hasta que se satisface un criterio de parada de iteración predeterminado.

En los métodos, preferiblemente el criterio de selección predeterminado es tal que dicha una o más secuencias codificantes seleccionadas tienen un mejor valor de adecuación según un criterio predeterminado. Los métodos según la invención pueden comprender además, tras la acción e): seleccionar una mejor secuencia codificante individual entre dicha una o más secuencias codificantes seleccionadas, en el que dicha mejor secuencia codificante individual tiene un valor de adecuación mejor que otras secuencias codificantes seleccionadas.

En el método de la invención, el mencionado criterio de parada de iteración predeterminado es preferiblemente al menos uno de: (a) evaluar si al menos una de dichas secuencias codificantes seleccionadas tiene un mejor valor de adecuación por encima de un valor umbral predeterminado; (b) evaluar si ninguna de dichas secuencias codificantes seleccionadas tiene un mejor valor de adecuación por debajo de dicho valor umbral predeterminado; (c) evaluar si al menos una de dichas secuencias codificantes seleccionadas tiene al menos 30% de los pares de codones con pesos de pares de codones positivos asociados para la célula hospedante predeterminada en dicha secuencia codificante original que se transforman en pares de codones con pesos negativos asociados; y, (d) evaluar si al menos una de dichas secuencias codificantes seleccionadas tiene al menos 30, 40, 50, 60, 70, 80, ó 90% de los pares de codones con pesos positivos asociados por encima de 0 para la célula hospedante predeterminada en dicha secuencia codificante original que se transforman en pares de codones con pesos asociados por debajo de 0.

En los métodos de la descripción, la función de adecuación puede definir la adecuación de codón individual por medio de:

En los métodos de la invención, la función de adecuación define la adecuación del par de codones por medio de:

en la que w((c(k), c(k + 1)) es un peso de un par de codones en una secuencia codificante g, g es la longitud de dicha secuencia codificante nucleotídica, y c(k) es el codón k-avo en dicha secuencia codificante.

Más preferiblemente, en los métodos de la invención, la función de adecuación se define por medio de:

en la que

cpi es un valor real mayor o igual a cero, fitcp(g) es una función de adecuación del par de codones, fitsc(g) es una función de adecuación del codón individual, w((c(k), c(k + 1)) es un peso de un par de codones en una secuencia codificante g (APÉNDICE 3; matriz CPW), g es la longitud de dicha secuencia codificante, c(k) es el codón k-avo

en dicha secuencia de codones,

es una relación deseada del codón c(k), y

una relación real en la secuencia codificante g. Preferiblemente, cpi está entre 0 y 10, más preferiblemente entre 0 y 0,5, y lo más preferible, alrededor de 0,2.

En los métodos de la invención, los pesos w del par de codones (APÉNDICE 3) se pueden tomar a partir de una matriz de 64 x 64 pares de codones que incluye codones de parada. Obsérvese que los pesos para los pares parada:sentido y pares parada:parada son siempre cero. Los pesos w de los pares de codones se calcularon preferiblemente en base a un método a base de ordenador, usando como información de entrada al menos uno de:

(a) una secuencia genómica de la célula hospedante predeterminada para la que se secuencian al menos 5, 10, 20 u 80% de las secuencias nucleotídicas que codifican la proteína; (b) una secuencia genómica de una especie relacionada con la célula hospedante predeterminada, para la que se secuencian al menos 5, 10, 20 u 80% de las secuencias nucleotídicas que codifican la proteína; (c) un grupo de secuencias nucleotídicas que consiste en al menos 200 secuencias codificantes de la célula hospedante predeterminada; y (d) un grupo de secuencias nucleotídicas que consiste en al menos 200 secuencias codificantes de una especie relacionada con la célula hospedante predeterminada. Una especie relacionada se entiende aquí que se refiere a una especie de la cual la secuencia nucleotídica del ARN ribosómico de la subunidad pequeña tiene al menos 60, 70, 80, o 90% de identidad con la secuencia nucleotídica del ARN ribosómico de la subunidad pequeña de la célula hospedante predeterminada (Wuyts et al., 2004, Nucleic Acids Res. 32: D101-D103).

Los pesos w de los pares de codones no necesitan determinarse para todos los 61 x 64 pares de codones posibles, incluyendo la señal de terminación como codón de parada, sino que se puede determinar para solamente una fracción de los mismos, por ejemplo para al menos 5%, 10%, 20%, 50%, y preferiblemente 100% de los 61 x 64 pares de codones posibles, incluyendo la señal de terminación como codón de parada.

Selección de genes muy expresados

Para el cálculo de las matrices de los pesos de los pares de codones y de los vectores de la relación diana de codones individuales, se puede aplicar un conjunto de secuencias nucleotídicas de la propia célula hospedante especificada, un conjunto de secuencias nucleotídicas de una especie relacionada, o una combinación de ambos. El conjunto A de secuencias nucleotídicas se denomina “conjunto de referencia all”. Lo más preferible, este conjunto contiene el conjunto completo de marcos de lectura abiertos (ORFs) para un organismo que está completamente secuenciado (>95%).

En una realización preferida de la invención, se selecciona un subconjunto B que contiene un subconjunto que está sobreexpresado con genes muy expresados o genes que codifican proteínas muy expresadas. Este conjunto se puede determinar usando medidas, y la subsiguiente clasificación, como una hibridación de ARNm usando tecnología de matrices, por ejemplo matrices de Affymetrix, Nimblegen, Agilent, o cualquier otra fuente para el conjunto de referencia A. Otras medidas pueden ser RT-PCR, geles de proteína, análisis mediante MS-MS, u otra técnica de medida conocida por la persona experta en la técnica. Además de realizar una clasificación en base a las medidas, también se pueden aplicar herramientas bioinformáticas para predecir directamente un grupo de genes muy expresados, por ejemplo seleccionando los genes más preferidos (Carbone et al, 2003), o seleccionando genes que se sabe que están muy expresados en un amplio intervalo de organismos. Entre estos están proteínas ribosómicas, genes glicolíticos y genes del ciclo del ATC implicados en metabolismo primario, genes implicados en transcripción y traducción.

Preferiblemente, los pesos w de los pares de codones se calculan en base a un método a base de ordenador, usando como información de entrada el grupo de genes muy expresados en la célula hospedante predeterminada. Genes muy expresados se entiende aquí que significa genes cuyos ARNm se pueden detectar a un nivel de al menos 10, preferiblemente 20, más preferiblemente 50, más preferiblemente 100, más preferiblemente 500, y lo más preferible al menos 1.000 copias por célula. Por ejemplo, Gygi et al. midieron 15.000 moléculas de ARNm por célula de levadura. La abundancia de los ARNm específicos se determinó que estaba en el intervalo de 0,1-470 por célula (Gygi, S.P., Y. Rochon, B.R. Franza y R. Aebersold (1999). Correlation between protein and mRNA abundance in yeast. Mol. Cel. Biol. 19(3):1720-30), o un factor 10 veces inferior: 0,01-50 por célula (por Akashi, H. (2003). Translational selection and yeast proteome evolution. Genetics 164(4): 1291-1303.).

Como alternativa, el grupo de genes muy expresados en la célula hospedante predeterminada puede ser el grupo que comprende los 1000, 500, 400, 300, ó 200 ó 100 ARNm o proteínas más abundantes. La persona experta reconocerá que para el cálculo de la relación de codones individuales, el tamaño del grupo de genes muy expresados puede ser pequeño, puesto que se especifican como máximo sólo 64 valores diana. Aquí, un conjunto de referencia con genes muy expresados puede ser tan bajo como 1 gen, pero generalmente se considera 1% del tamaño del genoma un conjunto representativo de los genes muy expresados; véase, por ejemplo, Carbone, A. et al. (2003) (Codon adaptation index as a measure of dominating codon bias. Bioinformatics. 19(16):2005-15). Para el cálculo de una matriz de pesos de pares de codones, habitualmente sirve un conjunto de 200-500 genes de referencia, que corresponde a 2-7% de un genoma bacteriano (3000-15000 genes).

Otra posibilidad es derivar un subconjunto de genes presumiblemente muy expresados a partir de la bibliografía. Por

ejemplo, para Bacillus subtilis, que es un organismo modelo, existe bastante bibliografía sobre la preferencia de codones individuales. Un buen resumen sobre el estado de la técnica para B. subtilis se da mediante el trabajo de Kanaya et al. (1999). En nuestro enfoque, véase el Ejemplo 4, se agrupan los datos en un subconjunto de grupos muy expresados en base a los niveles de ARNm medidos mediante tecnología Affymetrix, y se comparan estas secuencias con el conjunto completo de los ORFs del genoma. Otras opciones que se han usado en la bibliografía son datos de expresión de proteínas, y grupos categóricos funcionales de genes (esperados) como proteínas ribosómicas, proteínas implicadas en la traducción y transcripción, esporulación, metabolismo energético, y el sistema flagelar (Kanaya et al., 1999; Karlin y Mrazek, 2000).

De hecho, a menudo se encuentra, por ejemplo, elevada preferencia de codones en las proteínas ribosómicas, así como en los otros grupos nombrados. Sin embargo, generalmente no todos los genes en estos últimos grupos muestran tal comportamiento. También, no se sabe cómo reaccionan las proteínas ribosómicas en condiciones de producción de bajo crecimiento. Por lo tanto, parece lógica una técnica de medida directa para derivar un subconjunto de genes muy expresados. Después, se pueden escoger datos transcriptómicos (TX) y/o proteómicos (PX). Para ambos, hay pros y contras. TX da una foto más bien completa para los niveles de ARNm de genes en el genoma completo, mientras que los datos de PX pueden estar sesgados por la sobrerrepresentación de proteínas solubles en agua. Los datos de TX son una medida directa para el ARNm disponible que se somete a traducción, mientras que la proteína es parte de un proceso de acumulación en el que el recambio también juega un papel importante. De cualquier forma, se muestra que los datos de TX y PX se correlacionan para los genes muy expresados (Gygi et al, 1999). Otro trabajo interesante es la predicción de genes muy expresados (PHX) mediante desviación del uso promedio de codones y similitud con proteínas ribosómicas, y aquellos implicados en factores de procesamiento de traducción y transcripción, y con proteínas de la degradación de chaperonas (Karlin y Mrazek, 2000). En particular, para organismos que crecen rápidamente, como Bacillus, E. coli, etc., se encuentra que los genes glicolíticos importantes y los genes del ciclo del ácido tricarboxílico pertenecen al grupo anterior. La predicción del método se compara bien con genes muy expresados conocidos en datos de ARNm y expresión de proteína.

La persona experta apreciará que tanto los pesos de codones individuales como los pesos w de los pares de codones se pueden determinar para células hospedantes modificadas que se han modificado con respecto al contenido y naturaleza de sus genes codificantes de ARNt, es decir, células hospedantes que comprenden copias adicionales de genes de ARNt existentes, nuevos genes de ARNt (exógenos), incluyendo genes de ARNt no naturales, incluyendo genes que codifican ARNt de atún que se han modificado para incluir aminoácidos no naturales u otros compuestos químicos, así como células hospedantes en las que se han inactivado o suprimido uno

o más genes de ARNt.

En el método de la invención, la secuencia nucleotídica codificante original que codifica una secuencia de aminoácidos predeterminada se puede seleccionar de: (a) una secuencia nucleotídica de tipo salvaje que codifica la secuencia de aminoácidos predeterminada; (b) una traducción inversa de la secuencia de aminoácidos predeterminada, por lo que un codón para una posición de aminoácido en la secuencia de aminoácidos predeterminada se escoge al azar de los codones sinónimos que codifican el aminoácido; y (c) una traducción inversa de la secuencia de aminoácidos predeterminada, por lo que un codón para una posición de aminoácido en la secuencia de aminoácidos predeterminada se escoge según una preferencia de codones individuales para la célula hospedante predeterminada o una especie relacionada con la célula hospedante.

Células hospedantes

En los métodos de la invención, el hospedante predeterminado puede ser cualquier célula u organismo hospedante que sea adecuado para la producción de un polipéptido de interés por medio de la expresión de una secuencia codificante nucleotídica optimizada. La célula hospedante puede ser así una célula hospedante procariota o eucariota. La célula hospedante puede ser una célula hospedante que es adecuada para el cultivo en medio líquido

o en un medio sólido. Como alternativa, la célula hospedante puede ser una célula que es parte de un tejido multicelular o y un organismo multicelular tal como una planta (transgénica), animal o ser humano.

Las células hospedantes pueden ser microbianas o no microbianas. Las células hospedantes no microbianas adecuadas incluyen, por ejemplo, células hospedantes de mamíferos, tales como células de hámster: CHO (ovario de hámster chino), células BHK (de riñón de hámster bebé), células de ratón (por ejemplo NS0), células de mono tales como COS o Vero; células humanas tales como PER.C6™ o células HEK-293; o células de insecto tales como células de Drosophila S2 y Spodoptera Sf9 o Sf21; o células de plantas tales como tabaco, tomate, patata, colza, repollo, guisante, trigo, maíz, arroz, especie Taxus tal como Taxus brevifolia, especie Arabidopsis tal como Arabidopsis thaliana, y especie Nicotiana tal como Nicotiana tabacum. Tales células no microbianas son particularmente adecuadas para la producción de proteínas de mamíferos o humanas para uso en terapia de mamíferos o de seres humanos.

La célula hospedante puede ser células hospedantes microbianas tales como células bacterianas o fúngicas. Las células hospedantes bacterianas adecuadas incluyen bacterias tanto grampositivas como gramnegativas. Los ejemplos de células hospedantes bacterianas adecuadas incluyen bacterias de los géneros Bacillus, Actinomycetis, Escherichia, Streptomyces, así como bacterias de ácido láctico tales como Lactobacillus, Streptococcus, Lactococcus, Oenococcus, Leuconostoc, Pediococcus, Carnobacterium, Propionibacterium, Enterococcus y

Bifidobacterium. Se prefieren particularmente Bacillus subtilis, Bacillus amyloliquefaciens, Bacillus licheniformis, Escherichia coli, Streptomyces coelicolor, Streptomyces clavuligerus, y Lactobacillus plantarum, Lactococcus lactis.

Como alternativa, la célula hospedante puede ser un microorganismo eucariota, tal como una levadura o un hongo filamentoso. Las levaduras preferidas como células hospedantes pertenecen a los géneros Saccharomyces, Kluyveromyces, Candida, Pichia, Schizosaccharomyces, Hansenula, Kloeckera, Schwanniomyces, y Yarrowia. Las células hospedantes de Debaromyces particularmente preferidas incluyen Saccharomyces cerevisiae, y Kluyveromyces lactis.

Según una realización más preferida, la célula hospedante de la presente invención es una célula de un hongo filamentoso. “Hongos filamentosos” incluye todas las formas filamentosas de la subdivisión Eumycota y Oomycota (como se define por Hawksworth et al., 1995, más arriba). Los hongos filamentosos se caracterizan por una pared de micelios compuesta de quitina, celulosa, glucano, quitosano, manano, y otros polisacáridos complejos. El crecimiento vegetativo es mediante alargamiento de las hifas, y el catabolismo del carbono es obligatoriamente aerobio. Los géneros fúngicos filamentosos cuyas cepas se pueden usar como células hospedantes en la presente invención incluyen, pero no se limitan a, cepas de los géneros Acremonium, Aspergillus, Aureobasidium, Cryptococcus, Filibasidium, Fusarium Humicola, Magnaporthe, Mucor, Myceliophthora, Neocallimastix, Neurospora, Paecilomyces, Penicillium, Piromyces, Schizophyllum, Chrysosporium, Talaromyces, Thermoascus, Thielavia, Tolypocladium, y Trichoderma. Preferiblemente, un hongo filamentoso que pertenece a una especie seleccionada del grupo que consiste en Aspergillus niger, Aspergillus oryzae, Aspergillus sojae, Trichoderma reesei o Penicillium chrysogenum. Ejemplos de cepas hospedantes adecuadas incluyen: Aspergillus niger CBS 513.88 (Pel et al., 2007, Nat Biotech. 25: 221-231), Aspergillus oryzae ATCC 20423, IFO 4177, ATCC 1011, ATCC 9576, ATCC14488-14491, ATCC 11601, ATCC12892, P. chrysogenum CBS 455.95, Penicillium citrinum ATCC 38065, Penicillium chrysogenum P2, Acremonium chrysogenum ATCC 36225 o ATCC 48272, Trichoderma reesei ATCC 26921 o ATCC 56765 o ATCC 26921, Aspergillus sojae ATCC11906, Chrysosporium lucknowense ATCC44006 y sus derivados.

La célula hospedante puede ser una célula hospedante de hongo filamentoso de tipo salvaje, o una variante, un mutante o una célula hospedante de hongo filamentoso genéticamente modificada. Tales células hospedantes fúngicas filamentosas modificadas incluyen, por ejemplo, células hospedantes con niveles reducidos de proteasas, tales como las cepas deficientes en proteasas como Aspergillus oryzae JaL 125 (descrita en los documentos WO 97/35956 o EP 429.490); la cepa de A. niger deficiente en tripeptidil-aminopeptidasas como se describe en el documento WO 96/14404, o células hospedantes con producción reducida del activador transcripcional de proteasas (prtT; como se describe en los documentos WO 01/68864, US2004/0191864A1 y WO 2006/040312); cepas hospedantes como la Aspergillus oryzae BECh2, en la que tres genes de TAKA amilasa, dos genes de proteasa, así como la capacidad para formar los metabolitos ácido ciclopiazónico y ácido kójico se han inactivado (BECh2 se describe en el documento WO 00/39322); células hospedantes fúngicas filamentosas que comprenden una respuesta proteica no plegada (UPR) elevada en comparación con la célula de tipo salvaje para potenciar las capacidades de producción de un polipéptido de interés (descritas en los documentos US2004/0186070A1, US2001/0034045A1, WO01/72783A2 y WO2005/123763); células hospedantes con un fenotipo deficiente en oxalato (descritas en los documentos WO2004/070022A2 y WO2000/50576); células hospedantes con una expresión reducida de un polipéptido endógeno abundante tal como glucoamilasa, alfa-amilasa A neutra, alfa-amilasa B neutra, alfa-1,6-transglucosidasa, proteasas, celobiohidrolasa y/o ácido oxálico hidrolasa (como se pueden obtener mediante modificación genética según las técnicas descritas en el documento US2004/0191864A1); células hospedantes con una mayor eficiencia de recombinación homóloga (que tienen el gen hdfA o hdfB deficiente, como se describe en el documento WO2005/095624); y células hospedantes que tienen cualquier posible combinación de estas modificaciones.

En un método de la invención, la secuencia de aminoácidos predeterminada puede ser una secuencia de aminoácidos (de un polipéptido de interés) que es heteróloga con dicha célula hospedante predeterminada, o puede ser una secuencia de aminoácidos (de un polipéptido de interés) que es homóloga con dicha célula hospedante predeterminada.

El término “heterólogo” cuando se usa con respecto a un ácido nucleico (ADN o ARN) o proteína se refiere a un ácido nucleico o proteína que no aparece de forma natural como parte del organismo, célula, genoma o secuencia de ADN o ARN en el que está presente, o que se encuentra en una célula o localización o localizaciones en el genoma o secuencia de ADN o de ARN que difieren de aquella en la que se encuentra en la naturaleza. Los ácidos nucleicos o proteínas heterólogos no son endógenos a la célula en la que se introducen, sino que se han obtenido de otra célula o se han producido sintética o recombinantemente. Generalmente, aunque no necesariamente, tales ácidos nucleicos codifican proteínas que no son producidas normalmente por la célula en la que se expresa el ácido nucleico. Cualquier ácido nucleico o proteína que un experto en la técnica reconocería como heterólogo o extraño a la célula en la que se expresa está englobado aquí por la expresión ácido nucleico o proteína heteróloga. El término heterólogo también se aplica a combinaciones no naturales de secuencias de ácido nucleico o de aminoácidos, es decir, combinaciones en las que al menos dos de las secuencias combinadas son extrañas una con respecto a la otra.

El término “homólogo”, cuando se usa para indicar la relación entre una molécula de ácido nucleico o polipeptídica

dada (recombinante) y un organismo hospedante o célula hospedante dada, se entiende que significa que en la naturaleza la molécula de ácido nucleico o polipeptídica se produce por una célula hospedante u organismos de la misma especie, preferiblemente de la misma variedad o cepa.

La secuencia de aminoácidos predeterminada puede ser la secuencia de cualquier polipéptido de interés que tiene aplicabilidad o utilidad comercial o industrial. De este modo, el polipéptido de interés puede ser un anticuerpo o una porción del mismo, un antígeno, un factor de coagulación, una enzima, una hormona o una variante de hormona, un receptor o sus porciones, una proteína reguladora, una proteína estructural, un informador, o una proteína de transporte, proteína intracelular, proteína implicada en proceso de secreción, proteína implicada en proceso de plegamiento, chaperona, transportador de aminoácido peptídico, factor de glicosilación, factor de transcripción. Preferiblemente, el polipéptido de interés se segrega en el entorno extracelular de la célula hospedante mediante la ruta de secreción clásica, mediante una ruta de secreción no clásica, o mediante una ruta de secreción alternativa (descrita en el documento WO 2006/040340). En el caso en el que el péptido de interés sea una enzima, puede ser, por ejemplo, una oxidorreductasa, transferasa, hidrolasa, liasa, isomerasa, ligasa, catalasa, celulasa, quitinasa, cutinasa, desoxirribonucleasa, dextranasa, esterasa. Las enzimas más preferidas incluyen, por ejemplo, carbohidrasas, por ejemplo celulasas tales como endoglucanasas, -glucanasas, celobiohidrolasas o glucosidasas, hemicelulasas o enzimas pectinolíticas tales como xilanasas, xilosidasas, mananasas, galactanasas, galactosidasas, pectina metil esterasas, pectina liasas, pectato liasas, endopoligalacturonasas, exopoligalacturonasas, ramnogalacturonasas, arabanasas, arabinofuranosidasas, arabinoxilan hidrolasas, galacturonasas, liasas, o enzimas amilolíticas; hidrolasa, isomerasa, o ligasa, fosfatasas tales como fitasas, esterasas tales como lipasas, enzimas proteolíticas, oxidorreductasas tales como oxidasas, transferasas, o isomerasas, fitasas, aminopeptidasas, carboxipeptidasas, endo-proteasas, metalo-proteasas, serina-proteasas, catalasas, quitinasas, cutinasas, ciclodextrina glicosil-transferasas, desoxirribonucleasas, alfa-galactosidasas, betagalactosidasas, glucoamilasas, alfa-glucosidasas, beta-glucosidasas, haloperoxidasas, invertasas, lacasas, manosidasas, mutanasas, peroxidasas, fosfolipasas, polifenoloxidasas, ribonucleasas, transglutaminasas, glucosa oxidasas, hexosa oxidasas, y monooxigenasas. Varias proteínas terapéuticas de interés incluyen, por ejemplo, anticuerpos y fragmento de los mismos, insulina humana y sus análogos, lactoferrina humana y sus análogos, hormona de crecimiento humana, eritropoyetina, activador de plasminógeno tisular (tPA) o insulinotropina. El polipéptido puede estar implicado en la síntesis de un metabolito, preferiblemente ácido cítrico. Tales polipéptidos incluyen, por ejemplo: aconitato hidratasa, aconitasa hidroxilasa, 6-fosfofructocinasa, citrato sintasa, carboxifosfonoenolpiruvato fosfonomutasa, glicolato reductasa, precursor de glucosa oxidasa goxC, nucleósidodifosfato-azúcar epimerasa, glucosa oxidasa, manganeso-superóxido-dismutasa, citrato liasa, ubiquinona reductasa, proteínas portadoras, proteínas transportadoras de citrato, proteínas respiratorias mitocondriales, y proteínas transportadoras de metales.

Ordenador, programa y soporte de datos

En un aspecto adicional, la invención se refiere a un ordenador que comprende un procesador y una memoria, estando el procesador dispuesto para leer de dicha memoria y escribir en dicha memoria, comprendiendo la memoria datos e instrucciones dispuestos para proporcionar a dicho procesador la capacidad para llevar a cabo el método de la invención.

En otro aspecto, la invención se refiere a un producto de programa de ordenador que comprende datos e instrucciones y dispuesto para ser cargado en una memoria de un ordenador que también comprende un procesador, estando el procesador dispuesto para leer de dicha memoria y escribir en dicha memoria, estando los datos e instrucciones dispuestos para proporcionar a dicho procesador la capacidad para llevar a cabo el método de la invención.

En todavía otro aspecto, la invención se refiere a un soporte de datos proporcionado con un producto de programa de ordenador como se define anteriormente.

Moléculas de ácido nucleico

En un aspecto adicional, la descripción se refiere a una molécula de ácido nucleico que comprende una secuencia codificante que codifica una secuencia de aminoácidos predeterminada. La secuencia codificante es preferiblemente una secuencia nucleotídica que no se asemeja a una secuencia codificante de origen natural. Más bien, la secuencia codificante en la molécula de ácido nucleico es una secuencia nucleotídica que no se encuentra en la naturaleza sino que es una secuencia nucleotídica artificial, es decir, manipulada mediante ingeniería, hecha por el hombre, que se generó en base al método para la optimización de preferencia de codones individuales y/o de pares de codones para una célula hospedante predeterminada según los métodos definidos aquí, y que se sintetizó subsiguientemente como una molécula de ácido nucleico tangible. Preferiblemente, la secuencia codificante tiene una fitsc(g) de al menos por debajo de 0,2, o más preferiblemente por debajo de 0,1, y lo más preferible por debajo de 0,02 para una célula hospedante predeterminada. Más preferiblemente, la secuencia codificante tiene una fitcp(g) de al menos por debajo de 0 para una célula hospedante predeterminada. Lo más preferible, la secuencia codificante tiene una fitcp(g) de al menos por debajo de -0,1 para una célula hospedante predeterminada, o más preferiblemente al menos por debajo de -0,2. Preferiblemente, el número de pares de codones en un gen optimizado g contiene al menos 60, 70, 75, 80, 85% pares de codones, y lo más preferible al menos 90% de pares de codones con pares de codones

negativos asociados para los organismos hospedantes especificados.

La secuencia de aminoácidos predeterminada codificada por la secuencia codificante puede ser cualquier polipéptido de interés como se define aquí anteriormente, y también la célula hospedante predeterminada puede ser cualquier célula hospedante como se define aquí anteriormente.

En la molécula de ácido nucleico, la secuencia codificante está preferiblemente enlazada de forma operable a una secuencia de control de la expresión que es capaz de dirigir la expresión de la secuencia codificante en la célula hospedante predeterminada. En el contexto de la descripción, una secuencia de control se define como una secuencia nucleotídica asociada operativamente a una secuencia codificante cuando están presentes juntas, y que incluye todos los componentes necesarios o ventajosos para la expresión de la secuencia nucleotídica que codifica el polipéptido a producir. Cada secuencia de control puede ser nativa o extraña a la secuencia nucleotídica que codifica el polipéptido a producir. Tales secuencias de control pueden incluir, pero no se limitan a, una secuencia líder, una secuencia de poliadenilación, una secuencia propeptídica, un promotor, una secuencia iniciadora de la traducción, una secuencia codificante iniciadora de la traducción, una secuencia terminadora de la traducción y una secuencia terminadora de la transcripción. Las secuencias de control se pueden proporcionar con ligadores, por ejemplo con el fin de introducir sitios de restricción específicos que facilitan la ligación de las secuencias de control con la región codificante de la secuencia nucleotídica que codifica un polipéptido.

Las secuencias de control de la expresión comprenderán habitualmente de forma mínima un promotor. Como se usa aquí, el término “promotor” se refiere a un fragmento de ácido nucleico que funciona para controlar la transcripción de uno o más genes, situado en dirección 5’ con respecto a la dirección de transcripción del sitio de iniciación de la transcripción del gen, y se identifica estructuralmente por la presencia de un sitio de unión para ARN polimerasa dependiente de ADN, sitios de iniciación de la transcripción y cualesquiera otras secuencias de ADN, incluyendo, pero sin limitarse a, sitios de unión a factores de transcripción, sitios de unión a proteínas represoras y activadoras, y cualesquiera otras secuencias de nucleótidos conocidos por un experto en la técnica para actuar directa o indirectamente para regular la cantidad de transcripción a partir del promotor. Un promotor “constitutivo” es un promotor que es activo en la mayoría de las condiciones medioambientales y de desarrollo. Un promotor “inducible” es un promotor que es activo bajo regulación medioambiental o de desarrollo.

Un segmento de ADN, tal como una secuencia de control de la expresión, está “ligado operablemente” cuando se coloca en una relación funcional con otro segmento de ADN. Por ejemplo, un promotor o potenciador está ligado operablemente a una secuencia codificante si estimula la transcripción de la secuencia. El ADN para una secuencia señal está ligado operablemente a ADN que codifica un polipéptido si es expresado como una pre-proteína que participa en la secreción del polipéptido. Generalmente, las secuencias de ADN que están ligadas operablemente son contiguas, y, en el caso de una secuencia señal, tanto contiguas como en fase de lectura. Sin embargo, los potenciadores no necesitan estar contiguos con las secuencias codificantes cuya transcripción controlan. El ligamiento se logra mediante ligación en sitios de restricción convenientes o en adaptadores, ligadores, o fragmentos de PCR por medios conocidos en la técnica.

La selección de una secuencia promotora apropiada depende generalmente de la célula hospedante seleccionada para la expresión del segmento de ADN. Los ejemplos de secuencias promotoras adecuadas incluyen promotores procariotas y eucariotas bien conocidos en la técnica (véase, por ejemplo, Sambrook y Russell, 2001, “Molecular Cloning: A Laboratory Manual (3ª edición), Cold Spring Harbor Laboratory, Cold Spring Harbor Laboratory Press, Nueva York). Las secuencias reguladoras transcripcionales incluyen típicamente un potenciador o promotor heterólogo que es reconocido por el hospedante. La selección de un promotor apropiado depende del hospedante, pero se conocen y existen promotores tales como los promotores trp, lac y fágicos, promotores de ARNt y promotores de enzimas glicolíticas (véase, por ejemplo, Sambrook y Russell, 2001, más arriba). Los ejemplos de promotores inducibles preferidos que se pueden usar son promotores inducibles por almidón, por cobre, por ácido oleico. Los promotores preferidos para células hospedantes fúngicas filamentosas incluyen, por ejemplo, el promotor de glucoamilasa de A. niger o el promotor de TAKA amilasa de A. oryzae y los promotores descritos en el documento WO2005/100573.

La secuencia nucleotídica de la descripción puede comprender además una secuencia señal, o más bien una región codificante de un péptido señal. Una secuencia señal codifica una secuencia de aminoácidos enlazada al término amino del polipéptido, que puede dirigir al polipéptido expresado a la ruta secretora de la célula. Las secuencias señal contienen habitualmente un núcleo hidrófobo de alrededor de 4-15 aminoácidos, que a menudo está inmediatamente precedido por un aminoácido básico. En el extremo carboxi terminal del péptido señal hay un par de pequeños aminoácidos no cargados, separados por un único aminoácido interviniente que define el sitio de escisión del péptido señal. von Heijne, G. (1990) J. Membrane Biol. 115: 195-201. A pesar de sus similitudes estructurales y funcionales globales, los péptidos señal nativos no tienen una secuencia consenso. Las regiones codificantes del péptido señal adecuadas pueden obtenerse a partir de un gen de glucoamilasa o amilasa de una especie Aspergillus, un gen de lipasa o proteinasa de una especie Rhizomucor, el gen para el factor alfa de Saccharomyces cerevisiae, un gen de amilasa o proteasa de una especie Bacillus, o el gen de pre-pro-quimiosina de ternera. Sin embargo, en la presente invención se puede usar cualquier región codificante del péptido señal capaz de dirigir a la proteína expresada a la ruta secretora de una célula hospedante de elección. Las regiones codificantes del péptido señal preferidas para células hospedantes de hongos filamentosos son la región codificante del péptido señal

obtenida del gen de TAKA amilasa de Aspergillus oryzae (documento EP 238.023), el gen de amilasa neutra de Aspergillus niger, glucoamilasa de Aspergillus niger, el gen de proteinasa aspártica de Rhizomucor miehei, el gen de celulasa de Humicola lanuginosa, celulasa de Humicola insolens, cutinasa de Humicola insolens, el gen de lipasa B de Candida antarctica, o el gen de lipasa de Rhizomucor miehei, y su secuencia señal mutante, truncada, e híbrida de los mismos. En una realización preferida de la invención, la secuencia nucleotídica que codifica la secuencia señal es una parte integrante de la secuencia codificante que está optimizada con respecto a la preferencia de codones individuales y/o pares de codones para el hospedante predeterminado.

En la molécula de ácido nucleico de la descripción, la secuencia codificante está enlazada preferiblemente de forma operable además a una secuencia iniciadora de la traducción. En eucariotas, la secuencia consenso nucleotídica (612 nucleótidos) antes del codón ATG iniciador se denomina a menudo secuencia consenso de Kozak debido al trabajo inicial de este tema (Kozak, M. (1987): an analysis of 5’-noncoding sequences from 699 vertebrate messenger RNAs. Nucl. Acid Res. 15(20): 8125-47). La secuencia consenso de Kozak original CCCGCCGCCrCC(ATG)G, que incluye un nucleótido +4 derivado por Kozak, está asociada con el inicio de la traducción en eucariotas superiores. Para células hospedantes procariotas, la secuencia de Shine-Delgamo correspondiente (AGGAGG) está preferiblemente presente en la región no traducida de 5’ de los ARNm de procariotas para servir como un sitio de comienzo traduccional para ribosomas.

En el contexto de esta invención, la expresión “secuencia iniciadora de la traducción” se define como los diez nucleótidos inmediatamente en dirección 5’ del codón iniciador o de partida del marco de lectura abierto de una secuencia de ADN que codifica un polipéptido. El codón iniciador o de partida codifica el aminoácido metionina. El codón iniciador es típicamente ATG, pero también puede ser cualquier codón de partida funcional, tal como GTG, TTG o CTG.

En particular, la molécula de ácido nucleico comprende una secuencia codificante que codifica una secuencia de aminoácidos predeterminada que se va a expresar en una célula hospedante fúngica, es decir, la célula hospedante predeterminada es preferiblemente un hongo, de los cuales los más preferidos son los hongos filamentosos. Las moléculas de ácido nucleico que comprenden secuencias codificantes que están optimizadas para la expresión en hongos según la invención pueden comprender además el uno o más de los siguientes elementos: 1) una secuencia consenso fúngica iniciadora de la traducción; 2) una secuencia codificante iniciadora de la traducción fúngica; y 3) una secuencia fúngica de terminación de la traducción.

Una secuencia consenso fúngica iniciadora de la traducción se define preferiblemente mediante las siguientes secuencias: 5’-mwChkyCAmv-3’, usando códigos de ambigüedad para los nucleótidos: m (A/C); r (A/G); w (A/T); s (C/G); y (C/T); k (G/T); v (A/C/G); h (A/C/T); d (A/G/T); b (C/G/T); n (A/C/G/T). Según una realización más preferida, las secuencias son: 5’-mwChkyCAAA-3’; 5’-mwChkyCACA-3’ o 5’-mwChkyCAAG-3’. Lo más preferible, la secuencia consenso de iniciación de la traducción es 5’-CACCGTCAAA-3’ o 5’-CGCAGTCAAG-3’.

En el contexto, la expresión “secuencia consenso codificante iniciadora de la traducción” se define aquí como los nueve nucleótidos inmediatamente en dirección 3’ del codón iniciador del marco de lectura abierto de la secuencia codificante (el codón iniciador es típicamente ATG, pero también puede ser cualquier codón de partida funcional, tal como GTG). Una secuencia consenso fúngica codificante iniciadora de la traducción preferida tiene la siguiente secuencia nucleotídica: 5’-GCTnCCyyC-3’, usando códigos de ambigüedad para los nucleótidos y (C/T) y n (A/C/G/T). Esto conduce a 16 variantes para la secuencia codificante iniciadora de la traducción, de la cual 5’-GCT TCC TTC -3’ es la más preferida. Usando una secuencia consenso codificante iniciadora de la traducción, se permiten los siguientes aminoácidos en las posiciones de aminoácidos mencionadas: alanina en +2, alanina, serina, prolina o treonina en +3, y fenilalanina, serina, leucina o prolina en la posición +4 en el polipéptido que es codificado. Preferiblemente, en la presente invención, la secuencia consenso codificante iniciadora de la traducción es extraña a la secuencia de ácido nucleico que codifica el polipéptido a producir, pero la secuencia consenso iniciadora de la traducción puede ser nativa a la célula hospedante fúngica.

En el contexto de esta descripción, la expresión “secuencia de terminación de la traducción” se define como los cuatro nucleótidos que empiezan a partir del codón de parada traduccional en el extremo 3’ del marco de lectura abierto o secuencia codificante. La secuencia de terminación de la traducción fúngica preferida incluye: 5’-TAAG-3’, 5’-TAGA-3’ y 5’-TAAA-3’, de la cual 5’-TAAA-3’ es la más preferida.

Una secuencia codificante que codifica una secuencia de aminoácidos predeterminada que se va a expresar en una célula hospedante fúngica está preferiblemente además optimizada con respecto a una frecuencia de codones individuales, de manera que al menos uno, dos, tres, cuatro o cinco codones originales, más preferiblemente al menos 1%, 2%, 3%, 4%, 5%, 10%, 15%, 20%, 25%, 50%, 75%, 80%, 85%, 90%, o 95% de los codones originales se han intercambiado por un codón sinónimo, codificando el codón sinónimo el mismo aminoácido que el codón nativo, y teniendo una mayor frecuencia en el uso de codones como se define en la Tabla A que el codón original.

Tabla A: Frecuencia óptima de codones fúngicos filamentosos para codones sinónimos, en %.

.T.: .C. .A. .G.

T..: Phe 0 Ser 21 Tyr 0 Cys 0 ..T

T..: Phe 100 Ser 44 Tyr 100 Cys 100 ..C

T..: Leu 0 Ser 0 Parada 100 Parada 0 ..A

T..: Leu 13 Ser 14 Parada 0 Trp 100 ..G

C..: Leu 17 Pro 36 His 0 Arg 49 ..T

C..: Leu 38 Pro 64 His 100 Arg 51 ..C

C..: Leu 0 Pro 0 Gln 0 Arg 0 ..A

C..: Leu 32 Pro 0 Gln 100 Arg 0 ..G

A..: Ile 27 Thr 30 Asn 0 Ser 0 ..T

A..: Ile 73 Thr 70 Asn 100 Ser 21 ..C

A..: Ile 0 Thr 0 Lys 0 Arg 0 ..A

A..: Met 100 Thr 0 Lys 100 Arg 0 ..G

G..: Val 27 Ala 38 Asp 36 Gly 49 ..T

G..: Val 54 Ala 51 Asp 64 Gly 35 ..C

G..: Val 0 Ala 0 Glu 26 Gly 16 ..A

G..: Val 19 Ala 11 Glu 74 Gly 0 ..G

Una secuencia codificante incluso más preferida que codifica una secuencia de aminoácidos predeterminada que se va a expresar en una célula hospedante fúngica está además optimizada preferiblemente con respecto a la

23 5

frecuencia de codones individuales, de manera que al menos uno, dos, tres, cuatro o cinco codones originales, más preferiblemente al menos 1%, 2%, 3%, 4%, 5%, 10%, 15%, 20%, 25%, 50%, 75%, 80%, 85%, 90%, o 95% de los codones originales se han intercambiado por un codón sinónimo, cambiando el codón sinónimo la frecuencia de codones de manera que el valor de la diferencia absoluta entre el porcentaje para dicho codón en dicha frecuencia y el porcentaje óptimo listado se hace más pequeño tras la modificación, aplicando la siguiente lista de porcentajes óptimos: cisteína codificada por TGC (100%); fenilalanina por TTC (100%); histidina por CAC (100%); lisina por AAG (100%); asparagina por AAC (100%); glutamina por CAG (100%); tirosina por TAC (100%); alanina por GCT (38,0%), GCC (50,7%), o GCG (11,3%); aspartato por GAC (63,2%); glutamato por GAG (74,2%); glicina por GGT (49,0%), GGC (35,9%), GGA (15,1%); isoleucina por ATT (26,7%), ATC (73,3%); leucina por TTG (12,7%), CTT (17,4%), CTC (38,7%), CTG (31,2%); prolina por CCT (35,6%), CCC (64,4%); arginina por CGT (49,1%), CGC (50,9%); serina por TCT (20,8%), TCC (44,0%), TCG (14,4%), AGC (20,8%); treonina por ACT (29,7%), ACC (70,3%) y/o valina por GTT (27,4%), GTC (54,5%), GTG (18,1%); todos los otros posibles codones que codifican aminoácidos (0%).

Las moléculas de ácido nucleico definidas anteriormente que comprenden las secuencias codificantes de la descripción (para la expresión en una célula hospedante predeterminada) pueden comprender además los elementos que se encuentran habitualmente en vectores de expresión, tales como un marcador seleccionable, un origen de la replicación y/o secuencias que facilitan la integración, preferiblemente a través de recombinación homóloga, en un sitio predeterminado en el genoma. Tales elementos adicionales son bien conocidos en la técnica y no necesitan ninguna explicación adicional aquí.

En un aspecto adicional, la descripción se refiere a una célula hospedante que comprende una molécula de ácido nucleico como se define aquí anteriormente. La célula hospedante es preferiblemente una célula hospedante como se define aquí anteriormente.

En todavía un aspecto adicional, la descripción se refiere a un método para producir un polipéptido que tiene la secuencia de aminoácidos predeterminada. El método comprende preferiblemente cultivar una célula hospedante que comprende una molécula de ácido nucleico como se define aquí anteriormente, en condiciones que conduzcan a la expresión del polipéptido, y, opcionalmente, recuperar el polipéptido.

En nuevamente un aspecto adicional, la descripción se refiere a un método para producir al menos uno de un metabolito intracelular y un metabolito extracelular. El método comprende cultivar una célula hospedante como se define aquí anteriormente en condiciones que conduzcan a la producción del metabolito. Preferiblemente, en el hospedante, el polipéptido que tiene la secuencia de aminoácidos predeterminada (que es codificada por la molécula de ácido nucleico como se define anteriormente) está implicado en la producción del metabolito. El metabolito (sea un metabolito primario o secundario, o ambos; sea intra-, extracelular, o ambos) puede ser cualquier producto de fermentación que se pueda producir en un proceso de fermentación. Tales productos de fermentación incluyen, por ejemplo, aminoácidos tales como lisina, ácido glutámico, leucina, treonina, triptófano; antibióticos, incluyendo, por ejemplo, ampicilina, bacitracina, cefalosporinas, eritromicina, monensina, penicilinas, estreptomicina, tetraciclinas, tilosina, macrólidos, y quinolonas; antibióticos preferidos son cefalosporinas y beta-lactamas; lípidos y ácidos grasos que incluyen, por ejemplo, ácidos grasos poliinsaturados (PUFAs); alcanol tal como etanol, propanol y butanol; polioles tales como 1,3-propanodiol, butanodiol, glicerol y xilitol; cetonas tales como acetona, aminas, diaminas, etileno; isoprenoides tales como carotenoides, caroteno, astaxantina, licopeno, luteína; ácido acrílico, esteroles tales como colesterol y ergosterol; vitaminas, incluyendo, por ejemplo, las vitaminas A, B2 B12, C, D, E y K, y ácidos orgánicos, incluyendo, por ejemplo, ácido glucárico, ácido glucónico, ácido glutárico, ácido adípico, ácido succínico, ácido tartárico, ácido oxálico, ácido acético, ácido láctico, ácido fórmico, ácido málico, ácido maleico, ácido malónico, ácido cítrico, ácido fumárico, ácido itacónico, ácido levulínico, ácido xilónico, ácido aconítico, ácido ascórbico, ácido kójico, y ácido comérico; un ácido orgánico preferido es ácido cítrico.

En este documento y en sus reivindicaciones, el verbo “comprender” y sus conjugaciones se usa en su sentido no limitante para significar que los aspectos que siguen a la palabra están incluidos, pero los aspectos no mencionados específicamente no están excluidos. Además, la referencia a un elemento mediante el artículo indefinido “un” o “una” no excluye la posibilidad de que esté presente más de uno del elemento, excepto que el contexto requiera claramente que haya uno y solamente uno de los elementos. El artículo indefinido “un” o “una” significa habitualmente así “al menos uno”.

Ejemplos

1. Ejemplo 1: Análisis de la preferencia del par de codones

1.1. Material y métodos

1.1.1. Datos y software

El análisis de par de codones se puede llevar a cabo en secuencias codificantes (CDS) en datos de secuencias de genoma completo así como grupos parciales derivados de esos (o una secuencia genómica parcial, como por ejemplo bibliotecas cDNA/EST, o incluso datos genómicos parciales de múltiples genomas de organismos relacionados). Las herramientas usadas en la presente invención leen estos datos usando como información de

entrada archivos FASTA. La inmensa mayoría de todos los cálculos se ha llevado a cabo en MATLAB 7.01 (The MathWorks, Inc., www.mathworks.com), pero para ciertos análisis detallados de los resultados obtenidos se usó Spotfire DecisionSite 8.0 (Spotfire, Inc., http://www.spotrire.com/products/decisionsite.cfm).

Para A. niger, se usó un archivo FASTA con secuencias de ADNc predichas para el genoma completo de CBS513.88 (Pel et al., 2007, Nat Biotech. 25: 221-231) y un grupo de 479 genes muy expresados. Además, puesto que habitualmente menos de la mitad de los >14.000 genes en A. niger se expresan al mismo tiempo en condiciones de fermentación a escala piloto, se usó el dato procedente de 24 GeneChips obtenidos usando tales condiciones para extraer un segundo conjunto de genes que incluye solamente genes que están realmente expresados en diversos experimentos (teniendo en cuenta solamente genes con al menos 18 llamadas de “presente”, usando el software de análisis de matriz Affymetrix MAS5.0; este conjunto comprendió 4.584 genes), y para clasificarlos según el nivel de ARNm observado (puesto que no existía ningún otro dato en ese momento), de manera que se pueda identificar fácilmente un conjunto de genes (presumiblemente) muy expresados de cualquier tamaño. Este segundo conjunto se creó para que fuese capaz de clasificar los datos según su nivel de expresión.

Para este análisis, se usaron niveles de transcripción de los genes. Como alternativa, también se pueden aplicar datos de expresión proteica cuantitativos, por ejemplo mediante electroforesis en gel bidimensional de las proteínas e identificación subsiguiente vía espectrometría de masas. Sin embargo, la generación de la expresión proteica en grandes conjuntos de proteínas todavía consume bastante tiempo en comparación con la determinación de los niveles de ARNm (por ejemplo usando genechips). Por lo tanto, lo que se hizo aquí es estudiar el efecto de la preferencia de codones sobre la traducción antes de que la traducción haya ocurrido realmente. . Gygi et al. (Yeast. Mol. Cel. Biol. 19(3):1720-30) encontraron realmente una “correlación de los niveles de expresión de proteína y ARNm con la preferencia de codones” en E. coli, incluso aunque la correlación de los niveles de expresión de ARNm y de proteína fue más bien rudimentaria solamente. Por tanto, la frase “nivel de expresión” se usará en este texto cuando se haya determinado realmente solo el efecto sobre el nivel de transcripción.

Para Bacillus subtilis, estaba disponible y se analizó un organismo que contiene alrededor de 4.000 genes, un grupo de 300 genes muy expresados. Véase la Tabla 1.1 para un resumen de las propiedades básicas de los genomas de todos los organismos que se han tenido en cuenta en este estudio (sin embargo, no todos ellos se describirán con detalle).

En cada análisis, se han ignorado genes (putativos) que incluyeron uno o más codones de parada en otra posición distinta de la del extremo, y secuencias con una longitud no divisible entre tres (es decir, en la que se puede haber producido un desplazamiento del marco durante la secuenciación). También, los primeros cinco y los últimos cinco codones de cada gen no se han tenido en cuenta debido a que estos sitios pueden estar implicados en la eficiencia de unión y liberación de proteínas y por lo tanto pueden estar sujetos a diferentes presiones de selección distintas de las otras partes de la secuencia, de manera que la preferencia del codón y del par de codones allí puede no ser representativa. También se han omitido del análisis los ORFs (ORF = marco de lectura abierto) más cortos de 20 codones. En la Tabla 1.1, esto ya se ha tenido en cuenta.

1.1.2 Apariciones esperadas de pares de codones

A fin de analizar el uso del par de codones, primero se han contado las apariciones de cada codón individual y de cada par de codones, representadas más abajo por nobs((ci,cj)), en el que obs representa observado. El paréntesis doble es necesario para indicar que el “número observado”, es decir, nabs, es una función con solo un argumento, que en sí misma es un par (en ese caso: un par de codones, es decir, (ci,cj)). Lo mismo se aplica a todas las funciones en pares de codones definidas más abajo. Los índices i, j y también k pueden ser 1 a 64, que indican el número del codón en la representación interna (según su orden alfabético). (ci,cj) representa un par de codones, siendo ci el codón izquierdo (es decir, el triplete de 5’ de la secuencia de 6 nucleótidos) y el derecho cj (es decir,

próximo al extremo 3’), así como el número de apariciones

para cada codón ck (en el que el subíndice sc representa codón individual y el superíndice all indica que el número se refiere al genoma completo, en oposición a

que se usará para representar relaciones de codones en un único gen g; las funciones de pares de codones como nabs((ci,cj)) siempre se refieren al número en el genoma completo o un grupo más grande de genes). Entonces se calcularon las relaciones de codones individuales (obsérvese que, en algunos documentos, estas relaciones también se denominan frecuencias). Sin embargo, las frecuencias de codones también pueden hacer referencia al número de apariciones de un codón dividido entre el número total de todos los codones

en la que syn(ck) representa el conjunto de codones que codifican el mismo aminoácido que ck y de este modo son sinónimos a ck. De este modo, el valor de la suma debajo de la barra de fracción es igual al número de apariciones del aminoácido codificado por ci en el proteoma completo. Véase el Apéndice 1 para una lista concisa de los símbolos y fórmulas más importantes usados aquí.

Para revelar si ciertas preferencias de pares de codones presuntas son solo el resultado de preferencias de los codones individuales, es necesario calcular valores esperados para cada par de codones basándose en frecuencias de codones individuales. Éstas se han calculado usando la fórmula

El superíndice own se usa para distinguir los valores de aquellos obtenidos usando otros métodos mencionados más tarde. En el último factor de esta ecuación, los números reales de apariciones de todos los pares de codones sinónimos se suman. De este modo, la cantidad esperada de cada par de codones es el producto de las relaciones de uso de codones individuales y el número de apariciones del par de aminoácidos respectivo.

Gutman y Hatfield (1989, Proc. Natl. Acad. Sci USA 86:3699-3703) propusieron otro método para calcular valores esperados. Su enfoque inicial fue calcular las frecuencias de codones (es decir, la cantidad de codones en un gen g dividida entre el número total de codones en g, representado por g) para cada gen individualmente, y después multiplicar estos valores por parejas y con el número de pares de codones en esa secuencia (que es g-1).

En esta ecuación, “ghl” representa el método 1 de Gutman y Hatfield (1989, más arriba). Esto da como resultado valores de pares de codones esperados para cada gen (la parte después del operador suma en la ecuación anterior), que entonces se suman, dando como resultado valores esperados finales que se ajustan por definición para posibles desviaciones en el uso de codones individuales entre diferentes genes del mismo genoma, pero no tienen en cuenta una posible preferencia en el uso de pares de aminoácidos. Esto significa que si ciertos aminoácidos tienden a estar próximos entre sí más a menudo que otros, o, en otras palabras, si los números de apariciones de los pares de aminoácidos no son similares a los que serían en secuencias aleatorizadas con la misma composición de aminoácidos, los valores esperados también serían significativamente diferentes por cuanto los pares de codones que codifican pares de aminoácidos más bien usados raramente tendrían valores esperados demasiado altos y aquellos de los pares de aminoácidos usados más a menudo los demasiado bajos.

Gutman y Hatfield (1989, más arriba) también propusieron un método para normalizar sus valores esperados para la preferencia de pares de aminoácidos. Por lo tanto, simplemente compararon el número esperado de pares de aminoácidos según sus métodos con los observados y en consecuencia aumentaron la escala de los valores esperados de todos los pares de codones afectados, para hacer que los primeros coincidan con los últimos:

En esta ecuación, “gh2” representa el método 2 de Gutman y Hatfield (1989, más arriba).

1.1.3 Cálculo de la preferencia del par de codones

La preferencia del par de codones real bias((ci,cj) debería resultar entonces de la diferencia entre los números esperados y reales (observados) de los pares de codones (en el que se puede usar cualquiera de estos métodos para los valores esperados). El enfoque inicial fue calcularla simplemente mediante

De este modo, el valor de la preferencia indicaría cuánto porcentaje más o menos a menudo del esperado se usa realmente el par de codones (esto es, si se multiplica por 100%). Para pares de aminoácidos que no aparecen en un conjunto analizado de genes, el valor de la preferencia según la fórmula sería 0/0 para todos los pares de codones correspondientes. En ese caso, se define como 0. El límite inferior de los valores de la preferencia sería así -1, mientras que no hay límite claro superior. Esto se consideró en cierto modo poco práctico, de manera que se usó

en la que max(a,b) representa el mayor de los dos valores a y b, que siempre da como resultado un valor de la preferencia en (-1,1). Esto significa que el valor de la preferencia puede ser -1, pero no +1. Lo anterior ocurre cuando un cierto par de codones no se usa en absoluto para codificar un par de aminoácidos que aparece realmente; el valor +1 no se puede alcanzar debido a que nexp((ci,cj)) tendría que ser 0 también entonces, pero esto es solo posible cuando nobs((ci,cj)) es 0.

La interpretación dada anteriormente es todavía válida para valores de la preferencia <0 (lo que significa que nobs((ci,cj))<nexp((ci,cj)), de manera que ambas fórmulas tienen el mismo resultado). Si nobs((ci,cj)) > nexp((ci,cj)), los valores de la preferencia (que entonces son >0) indican cuánto porcentaje menor que el valor observado es el valor esperado (es decir, en ese caso, se cambia la línea base).

1.1.4 Significancia estadística de la preferencia

Gutman y Hatfield (1989, más arriba) usaron la prueba de 2 para determinar la significancia estadística de sus resultados. Esta prueba se usa para comprobar cuán probable es que ciertos resultados observados ocurran por casualidad bajo una hipótesis específica. Cuando se examinan los pares de codones, esta hipótesis sería que el uso de pares de codones es el resultado de una selección aleatoria de cada codón independientemente. Para evaluar esta hipótesis, se calcula un valor 2

(representando CP el conjunto de todos los pares de codones sin incluir un codón de parada). El número de grados de libertad es entonces 3720 (61*61-1). Si la selección de los pares de codones fuera aleatoria, se podría esperar que el valor de 2 sea alrededor de 3720 (igual al número de grados de libertad), con una desviación estándar igual a la raíz cuadrada de 2*grados de libertad.

De este modo, se puede evaluar la significancia estadística global de la preferencia observada. Sin embargo, también se podría deducir la significancia estadística de la preferencia de pares de codones individuales. En cuanto al método para calcular valores esperados propuestos previamente, el número de apariciones de un par de codones se considera que es el resultado de una secuencia de experimentos independientes sí/no (sí: los dos codones se seleccionan para codificar el par de aminoácidos respectivo; no: se selecciona otro par de codones), de manera que sigue una distribución binomial, que se puede aproximar a una distribución normal si el conjunto de genes analizados es suficientemente grande. Esto se considera una buena aproximación si n*p>4, en el que n representa el número de experimentos y p la probabilidad de “sí”, que es también el valor esperado. Por lo tanto, para cada par de codones se puede calcular una desviación estándar según la fórmula

Entonces, se pueden calcular las puntuaciones estándar, también denominadas puntuaciones z

El valor absoluto de la puntuación z informa sobre cuántas desviaciones estándar lejos del valor esperado está el 5 valor real (observado). Suponiendo una distribución normal, aproximadamente 95% de todas las observaciones estarían dentro de dos desviaciones estándar del valor esperado, y >99% dentro de tres.

1.2 Resultados

1.2.1 Existencia de preferencia de pares de codones

Usando los métodos anteriores, se ha encontrado que existen preferencias de pares de codones significativas. Para

10 todos los organismos investigados, las pruebas de 2 suministraron valores 2 varias veces tan altos como el número de grados de libertad, y de este modo, también muchas desviaciones estándar por encima del valor esperado. En cuanto a la preferencia de pares de codones individuales, se pudo confirmar el hallazgo de Moura et al. de que, en levadura, “alrededor de 47% de los contextos de pares de codones caen dentro del intervalo -3 a +3” desviaciones estándar lejos de los valores esperados (aunque calcularon los valores esperados de forma diferente), que

15 corresponde a las puntuaciones z en nuestro análisis. En general, hay significativamente más pares de codones con puntuaciones z más bien elevadas que los que habría si el uso de pares de codones fuese aleatorio. Véase la Tabla

1.2: con una selección aleatoria, que daría como resultado aproximadamente una distribución normal, por ejemplo solamente alrededor de 5% de todos los pares de codones deberían tener una puntuaciones z mayor que 2 o menor que -2, pero en el genoma completo de los cuatro organismos seleccionados, esto se aplica realmente a más de dos

20 tercios.

Tabla 1.2. Puntuaciones z en diferentes organismos

|puntuación z|: >1 >2 >3

Distribución normal: 68,3% 5,0% 0,3%

A. nidulans: 86,1% 73,7% 60,4%

A. niger: 89,2% 79,1% 69,7%

A. oryzae: 88,4% 76,7% 65,1%

B. amyloliquefaciens: 88,1% 76,4% 64,0%

B. subtilis: 86,1% 72,0% 59,3%

E. coli K12: 86,1% 74,8% 64,0%

K. lactis: 82,6% 67,0% 53,4%

P. chrysogenum: 89,3% 79,1% 69,0%

S. cerevisiae: 82,7% 67,6% 52,1%

S. coelicolor: 82,0% 66,5% 53,5%

T. reesei: 89,0% 79,8% 71,0%

Obsérvese que estos valores están en cierto modo correlacionados con el tamaño del genoma (véase la Tabla 1.1 para una comparación), es decir, el organismo con genomas más grandes tiende a tener pares de codones con puntuaciones z más extremas. Especialmente cuando se analizan grupos más pequeños de genes (por ejemplo, los

25 479 muy expresados en A. niger), los valores son menores (para este ejemplo: 65,1%, 37,2% y 19,7%, respectivamente), ya que menores números de apariciones conducen a mayores desviaciones estándar (en comparación con los valores esperados) y de este modo a una significancia estadística menor de los resultados. Esto conduce a la conclusión de que el uso de pares de codones no es el resultado de una selección aleatoria de los codones según las relaciones de codones individuales.

30 La distribución de los propios valores de la preferencia difiere de un organismo a otro. Esto se puede explicar con referencia a la Figura 3, que muestra la distribución de valores de preferencia de los pares de codones para los

3.721 pares de codones sentido:sentido en diferentes organismos. Los números en la esquina superior derecha de cada histograma en la Figura 3 son las desviaciones estándar para la distribución observada; los valores medios (no mostrados) están entre -0,06 y -0,01 para todos los organismos. En los histogramas mostrados en la Figura 3, se puede observar que de los diez organismos ensayados, las bacterias E. coli, B. subtilus, B. amiloliquefaciens y S. coelicolor tienen la preferencia de pares de codones más extrema, mientras que la preferencia en los hongos A. niger, A. oryzae, A. terreus, A. nidulans, P. chrysogenum y levaduras S. cerevisiae y K. lactis, es menos extrema.

Se puede hacer otra observación interesante cuando se compara la preferencia de pares de codones de diferentes organismos. Los valores de la preferencia de organismos relacionados muestran una mayor correlación que los de organismos no relacionados. Esto se explica con referencia a la Figura 4. La Figura 4 muestra correlación en la preferencia de pares de codones de diversos organismos. En la esquina superior derecha de cada subgráfica se muestra un coeficiente de correlación. En este análisis, las correlaciones más elevadas se podrían observar entre A. niger frente a P. chrysogenum, y A. niger frente a A. oryzae, la más baja, es decir, efectivamente ninguna correlación, se podría observar entre B. subtilis y S. coelicolor. De forma interesante, no se han observado correlaciones negativas. Esto significa que aunque los organismos con un contenido elevado de GC (como S. coelicolor) prefieren mayoritariamente estos codones que son los menos usados en organismos ricos en AT (como

S. cerevisiae o, aunque no extremadamente rico en AT, B. subtilis), no hay dos organismos en los que los pares preferidos de un organismo sean probablemente rechazados en el otro, y viceversa. Esto podría significar que aunque la preferencia de casi cualquier codón individual depende del organismo, hay varios pares de codones que son preferidos y/o rechazados en casi cualquier organismo (por ejemplo, debido a su probabilidad para provocar desplazamientos del marco o ARNt sin estructura de coincidencia).

1.2.2 Patrones en la preferencia de pares de codones

A fin de visualizar la preferencia del par de codones observada, se pueden dibujar los denominados mapas como se ha hecho por Moura et al. (2005) (llaman a estos mapas “mapas de contexto de codones”). Esto se puede explicar muy fácilmente con referencia a imágenes coloreadas que consisten en rectángulos coloreados para cada par de codones, representando las filas el primer y representando las columnas el segundo codón del par. Los colores rojos indican una preferencia negativa, y los verdes una preferencia positiva. El blanco representa pares de codones que realmente tienen una preferencia igual a 0 (que es el caso para ATG-ATG, por ejemplo, puesto que esa es la única manera para codificar el par de aminoácidos Met-Met) y pares que incorporan un codón de parada.

Sin embargo, las imágenes coloreadas no pueden ser parte de la descripción de una solicitud de patente. Para la visualización en negro y blanco, la imagen se dividirá en dos imágenes en este ejemplo. La Figura 5A presenta los pares de codones positivos para A. niger, mientras que la Figura 5B presenta los pares de codones negativos para

A. niger (véase también el Apéndice 3, Tabla C1). Cuanto más preferido sea el par de codones, más negro es el rectángulo correspondiente. Los valores de la preferencia oscilan aquí desde -0,67 hasta 0,54, en los que en otros organismos pueden incluso estar ligeramente por encima de +/-0,9 (véase también la Figura 3). Las intensidades más elevadas de negro (verde original (parte superior)) y negro (rojo original (parte superior)) en estos diagramas representan valores de 0,9 y -0,9, respectivamente (no alcanzados aquí; generalmente, los valores absolutos de la preferencia máxima son ligeramente menores que aquellos de la preferencia mínima.

Además, se prefieren tablas de matrices CPW en el Apéndice 3, que contienen los valores numéricos de la preferencia de los pares de codones y se hace referencia a la Figura 5 como un ejemplo de blanco y negro de la imagen coloreada, por lo que la persona experta puede reconstruir una versión coloreada usando los valores numéricos a partir de las tablas en el Apéndice 3.

El primer enfoque a estos mapas de pares de codones fue clasificar las filas y columnas según su orden alfabético (ya que éste es el orden de su representación interna). Lo que se pudo ver en ese mapa fue que las diagonales parecían contener manchas ligeramente más verdes que rojas, lo que indica que muchos codones tienen una preferencia por el mismo codón como su vecino. Además, la mayoría de las columnas vecinas fueron en cierto modo similares, mientras que las filas vecinas mayoritariamente no lo fueron (datos no mostrados); véanse las Figuras 5A y 5B y el Apéndice 3, Tabla C1. Sin embargo, la mayoría de las filas fueron similares a una fila separada por otras tres, es decir, hubo cierta similitud cada cuarta fila.

Puesto que la propiedad común de cada cuarta fila es el último nucleótido del primer codón de los pares, es más preferido clasificar las filas clasificadas según el orden alfabético de la tercera posición como primer criterio de clasificación, y la posición central como segundo. Lo que se puede observar entonces en el mapa para A. niger (Figuras 5C y D, y Apéndice 3, Tabla C1) es que la preferencia parece correlacionarse de hecho principalmente con el último nucleótido del primer (5’) y el primer nucleótido del segundo (3’) codón, ya que la mayoría de los valores de los bloques respectivos de 16*16 pares de codones tienen el mismo color. Por ejemplo, una regla general que se puede identificar en Aspergillus es que los pares de codones como xxT-Axx (representando x cualquier nucleótido, que indica que aquel en la posición respectiva no es importante para la regla especificada) son rechazados (bloque rojo en la esquina inferior izquierda, mientras que el patrón xxA-Txx caracteriza a codones preferidos (bloque verde en la esquina superior derecha), indicando nuevamente que la preferencia del par de codones es direccional. Sin embargo, no toda la preferencia se puede explicar justamente con patrones en los dos nucleótidos vecinos en el “centro” del par de codones. Los pares de codones xxC-Axx, por ejemplo (véase segundo bloque desde la parte

superior muy a la izquierda), no son preferidos o rechazados generalmente, sino que hay una clara preferencia por pares del patrón xxC-AAx (obsérvense las cuatro columnas verdes en la izquierda del bloque que se acaba de mencionar). La preferencia también puede depender de nucleótidos no vecinos (por ejemplo, el fuerte rechazo de pares CxA-Gxx en B. subtilis; véanse las Figuras 6A y 6B y el Apéndice 3, Tabla C4). Desafortunadamente, la preferencia del par de codones no se puede atribuir siempre a tales patrones “simples” (véase por ejemplo el mapa más bien caótico para E. coli en las Figuras 7A y B y Apéndice 3, Tabla C5) – incluso cuando se lleva a cabo un análisis de agrupamientos usando Spotfire DecisionSite 8.0 (http://www.spotfire.com/products/decisionsite.cfm), no se pudieron encontrar propiedades generales (datos no mostrados), es decir, los agrupamientos identificados consistieron mayoritariamente en codones no relacionados (es decir, nucleótidos no comunes en la misma posición).

1.2.3 Relación de preferencia y nivel de expresión

Observando el mapa de preferencia para los genes con nivel de expresión elevada (o mejor: nivel de expresión presumiblemente elevada, puesto que se identificaron observando solamente los niveles de transcripción) de A. niger (véase la Figura 8), la existencia de grupos más grandes, es decir, bloques en el diagrama, no es tan obvia (o, en otras palabras, pueden no existir en absoluto reglas simples como se describen anteriormente). Incluso puesto que dos tercios de todos los pares de codones aparecen 36 o menos veces en este grupo, y debido a las puntuaciones z de media mucho menores como se menciona anteriormente, se puede atribuir esto a un grado elevado de fluctuaciones aleatorias.

La Figura 9 muestra una gráfica de dispersión de la preferencia en un grupo de 479 genes muy expresados (eje vertical) frente a la preferencia en todos los genes (horizontal) de A. niger. Se muestran todos los 3.721 pares de codones que no implican codones de parada.

Se asignaron sombras desde gris claro hasta negro según los valores absolutos de las puntuaciones z en el genoma global, es decir, los puntos claros en la gráfica no tienen una preferencia significativa en todos los genes), como lo fueron los tamaños según las puntuaciones z absolutas en el grupo muy expresado, es decir, puntos muy pequeños no tienen una preferencia significativa allí (aquí puntuación z<1,9. La línea negra continua indica el momento en el que ambos valores de la preferencia son iguales; la línea negra discontinua muestra la mejor aproximación lineal de la correlación real (identificada mediante análisis de componentes principales); su pendiente es alrededor de 2,1.

Cuando se comparan los dos valores de la preferencia de cada par de codones en el grupo muy expresado y en el genoma completo (véase la gráfica de dispersión en la Figura 9), se puede observar que para la mayoría de los pares la preferencia en el grupo muy transcrito es más extrema, es decir, menor si está por debajo de 0 y mayor si es positiva, pero hay algunos pares en los que los valores de la preferencia son bastante diferentes e incluso tienen un signo diferente. Sin embargo, éstos son mayoritariamente pares de codones con un número pequeño de apariciones en el grupo superior, y la mayoría de los pares en los que la preferencia es muy significativa (círculos grandes azules) tienen preferencias similares en ambos grupos (es decir, están próximos a la línea azul que indica dónde ambos valores de la preferencia son iguales).

No se pudo encontrar ningún patrón específico con respecto a diferencias de la preferencia similar de codones que comparten dos de los tres nucleótidos (ni para A. niger ni para B. subtilis), es decir, en las gráficas de la diferencia de preferencias análogas a una de las anteriores no hubo grupos más grandes con una diferencia de preferencia similar.

1.3. Detalles de la identificación de pesos de pares de codones para la adaptación génica

El peso de los pares de codones para la adaptación se puede determinar ahora según los métodos descritos (Apéndice 1: Pesos de pares de codones – grupo de secuencia del método uno (o genoma)):

1.: basándose en el conjunto completo de genes; basándose en un subconjunto de 1.

2.: identificándose como la fracción de genes muy expresados.

Además, se comenzó una búsqueda para identificar pesos de pares de codones que se relacionaban claramente con un nivel mayor de transcripción, lo que se requiere para un método mejorado para la adaptación del uso de pares de codones, y se han aplicado los siguientes métodos: en A. niger, en el que existía una clasificación completa extraída de los datos de GeneChip para el conjunto mencionado anteriormente de 4.584 genes realmente expresados (véase “Datos” en “Materiales y Métodos”), se calcularon los pesos medios de los pares de codones de cada gen (es decir, el equivalente de los valores fitcp(g)). Después, los genes se clasificaron según los valores de adecuación (orden ascendente) y nivel de expresión (orden descendente). Puesto que se supone que los genes muy expresados tienen valores de adecuación bajos de los pares de codones, estas dos clasificaciones serían iguales cuando se usan pesos ideales de pares de codones, de manera que una comparación de estas dos clasificaciones puede dar información sobre la calidad de los pesos usados en la función de adecuación (en la que se dio ligeramente más atención a la clasificación “correcta” de los genes muy expresados que a la clasificación de los mediocres). Adicionalmente, se calculó el coeficiente de correlación (covarianza dividida entre la desviación estándar de cada variable) entre los pesos de los pares de codones de la clasificación y promedio de los 4.584 genes.

Se han examinado varios posibles conjuntos de pesos, incluyendo

i. valores de preferencia de todo el genoma,

ii. valores de preferencia del grupo muy expresado,

iii. preferencia con todos los valores que no tienen una cierta puntuación z mínima ajustada a cero

iv.: valores de preferencia elevados a la potencia de 2 (y algunos otros valores) para dar a los codones muy preferidos o rechazados una menor/mayor influencia

v.: sus combinaciones

vi. las propias puntuaciones z

vii. diferencia de los valores de preferencia/puntuaciones z del grupo muy expresado y el genoma completo.

Para el algoritmo genético (GA), se han usado sus negaciones, puesto que se han identificado pares de codones preferidos con valores positivos (más bien arbitrariamente), pero el GA lleva a cabo la minimización. Esto se aplica a todos los pesos mencionados.

De estos, la “mejor” matriz de pesos resultó ser una combinación de los apartados ii a iv; sin embargo, se pudo obtener una incluso mejor – como se describe anteriormente – calculando la “preferencia” de los pares de codones en el grupo muy expresado usando valores esperados calculados basándose en las relaciones de codones de todo el genoma. La Figura 10 muestra la correlación que se observa.

A diferencia de todos los otros conjuntos de pesos ensayados, los pares de codones que implican codones que están más subrepresentados en el grupo muy expresado obtienen aquí una ligera desventaja. De este modo, estos pesos son los únicos que también reflejan la diferente preferencia de codones individuales del grupo expresado y todos los genes. El uso de estos pesos conlleva el riesgo de rechazar algunos pares de codones que realmente tienen una preferencia positiva en el grupo muy expresado, pero que consiste en (en el grupo muy expresado) codones raramente usados. Sin embargo, puesto que nuestras relaciones de codones individuales deseadas no son habitualmente idénticas a aquellas en el grupo de genes con expresión elevada, sino más “extremas” que estas, la optimización de codones individuales reemplazaría de todas formas a estos subrepresentados, de manera que se pueden considerar a los pesos descritos anteriormente muy convenientes para la optimización de pares de codones.

Concluyendo, se ha identificado como se describe anteriormente una matriz de pesos de pares de codones potencialmente mejorada para la adaptación de genes. La ecuación se da en el Apéndice 1: Pesos de pares de codones – método de grupo muy expresado con grupo de referencia (o genoma).

1.4. Optimización de codones individuales y de pares de codones in silico

1.4.1. Material y métodos

La caja de herramientas MATLAB desarrollada para analizar y optimizar genes consiste en varias funciones que se han organizado en diferentes directorios según sus capacidades. A fin de usarlas, es necesario por lo tanto hacer que el entorno de MATLAB las conozca a todas. Para hacer esto, seleccione “Set Path” del menú File y después haga clic en “Add with subfolders” y seleccione la ruta en la que se instala la caja de herramientas (habitualmente denominada “Matlab-bio”). También añada la localización de FASTA y otros archivos que deberían analizarse. Todas las funciones de MATLAB individuales se describen brevemente en “contents.m” (teclee “help Matlab-bio” para presentar este archivo en el entorno de MATLAB, y use “help” seguido de un nombre de función para obtener información detallada sobre ella). Para la optimización génica enfocada al uso de pares de codones, las dos funciones importantes son “fullanalysis” y “geneopt”.

Si el genoma completo de un organismo al que se desea adaptar un gen está situado en el archivo, digamos “Aniger_ORF.fasta”, y los identificadores de estos genes muy expresados están en “an-high.txt”, teclee “fullanalysis(‘Aniger_ORF.fasta’,’an-high.txt’, ‘an’);” y obtendrá (i) un mapa de preferencias de pares de codones para todo el genoma, (ii) un mapa de preferencias de pares de codones para el grupo de genes en el segundo archivo, y

(iii) varias variables (es decir, conjuntos de datos almacenados temporalmente) en el espacio de trabajo de MATLAB para uso posterior. El tercer parámetro de “fullanalysis” determina solamente cuántas de estas variables se nombran, y se puede omitir si se va a analizar al mismo tiempo solamente un genoma. Entre las variables mencionadas están: (i) datos del uso y preferencia de pares de codones para el genoma completo (denominado en este ejemplo “cpan”), (ii) las mismas para el grupo especial de genes especificado por el segundo parámetro (denominado “cpans”), y (iii) estructura con relaciones de codones individuales diana y pesos de pares de codones que se pueden usar para el algoritmo genético. “fullanalysis (‘Xyz_ORF.fasta’) ;” solo mostrará el mapa de preferencias de pares de codones y almacenará los datos de las preferencias para el genoma respectivo.

Aunque el segundo parámetro puede ser cualquier archivo que incluya identificadores génicos (por ejemplo, un conjunto de genes con baja expresión, o genes con una cierta función común), siempre se trata como un conjunto de

genes muy expresados con respecto a este parámetro (potencial) (denominado “optparamforan” en este ejemplo, que significa el parámetro de optimización para el organismo especificado ). Obsérvese que las relaciones de

codones individuales se calculan aquí de forma simple que es una aproximación aceptable. Las relaciones diana pueden identificarse igualmente mediante otros métodos que incluyen los detalles de la distribución de codones individuales (véase texto principal) a fin de mejorar adicionalmente la especificación de las relaciones deseadas. Además, las relaciones diana se pueden dejar vacías cuando no se encuentra preferencia específica, a fin de dar al algoritmo de pares de codones más libertad a la hora de encontrar soluciones con una adecuación mayor de los pares de codones. En el Apéndice 1 se dan, para diversos organismos hospedantes, varios de tales vectores diana de codones individuales predeterminados.

Para usar las relaciones diana de codones individuales preespecificadas para el algoritmo genético, cambie el campo “cr” del parámetro tecleando “optparamforan.cr = [“, después pegue las relaciones de codones individuales (por ejemplo, copiadas de una hoja de Excel; obsérvese que deberían estar en orden alfabético de los codones), teclee “] ;” si las relaciones están disponibles como una fila de 64 elementos, o “J’ ;” si se copian de una columna, y presione enter (observe las comillas o apóstrofe individual adicional después de cerrar el corchete en este último caso). A las relaciones de codones no importantes, es decir, codones en los que no se desea una relación diana específica, se les puede asignar el “valor” NaN (no un número), y se ignorarán cuando se calcula la adecuación de codones individuales.

Para excluir ciertas secuencias cortas del gen optimizado, ajuste el parámetro “rs” de la misma manera, en el que cada secuencia se debe encerrar mediante comillas individuales, y todas las secuencias juntas se deben encerrar entre llaves, por ejemplo (sin el salto de línea) “optparamforan.rs = {‘CTGCAG’ ‘GCGGCGCC’};”. Finalmente, el campo cpi del parámetro se puede cambiar para dar a la optimización de codones individuales o a la optimización de pares de codones una mayor importancia en la función de adecuación combinada (véase la subsección “llevando a cabo la optimización de pares de codones” en “resultados y discusión”). El valor por defecto es 0,2. Ajústese a un valor inferior si los resultados de los experimentos con genes optimizados por pares de codones revelan poca mejora de genes optimizados por pares de codones en comparación con los optimizados por codones individuales; en el caso opuesto, puede ser mejor un mayor cpi.

La optimización real del gen usando el algoritmo genético se puede llevar a cabo entonces usando la función geneopt. Los únicos parámetros necesarios son la secuencia a optimizar y la estructura que contiene pesos de pares de codones, relaciones diana y sitios de restricción como se describe anteriormente, de manera que geneopt ( ‘MUVARNEQST*’, optparamforan); podría usarse por ejemplo para optimizar la secuencia de proteína (más bien corta) dada para la expresión elevada en A. niger; el “*” se usa para significar que la secuencia genética resultante debería tener un codón de parada en el extremo (sin embargo, puesto que se cree que la señal de parada óptima en

A. niger es el tetrámero TAAA, esto no es necesario). Obsérvese que la secuencia a optimizar se debe encerrar nuevamente entre comillas individuales; si la secuencia contiene solo las letras A, C, G, T o U y su longitud es un factor de 3, se considera automáticamente como una secuencia nucleotídica. El algoritmo genético se ejecuta entonces para 1000 generaciones con un tamaño de población de 200, de los cuales cada 80 se mantienen para la generación (los 79 mejores y uno elegido aleatoriamente) y se usan para generar nuevos individuos, en el que 40% de los nuevos individuos se generan usando cruzamiento y 60% usando el operador de mutación. Estos valores por defecto resultaron ser muy convenientes para la optimización, es decir, los cambios en estos parámetros conducirán solamente, si lo hacen, a genes muy ligeramente “mejores”, pero igualmente se pueden cambiar, por ejemplo si se debería gastar en la optimización significativamente más o menos tiempo de cálculo (una ejecución promedio de geneopt con un gen de alrededor de 500 codones tarda alrededor de 15 minutos en un procesador Pentium M de 1,4 GHz). Por ejemplo, geneopt (seq, optparamforan, [50 750 5 0 0.6]) permite al algoritmo genético calcular 750 generaciones de una población en la que se mantienen 50 individuos para cada nueva generación, y se generan nuevamente 250 (5*5; es decir, en cada generación se examinan 300 individuos), solo se mantienen los mejores individuos (y no los recogidos al azar), y el 60% de las recombinaciones se llevan a cabo usando el operador de cruzamiento. Para más detalles sobre cómo especificar estos parámetros, teclee help geneopt y help geneticalgorithm.

Obsérvese que aunque el procedimiento de generar pesos de pares de codones analizando los archivos FASTA correspondientes se muestra y se describe aquí para A. niger y B. subtilis, justamente para estos dos organismos esto no es necesario debido a que estos cálculos ya se han llevado a cabo para optimizaciones génicas previas. Para uso más fácil, se han almacenado los parámetros respectivos para los algoritmos genéticos (teclee “load gadata_for_an” o “load gadata_for_bs”, respectivamente; obsérvese que los parámetros allí ahora se denominan simplemente an_param y bs_param.

1.4.2 Resultados

La Figura 11 muestra los valores de adecuación de cinco versiones optimizadas cada una para diferentes valores de cpi (véase la leyenda del diagrama en la Figura 11). La proteína es una -amilasa fúngica (FUA; también denominada como AmyB) que se optimizó para el hospedante A. niger (véase el Ejemplo 2). Adicionalmente, se muestran los resultados de la optimización de codones individuales “pura” (puntos negros a la derecha) y la

optimización de pares de codones (grupo en la izquierda superior). Las versiones optimizadas se obtuvieron ejecutando el algoritmo genético durante alrededor de 1000 generaciones con un tamaño de población de 400, que tardó alrededor de 17 minutos para cada ejecución en un Pentium M de 1,4 GHz. Obsérvese que la optimización de codones individuales pura y la optimización de pares de codones pura tardó solo alrededor de 60% de ese tiempo. En la Figura 11, el tipo salvaje (fitsc(gfua)=0,165, fitcp(gfua)=0,033) no es adecuado en esta gráfica (estaría lejos a la derecha y por encima). El gen óptimo es siempre aquel con los valores más bajos para fitsc y fitcp. Dada la posición de los puntos, no está claro por lo tanto para qué valor de cpi se podría obtener el gen más mejorado, puesto que todavía no sabemos si es más importante el uso de codones individuales o el uso de pares de codones. Sin embargo, una solución bastante intermedia aparece en el caso de cpi = 0,2.

La mejora en el uso de codones individuales y de pares de codones se puede visualizar en denominadas gráficas de calidad de secuencia propuestas en este trabajo. La Figura 12 ilustra dos diagramas que muestran la calidad de secuencia de los primeros 20 (de 499) codones de la FUA mencionada anteriormente (véase también el Ejemplo 2).

Obsérvese que estos diagramas de calidad de secuencia no dependen solamente de la propia secuencia, sino también del conjunto de pesos y las relaciones de codones individuales deseadas, y de este modo del organismo. Obsérvese también que es posible definir relaciones diana de codones individuales como “no importa” para aquellos codones con preferencia de codones baja o ninguna, es decir, el uso de cierto codón no es considerado positivo o negativo para la expresión en comparación con sus codones sinónimos. En ese caso, solo se muestra la marca x azul para la relación real del codón respectivo en el gen, y esa posición particular se ignora cuando se calcula la adecuación de codones individuales (véase 1.4. Optimización de codones individuales y de pares de codones in silico).

1.5 Conclusiones

Se ha establecido en un amplio intervalo de organismos una correlación significativa entre el uso de pares de codones y los niveles de transcripción. Se demostró que esta preferencia no solo se puede explicar por preferencia dinucleotídica alrededor del sitio del marco de lectura. Puesto que las posibles explicaciones para la preferencia o rechazo de ciertos pares de codones se centran todas ellas en la traducción, se debería suponer que ambos están provocados por selección natural que actúa al mismo tiempo sobre características que afectan a la traducción y otras características que afectan a la transcripción, a fin de minimizar los esfuerzos de las células para producir enzimas o al menos las más importantes de ellas.

La optimización del uso de pares de codones en secuencias que codifican polipéptidos se puede considerar así para lograr la sobreexpresión mejorada, además de la optimización de codones individuales o armonización de codones individuales clásica, en la que solo se consideran para la optimización las frecuencias de codones individuales. La adaptación de pares de codones y la adaptación de codones individuales del mismo gen interfiere solo ligeramente para la clase de hospedante fúngico investigado y los bacilos en este ejemplo, es decir, ambas se pueden llevar a cabo al mismo tiempo y el resultado tendrá un “mejor” uso de codones individuales y “mejor” uso de pares de codones que el gen de tipo salvaje, y cualquiera de los dos aspectos solo se puede mejorar ligeramente cuando se ignora el otro.

Para leer los archivos FASTA y llevar a cabo el análisis y optimización, se han diseñado funciones de MATLAB fáciles de usar. Igualmente se han introducido nuevos métodos para visualizar la preferencia de pares de codones y el uso de pares de codones de genes individuales; véanse el Ejemplo 2 y el Ejemplo 4. El algoritmo genético diseñado para la optimización permite tratar opcionalmente con las restricciones impuestas por interdependencia de pares de codones adyacentes mientras que los operadores de mutación especialmente diseñados que siempre mejoran uno de los dos aspectos de la calidad de secuencia (adecuación de codones individuales y de pares de codones) ayudan a sortear la ineficiencia que acompaña habitualmente a los algoritmos genéticos debido a su característica de generar muchas malas soluciones posibles en la etapa de recombinación después de las primeras pocas generaciones.

El uso apropiado de los pares de codones influye en la producción de enzima, lo que se mostrará experimentalmente en los siguientes ejemplos. Se han preparado variantes optimizadas por pares de codones de tres genes a expresar en B. subtilis, de las cuales cada una se comparará con un gen sintético que ha adaptado solamente el uso de codones individuales, y otra a un gen sintético que ha pasado a través de un proceso de optimización usando la negación de los pesos presumiblemente positivos, pero que todavía se ha optimizado para el uso de codones individuales de la misma manera que antes; véanse el Ejemplo 4 y el Ejemplo 5. De este modo, la noción de Irwin et al. (1995) de que los codones subrepresentados estimulan la traducción, que aquí se rechazó, también se pondrá a evaluación. Para A. niger, la versión optimizada para el par de codones de la amyB mencionada anteriormente se evaluará y se comparará con el gen de tipo salvaje y sintético con armonización de codones individuales; véanse los Ejemplos 2 y 3.

2. Ejemplo 2: Uso de un método de la invención para construir secuencias de ADN mejoradas para mejorar laproducción de la enzima amilasa fúngica de Aspergillus niger en A. niger.

A continuación, el método de la invención se aplica para diseñar nuevas secuencias nucleotídicas para el gen AmyB

(FUA) de A. niger, que se optimizan en el uso de codones individuales y/o de pares de codones para la expresión mejorada en A. niger. Este método se puede aplicar de la misma manera para la mejora del uso de codones de cualquier secuencia nucleotídica.

2.1 Introducción

Un concepto de optimización de codones individuales por medio de armonización de codones se desarrolló previamente por los solicitantes de esta invención y se dio a conocer en el texto principal (véase también el Ejemplo 3). En este ejemplo, se muestra cómo se aplicó el método de la invención para diseñar un gen que se optimizó tanto para el uso de codones individuales como para el uso de pares de codones. En este caso específico, se aplican matrices de pesos que se han creado aplicando dos subconjuntos de 2% y 4% de genes muy expresados del genoma completo de A. niger que contiene 14.000 genes. Para el uso de codones individuales, el algoritmo ha conducido la solución hacia un gen con frecuencias de codones sinónimos como se definen por la Tabla B.1 (= columna 3 de la Tabla 2.1), mientras que, para el uso de pares de codones, se optimizará con respecto a un conjunto óptimo de pares de codones con una frecuencia elevada de ellos que tiene pesos negativos asociados (en la Tabla C.2), siendo genes muy expresados los pares de codones que están sobrerrepresentados con respecto a sus valores esperados en el conjunto de 4%. Obsérvese que en el caso de que no se tenga una lista definida de genes muy expresados para un hospedante específico, también se puede (i) aplicar las matrices de pesos de un organismo hospedante similar, por ejemplo las matrices de P. chrysogenum, para A. niger, o (ii) aplicar los datos de secuencia del genoma completo, o un subconjunto de ellos, para derivar matrices de pesos buenas pero menos óptimas.

2.2 Materiales y métodos

2.2.1 Secuencia codificante de amyB de tipo salvaje que codifica alfa-amilasa de A. niger AmyB

La secuencia de ADN del gen amyB que codifica la proteína alfa-amilasa se describió en J. Biochem. Mol. Biol. 37(4):429-438(2004) (Matsubara T., Ammar Y.B., Anindyawati T., Yamamoto S., Ito K., Iizuka M., Minamiura N. “Molecular cloning and determination of the nucleotide sequence of raw starch digesting alpha-amylase from Aspergillus awamori KT-11.”) y también se puede conseguir a partir de la Base de Datos de Secuencias Nucleotídicas de EMBL (http://www.ebi.ac.uk/embl/index.html) con el número de acceso AB083159. La secuencia genómica del gen amyB de A. niger nativo se muestra como SEC ID NO. 1. La secuencia codificante o de ADNc correspondiente de amyB se muestra como SEC ID NO. 2. La secuencia traducida de SEC ID NO. 2 se asigna como la SEC ID NO. 3, que representa la proteína de alfa-amilasa de A. niger AmyB. Esta secuencia tiene también una similitud del 100% con la proteína de alfa-amilasa de A. oryzae (Wirsel S., Lachmund A., Wildhardt G., Ruttkowski E., “Three alpha-amylase genes of Aspergillus oryzae exhibit identical intron-exon organization”; Mol. Microbiol. 3:314(1989, número de acceso UniProt P10529, P11763 o Q00250). La optimización según un método de la invención se ha llevado a cabo sobre la secuencia de ADNc de amyB.

2.3 Procedimiento de diseño

La secuencia nucleotídica codificante optimizada SEC ID NO 6 es el resultado de un experimento con el método de software descrito. Los parámetros aplicados fueron: tamaño de la población = 200; número de iteraciones = 1000; cpi = 0,20, matriz CPW = “Tabla C.2. CPW: Aspergillus niger – secuencias muy expresadas”, y la matriz CR = “Tabla

B.1 columna 4: tabla ANS de CR: Aspergillus niger – secuencias muy expresadas”. Además, se añade un valor de penalización de + 1 a fitcombi para cada aparición de un sitio PstI (CTGCAG) y NotI (GCGGCGCC).

En la Figura 13 se muestra la convergencia de la solución hacia un valor mínimo para fitcombi. Los valores objetivo obtenidos para SEC ID NO. 6 se dan en la Tabla 2.2, junto con aquellos para SEC ID NO. 2 y SEC ID NO. 5. La Figura 14 explica las estadísticas de codones individuales para estos genes como se muestra en la Figura 15 y 16, y la Tabla 2.2 da los valores reales para los codones en las tres secuencias. La Figura 18-20 muestra estadísticas tanto de codones individuales como de pares de codones para las tres variantes génicas. Este tipo de gráficas se explica con detalle en la Figura 17 y su descripción. A partir de estas gráficas, está claro que las estadísticas de codones individuales son muy similares para SEC ID NO. 5 y SEC ID NO. 6. Sin embargo, el método de la invención conduce a un gen con un número mejorado de pares de codones con pesos negativos asociados (wcp(g) ≤ 0), 93% frente a 74%, y también una reducción adicional en fitcp de -0,18 a -0,34, indicando un uso más óptimo de pares de codones que tienen pesos más negativos asociados con ellos.

Tabla 2.1 Optimización de codones para amyB.

AA: Codón Distribución óptima de codones [%] amyB w.t. [nº de codones] amyB w.t. [% de codones / AA] amyB optimizada en ci [nº de codones] amyB optimizada en ci y pc [nº de codones]

A: Ala_GCT 38 5 11,9 16 18

Ala_GCC: 51 15 35,7 21 23

Ala_GCA: 0 12 28,6 0 0

Ala_GCG: 11 10 23,8 5 1

C: Cys_TGT Cys_TGC 0 100 7 2 77,8 22,2 0 9 0 9

D: Asp_GAT Asp_GAC 36 64 20 22 47,6 52,4 15 27 15 27

E: Glu_GAA 26 5 41,7 3 3

Glu_GAG: 74 7 58,3 9 9

F: Phe_TTT 0 3 20,0 0 0

Phe_TTC: 100 12 80,0 15 15

G: Gly_GGT Gly_GGC Gly_GGA Gly_GGG 49 35 16 0 10 18 10 5 23,3 41,9 23,3 11,6 21 15 7 0 22 15 6 0

H: His_CAT 0 3 42,9 0 0

His_CAC: 100 4 57,1 7 7

I: Ile_ATT 27 7 25,0 7 7

Ile_ATC: 73 19 67,9 21 21

Ile_ATA: 0 2 7,1 0 0

K: Lys_AAA Lys_AAG 0 100 7 13 35,0 65,0 0 20 0 20

L: Leu_TTA 0 1 2,7 0 0

Leu_TTG: 13 10 27,0 5 4

Leu_CTT: 17 4 10,8 6 7

Leu_CTC: 38 13 35,1 14 15

Leu_CTA: 0 3 8,1 0 0

Leu_CTG: 32 6 16,2 12 11

M: Met_ATG 100 10 100,0 10 10

N: Asn_AAT 0 3 11,5 0 0

Asn_AAC: 100 23 88,5 26 26

P: Pro_CCT 36 6 27,3 8 8

Pro_CCC: 64 8 36,4 14 14

Pro_CCA: 0 3 13,6 0 0

Pro_CCG: 0 5 22,7 0 0

Q: Gln_CAA 0 5 25,0 0 0

Gln_CAG: 100 15 75,0 20 20

R: Arg_CGT Arg_CGC Arg_CGA Arg_CGG Arg_AGA Arg_AGG 49 51 0 0 0 0 1 2 2 2 0 3 10,0 20,0 20,0 20,0 0,0 8,1 5 5 0 0 0 0 5 5 0 0 0 0

S: Ser_TCT 21 4 10,8 8 8

Ser_TCC: 44 9 24,3 16 17

Ser_TCA: 0 4 10,8 0 0

Ser_TCG: 14 10 27,0 5 4

Ser_AGT: 0 4 10,8 0 0

Ser_AGC: 21 6 16,2 8 8

T: Thr_ACT 30 9 22,5 12 12

Thr_ACC: 70 13 32,5 28 28

Thr_ACA: 0 10 25,0 0 0

Thr_ACG: 0 8 20,0 0 0

V: Val_GTT 27 5 16,1 8 9

Val_GTC: 54 12 38,7 17 17

Val_GTA: 0 4 12,9 0 0

Val_GTG: 19 10 32,3 6 5

W: Trp_TGG 100 12 100,0 12 12

Y: Tyr_TAT Tyr_TAC 0 100 11 24 31,4 68,6 0 35 0 35

Tabla 2.2 Optimización de codones para amyB.

Secuencia: Tipo fitsc fitcp wcp(g) ≤ 0 fitcombi (cpi=0,2)

SEC ID NO. 2: WT 0,1652 0,0329 37,3% 0,090

SEC ID NO. 5: optimizado en ci 0,0046 -0,1765 73,9% -0,862

SEC ID NO. 6: optimizado en ci + pc 0,0109 -0,3420 92,6% -1,621

Las tres secuencias listadas en la Tabla 2.2 son secuencias codificantes, de las cuales la secuencia traducida se asigna como SEC ID NO. 3.

3. Ejemplo 3: Evaluación del método de la invención para la construcción de secuencias de ADN mejoradaspara proporcionar una producción mejorada de la enzima amilasa fúngica de Aspergillus niger en A. niger.

El método de la invención se aplica más abajo a la mejora del uso de codones individuales y de pares de codones del gen AmyB de A. niger. Este método se puede aplicar de la misma manera para la mejora del uso de codones y la expresión mejorada de cualquier secuencia nucleotídica.

3.1 Material y métodos

3.1.1 Cepas

WT 1: Esta cepa de A. niger se usa como una cepa de tipo salvaje. Esta cepa está depositada en el CBS Institute con el número de depósito CBS 513.88.

WT 2: Esta cepa de A. niger es una cepa WT 1 que comprende una supresión del gen que codifica glucoamilasa (glaA). WT 2 se construyó usando el enfoque “MARKER-GENE FREE” como se describe en el documento EP

0.635.574 B1. En esta patente se describe ampliamente cómo suprimir secuencias de ADN específicas de glaA en el genoma de CBS 513.88. El procedimiento dio como resultado una cepa CBS 513.88 de A. niger recombinante MARKER-GENE FREE glaA, que no posee finalmente en absoluto ninguna secuencia de ADN extraña.

WT 3: Esta cepa de A. niger es una cepa WT 2 que comprende una mutación que da como resultado una cepa de A. niger deficiente en oxalato. WT 3 se construyó el método como se describe en el documento EP1590444. En esta solicitud de patente, se describe ampliamente cómo identificar una cepa de A. niger deficiente en oxalato. La cepa WT3 se construyó según los métodos de los Ejemplos 1 y 2 del documento EP1590444, la cepa WT 3 es la cepa mutante 22 del documento EP1590444 (denominada FINAL en el documento EP1590444).

WT 4: Esta cepa de A. niger es una cepa WT 3 que comprende la supresión de tres genes que codifican alfaamilasas (amyB, amyBI y amyBII) en tres etapas subsiguientes. La construcción de vectores de supresión y la eliminación genómica de estos tres genes se han descrito con detalle en el documento WO2005095624. Los vectores pDEL-AMYA, pDEL-AMYBI y pDEL-AMYBII, descritos en el documento WO2005095624, se han usado según el enfoque “MARKER-GENE FREE” como se describe en el documento EP 0.635.574 B1. El procedimiento descrito anteriormente dio como resultado una cepa CBS 513.88 de A. niger recombinante negativa en amilasas amyA, amyBI y amyBII glaA MARKER-GENE FREE, deficiente en oxalato, que finalmente no posee en absoluto ninguna secuencia de ADN extraña. Como tal, WT 4 está más optimizada para la expresión de alfa-amilasa en comparación con WT1.

3.1.2 Fermentaciones en matraces de agitación de A. niger

Cepas de A. niger se precultivaron en 20 ml de medio de precultivo como se describe en los Ejemplos: sección “Fermentaciones en matraces de agitación de A. niger” del documento WO99/32617. Después del crecimiento durante toda la noche, 10 ml de este cultivo se transfirieron al medio 1 de fermentación (FM1) para fermentaciones de alfa-amilasa. La fermentación se llevó a cabo en matraces de 500 ml con deflectores con 100 ml de caldo de fermentación a 34ºC y 170 rpm durante el número de días indicado, generalmente como se describe en el documento WO99/32617.

El medio FM1 contiene por litro: 52,570 g de glucosa, 8,5 g de maltosa, 25 g de hidrolizado de caseína, 12,5 g de extracto de levadura, 1 g de KH2PO4, 2 g de K2SO4, 0,5 g de MgSO4.7H2O, 0,03 g de ZnCl2, 80,02 g de CaCl2, 0,01 g de MnSO4.4H2O, 0,3 g de FeSO4.7H2O, 10 ml de Pen-Strep (Invitrogen, nº de catálogo 10378-016), 48 g de MES, ajustado a pH 5,6 con H2SO4 4 N.

3.1.3 Actividad de alfa-amilasa fúngica

Para determinar la actividad de alfa-amilasa en caldo de cultivo de A. niger, se usa el kit de alfa-amilasa de cereal Megazyme (Megazyme, kit de ensayo de alfa-amilasa CERALPHA, referencia de catálogo K-CERA, año 20002001), según el protocolo del proveedor. La actividad medida se basa en la hidrólisis de p-nitrofenil maltoheptaósido bloqueado en el extremo no reductor en presencia de exceso de glucoamilasa y -glucosidasa. La cantidad de pnitrofenol formado es una medida de la actividad de alfa-amilasa presente en una muestra.

3.2 Construcción de un constructo de expresión de Aspergillus para la secuencia codificante de amyB de tipo salvaje que codifica alfa-amilasa de A. niger AmyB

La secuencia de ADN del gen amyB de tipo salvaje se ha descrito en 2.2.1. Para el análisis de expresión en la especie Aspergillus de constructos de amyB de A. niger, se aplica el promotor de amyB fuerte para la sobreexpresión de la enzima alfa amilasa en A. niger usando constructos de expresión a base de pGBFIN (como se describe en el documento WO99/32617). La secuencia de iniciación de la traducción del promotor amyB que incluye

el codón de partida ATG de PamyB es 5’-GGCATTTATG ATG-3’ o 5’-GAAGGCATTT ATG-3’, dependiendo de si se selecciona ATG como codón de partida. Esta secuencia de iniciación de la traducción de PamyB se ha modificado en 5’-CACCGTCAAA ATG-3’ en todos los constructos de expresión de amyB subsiguientes generados más abajo.

Se introdujeron sitios de restricción apropiados en ambos extremos para permitir la clonación en un vector de expresión. El gen amyB nativo contiene un codón de parada “TGA”. En todos los constructos de amyB obtenidos más abajo, la secuencia de terminación de la traducción 5’-TGA-3’ se sustituyó por 5’-TAAA-3’ seguido de la 5’-TTAATTAA-3’ del sitio de restricción de PacI. En el extremo 5’ se introdujo un sitio XhoI, y en el extremo 3’, un sitio PacI. Por lo tanto, un fragmento que comprende un promotor de amyB genómico modificado y la secuencia de ADNc de amyB se sintetizó completamente, se clonó, y la secuencia se confirmó mediante análisis de secuencia.

Este fragmento que comprende el promotor de alfa-amilasa con secuencia de iniciación de la traducción modificada y secuencia de ADNc de amyB con secuencia de terminación de la traducción modificada se digirió con XhoI y PacI y se introdujo en un vector pGBFIN-12 digerido con XhoI y PacI (construcción y ordenación como se describe en el documento WO99/32617), generando pGBFINFUA-1 (Figura 21). La secuencia del fragmento de PCR introducido se confirmó mediante análisis de secuencia, y su secuencia se presenta en SEC ID NO. 4.

3.3 Mejora del uso de codones individuales para la secuencia codificante de alfa-amilasa amyB para la expresión en

A. niger

Más abajo se aplica un método de optimización de codones individuales para la mejora del uso de codones del gen amyB de A. niger. La secuencia codificante nucleotídica del amyB nativo se muestra como SEC ID NO. 2.

El uso de codones del gen amyB nativo de A. niger y la variante optimizada sintética se dan en la Tabla 2.1 más abajo. Para el gen amyB sintético nativo y el optimizado en codones individuales se dan los números exactos para cada codón así como la distribución por aminoácido. Adicionalmente, la tercera columna proporciona la distribución óptima propuesta, que es la diana para la optimización.

Para los aminoácidos del grupo 1, solo hay una posibilidad. El grupo 1 consiste en metionina, que siempre es codificada por ATG, y triptófano, que siempre es codificado por TGG.

Los aminoácidos del grupo 2 se someten a optimización según la frecuencia extrema de 0% o 100%, la estrategia es clara. Todos los codones para un AA del grupo 2 están específicamente cambiados en la variante óptima de los dos posibles codones. Más específicamente, para cisteína, un codón TGT se sustituye por TGC; para fenilalanina, TTT por TTC; para histidina, CAT por CAC; para lisina, AAA por AAG, para asparagina, AAT por AAC; para glutamina, CAA por CAG; para tirosina, TAT por TAC.

Los aminoácidos del grupo 3 pueden ser codificados por varios codones, como se indica en la Tabla 3.1, estando cada codón presente en una frecuencia de codón preferida: para alanina, GCT, GCC, GCA, GCG; para aspartato, GAT, GAC; para glutamato, GAA, GAG; para glicina, GGT, GGC, GGA, GGG; para isoleucina, ATT, ATC, ATA; para leucina, TTA, TTG, CTT, CTC, CTA, CTG; para prolina, CCT, CCC, CCA, CCG; para arginina, CGT, CGC, CGA, CGG, AGA, AGG; para serina, TCT, TCC, TCA, TCG, AGT, AGC; para treonina, ACT, ACC, ACA, ACG; para valina, GTT, GTC, GTA, GTG, se optimizan según la siguiente metodología:

Para los aminoácidos (AA) del grupo 3 y sus codones codificantes, el cálculo de la aparición óptima de cada codón posible en una secuencia codificante dada se lleva a cabo según la siguiente metodología:

i. sumar para cada uno de los AA del grupo 3 respectivos, el número total de restos codificados en la secuencia dada, véase la columna A1 (Tabla 3.1),

ii. para cada AA y codón que codifica ese AA, multiplicar el número total para ese AA por la distribución de codones óptima en la Tabla 2.1, dando como resultado una distribución bruta de codones, que generalmente puede contener números decimales, véase la columna A2 (Tabla 3.2),

iii. redondear los valores de la distribución de codones bruta (ii), eliminando los dígitos, dando como resultado una distribución redondeada de codones, véase la columna A3 (Tabla 3.2),

iv.: sumar para cada uno de los AA, el número total de AA representados en la distribución redondeada de codones (iii), véase la columna A4 (Tabla 3.1),

v.: calcular el número perdido total de restos para cada uno de los AA respectivos en la distribución de codones redondeada, restando el número total de restos codificados en la secuencia dada (i) del número total de AA representados en la distribución de codones redondeada (iv), véase la columna A5 (Tabla 3.1),

vi. calcular para cada codón la diferencia decimal entre la distribución bruta de codones (ii) y la distribución de codones redondeada (iii) mediante resta, véase la columna A6 (Tabla 3.2),

vii. multiplicar para cada codón la diferencia decimal (vi) y la distribución óptima de codones en la tabla 1, dando un valor de peso para cada codón, véase la columna A7 (Tabla 3.2),

viii. para cada uno de los AA respectivos, seleccionar la cantidad de restos perdidos (v), la cantidad respectiva de codones que tienen el valor más elevado del peso (vii), véase la columna A8 (Tabla 3.2),

ix. el cálculo de la distribución óptima final de codones en una secuencia dada que codifica un polipéptido se realiza sumando la distribución de codones redondeada (iii) y la cantidad seleccionada de restos perdidos

(viii) para cada codón, véase la columna A9 (Tabla 3.2).

Codón

Ala_GCT: 15,96 15 0,96 0,365 1 16

Ala_GCC: 21,42 21 0,42 0,014 1 21

Ala_GCA: 0 0 0 0,000 0 0

Ala_GCG: 4,62 4 0,62 0,068 0 5

Asp_GAT: 15,12 15 0,12 0,043 0 15

Asp_GAC: 26,88 26 0,88 0,563 1 27

Glu_GAA: 3,12 3 0,12 0,031 0 3

Glu_GAG: 8,88 8 0,88 0,651 1 9

Gly_GGT: 21,07 21 0,07 0,034 0 21

Gly_GGC: 15,05 15 0,05 0,018 0 15

Gly_GGA: 6,88 6 0,88 0,141 1 7

Gly_GGG: 0 0 0 0,000 0 0

Ile_ATT: 7,56 7 0,56 0,151 0 7

Ile_ATC: 20,44 20 0,44 0,321 1 21

Ile_ATA: 0 0 0 0,000 0 0

Leu_TTA: 0 0 0 0,000 0 0

AA(i)

Tabla 3.1 I A1 A4 A5

Ala: 1 42 40 2

Asp: 2 42 41 1

Glu: 3 12 11 1

Gly: 4 43 42 1

Ile: 5 28 27 1

Leu: 6 37 35 2

Pro: 7 22 21 1

Arg: 8 10 9 1

Ser: 9 37 35 2

Thr: 10 40 40 0

Val: 11 31 29 2

Tabla 3.2

A2: A3 A6 A7 A8 A9

Leu_TTG: 4,81 4 0,81 0,105 1 5

Leu_CTT: 6,29 6 0,29 0,049 0 6

Leu_CTC: 14,06 14 0,06 0,023 0 14

Leu_CTA: 0 0 0 0,000 0 0

Leu_CTG: 11,84 11 0,84 0,269 1 12

Pro_CCT: 7,92 7 0,92 0,331 1 8

Pro_CCC: 14,08 14 0,08 0,051 0 14

Pro_CCA: 0 0 0 0,000 0 0

Pro_CCG: 0 0 0 0,000 0 0

Arg_CGT: 4,9 4 0,9 0,441 1 5

Arg_CGC: 5,1 5 0,1 0,051 0 5

Arg_CGA: 0 0 0 0,000 0 0

Arg_CGG: 0 0 0 0,000 0 0

Arg_AGA: 0 0 0 0,000 0 0

Arg_AGG: 0 0 0 0,000 0 0

Ser_TCT: 7,77 7 0,77 0,162 1 8

Ser_TCC: 16,28 16 0,28 0,123 0 16

Ser_TCA: 0 0 0 0,000 0 0

Ser_TCG: 5,18 5 0,18 0,025 0 5

Ser_AGT: 0 0 0 0,000 0 0

Ser_AGC: 7,77 7 0,77 0,162 1 8

Thr_ACT: 12 12 0 0,000 0 12

Thr_ACC: 28 28 0 0,000 0 28

Thr_ACA: 0 0 0 0,000 0 0

Thr_ACG: 0 0 0 0,000 0 0

Val_GTT: 8,37 8 0,37 0,100 0 8

Val_GTC: 16,74 16 0,74 0,400 1 17

Val_GTA: 0 0 0 0,000 0 0

Val-GTG: 5,89 5 0,89 0,169 1 6

Subsiguientemente, se creó una secuencia codificante nucleotídica completamente nueva mediante distribución al azar del número propuesto de codones sinónimos (Tabla 2.1) para cada aminoácido en el péptido amyB original. La secuencia de amyB sintética, que resulta del proceso descrito anteriormente, se indica en SEC ID NO. 5. Las

5 estructuras secundarias en la secuencia codificante modificada se comprobaron usando el programa Clone Manager 7 (Sci. Ed. Central: Scientific & Educational software, versión 7.02) para la posible aparición de estructuras secundarias perjudiciales.

3.4 Optimización de la secuencia codificante según un método combinado de codones individuales y pares de codones de la invención para la secuencia codificante de alfa-amilasa amyB para la expresión en A. niger

10 Se aplica un método de la invención para la mejora de la secuencia codificante del gen amyB de A. niger. La secuencia de amyB optimizada, que resulta del proceso descrito en el Ejemplo 2, se indica en SEC ID NO. 6. Las

estructuras secundarias en la secuencia codificante modificada se comprobaron usando el programa Clone Manager 7 (Sci. Ed. Central: Scientific & Educational software, versión 7.02) para la posible aparición de estructuras secundarias perjudiciales.

3.5 Construcción de vectores de expresión de amyB modificados para expresar alfa-amilasa AmyB de A. niger codificada por secuencias codificantes descritas en los ejemplos 3.2 y 3.3

La secuencia de ADN del fragmento XhoI -PacI de pGBFINFUA-1 (Figura 21) se muestra como SEC ID NO. 4, y comprende el promotor de amyB y la secuencia de ADNc de amyB de tipo salvaje con una secuencia de iniciación de la traducción modificada y una secuencia de parada de la traducción modificada. La secuencia de ADN que comprende una variante de la secuencia de iniciación de la traducción del promotor de alfa-amilasa combinada con una secuencia codificante optimizada en codones para el gen amyB que codifica alfa-amilasa, como se describe en el Ejemplo 1.2, se muestra como SEC ID NO. 7. La secuencia de ADN que comprende una variante de la secuencia de iniciación de la traducción del promotor de alfa-amilasa combinada con una secuencia codificante optimizada según el método combinado de codones individuales y de pares de codones de la invención para el gen amyB que codifica alfa-amilasa, como se describe en el Ejemplo 3.3, se muestra como SEC ID NO. 8.

Para clonar en un vector de expresión estas variantes de secuencias modificadas, los dos fragmentos génicos sintéticos se digirieron con XhoI y PacI y se introdujeron en un fragmento grande de un vector pGBFINFUA-1 digerido con XhoI y PacI (Figura 21), generando vectores de expresión variantes. Después de comprobar la integración del fragmento correcto, los constructos de expresión variantes se denominaron pGBFINFUA-2 y pGBFINFUA-3, como se describe más abajo en la Tabla 3.3.

Tabla 3.3: Constructos de expresión modificados para la expresión de alfa-amilasa en A. niger

Nombre del plásmido: SEC ID NO Secuencia de iniciación de la traducción Secuencia codificante Secuencia de parada de la traducción

pGBFINFUA-1: 4 Modificada (CACCGTCAAA ATG) w.t. Modificada (TAA ATA)

pGBFINFUA-2: 7 Modificada (CACCGTCAAA ATG) Optimizada en codones individuales Modificada (TAA ATA)

pGBFINFUA-3: 8 Modificada (CACCGTCAAA ATG) Modificada según la invención Modificada (TAA ATA)

Las secuencias traducidas de las secuencias codificantes de amyB de pGBFINFUA-1 a pGBFINFUA-3 plasmídicos están de acuerdo con la secuencia de aminoácidos como se representa en SEC ID NO 3, que representa la enzima alfa-amilasa de A. niger de tipo salvaje.

3.6 Expresión en A. niger de constructos de expresión de pGBFINFUA-modificados de alfa-amilasa de A. niger

Los constructos de expresión pGBFINFUA-1, -2 y -3, preparados como se describe anteriormente, se introdujeron en

A. niger mediante transformación como se describe más abajo y según la estrategia representada en la Figura 22.

A fin de introducir los tres vectores pGBFINFUA-1, -2 y -3 (Tabla 3.3) en WT 4, se llevó a cabo una transformación y la selección subsiguiente de los transformantes como se describe en los documentos WO98/46772 y WO99/32617. De forma breve, se aisló ADN lineal de los constructos pGBFINFUA-y se usó para transformar A. niger. Los transformantes se seleccionaron en medio de acetamida, y la colonia se purificó usando procedimientos estándar. Las colonias se diagnosticaron en busca de la integración en el locus glaA y para determinar el número de copias usando PCR. Diez transformantes independientes de cada uno de los constructos pGBFINFUA-1, -2 y -3 con números de copias estimados similares (copia baja: 1-3) se seleccionaron y numeraron usando el nombre del plásmido transformante, como por ejemplo FUA-1-1 (para el primer transformante pGBFINFUA-1) y FUA-3-1 (para el primer transformante pGBFINFUA-3), respectivamente.

Las cepas de FUA seleccionadas y WT 4 de A. niger se usaron para llevar a cabo experimentos en matraces agitados en 100 ml del medio y en condiciones como se describe anteriormente. Después de 3 y 4 días de fermentación, se tomaron muestras.

La producción de enzima alfa-amilasa se midió en los tres transformantes de FUA de A. niger diferentes. Como se puede aprender a partir de la Figura 23, la optimización de la secuencia codificante según el método de la invención muestra una mayor mejora en la expresión de AmyB en comparación con el otro método ensayado denominado optimización de codones individuales. Estas figuras se han resumido en la Tabla 3.4 a continuación.

Tabla 3.4. Actividades promedio relativas de alfa-amilasa de transformantes con constructo de tipo salvaje en 5

comparación con aquellos con secuencias codificantes de amyB modificadas (como se concluye a partir de la Figura 23).

Tipo de cepa: SEC ID NO Secuencia codificante Actividad de alfa-amilasa

FUA-1: 4 w.t. 100%

FUA-2: 7 Optimizada en codones individuales 200%

FUA-3: 8 Modificada según la invención 400%

Estos resultados indican claramente que el método de la invención se puede aplicar para mejorar la expresión proteica en un hospedante, aunque el constructo de expresión y el hospedante ya tienen otras diversas optimizaciones, tales como, por ejemplo, un promotor fuerte, una secuencia de iniciación de la traducción mejorada, una secuencia de parada de la traducción mejorada, un uso óptimo de codones individuales y/o un hospedante mejorado para la expresión proteica.

4. Ejemplo 4: Diseño de secuencias de ADN mejoradas para la expresión de tres enzimas heterólogas en especie de Bacillus: Bacillus subtilis y Bacillus amiloliquefaciens.

4.1. Introducción

El Ejemplo 4 describe el diseño del experimento y aplicación de un método de la invención descrito en esta patente para la expresión (mejorada) de proteínas heterólogas en ambas especies de Bacillus, más específicamente en este ejemplo Bacillus subtilis y Bacillus amiloliquefaciens. Un hospedante de expresión preferido es Bacillus amiloliquefaciens.

El genoma de Bacillus subtilis se publicó en 1997, y le siguieron otras especies de Bacillus (Kunst, F. et al. 1997. The complete genome sequence of the Gram-positive bacterium Bacillus subtilis. Nature 390:249-56; Rey, M.W. et al. (2004). Complete genome sequence of the industrial bacterium Bacillus licheniformis and comparisons with closely related Bacillus species. Genome Biology 5:R77; Rasko D.A. et al. (2005). Genomics of the Bacillus cereus group of organisms. FEMS Microbiology Reviews 29:303-329).

En este ejemplo, la secuencia completa de B. subtilis se escogió como la base para calcular frecuencias de codones individuales y los pesos de los pares de codones. La comparación del contenido de GC y los ARNt proporcionó una foto similar para la especie de Bacillus mencionada (véase más arriba). Esto es una indicación de que las mismas estadísticas son aplicables para otras especies de Bacillus relacionadas. Además, a partir del ejemplo 1 (véase también la Figura 4), ya estaba claro que especies relacionadas muestran frecuencias de pares de codones similares.

En la Figura 4 (véase también el ejemplo 1), se puede encontrar una gráfica de comparación de pares de codones, basada en la estadística del genoma completo para B. subtilis frente a B. amyloliquefaciens. Se observa una buena correlación entre ambos conjuntos de datos. Además, parece que B. amyloliquefaciens es más versátil, puesto que hay un subgrupo de combinaciones de pares de codones que está bien aceptada en B. amiloliquefaciens, mientras que tiene valores muy negativos para B. subtilis; no se observa lo contrario.

4.2. Diseño del experimento

Se seleccionaron tres secuencias proteicas para la expresión tanto en Bacillus subtilis como en Bacillus amiloliquefaciens

Proteína 1: Xilosa (glucosa) isomerasa xylA (EC.5.3.1.5) procedente de Bacillus stearothermophilus;

Proteína 2: Xilosa (glucosa) isomerasa xylA (EC.5.3.1.5) procedente de Streptomyces olivochromogenes;

Proteína 3: L-arabinosa isomerasa (EC 5.3.1.4) procedente de Thermoanaerobacter mathranii.

Tabla 4.1 Resumen de constructos génicos; la Proteína 2 se escogió para explorar además el concepto de pares de codones en un sentido más amplio.

Gen: Proteína Optimización en codones individuales Optimización en codones individuales y positiva de pares de codones Optimización en codones individuales y negativa de pares de codones

Proteína 1: SEC ID NO. 9 SEC ID NO. 16 SEC ID NO. 13

Proteína 2: SEC ID NO. 10 SEC ID NO. 17 SEC ID NO. 14 SEC ID NO. 18

Proteína 3: SEC ID NO. 11 SEC ID NO. 12 SEC ID NO. 15

La Tabla 4.1 proporciona un resumen de los métodos aplicados a los 3 genes descritos anteriormente. Para la Proteína 1, Proteína 2 y Proteína 3, se aplica la optimización de pares de codones del método de la invención, además de la optimización de codones individuales desarrollada antes.

Como control, se evaluó experimentalmente el efecto de la optimización de codones individuales y de la optimización de pares de codones negativa al incluir 2 constructos adicionales para la proteína 2. Se diseña una variante (SEC. ID. 18) en la que está “optimizada” con respecto a pares de codones malos (es decir, optimización negativa de los pares de codones), y una segunda con solamente optimización de codones individuales (SEC. ID. 17). Se escogió la Proteína 2, puesto que la especie de Streptomyces muestra preferencia de pares de codones muy diferente; véase el ejemplo 1 y la Figura 4.

Todos los genes diseñados de B. amyloliquefaciens evitaron la aparición de sitios de restricción NdeI (CATATG) y BamHI (GGATTC). Adicionalmente, contenían un sitio de restricción única para eliminar la parte de E. coli del vector de clonación pBHA 12.

4.3. Optimización de codones individuales

Se diseñaron variantes optimizadas en codones individuales para la Proteína 1 y Proteína 2 usando el método descrito en el Ejemplo 3.3 para la optimización de codones individuales, dando como resultado SEC ID NO. 16 y SEC ID NO. 17, respectivamente. La tabla de distribución de codones individuales aplicada (Tabla 4.2) se determinó usando los 50 genes más altamente expresados según se determina mediante 24 Affymetrix GeneChips para B. subtilis 168 usando 6 series de tiempo de fermentación independientes. Todos los GeneChips se normalizaron con respecto a su media aritmética. La lista de expresión excluye aquellos genes que se sobreexpresaron deliberadamente en la manipulación genética mediante ingeniería de la cepa, y por tanto su nivel de expresión medido no se pudo correlacionar con su uso de codones.

La determinación de la tabla 4.2 de distribución de codones individuales se realiza mediante inspección visual de histogramas de frecuencia de codones de 50, 100, 200, 400 secuencias muy expresadas y de todas las secuencias de B. subtilis. En el caso de una clara tendencia hacia 0% o 100% para los genes mayoritariamente muy expresados, se realizó una asignación de 0% y 100%, respectivamente. Para los otros codones que no se asignaron, se calculó el uso promedio y se normalizó al conjunto de codones sinónimos, excluyendo los codones asignados. Las frecuencias diana resultantes de codones individuales se dan en la Tabla 4.2, columna 3.

Tabla 4.2. Distribución del uso de codones para el diseño de genes sintéticos en base a los 50 genes mayoritariamente muy expresados e inspección visual de histogramas del uso de codones individuales, por ejemplo Figura 24; las expresiones “no importa” se pueden aplicar durante la optimización de pares de codones para dejar libre la elección de esos codones, no teniendo así en cuenta la optimización de codones individuales para esos codones.

Distribución de codones individuales: No importa = 0

%: importa = 1

A: Ala_GCT 50 0

Ala_GCC: 0 1

Ala_GCA: 50 0

Ala_GCG: 0 1

C: Cys_TGT 51 0

Cys_TGC: 49 0

D: Asp_GAT 63 1

Asp_GAC: 37 1

E: Glu_GAA 100 1

Glu_GAG: 0 1

F: Phe_TTT 55 0

Phe_TTC: 45 0

G: Gly_GGT 31 1

Gly_GGC: 34 1

Gly_GGA: 35 1

Gly_GGG: 0 1

H: His_CAT 71 0

His_CAC: 29 0

I: Ile_ATT 60 0

Ile_ATC: 40 0

Ile_ATA: 0 1

K: Lys_AAA 100 1

Lys_AAG: 0 1

L: Leu_TTA 39 0

Leu_TTG: 24 0

M N P Q R: Leu_CTT Leu_CTC Leu_CTA Leu_CTG Met_ATG Asn_AAT Asn_AAC Pro_CCT Pro_CCC Pro_CCA Pro_CCG Gln_CAA Gln_CAG Arg_CGT Arg_CGC 37 0 0 0 100 45 55 35 0 22 43 100 0 38 34 0 1 1 1 1 0 0 0 1 0 0 1 1 0 0

44

Arg_CGA: 0 1

Arg_CGG: 0 1

Arg_AGA: 28 0

Arg_AGG: 0 1

S: Ser_TCT 34 0

Ser_TCC: 0 1

Ser_TCA: 34 0

Ser_TCG: 0 1

SeT_AGT 0 1 Ser_AGC 32 0

T Thr_ACT 33 0 Thr_ACC 0 1 Thr_ACA 46 0 Thr_ACG 22 1

V Val_GTT 47 1 Val_GTC 0 1 Val_GTA 23 1 Val_GTG 30 1

W Trp_TGG 100 1

Y Tyr_TAT 62 0 Tyr_TAC 38 0

Stop_TGA 0 1 Stop_TAG 0 1 Stop_TAA 100 1

4.4. Optimización de pares de codones

La optimización de pares de codones se llevó a cabo según el método de la invención. Las secuencias nucleotídicas codificantes optimizadas SEC ID NO. 13-15 son el resultado de un experimento con el método de software descrito.

5 Los parámetros aplicados fueron: tamaño de la población = 200; número de iteraciones = 1000; cpi = 0,20, matriz CPW = “Tabla C.4. CPW: Bacillus subtilis – secuencias muy expresadas”, y la matriz CR = “Tabla B.1 columna 5: tabla CR BAS: Bacillus subtilis – secuencias muy expresadas” (también en la Tabla 4.2), y los elementos “no importa” como en la Tabla 4.2. Además, se añade un valor de penalización de + 1 a fitcombi por cada aparición de un sitio de restricción NdeI (CATATG) y BamHI (GGATTC).

10 Las secuencias nucleotídicas codificantes optimizadas SEC ID NO. 18 son el resultado de un experimento con el método de software descrito. Los parámetros aplicados fueron: tamaño de la población = 200; número de iteraciones = 1000; cpi = 0,20, matriz CPW = -1 veces “Tabla C.4. CPW: Bacillus subtilis – secuencias muy expresadas” (para obtener optimización de pares de codones con respecto a pares de codones malos) y la matriz CR = “Tabla B.1 columna 5: tabla CR BAS: Bacillus subtilis – secuencias muy expresadas” (también en la Tabla 4.2), y los elementos

15 “no importa” como en la Tabla 4.2. Además, se añade un valor de penalización de + 1 a fitcombi por cada aparición de un sitio de restricción NdeI (CATATG) y BamHI (GGATTC).

Los elementos “no importa” en la Tabla 4.2 se escogen para aquellos codones que no muestran preferencia de codones. Esto se realizó mediante inspección visual de la gráfica de preferencia de codones individuales, véase 4.3. El uso de tales elementos proporciona libertad adicional a la parte del par de codones de la optimización.

Todas las optimizaciones convergieron hacia un valor mínimo para fitcombi. Los valores objetivo obtenidos para SEC ID NO. 13-15 y SEC ID NO18 se dan en la Tabla 4.2, junto con aquellos para SEC ID NO. 11, SEC ID NO. 16 y SEC ID NO. 17. A partir de ese dato, está claro que las estadísticas de codones individuales son muy similares para SEC ID NO. 16 y SEC ID NO. 17 en comparación con SEC ID NO. 14 y SEC ID NO. 15. Sin embargo, el método de la invención conduce a un gen con un número mejorado de pares de codones con pesos negativos asociados, indicando un uso más óptimo de pares de codones que tienen pesos más negativos asociados con ellos, véase la Tabla 4.3.

La “optimización” usando la maximización de fitcp conduce a un gen con un mayor número de pares de codones con pesos positivos asociados, indicando un mayor uso de pares de codones que tienen pesos más positivos asociados con ellos; de este modo, se espera una mala influencia sobre las características de traducción. Para SEC ID NO. 18 (wcp(g) ≤ 0) es 24% frente a 85% para SEC ID NO. 14, y también fitcp aumentó de 1,20 a -1,43.

Tabla 4.3 Optimización de codones; valores de adecuación objetivos para genes para expresión en B. subtilis y B. amyloliquefaciens

Secuencia: Tipo fitsc fitcp wcp(g) ≤ 0 fitcombi (cpi=0,2)

SEC ID NO. 11: WT 0,078 0,097 41,1% 0,350

SEC ID NO. 13: optimizada en sc + cp 0,004 -0,293 89,1% -1,439

SEC ID NO. 14: optimizada en sc + cp 0,004 -0,292 84,8% -1,431

SEC ID NO. 15: optimizada en sc + cp 0,003 -0,303 89,2% -1,493

SEC ID NO. 16: optimizada en sc 0,002 -0,023 56,9% -0,114

SEC ID NO. 17: optimizada en sc 0,003 0,087 44,3% 0,428

SEC ID NO. 18: optimizada en sc + negativa en cp 0,015 0,257 23,5% 1,196

5. Ejemplo 5: Evaluación del método de la invención para expresión de tres enzimas heterólogas en Bacillus subtilis y Bacillus amyloliquefaciens.

5.1 Introducción

El Ejemplo 5 describe el experimento y los resultados de la expresión de 3 genes heterólogos con variantes de secuencias de éstos en células hospedantes tanto de Bacillus subtilis como de Bacillus amyloliquefaciens. Las variantes se obtienen según el método de la invención, como se describe en el Ejemplo 4.

5.2 Materiales y métodos

5.2.1 Medio de crecimiento de Bacillus 2*TY (por l): triptona peptona 16 g, extracto de levadura Difco 10 g, NaCl 5 g.

5.2.2 Transformación de B. subtilis

Medios

Medio Spizizen 2x: 28 g de K2HPO4; 12 g de KH2PO4; 4 g de (NH4)2SO4; 2,3 g de citrato de Na3.2H2O; 0,4 g de MgSO4.7 H2O; H2O hasta 900 ml, y ajústese hasta pH 7,0-7,4 con NaOH 4N. Añádase H2O hasta 1 litro.

Sométase a autoclave 20 minutos a 120ºC.

Medio Spizizen-plus 1x: añádanse a 50 ml de medio Spizizen 2x 50 ml de milliQ; 1 ml de glucosa al 50% y 100 l de casaminoácidos (concentración final 20 g/ml).

Se inoculó una única colonia de Bacillus (o una alícuota de una vasija congelada en profundidad) procedente de una placa de agar 2xTY no selectivo en 10 ml de caldo 2xTY en un matraz de agitación de 100 ml. Las células se hicieron crecer toda la noche en un agitador incubador a 37ºC y ± 250 rpm. La OD se midió a 600 nm, y el cultivo se diluyó con medio Spizizen-plus 1x hasta OD600  0,1. Las células se hicieron crecer a 37ºC y 250-300 rpm hasta que la OD600 del cultivo es 0,4-0,6. El cultivo se diluyó 1:1 con medio Spizizen 1x suplementado con 0,5% de glucosa (medio de inanición), y se incubó durante 90 min. a 37ºC y 250-300 rpm. El cultivo se centrifugó a 4500 rpm en una centrifugadora de mesa durante 10 minutos. Se eliminó el 90% del sobrenadante, y el pelete se suspendió en el volumen que queda. Se mezcló ADN (1-5 g en un máximo de 20 l) con 0,5 ml de células competentes en un

universal, y se incubó durante 1 hora a 37ºC en un baño de agua de agitación giratorio con agitación firme (5/6). Las células se cultivaron en placas (20 a 200 l) sobre placas de agar 2xTY selectivo que contiene 25 g/ml de canamicina, y se incubaron toda la noche a 37ºC.

5.2.3 Preparación de extracto libre de células

El pelete obtenido a partir de 1 ml de cultivo se resuspendió en tampón A que contiene 10 mM de Tris-HCl (pH 7,5), 10 mM de EDTA, F50 mM de NaCl, 1 mg/ml de lisozima e inhibidores de proteasas (cóctel de inhibidores de proteasas libre de EDTA completo, Roche). Los peletes resuspendidos se incubaron durante 30 min. a 37ºC para la producción de protoplastos, y se sometieron subsiguientemente a ultrasonidos según lo siguiente: 30 s, 10 micrómetros de amplitud (3 ciclos), con 15 s de enfriamiento entre ciclos. Tras la sonicación, el desecho celular se hizo girar mediante centrifugación (10 min., 13000 rpm a 4ºC), y los lisados transparentes se usaron para análisis posterior.

5.2.4 Selección de genes que codifican glucosa isomerasa y L-arabinosa isomerasa, y diseño de genes sintéticos para la expresión en Bacillus amyloliquefaciens y Bacillus subtilis

Las tres enzimas seleccionadas son:

1.: xilosa isomerasa de Bacillus stearothermophilus (P54272 Swissprot); secuencia proteica SEC ID NO. 9,

2.: xilosa isomerasa de Streptomyces olivochromogenes (P 15587 Swissprot); proteína SEC ID NO. 10,

3.: L-arabinosa isomerasa de Thermoanaerobacter mathranii (AJ 582623.1 EMBL, y también documento US2003/012971A1), proteína SEC ID NO. 11, nucleótido SEC ID NO. 12.

Como se observa anteriormente, las enzimas seleccionadas tienen diferente origen microbiano. Con el objeto de sobreproducir estas enzimas en Bacillus subtilis o Bacillus amyloliquefaciens, se ha optimizado la secuencia nucleotídica para cada proteína de tal manera que sea adecuada para la expresión en especies de Bacillus; véase el Ejemplo 4.

Se han optimizado las secuencias nucleotídicas que codifican las enzimas mencionadas anteriormente. Las secuencias se listan en un listado de secuencias bajo las SEC ID NO. 13. (glucosa (xilosa) isomerasa de Bacillus stearothermophilus), SEC ID NO. 14. (glucosa (xilosa) isomerasa de Streptomyces olivochromogenes), SEC ID NO.

15. (L-arabinosa isomerasa de Thermoanaerobacter mathranii). Como control, se generó una variante con una optimización de codones individuales sin optimización de pares de codones, SEC ID NO. 16-17, y una con optimización de codones individuales con “optimización negativa de pares de codones”, SEQ ID NO. 18; véase el Ejemplo 4 y la Tabla 4.1.

5.3 Clonación de los genes que codifican glucosa isomerasa y L-arabinosa isomerasa en el vector lanzadera de E. coli/Bacillus y transformación en Bacilli

Para la expresión de los genes seleccionados en Bacilli, se ha usado el vector lanzadera de E. coli/Bacillus pBHA12 (Figura 26). Este vector deriva esencialmente del vector de expresión pBHA-1 (documento EP 340878) en el que un promotor derivado del gen amyQ de Bacillus amyloliquefaciens sustituyó el promotor HpaII. El plásmido pBHA12 contiene dos sitios de clonación múltiple (Figura 26). Todos los genes seleccionaos y optimizados se obtuvieron sintéticamente (DNA 2.0, Menlo Park, CA, U.S.A.) como dos fragmentos (A y B). El fragmento A que corresponde al extremo 5’ del gen fue el clon detrás del promotor de amyQ. Ambos fragmentos se han alargado con sitios de endonucleasas de restricción específicos a fin de permitir la clonación directa en los sitios 1 y 2 de clonación múltiple (véase la Figura 27). El extremo 3’ del fragmento A y el extremo 5’ del fragmento B solapan mediante un sitio de endonucleasa de restricción única que permite la escisión de la parte de E. coli del vector y la ligación nuevamente antes de la transformación de Bacillus subtilis (CBS 363.94). Durante el procedimiento de clonación y transformación de B. subtilis, se usó E. coli como hospedante intermedio. Se escogió el enfoque de clonación en dos etapas en pBHA12 a fin de evitar posibles problemas durante la clonación y propagación de los vectores de expresión en E. coli. En la Tabla 5.1 se listan los sitios de reconocimiento de enzimas de restricción añadidos a los fragmentos A y B, así como el sitio de restricción única que permite la ligación nuevamente y como tal la reconstrucción de un gen completo y funcional. Todos los extremos 5’ de los fragmentos A contienen el sitio NdeI (secuencia de reconocimiento CATATG) que permite la clonación de genes como un fragmento partiendo exactamente en su codón de partida respectivo (ATG).

Tabla 5.1. El sumario de los sitios de clonación de endonucleasas de restricción (RE) que se han añadido a los fragmentos génicos para facilitar la clonación en pBHA 12.

Gen/RE: Fragmento A Fragmento B Sitio de RE única

extremo 5’ extremo 3’
extremo 5’ extremo 3’: (posición en el gen)

B. stearothermophilus GI: NdeI BamHI SmaI KpnI PvuII (496 pb)

S. olivochromogenes GI: NdeI MluI EcoRV KpnI ClaI (372 pb)

T. mathranii ARAA: NdeI MluI SacI KpnI ClaI (708 pb)

Los fragmentos A y B de 5 genes se han clonado en dos etapas en el MCS1 y 2, respectivamente, como se muestra para la SEC ID NO. 13 en la Figura 27, usando métodos de biología molecular estándar (Sambrook y Russell, Molecular Cloning: A Laboratory Manual, 3ª Ed., CSHL Press, Cold Spring Harbor, NY, 2001; y Ausubel et al., Current Protocols in Molecular Biology, Wiley InterScience, NY, 1995). La transformación se llevó a cabo en el E.coli TOP10 (Invitrogen) o INV110 (Invitrogen) en el caso de usar endonucleasas de restricción sensibles a metilación en una etapa posterior. Se aislaron varios transformantes resistentes a ampicilina de E. coli para cada constructo de expresión usando los kits de aislamiento de plásmidos mino o midi (Macherey-Nagel y Sigma, respectivamente). La ligación correcta de los fragmentos A y B correspondientes en el vector pBHA12 se confirmó mediante análisis de restricción. En la siguiente etapa, los plásmidos pBHA12 que contenían los fragmentos A y B de los genes se digirieron con la endonucleasa de restricción única (véase la Tabla 5.1) para cortar la parte de E. coli del vector. La parte de Bacillus del vector que contenía el gen interrumpido se aisló del gel de agarosa usando el kit de extracción en gel (Macherey-Nagel) y se ligó nuevamente. La mezcla de ligación se transformó en la cepa de B. subtilis CBS

363.94 mediante transformación de células competentes. Se aislaron varios transformantes resistentes a canamicina de B. subtilis para cada constructo de expresión usando los kits de aislamiento de plásmido mini o midi (Macherey-Nagel y Sigma, respectivamente). Los constructos de expresión se comprobaron mediante análisis de restricción en busca del patrón correcto tras la escisión de la parte de E. coli y la ligación nuevamente de la parte de Bacillus del vector pBHA12. Para cada constructo, se seleccionaron tres transformantes de B. subtilis para el análisis del extracto libre de células.

5.4 Detección de enzimas sobreproducidas en Bacilli

Se usaron tres transformantes de B. subtilis y tres transformantes de B. amyloliquefaciens para cada constructo para analizar el extracto libre de células en busca de la presencia de la proteína correspondiente – glucosa o L-arabinosa isomerasa. Para hacer crecer las cepas, se usaron medios de fermentación 2xTY. Las muestras (1 ml) se tomaron a 24 horas de fermentación (en matraz de agitación), y se preparó el extracto libre de células que incluye inhibidores de proteasas en el tampón de extracción. Se analizaron 13 l del extracto libre de células en SDS-PAGE (Invitrogen). Para varios transformantes, se detectó una banda clara que corresponde al Mw esperado de la proteína sobreexpresada. En la Tabla 5.2 se da una comparación visual de las bandas. Está claro que el método de la invención mejoró la producción proteica para xilosa isomerasa de Bacillus stearothermophilus, xilosa isomerasa de Streptomyces olivochromogenes y L-arabinosa isomerasa de Thermoanaerobacter mathranii, usando el método de pares de codones, es decir, esto da como resultado la producción mejorada de proteína en comparación con el gen de referencia WT o las variantes optimizadas en codones individuales. Además, si se aplicó la optimización negativa de pares de codones junto con la optimización de codones individuales, no se detectó ningún producto.

Tabla 5.2 Sobreexpresión de tres genes heterólogos en Bacilli. WT: tipo salvaje; sc: optimización en codones individuales; cp: optimización en pares de codones; cp-: optimización negativa en pares de codones.

B. subtilis: B. amyloliquefaciens

WT: sc sc y cp sc y cp - WT sc sc y cp sc y cp -

Xilosa isomerasa de Bacillus stearothermophilus (SEC ID NO. 16, 13): + +++ + +++

Xilosa isomerasa de Streptomyces olivochromogenes (SEC ID NO. 17, 14, 18): + ++ 0 + ++ 0

L-arabinosa isomerasa de Thermoanaerobacter mathranii (SEC ID 12, 15): 0/+ ++ 0 ++

REFERENCIAS

Boycheva, S., Chkodrov, G. y Ivanov, I. (2003). Codon pairs in the genome of Escherichia coli. Bioinformatics 19(8):987-998

Gurvich, O.L., Baranov, P.V., Gesteland, R.F., Atkins, J.F. (2005). Expression levels influence ribosomal

frameshifting at the tandem rare arginine codons AGG_AGG and AGA_AGA. J. Bacteriol. 187:4023-4032. Gustafsson, C., Govindarajan, S. & Minshull, J. (2004). Codon bias and heterologous protein expression. Trends Biotechnol. 22(7):346-353

Gutman, G.A. y Hatfield, G.W. (1989). Nonrandom utilization of codon pairs in Escherichia coli. PNAS 86:3699-3703

Gygi, S.P., Rochon, Y., Franza, B.R., y Aebersold, R. (1999). Correlation between protein and mRNA abundance in Yeast. Mol. Cel. Biol. 19(3):1720-30 Hatfield, G.W. y Gutman, G.A. (1992). Codon pair utilization. Patente de los Estados Unidos de América nº 5.082.767 Irwin, B., Heck, D. y Hatfield, G.W. (1995). Codon pair utilization biases influence translational elongation step times.

J Biol Chem 270:22801-22806

Karlin et al. (2001). Characterization of highly expressed genes of four fast-growing bacteria. J. of Bacteriology 183(17):5025-39. Kunst, F. et al. (1997). The complete genome sequence of the Gram-positive bacterium Bacillus subtilis. Nature

390:249-256

Lithwick, G. y Margalit, H. (2003). Hierarchy of sequence-dependent features associated with prokaryotic translation. Genome Res. 13(12): 2665-73. Makrides, S.C. (1996). Strategies for achieving high-level expression of genes in Escherichia coli. Microbiol. Rev.

60:512-538

Moura, G. et al. (2005). Comparative context analysis of codon pairs on an ORFeome scale. Genome Biology 2005, 6:R28 Nevalainen, K.M.H., Te’o, V.S.J. y Bergquist, P.L. (2005). Heterologous protein expression in filamentous fungi.

Trends Biotechnol. 2005 23(9):468-474

Pel, H.J., et al. (2007).Genome sequencing and analysis of the versatile cell factory Aspergillus niger CBS513.88. Nat Biotech. 2007 25(2): 221-231 Punt, P.J., van Biezen, N., Conesa, A., Albers, A., Mangnus, J. y van den Hondel, C. (2005). Filamentous fungi as

cell factories for heterologous protein production. Trends Biotechnol. 20(5):200-206 Rocha, E.P.C., A. Danchin y A. Viari (1999). Translation in Bacillus subtilis: roles and trends of initiation and

termination, insights from a genome analysis. NAR, 27(17):3567-76. Boycheva, S., Chkodrov, G. y Ivanov, I. (2003). Codon pairs in the genome of Escherichia coli. Bioinformatics 19(8):987-998 Schwartz, S. y Curran, J.F. (1997). Analyses of frameshifting at UUU-pyrimidine sites. NAR 25(10):2005-2011 Spanjaard, R.A. y van Duin, J. (1988). Translation of the sequence AGG-AGG yields 50% ribosomal frameshift.

PNAS 85:7967-7971 APÉNDICE 1: Lista de símbolos y ecuaciones Codón individual:

ci

Codones que codifican el mismo aminoácido: syn(ci) Número de apariciones del codón ci :

nsc (ci) Relación del codón ck (comparado con sus sinónimos):

Par de codones:

(ci,cj) Apariciones (número observado) de par de codones: nobs((ci,cj)) Número esperado de este par de codones:

Desviación estándar correspondiente:

Puntuación estándar correspondiente (puntuación z):

10 Coeficiente de preferencia para un par de codones:

Valores “esperados” combinados (para pesos):

Pesos de pares de codones – grupo de secuencias del método uno (o genoma):

Pesos de pares de codones – grupo muy expresado del método con grupo de referencia (o genoma):

APÉNDICE 2: vectores CR

Tabla B.1: valores de la matriz CR para los siguientes organismos en columnas: (1) AN: genoma complete de A. 20 niger -método: distribución estadística; (2) ANS: 250 genes muy expresados de A. niger -método: inspección visual,

(3) AN_d: vector importa-no importa (0-1) de A. niger; (4) BS: genoma complete de B. subtilis -método: distribución estadística; (5) BSS: 50 genes muy expresados de B. subtilis -método: inspección visual, (6) BS_d: vector importano importa (0-1) de B. subtilis; (7) EC: genoma completo de E. coli 4298 sec; -método: distribución estadística; (8) ECS grupo muy expresado de E. coli 100 sec procedente de Carbone et al. (2003) -método: inspección visual; (9)

25 EC_d: vector importa-no importa (0-1) de E. coli; (10) BA: genoma completo de B. amyloliquefaciens -método: distribución estadística; (11) BAS: 50 genes muy expresados de B. amyolliquefaciens -método: inspección visual,

(12) BS_d: vector importa-no importa (0-1) de B. amyolliquefaciens; (13) SC: genoma completo de S. cerevisiae método: distribución estadística; (14) SCS: 200 genes muy expresados de S. cerevisiae -método: inspección visual,

(15) SC_d: vector importa-no importa (0-1) de S. cerevisiae; (16) SCO: genoma completo de S. coelicolorA3(2) 30 método: distribución estadística

Nota: Para microorganismos fúngicos, y más específicamente P. chrysogenum, A. Oryzae, A. terreus, A. nidulans, A. fiimigatus, T. reesei, N. fischerii, se aplica el vector CR derivado usando secuencias de A. niger. Para levadura en general, y más específicamente K. lactis y S. pombe, se aplica el vector CR derivado usando las secuencias de S. cerevisiae. Para la especia Streptomyces, se aplica el vector CR derivado usando S. coelicolor A3(2).

APÉNDICE 3: matrices CPW

Tabla C.1: matriz CPW genoma completo de Aspergillus niger (codón izquierdo indicado en la columna 2, codón derecho indicado en la fila 2). Célula hospedante: A. niger, Dato de secuencia: genoma completo de A. niger.

Tabla 1 continuación

Tabla C.2: matriz CPW Secuencias muy expresadas de A. niger (codón izquierdo indicado en la columna 2, codón derecho indicado en la fila 2). Célula hospedante: A. niger, Dato de secuencia: genoma complete de A. niger; Grupo muy expresado: 400 secs.

Tabla C.3: matriz CPW genoma completo de Bacillus subtilis (codón izquierdo indicado en la columna 2, codón derecho indicado en la fila 2). Célula hospedante: B. subtilis; Dato de secuencia: genoma completo de B. subtilis.

Tabla C.4: matriz CPW secuencias muy expresadas de Bacillus subtilis (codón izquierdo indicado en la columna 2, codón derecho indicado en la fila 2). Célula hospedante: B. subtilus; Dato de secuencia: genoma complete de B. subtilus; Grupo muy expresado: 415 secs.

Tabla C.5: matriz CPW genoma completo de Escherichia coli K.12 (codón izquierdo indicado en la columna 2, codón derecho indicado en la fila 2). Célula hospedante: E. coli; Dato de secuencia: genoma completo de E. coli.

Tabla C.6: matriz CPW secuencias muy expresadas de Escherichi coli K12 (codón izquierdo indicado en la columna 2, codón derecho indicado en la fila 2). Célula hospedante: E. coli, Dato de secuencia: genoma completo de E. coli; Grupo muy expresado: 100 secs.

Tabla C.7: matriz CPW genoma completo de Bacillus amyloliguefaciens (codón izquierdo indicado en la columna 2, codón derecho indicado en la fila 2). Célula hospedante: B. amyloliqueaciens; Dato de secuencia: genoma completo de B. amyloliqueaciens.

Tabla C.8: matriz CPW secuencias muy expresadas de Bacillus amyloliquefaciens K12 (codón izquierdo indicado en la columna 2, codón derecho indicado en la fila 2). Célula hospedante: B. amyloliquefaciens; Dato de secuencia: genoma completo de B. amyloliquefaciens; Grupo muy expresado: 236 secs.

Tabla C.9: matriz CPW genoma completo de Saccharomyces cerevisiae (codón izquierdo indicado en la columna 2, codón derecho indicado en la fila 2). Célula hospedante: S. cerevisiae; Dato de secuencia: genoma completo de S. cerevisiae.

Tabla C.10: matriz CPW secuencias muy expresadas de Saccaromyces cerevisiae (codón izquierdo indicado en la columna 2, codón derecho indicado en la fila 2). Célula hospedante: S. cerevisiae; Dato de secuencia: genoma completo de S. cerevisiae; Grupo muy expresado: 300 secs.

Tabla C. 11: matriz CPW genoma completo de Streptomyces coelicolor A3(2) (codón izquierdo indicado en la columna 2, codón derecho indicado en la fila 2). Célula hospedante: S. coelicolor, Dato de secuencia: genoma completo de S. coelicilor.

Claims

REIVINDICACIONES

1. Un método de optimización de una secuencia codificante nucleotídica que codifica una secuencia de aminoácidos predeterminada, mediante el cual la secuencia codificante se optimiza para la expresión en una célula hospedante predeterminada, comprendiendo el método:

5 a) generar al menos una secuencia codificante original que codifica la secuencia de aminoácidos predeterminada;

b) generar al menos una secuencia codificante nuevamente generada a partir de esta al menos una secuencia codificante original sustituyendo en esta al menos una secuencia codificante original uno o más codones mediante un codón sinónimo;

10 c) determinar un valor de adecuación de dicha al menos una secuencia codificante original y un valor de adecuación de dicha al menos una secuencia codificante nuevamente generada a la vez que se usa una función de adecuación que determina al menos una de adecuación de codón individual y adecuación del par de codones para la célula hospedante predeterminada;

d) escoger una o más secuencias codificantes seleccionadas entre dicha al menos una secuencia codificante

15 original y dicha al menos una secuencia codificante nuevamente generada según un criterio de selección predeterminado de manera que cuanto mayor es dicho valor de adecuación, mayor es la probabilidad de ser escogido;

e) repetir las acciones b a d) a la vez que se trata dicha una o más secuencias codificantes seleccionadas como una o más secuencias codificantes originales en las acciones b) a d) hasta que se satisface un criterio de parada

20 de iteración predeterminado

en el que dicha función de adecuación se define por medio de:

en la que

cpi es un valor real mayor que cero, fitcp(g) es la función de adecuación del par de codones, fitsc(g) es una función de adecuación del codón individual, w((c(k), c(k + 1)) es un peso de un par de codones en una secuencia codificante g, g es la longitud de dicha secuencia codificante, c (k) es el codón k-avo en dicha secuencia de codones,

es una relación deseada de codón c(k), y es una relación real en la secuencia codificante g.

30 2. Un método según la reivindicación 1, en el que dicho criterio de selección predeterminado es tal que dicha una o más secuencias codificantes seleccionadas tienen un mejor valor de adecuación según un criterio predeterminado.
3. Un método según la reivindicación 1 ó 2, en el que dicho método comprende, tras la acción e):

f) seleccionar una mejor secuencia codificante individual entre dicha una o más secuencias codificantes seleccionadas, en el que dicha mejor secuencia codificante individual tiene un mejor valor de adecuación que 35 otras secuencias codificantes seleccionadas.
4. Un método según una cualquiera de las reivindicaciones 1-3, en el que dicho criterio de parada de iteracción predeterminado es al menos uno de:

(a) evaluar si al menos una de dichas secuencias codificantes seleccionadas tiene un mejor valor de adecuación por encima de un valor umbral predeterminado;

40 (b) evaluar si ninguna de dichas secuencias codificantes seleccionadas tiene un mejor valor de adecuación por debajo de dicho valor umbral predeterminado;

(c)

evaluar si al menos una de dichas secuencias codificantes seleccionadas tiene al menos 30% de los pares de codones con pesos de pares de codones positivos asociados para la célula hospedante predeterminada en dicha secuencia codificante original que se transforman en pares de codones con pesos negativos asociados; y,

(d)

evaluar si al menos una de dichas secuencias codificantes seleccionadas tiene al menos 30% de los pares de codones con pesos positivos asociados por encima de 0 para la célula hospedante predeterminada en dicha secuencia codificante original que se transforman en pares de codones con pesos asociados por debajo de 0.
5. Un método según una cualquiera de las reivindicaciones 1 a 4, en el que cpi está entre 10-4 y 0,5.

5 6. Un método según una cualquiera de las reivindicaciones 1-5, en el que dichos pesos w de los pares de codones se toman a partir de una matriz de 61 x 61 de pares de codones sin codones de parada, o una matriz de 61 x 64 de pares de codones que incluye codones de parada, y en el que dichos pesos w del par de codones se calcula en base a un método a base de ordenador, usando como información de entrada al menos uno de:

(a)

un grupo de secuencias nucleotídicas que consiste en al menos 200 secuencias nucleotídicas de un 10 hospedante predeterminado;

(b)

un grupo de secuencias nucleotídicas que consiste en al menos 200 secuencias nucleotídicas de la especie a la que pertenece el hospedante predeterminado;

(c)

un grupo de secuencias nucleotídicas que consiste en al menos 5% de las secuencias nucleotídicas que codifican la proteína en una secuencia genómica del hospedante predeterminado; y,

15 (d) un grupo de secuencias nucleotídicas que consiste en al menos 5% de las secuencias nucleotídicas que codifican la proteína en una secuencia genómica de un género relacionado con el hospedante predeterminado.
7. Un método según la reivindicación 6, en el que dichos pesos w de los pares de codones se determinan para al menos 5%, 10%, 20%, 50%, y preferiblemente 100% de los posibles 61 x 64 pares de codones que incluyen la señal de terminación como codón de parada.

20 8. Un método según la reivindicación 1-7, en el que dichos pesos w de pares de codones se toman de una matriz de 61 x 61 de pares de codones sin codones de parada, o una matriz de 61 x 64 de pares de codones que incluyen codones de parada, y en el que dichos pesos w de pares de codones se definen por medio de:

en la que los valores esperados combinados

se definen por medio de:

expresado son los genes cuyos ARNm se pueden detectar a un nivel de al menos 20 copias por célula.
9. Un método según cualquiera de las reivindicaciones anteriores, en el que dicha secuencia nucleotídica codificante 30 original que codifica una secuencia de aminoácidos predeterminada se selecciona de:

(a)

una secuencia nucleotídica de tipo salvaje que codifica dicha secuencia de aminoácidos predeterminada;

(b)

una traducción inversa de la secuencia de aminoácidos predeterminada, por lo que un codón para una posición de aminoácido en la secuencia de aminoácidos predeterminada se escoge al azar de los codones sinónimos que codifican el aminoácido; y

35 (c) una traducción inversa de la secuencia de aminoácidos predeterminada, por lo que un codón para una posición de aminoácido en la secuencia de aminoácidos predeterminada se escoge según una preferencia de codones individuales para la célula hospedante predeterminada o una especie relacionada con la célula hospedante.
10. Un método según cualquiera de las reivindicaciones 1-9, en el que dicha célula hospedante predeterminada es

40 una célula de un microorganismo, preferiblemente un microorganismo de un género seleccionado de: Bacillus, Actinomycetis, Escherichia, Streptomyces, Aspergillus, Penicillium, Kluyveromyces, Saccharomyces.
11.

Un método según cualquiera de las reivindicaciones 1-9, en el que dicha célula hospedante predeterminada es

una célula de un animal o planta, preferiblemente una célula de una estirpe celular seleccionada de CHO, BHK, NSO, COS, Vero, PER.C6™, HEK-293, Drosophila S2, Spodoptera Sf9 y Spodoptera Sf21.
12.

Un ordenador que comprende un procesador y memoria, estando el procesador dispuesto para leer de dicha

memoria y escribir en dicha memoria, comprendiendo la memoria datos e instrucciones montados para hacer que 5 dicho procesador lleve a cabo el método de cualquiera de las reivindicaciones 1-11.
13. Producto de programa de ordenador que comprende datos e instrucciones, y dispuesto para ser cargado en una memoria de un ordenador que también comprende un procesador, estando el procesador dispuesto para leer de dicha memoria y escribir en dicha memoria, estando los datos e instrucciones dispuestos para hacer que dicho procesador lleve a cabo el método de cualquiera de las reivindicaciones 1-11.

10 14. Soporte de datos proporcionado con un producto de programa de ordenador según la reivindicación 13.
15. Un método según una cualquiera de las reivindicaciones 1 a 11, en el que la secuencia codificante que codifica una secuencia de aminoácidos predeterminada generada con el método está comprendida en una molécula de ácido nucleico, en el que la secuencia codificante no es una secuencia codificante de origen natural, y en el que la secuencia codificante tiene una fitcp(g) de al menos por debajo de -0,1, y preferiblemente por debajo de -0,2, y más

15 preferiblemente por debajo de -0,3 para una célula hospedante predeterminada.
16. Un método según una cualquiera de las reivindicaciones 1 a 11, en el que la secuencia codificante que codifica una secuencia de aminoácidos predeterminada generada con el método está comprendida en una molécula de ácido nucleico, en el que la secuencia codificante no es una secuencia codificante de origen natural, y en el que la secuencia codificante tiene una fitcp(g) de al menos por debajo de -0,1, y preferiblemente por debajo de -0,2 para una

20 célula hospedante predeterminada, y una fitsci(g) de al menos por debajo de 0,1 para una célula hospedante predeterminada.