ES2875579T3

ES2875579T3 - Plataforma de ingeniería genómica de HTP para mejorar Escherichia coli

Info

Publication number: ES2875579T3
Application number: ES18734715T
Authority: ES
Inventors: Matthew Davis; Christy Wisnewski; Patrick Westfall; Zach Serber; Erik Jedediah Dean; Shawn Manchester; Katherine Gora; Erin Shellman; Aaron Kimball; Shawn Szyjka; Barbara Frewen; Thomas Treynor; Michael Flashman; Robert Haushalter; Stacy-Anne Morgan; Michael Blaisse; Prabha Ramakrishnan; Kyle Rothschild-Mancinelli; Youngnyun Kim
Original assignee: Zymergen Inc
Current assignee: Zymergen Inc
Priority date: 2017-06-06
Filing date: 2018-06-06
Publication date: 2021-11-10
Anticipated expiration: 2038-06-06
Also published as: KR20200026874A; EP3485013B1; EP3878961A1; WO2018226880A1; CA3064612A1; US20200370058A1; EP3485013A1; CN110945125A; JP2020524490A

Abstract

Un método para generar una biblioteca de cepas de E. coli de intercambio de promotores, que comprende las etapas de: a. proporcionar una pluralidad de genes diana endógenos para una cepa base de E. coli, y una escalera de promotores, en donde dicha escalera de promotores comprende una pluralidad de promotores que presentan diferentes perfiles de expresión en la cepa base de E. coli, en donde al menos uno de la pluralidad de promotores es un promotor quimérico sintético, en donde el promotor quimérico sintético es de 60-90 nucleótidos de longitud y consiste en una parte distal del promotor pR del fago lambda, regiones variables -35 y -10 de los promotores pL y pR del fago lambda que son cada uno de seis nucleótidos de longitud, partes centrales de los promotores pL y pR del fago lambda y una parte 5' UTR/sitio de unión al ribosoma (RBS) que es la parte 5' UTR/RBS del promotor pR del fago lambda o la parte 5' UTR/sitio de unión al ribosoma (RBS) del promotor del gen acs de E. coli; y b. transformar el genoma de la cepa base de E. coli, para crear así una biblioteca de cepas de E. coli de intercambio de promotores inicial que comprende una pluralidad de cepas de E. coli individuales con variaciones genéticas únicas encontradas dentro de cada cepa de dicha pluralidad de cepas de E. coli individuales, en donde cada una de dichas variaciones genéticas únicas comprende uno o más de los promotores de la escalera de promotores operativamente unidos a uno de los genes diana endógenos para la cepa base de E. coli.

Description

DESCRIPCIÓN

Plataforma de ingeniería genómica de HTP para mejorar Escherichia coli

REFERENCIA CRUZADA A SOLICITUDES RELACIONADAS

Esta solicitud reivindica el beneficio de prioridad a la Solicitud Provisional de EE.UU. Número de serie 62/515.870, presentada el 6 de junio de 2017.

CAMPO

La presente descripción se dirige a la ingeniería genómica microbiana de alta capacidad (HTP) para Escherichia coli. La plataforma de ingeniería genómica de HTP descrita está dirigida computacionalmente e integra biología molecular, automatización y protocolos avanzados de aprendizaje automático. Esta plataforma integradora usa una serie de conjuntos de herramientas moleculares de HTP para crear bibliotecas de diseño genético de HTP, que se obtienen, entre otras cosas, a partir de conocimientos científicos profundos y reconocimiento de patrones iterativos.

DECLARACIÓN RESPECTO A LA LISTA DE SECUENCIAS

La lista de secuencias asociada con esta solicitud se proporciona en formato de texto en lugar de una copia en papel. El nombre del archivo de texto que contiene la lista de secuencias es ZYMR_012_01WO_SeqList_ST25.txt. El archivo de texto es de = 127 KB, se creó el 6 de junio de 2018 y se envía electrónicamente a través de EFS-Web.

ANTECEDENTES

Los seres humanos han estado aprovechando las posibilidades que ofrecen las rutas biosintéticas celulares microbianas durante milenios para producir productos de interés, cuyos ejemplos más antiguos incluyen alcohol, vinagre, queso y yogur. Estos productos todavía tienen una gran demanda en la actualidad y también han ido acompañados de un repertorio cada vez mayor de productos producibles por microbios. La llegada de la tecnología de la ingeniería genética ha permitido a los científicos diseñar y programar nuevas rutas biosintéticas en una variedad de organismos para producir una amplia variedad de productos industriales, médicos y de consumo. De hecho, los cultivos celulares microbianos se utilizan ahora para producir productos que van desde moléculas pequeñas, antibióticos, vacunas, insecticidas, enzimas, combustibles y productos químicos industriales.

Dada la gran cantidad de productos producidos por microbios industriales modernos, no es de extrañar que los ingenieros estén bajo una tremenda presión para mejorar la velocidad y la eficiencia con la que un microorganismo dado es capaz de producir un producto objetivo. Se ha utilizado una variedad de enfoques para mejorar la economía de los procedimientos industriales de base biológica "mejorando" el microorganismo implicado. Por ejemplo, muchas industrias farmacéuticas y químicas se basan en programas de mejora de cepas microbianas en los que las cepas parentales de un cultivo microbiano mutan continuamente mediante la exposición a sustancias químicas o radiación UV y, posteriormente se criban buscando aumentos de rendimiento, tales como la productividad, el rendimiento y el título. Este procedimiento de mutagénesis se repite extensamente hasta que una cepa demuestra un aumento adecuado en el rendimiento del producto. La siguiente cepa "mejorada" se usa después en la producción comercial. La identificación de cepas microbianas industriales mejoradas por mutagénesis requiere mucho tiempo y es ineficaz. El procedimiento, por su propia naturaleza, es asistemático y se basa en tropezar con una mutación que tiene un resultado deseable en la producción del producto. Los programas tradicionales de mejora de cepas microbianas no solo son ineficaces, sino que el procedimiento también puede dar lugar a cepas industriales con un alto grado de carga mutagénica perjudicial. La acumulación de mutaciones en cepas industriales sometidas a este tipo de programas puede llegar a ser significativa y puede conducir a un eventual estancamiento en la mejora de la tasa de rendimiento.

Quizás no hay mejor ejemplo del estancamiento que resulta de los programas de mejora de cepas tradicionales que con E. coli, que es uno de los sistemas hospedantes microbianos más modificados que existen. El microbio se ha sometido a los métodos tradicionales mencionados antes de mejora de la cepa microbiana durante décadas. A pesar de la gran cantidad de esfuerzo que se ha dedicado a la modificación de E. coli, el microbio todavía tiene una enorme cantidad de potencial sin explotar. Esto se debe a que E. coli presenta desafíos únicos para los investigadores que intentan mejorar el microbio con fines de producción. Estos desafíos han obstaculizado el campo de la ingeniería genómica en E. coli y han impedido a los investigadores aprovechar todo el potencial de este sistema microbiano.

En particular, la industria todavía no ha desarrollado un sistema de alta capacidad para la modificación genómica en E. coli. Está claro que los métodos tradicionales de mejora de cepas han alcanzado una meseta con respecto a este sistema de organismos, pero los investigadores aún no tienen las herramientas de modificación genómica que se necesitan para atravesar esta meseta.

Lee Michael E et al., ASC Synthetic Biology, 18 de septiembre de 2015, vol. 4, n° 9, páginas 975 a 986, describen una plataforma para la modificación de microbios (p. ej., levaduras) basada en un ensamblaje modular de múltiples plásmidos separados (p. ej., seleccionados de bibliotecas de elementos tales como plásmidos de parte del promotor o terminador) para formar una unidad transcripcional que permite la expresión de genes individuales en microbios.

Kincade JM et al., Gene, vol. 97, n° 1, 1 de enero de 1991, páginas 7 a 12, describen los promotores pL y pR del bacteriófago lambda determinantes de la secuencia de la actividad in vivo y la sensibilidad al inhibidor de la ADN girasa, cumermicina.

Rainer Knaus et al., The EMBO Journal, vol. 7, n° 9, 25 de agosto de 1988, páginas 2919-2923, describen diferentes secuencias de promotores quiméricas que comprenden secuencias de promotores pL y pR variantes, de aproximadamente 43 nucleótidos de longitud y que consisten en una parte distal del promotor pR del fago lambda, regiones variables -35 y -10 de los promotores pL y pR del fago lambda que tienen cada uno seis nucleótidos de longitud y porciones centrales de pL y pR del fago lambda.

El documento EP 2657 250 A2 describe un método para mejorar la actividad de la acetil-coA sintetasa mediante la mejora de la expresión génica mediante modificación de secuencias de nucleótidos de la región promotora y la región 5'-UTR del gen asc.

El documento US 2006/141578 A1 describe un método de producción de una proteína deseada por recombinación génica. Los vectores usados comprenden la parte 5'-UTR/sitio de unión al ribosoma (RBS) del promotor del gen acs de E. coli.

William R McCleray, Applied Microbiology and Biotechnology, vol. 84, n° 4, 25 Julio de 2009, páginas 641-648, es un artículo de revisión que analiza la aplicación de técnicas de intercambio de promotores para controlar la expresión de genes cromosómicos.

Pengfei GU et al., MicrobialCellFactories, vo. 11, n° 1,2 de marzo de 2012, página 30, describen el uso del intercambio de promotores para mejorar la producción de L-triptófano en Escherichia coli.

Rice Christopher D et al., Applied and Enviromental Microbiology, vol. 75, n° 3, febrero de 2009, páginas 573-583, describen que el uso de una técnica de intercambio de promotores muestra que PhoU modula la actividad del transportador de ABC PstSCAB²en Escherichia coli. Gueguen Erwan et al., Applied and Environmental Microbiology, vol. 79, n° 1, enero de 2013, páginas 32-38, describen el uso de intercambio de promotores para revelar la función del sistema de secreción de Citrobacter rodentium CTS1 tipo VI en la competencia interbacteriana.

Por lo tanto, existe una gran necesidad en la técnica de nuevos métodos de modificación de E. coli con fines de producción, que no tengan los inconvenientes antes mencionados inherentes a los programas tradicionales de mejora de cepas. Específicamente, un sistema de alta capacidad para descubrir y consolidar mutaciones beneficiosas en E. coli revolucionaría el campo y permitiría a los investigadores aprovechar todo el potencial de este organismo.

RESUMEN DE LA DESCRICPCIÓN

La presente descripción proporciona una plataforma de ingeniería genómica de alta capacidad (HTP) para E. coli que no tiene la miríada de problemas asociados con los programas tradicionales de mejora de cepas microbianas.

Además, la plataforma de HTP enseñada en el presente documento es capaz de rehabilitar cepas de E. coli que han acumulado mutaciones no beneficiosas durante décadas de programas de mejora de cepas basados en mutagénesis aleatoria.

La descripción también proporciona conjuntos de herramientas y procedimientos de ingeniería genómica únicos, que respaldan la funcionalidad de la plataforma de HTP en un sistema de E. coli.

La plataforma de ingeniería genómica de HTP descrita se dirige computacionalmente e integra biología molecular, automatización y protocolos avanzados de aprendizaje automático. Esta plataforma integradora usa una serie de conjuntos de herramientas moleculares de HTP para crear bibliotecas de diseño genético de HTP, que se obtienen, entre otros, de conocimientos científicos profundos y reconocimiento de patrones iterativos.

Las bibliotecas de diseño genético de HTP enseñadas funcionan como conductoras del procedimiento de ingeniería genómica, proporcionando bibliotecas de alteraciones genómicas particulares para ensayar en E. coli. Los microbios modificados usando una biblioteca particular, o combinación de bibliotecas, se seleccionan de manera eficiente de una manera HTP para un efecto de resultado, p. ej. la producción de un producto de interés. Este procedimiento de utilizar las bibliotecas de diseño genético de HTP para definir alteraciones genómicas particulares para ensayar en un microbio y después posteriormente cribar genomas microbianos del hospedante que albergan las alteraciones se implementa de una manera eficiente e iterativa. En algunos ejemplos, el ciclo iterativo o "rondas" de campañas de ingeniería genómica puede ser al menos 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 o más iteraciones/ciclos/rondas.

Por lo tanto, en algunos ejemplos, la presente descripción enseña métodos para llevar a cabo al menos 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41,42, 43, 44, 45, 46, 47, 48, 49, 50, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61,62, 63, 64, 65, 66, 67, 68, 69, 70, 71,72, 73, 74, 75, 76, 77, 78, 79, 80, 81,82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 125, 150, 175, 200, 225, 250, 275, 300, 325, 350, 375, 400, 425, 450, 475, 500, 525, 550, 575, 600, 625, 650, 675, 700, 725, 750, 775, 800, 825, 850, 875, 900, 925, 950, 975, 1000 o más "rondas" de ingeniería genética de HTP (p. ej., rondas de intercambio de SNP, intercambio de PRO, intercambio de STOP o combinaciones de los mismos) en un sistema hospedante de E. coli.

En algunos ejemplos, la presente descripción enseña un enfoque lineal, en el que cada ronda subsiguiente de ingeniería genética de HTP se basa en la variación genética identificada en la ronda previa de ingeniería genética. En otros ejemplos, la presente descripción enseña un enfoque no lineal, en el que cada ronda subsiguiente de ingeniería genética de HTP se basa en la variación genética identificada en cualquier ronda previa de ingeniería genética, incluyendo análisis realizados previamente y ramas de ingeniería genética de HTP separadas.

Los datos de estos ciclos iterativos permiten el análisis de datos a gran escala y el reconocimiento de patrones, que utiliza la plataforma integradora para informar a rondas posteriores de implementación de la biblioteca de diseño genético de HTP. En consecuencia, las bibliotecas de diseño genético de HTP utilizadas en la plataforma enseñada son herramientas altamente dinámicas que se benefician de algoritmos de reconocimiento de patrones de datos a gran escala y se vuelven más informativas por medio de cada ronda iterativa de modificación microbiana. Dicho sistema no se ha desarrollado nunca para E. coli y se necesita desesperadamente en la técnica.

En algunos ejemplos, las bibliotecas de diseño genético de la presente descripción comprenden al menos 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24, 25, 26, 27, 28, 29, 30, 31,32, 33, 34, 35, 36, 37, 38, 39, 40, 41,42, 43, 44, 45, 46, 47, 48, 49, 50, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61,62, 63, 64, 65, 66, 67, 68, 69, 70, 71,72, 73, 74, 75, 76, 77, 78, 79, 80, 81,82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 125, 150, 175, 200, 225, 250, 275, 300, 325, 350, 375, 400, 425, 450, 475, 500, 525, 550, 575, 600, 625, 650, 675, 700, 725, 750, 775, 800, 825, 850, 875, 900, 925, 950, 975, 1000 o más cambios genéticos individuales (p. ej., al menos un número X de combinaciones de promotor:gen en la biblioteca de intercambio de PRO).

En algunos ejemplos, la presente descripción enseña un método de ingeniería genómica de alta capacidad (HTP) para transformar una cepa de E. coli para que adquiera un fenotipo deseado, que comprende: a) perturbar los genomas de una pluralidad inicial de cepas de E. coli que tienen el mismo contexto de cepa, para crear así una biblioteca de cepas de E. coli de diseño genético de HTP inicial que comprende cepas individuales con variaciones genéticas únicas; b) cribar y seleccionar cepas individuales de la biblioteca de cepas de E. coli de diseño genético de HTP inicial según el fenotipo deseado; c) proporcionar una pluralidad subsiguiente de microbios de E. coli que comprende cada uno una combinación única de variación genética, seleccionada dicha variación genética de la variación genética presente en al menos dos cepas individuales de E. coli cribadas en la etapa precedente, para crear así una biblioteca de cepas de E. coli de diseño genético de HTP subsiguiente; d) cribar y seleccionar cepas de E. coli individuales de la biblioteca de cepas de E. coli de diseño genético de HTP subsiguiente según el fenotipo deseado; e) repetir las etapas c)-d) una o más veces, de forma lineal o no lineal, hasta que una cepa de E. coli haya adquirido el fenotipo deseado, en donde cada iteración subsiguiente crea una nueva biblioteca de cepas de E. coli de diseño genético de HTP que comprende cepas de E. coli individuales que albergan variaciones genéticas únicas que son una combinación de variación genética seleccionada de entre al menos dos cepas de E. coli individuales de una biblioteca de cepas de E. coli de diseño genético de HTP precedente.

En algunos ejemplos, la presente descripción enseña que la biblioteca de cepas de E. coli de diseño genético de HTP inicial es al menos una seleccionada del grupo que consiste en una biblioteca de cepas microbianas de intercambio de promotor, biblioteca de cepas microbianas de intercambio de SNP, biblioteca de cepas microbianas de codones de inicio/parada, biblioteca de cepas microbianas de secuencia optimizada, una biblioteca de cepas microbianas de intercambio de terminadores, una biblioteca de cepas microbianas de marcadores de solubilidad de proteínas, una biblioteca de cepas microbianas de marcadores de degradación de proteínas o cualquier combinación de las mismas.

En algunos ejemplos, la presente descripción enseña métodos para hacer una pluralidad subsiguiente de cepas de E. coli que cada una comprende una combinación única de variaciones genéticas, en donde cada una de las variaciones genéticas combinadas se obtiene de la biblioteca de cepas de E. coli del diseño genético HTP inicial o la biblioteca de cepas de E. coli de diseño genético HTP de la etapa precedente.

En algunos ejemplos, la combinación de variaciones genéticas en la pluralidad subsiguiente de cepas de E. coli comprenderá un subconjunto de todas las posibles combinaciones de las variaciones genéticas en la biblioteca de cepas de E. coli de diseño genético de HTP inicial o la biblioteca de cepas de E. coli de diseño genético de HTP de la etapa precedente.

En algunos ejemplos, la presente descripción enseña que la biblioteca de cepas de E. coli de diseño genético de HTP subsiguiente es una biblioteca de cepas combinatoria completa derivada de las variaciones genéticas en la biblioteca de cepas de E. coli de diseño genético de HTP inicial o la biblioteca de cepas de E. coli de diseño genético de HTP de la etapa precedente.

Por ejemplo, si la biblioteca de cepas de E. coli de diseño genético de HTP previa solo tenía variaciones genéticas A, B, C y D, entonces una combinación parcial de dichas variaciones podría incluir una biblioteca de cepas de E. coli de diseño genético de HTP subsiguiente que comprende tres cepas comprendiendo cada una de las combinaciones únicas AB, AC o AD de variaciones genéticas (el orden en el que se representan las mutaciones no es importante).

Una biblioteca de cepas de E. coli combinatoria completa derivada de las variaciones genéticas de la biblioteca de diseño genético de HTP de la etapa precedente incluiría seis microbios, comprendiendo cada uno combinaciones únicas de variaciones genéticas AB, AC, AD, BC, BD o CD.

En algunos ejemplos, los métodos de la presente descripción enseñan la perturbación del genoma de E. coli utilizando al menos un método seleccionado del grupo que consiste en: mutagénesis aleatoria, inserciones de secuencias dirigidas, deleciones de secuencias dirigidas, reemplazos de secuencias dirigidas o cualquier combinación de los mismos.

En algunos ejemplos de los métodos descritos actualmente, la pluralidad inicial de E. coli comprende variaciones genéticas únicas derivadas de una cepa de E. coli de producción industrial.

En algunos ejemplos de los métodos descritos actualmente, la pluralidad inicial de E. coli comprende cepas de E. coli de producción industrial denominadas S¹Gem y cualquier número de generaciones microbianas subsiguientes derivadas de las mismas denominadas SnGenn.

En algunos ejemplos, la presente descripción enseña un método para generar una biblioteca de cepas de E. coli de intercambio de SNP, que comprende las etapas de: a) proporcionar una cepa de E. coli de referencia y una segunda cepa de E. coli, en donde la segunda cepa de E. coli comprende una pluralidad de variaciones genéticas identificadas seleccionadas de polimorfismos de un solo nucleótido, inserciones de ADN y deleciones de ADN, que no están presentes en la cepa de referencia; b) perturbar el genoma de la cepa de referencia, o de la segunda cepa, para crear así una biblioteca de cepas de E. coli de intercambio de SNP inicial que comprende una pluralidad de cepas de E. coli individuales con variaciones genéticas únicas encontradas dentro de cada cepa de dicha pluralidad de cepas individuales, en donde cada una de dichas variaciones genéticas únicas corresponde a una única variación genética seleccionada de la pluralidad de variaciones genéticas identificadas entre la cepa de referencia y la segunda cepa.

En algunos ejemplos de una biblioteca de intercambio de SNP, el genoma de la cepa de E. coli de referencia se perturba para añadir uno o más de los polimorfismos de un solo nucleótido, inserciones de ADN o deleciones de ADN identificados, que se encuentran en la segunda cepa de E. coli.

En algunos ejemplos de una biblioteca de intercambio de SNP, el genoma de la segunda cepa de E. coli se perturba para eliminar uno o más de los polimorfismos de un solo nucleótido, inserciones de ADN o deleciones de ADN identificados, que no se encuentran en la cepa de E. coli de referencia.

En algunos ejemplos, las variaciones genéticas de la biblioteca de intercambio de SNP comprenderán un subconjunto de todas las variaciones genéticas identificadas entre la cepa de E. coli de referencia y la segunda cepa de E. coli.

En algunos ejemplos, las variaciones genéticas de la biblioteca de intercambio de SNP comprenderán todas las variaciones genéticas identificadas, identificadas entre la cepa de E. coli de referencia y la segunda cepa de E. coli.

En algunos ejemplos, la presente descripción enseña un método para rehabilitar y mejorar el rendimiento fenotípico de una cepa de E. coli industrial, que comprende las etapas de: a) proporcionar una cepa de E. coli de linaje parental y una cepa de E. coli industrial derivada de la misma, en donde la cepa industrial comprende una pluralidad de variaciones genéticas identificadas seleccionadas de polimorfismos de un solo nucleótido, inserciones de ADN y deleciones de ADN, no presentes en la cepa de linaje parental; b) perturbar el genoma de la cepa de linaje parental o de la cepa industrial, para crear así una biblioteca de cepas de E. coli de intercambio de SNP inicial que comprende una pluralidad de cepas individuales con variaciones genéticas únicas encontradas dentro de cada cepa de dicha pluralidad de cepas individuales, en donde cada una de dichas variaciones genéticas únicas corresponde a una única variación genética seleccionada de la pluralidad de variaciones genéticas identificadas entre la cepa de linaje parental y la cepa industrial; c) cribar y seleccionar cepas individuales de la biblioteca de cepas de E. coli de intercambio de SNP inicial para mejorar el rendimiento fenotípico frente a una cepa de E. coli de referencia, identificando así variaciones genéticas únicas que confieren a dichas cepas de E. coli mejoras en el rendimiento del fenotipo; d) proporcionar una pluralidad subsiguiente de cepas de E. coli que cada una comprende una combinación única de variación genética, seleccionada dicha variación genética de la variación genética presente en al menos dos cepas individuales cribadas en la etapa precedente, para crear así una biblioteca de cepas de E. coli de intercambio de SNP subsiguiente; e) cribar y seleccionar cepas individuales de la biblioteca de cepas de E. coli de intercambio de SNP subsiguiente para mejorar el rendimiento del fenotipo frente a la cepa de referencia, identificando así combinaciones únicas de variación genética que confieren a dichas cepas de E. coli mejoras adicionales del rendimiento del fenotipo; y f) repetir las etapas d)-e) una o más veces, de una forma lineal o no lineal, hasta que una cepa presenta un nivel deseado de rendimiento del fenotipo mejorado en comparación con el rendimiento del fenotipo de la cepa industrial de E. coli, en donde cada iteración subsiguiente crea una nueva biblioteca de cepas de E. coli de intercambio de SNP que comprende cepas microbianas individuales que albergan variaciones genéticas únicas que son una combinación de variación genética seleccionada de entre al menos dos cepas microbianas individuales de una biblioteca de cepas de E. coli de intercambio de SNP precedente.

En algunos ejemplos, la presente descripción enseña métodos para rehabilitar y mejorar el rendimiento fenotípico de una cepa industrial de E. coli, en donde el genoma de la cepa de E. coli de linaje parental se perturba para añadir uno o más de los polimorfismos de un solo nucleótido, ADN inserciones o deleciones de ADN identificados, que se encuentran en la cepa industrial de E. coli.

En algunos ejemplos, la presente descripción enseña métodos para rehabilitar y mejorar el rendimiento fenotípico de una cepa industrial de E. coli, en donde el genoma de la cepa industrial de E. coli se perturba para eliminar uno o más de los polimorfismos de un solo nucleótido, inserciones de ADN, o deleciones de ADN identificados, que no se encuentran en la cepa de E. coli del linaje parental.

En algunos ejemplos, la presente descripción enseña un método para generar una biblioteca de cepas de E. coli de intercambio de promotores, comprendiendo dicho método las etapas de: a) proporcionar una pluralidad de genes diana endógenos para una cepa de E. coli base, y una escalera de promotores, en donde dicha escalera de promotores comprende una pluralidad de promotores que presentan diferentes perfiles de expresión en la cepa de E. coli base; b) modificar el genoma de la cepa de E. coli base, para crear así una biblioteca de cepas de E. coli de intercambio de promotores inicial que comprenda una pluralidad de cepas de E. coli individuales con variaciones genéticas únicas encontradas dentro de cada cepa de dicha pluralidad de cepas individuales, en donde cada una de dichas variaciones genéticas únicas comprende uno de los promotores de la escalera de promotores unido operativamente a uno de los genes diana endógenos para la cepa de E. coli base.

En algunos ejemplos, la presente descripción enseña un método de intercambio de promotores de ingeniería genómica para transformar una cepa de E. coli para que adquiera un fenotipo deseado, comprendiendo dicho método las etapas de: a) proporcionar una pluralidad de genes diana endógenos para una cepa base de E. coli, y una escalera de promotores, en donde dicha escalera de promotores comprende una pluralidad de promotores que presentan diferentes perfiles de expresión en la cepa base de E. coli; b) modificar el genoma de la cepa base de E. coli, para crear así una biblioteca de cepas de E. coli de intercambio de promotores inicial que comprenda una pluralidad de cepas de E. coli individuales con variaciones genéticas únicas encontradas dentro de cada cepa de dicha pluralidad de cepas individuales, en donde cada una de dichas variaciones genéticas únicas comprende uno de los promotores de la escalera de promotores operativamente unido a uno de los genes diana endógenos para la cepa base de E. coli; c) cribar y seleccionar cepas individuales de la biblioteca de cepas de E. coli de intercambio de promotores inicial para el fenotipo deseado; d) proporcionar una pluralidad subsiguiente de cepas de E. coli que cada una comprende una combinación única de variación genética, dicha variación genética seleccionada de la variación genética presente en al menos dos cepas individuales cribadas en la etapa precedente, para crear así una biblioteca de cepas de E. coli de intercambio de promotores subsiguiente; e) cribar y seleccionar cepas individuales de la biblioteca de cepas de E. coli de intercambio de promotores subsiguiente para el fenotipo deseado; f) repetir las etapas d)-e) una o más veces, de una forma lineal o no lineal, hasta que un microbio haya adquirido el fenotipo deseado, en donde cada iteración subsiguiente crea una nueva biblioteca de cepas de E. coli de intercambio de promotores que comprende cepas individuales que albergan variaciones genéticas únicas que son una combinación de variación genética seleccionada de entre al menos dos cepas individuales de una biblioteca de cepas de E. coli de intercambio de promotores precedente.

En algunos ejemplos, la presente descripción enseña un método para generar una biblioteca de cepas de E. coli de intercambio de terminadores, comprendiendo dicho método las etapas de: a) proporcionar una pluralidad de genes diana endógenos para una cepa base de E. coli, y una escalera de terminadores, en donde dicha escalera de terminadores comprende una pluralidad de terminadores que presentan diferentes perfiles de expresión en la cepa base de E. coli; b) modificar el genoma de la cepa base de E. coli, para crear así una biblioteca de cepas de E. coli de intercambio de terminadores inicial que comprende una pluralidad de cepas individuales con variaciones genéticas únicas que se encuentran dentro de cada cepa de dicha pluralidad de cepas individuales, en donde cada una de dichas variaciones genéticas únicas comprende uno de los genes diana endógenos para la cepa base de E. coli operativamente unida a uno o más de los terminadores de la escalera de terminadores.

En algunos ejemplos, la presente descripción enseña un método de intercambio de terminadores de ingeniería genómica para transformar una cepa de E. coli para que adquiera un fenotipo deseado, comprendiendo dicho método las etapas de: a) proporcionar una pluralidad de genes diana endógenos para una cepa base de E. coli, y una escalera de terminadores, en donde dicha escalera de terminadores comprende una pluralidad de terminadores que presentan diferentes perfiles de expresión en la cepa base de E. coli; b) modificar el genoma de la cepa base de E. coli, para crear así una biblioteca de cepas de E. coli de intercambio de terminadores inicial que comprende una pluralidad de cepas de E. coli individuales con variaciones genéticas únicas encontradas dentro de cada cepa de dicha pluralidad de cepas individuales, en donde cada una de dichas variaciones genéticas únicas comprende uno de los genes diana endógenos para la cepa base de E. coli operativamente unida a uno o más de los terminadores de la escalera de terminadores; c) cribar y seleccionar cepas microbianas individuales de la biblioteca de cepas de E. coli de intercambio de terminadores inicial para el fenotipo deseado; d) proporcionar una pluralidad subsiguiente de cepas de E. coli que cada una comprende una combinación única de variación genética, dicha variación genética seleccionada de la variación genética presente en al menos dos cepas individuales cribadas en la etapa precedente, para crear así una biblioteca de cepas de E. coli de intercambio de terminadores subsiguiente; e) cribar y seleccionar cepas individuales de la biblioteca de cepas de E. coli de intercambio de terminadores subsiguiente para el fenotipo deseado; f) repetir las etapas d)-e) una o más veces, de una forma lineal o no lineal, hasta que un microbio haya adquirido el fenotipo deseado, en donde cada iteración subsiguiente crea una nueva biblioteca de cepas de E. coli de intercambio de terminadores que comprende cepas individuales que albergan variaciones genéticas únicas que son una combinación de variación genética seleccionada de entre al menos dos cepas individuales de una biblioteca de cepas de E. co lide intercambio de terminadores precedente.

En algunos ejemplos, la presente descripción enseña la mejora iterativa del diseño de cepas candidatas de E. coli (a) accediendo a un modelo predictivo equipado con un conjunto de entrenamiento que comprende (1) entradas que representan cambios genéticos para una o más cepas de E. coli originales y (2) medidas de rendimiento correspondientes; (b) aplicar entradas de ensayo al modelo predictivo que representan cambios genéticos, correspondiendo las entradas de ensayo a cepas candidatas de E. coli que incorporan esos cambios genéticos; (c) predecir el rendimiento fenotípico de las cepas candidatas de E. coli basándose, al menos en parte, en el modelo predictivo; (d) seleccionar un primer subconjunto de las cepas candidatas de E. coli basándose, al menos en parte, en su comportamiento previsto; (e) obtener el rendimiento fenotípico medido del primer subconjunto de las cepas candidatas de E. coli; (f) obtener una selección de un segundo subconjunto de las cepas candidatas de E. coli basándose, al menos en parte, en su rendimiento fenotípico medido; (g) añadir al conjunto de entrenamiento del modelo predictivo (1) entradas correspondientes al segundo subconjunto seleccionado de cepas de E. coli candidatas, junto con (2) el rendimiento medido correspondiente del segundo subconjunto seleccionado de cepas candidatas de E. coli; y (h) repetir (b)-(g) hasta que el rendimiento fenotípico medido de al menos una cepa candidata de E. coli satisfaga un indicador de rendimiento. En algunos casos, durante una primera aplicación de entradas de ensayo al modelo predictivo, los cambios genéticos representados por las entradas de ensayo comprenden cambios genéticos en una o más cepas de E. coli originales; y durante aplicaciones posteriores de entradas de ensayo, los cambios genéticos representados por las entradas de ensayo comprenden cambios genéticos en cepas de E. coli candidatas dentro de un segundo subconjunto previamente seleccionado de cepas candidatas de E. coli.

En algunos ejemplos, la selección del primer subconjunto se puede basar en efectos epistáticos. Esto se puede lograr: durante una primera selección del primer subconjunto: determinando los grados de diferencia entre las medidas de rendimiento de una o más cepas de E. coli originales en respuesta a la aplicación de una pluralidad de entradas respectivas que representan cambios genéticos en una o más cepas de E. coli originales; y seleccionando para su inclusión en el primer subconjunto al menos dos cepas candidatas de E. coli basándose, al menos en parte, en los grados de diferencia en las medidas de rendimiento de una o más cepas de E. coli originales en respuesta a la aplicación de cambios genéticos incorporados en las al menos dos cepas candidatas de E. coli.

En algunos ejemplos, la presente descripción enseña la aplicación de efectos epistáticos en la mejora iterativa de cepas de E. coli candidatas, comprendiendo el método: obtener datos que representan el rendimiento medido en respuesta a los cambios genéticos correspondientes hechos en al menos una cepa de E. coli original; obtener una selección de al menos dos cambios genéticos basada, al menos en parte, en un grado de diferencia entre las correspondientes medidas de rendimiento sensibles de los al menos dos cambios genéticos, en donde el grado de diferencia se relaciona con el grado en que los al menos dos cambios genéticos afectan a sus correspondientes medidas de rendimiento sensibles a través de diferentes rutas biológicas; y diseñar cambios genéticos en una cepa de E. coli original que incluye los cambios genéticos seleccionados. En algunos casos, la cepa original de E. coli para la que se diseñan los al menos dos cambios genéticos seleccionados es la misma que la al menos una cepa de E. coli original para la que se obtuvieron datos que representan el rendimiento sensible medido.

En algunos ejemplos, la presente descripción enseña métodos de mejora de HTP de la cepa de E. coli que utilizan solo un tipo único de biblioteca genética. Por ejemplo, en algunos ejemplos, la presente descripción enseña métodos de mejora de HTP de cepas de E. coli que utilizan únicamente bibliotecas de intercambio de SNP. En otros ejemplos, la presente descripción enseña métodos de mejora de HTP de cepas de E. coli que utilizan únicamente bibliotecas de intercambio de PRO. En algunos ejemplos, la presente descripción enseña métodos de mejora de HTP de cepas de E. coli de que utilizan únicamente bibliotecas de intercambio de STOP. En algunos ejemplos, la presente descripción enseña métodos de mejora de HTP de cepas de E. coli que utilizan únicamente bibliotecas de intercambio de codones de inicio/parada.

En otros ejemplos, la presente descripción enseña métodos de mejora de HTP de la cepa de E. coli que utilizan dos o más tipos de bibliotecas genéticas. Por ejemplo, en algunos ejemplos, la presente descripción enseña métodos de mejora HTP de la cepa de E. coli que combinan bibliotecas de intercambio de SNP y de intercambio de PRO. En algunos ejemplos, la presente descripción enseña métodos de mejora de HTP de cepas de E. coli que combinan bibliotecas de intercambio de SNP y de intercambio de STOP. En algunos ejemplos, la presente descripción enseña métodos de mejora de HTP de cepas de E. coli que combinan bibliotecas de intercambio de PRO y de intercambio de STOP.

En otros ejemplos, la presente descripción enseña métodos de mejora de HTP de cepas de E. coli que utilizan múltiples tipos de bibliotecas genéticas (véase, por ejemplo, la Figura 5). En algunos ejemplos, las bibliotecas genéticas se combinan para producir mutaciones de combinación (p. ej., escaleras de combinación de promotores/terminadores aplicadas a uno o más genes). En otros ejemplos más, los métodos de mejora HTP de cepas de E. coli de la presente descripción se pueden combinar con uno o más métodos tradicionales de mejora de cepas.

En algunos ejemplos, los métodos de mejora de HTP de cepas de E. coli de la presente descripción dan como resultado una célula hospedante de E. coli mejorada. Es decir, la presente descripción enseña métodos para mejorar una o más propiedades de las células hospedantes de E. coli. En algunos ejemplos, la propiedad mejorada de la célula hospedante de E. coli se selecciona del grupo que consiste en: productividad volumétrica, productividad específica,

rendimiento o título, de un producto de interés producido por la célula hospedante de E. coli. En algunos ejemplos, la

propiedad mejorada de la célula hospedante de E. coli es la productividad volumétrica. En algunos ejemplos, la

propiedad mejorada de la célula hospedante de E. coli es la productividad específica. En algunos ejemplos, la

propiedad mejorada de la célula hospedante de E. coli es el rendimiento.

En algunos ejemplos, los métodos de mejora HTP de cepas de E. coli de la presente descripción dan como resultado

una célula hospedante de E. coli que presenta un 1 %, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 11 %, 12%, 13%, 14%,

15%, 16%, 17%, 18%, 19%, 20%, 21%, 22%, 23%, 24%, 25%, 26%, 27%, 28%, 29%, 30%, 31%, 32%, 33%, 34%,

35%, 36%, 37%, 38%, 39%, 40%, 41%, 42%, 43%, 44%, 45%, 46%, 47%, 48%, 49%, 50%, 51%, 52%, 53%, 54%,

55%, 56%, 57%, 58%, 59%, 60%, 61%, 62%, 63%, 64%, 65%, 66%, 67%, 68%, 69%, 70%, 71%, 72%, 73%, 74%,

75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%,

95%, 96%, 97%, 98%, 99%, 100%, 150%, 200%, 250%, 300% o más de una mejora en al menos una propiedad de la

célula hospedante de E. coli frente a una célula hospedante de E. coli de control que no se somete a los métodos de

mejora de HTP de la cepa (p. ej., una mejora de X% en el rendimiento o la productividad de una biomolécula de interés,

incorporando cualquier intervalo y subintervalo entre ellos). En algunos ejemplos, los métodos de mejora de HTP de

cepas de E. coli de la presente descripción se seleccionan del grupo que consiste en intercambio de SNP, intercambio

de PRO, intercambio de STOP, intercambio de MARCADORES DE SOLUBILIDAD, intercambio de MARCADORES

DE DEGRADACIÓN y combinaciones de los mismos.

Por lo tanto, en algunos ejemplos, los métodos de intercambio de SNP de la presente descripción dan como resultado

33%, 34%, 53%, 54%, 73%, 74%,

93%, 94%, 95%, 96%, 97%, 98%, 99%, 100%, 150%, 200%, 250%, 300% o más de una mejora en al menos una propiedad de la

intercambio de SNP (p. ej., una mejora de X% en el rendimiento o la productividad de una biomolécula de interés,

incorporando cualquier intervalo y subintervalo entre ellos).

Por lo tanto, en algunos ejemplos, los métodos de intercambio de PRO de la presente descripción dan como resultado

33%, 34%, 53%, 54%, 73%, 74%,

intercambio de PRO (p. ej., una mejora de X% en el rendimiento o la productividad de una biomolécula de interés,

incorporando cualquier intervalo y subintervalo entre ellos).

Por lo tanto, en algunos ejemplos, los métodos de intercambio de TERMINADORES de la presente descripción dan

como resultado una célula hospedante de E. coli que presenta un 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 11%,

30%, 31%, 50%, 51%, 70%, 71%,

90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, 100%, 150%, 200%, 250%, 300% o más de una mejora en al menos

una propiedad de la célula hospedante de E. coli frente a una célula hospedante de E. coli de control que no se somete

a los métodos de intercambio de TERMINADORES (p. ej., una mejora de X% en el rendimiento o la productividad de

una biomolécula de interés, incorporando cualquier intervalo y subintervalo entre ellos).

Por lo tanto, en algunos ejemplos, los métodos de intercambio de MARCADORES DE SOLUBILIDAD de la presente

descripción dan como resultado una célula hospedante de E. coli que presenta un 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%,

en al menos una propiedad de la célula hospedante de E. coli frente a una célula hospedante de E. coli de control que

no se somete a los métodos de intercambio de MARCADORES DE SOLUBILIDAD (p. ej., una mejora de X% en el

rendimiento o la productividad de una biomolécula de interés, incorporando cualquier intervalo y subintervalo entre

ellos).

Por lo tanto, en algunos ejemplos, los métodos de intercambio de MARCADORES DE DEGRADACIÓN de la presente

en al menos una propiedad de la célula hospedante de E. co lifrente a una célula hospedante de E. co lide control que

no se somete a los métodos de intercambio de MARCADORES DE DEGRADACIÓN (p. ej., una mejora de X% en el

ellos).

En algunos ejemplos, la presente descripción enseña un método para generar una biblioteca de cepas de E. coli de

intercambio de marcadores de solubilidad de proteínas, que comprende las etapas de: a. proporcionar una pluralidad

de genes diana endógenos para una cepa de E. coli base, y una escalera de marcadores de solubilidad, en donde

dicha escalera de marcadores de solubilidad comprende una pluralidad de marcadores de solubilidad que presentan

diferentes perfiles de solubilidad en la cepa base de E. coli; y b. modificar el genoma de la cepa base de E. coli, para

crear así una biblioteca de cepas de E. coli de intercambio de marcadores de solubilidad inicial que comprende una

pluralidad de cepas de E. coli individuales con variaciones genéticas únicas encontradas dentro de cada cepa de dicha

pluralidad de cepas de E. coli individuales, en donde cada una de dichas variaciones genéticas únicas comprende uno

o más de los marcadores de solubilidad de la escalera de marcadores de solubilidad operativamente unidos a uno de

los genes diana endógenos para la cepa base de E. coli.

En algunos ejemplos, la presente descripción enseña un método de intercambio de marcadores de solubilidad de

proteínas para mejorar el rendimiento fenotípico de una cepa de E. coli de producción, que comprende las etapas de:

proporcionar una pluralidad de genes diana endógenos para una cepa base de E. coli, y una escalera de marcadores

de solubilidad, en donde dicha escalera de marcadores de solubilidad comprende una pluralidad de marcadores de

solubilidad que presentan diferentes perfiles de expresión en la cepa base de E. coli; modificar el genoma de la cepa

base de E. coli, para crear así una biblioteca de cepas de E. coli de intercambio de marcadores de solubilidad inicial

que comprende una pluralidad de cepas de E. coli individuales con variaciones genéticas únicas encontradas dentro

de cada cepa de dicha pluralidad de cepas de E. coli individuales, en donde cada una de dichas variaciones genéticas

únicas comprende uno o más de las marcadores de solubilidad de la escalera de marcadores de solubilidad

operativamente unidos a uno de los genes diana endógenos para la cepa base de E. coli; cribar y seleccionar cepas

de E. coli individuales de la biblioteca de cepas de E. coli de intercambio de marcadores de solubilidad inicial para

mejorar el rendimiento fenotípico frente a una cepa de E. coli de referencia, identificando así variaciones genéticas

únicas que confieren mejoras del rendimiento fenotípico; proporcionar una pluralidad subsiguiente de microbios de E.

coli que comprenden cada uno una combinación de variaciones genéticas únicas de las variaciones genéticas

presentes en al menos dos cepas de E. coli individuales cribadas en la etapa precedente, para crear así una biblioteca

de cepas de E. coli de intercambio de marcadores de solubilidad subsiguiente; cribar y seleccionar cepas de E. coli

individuales de la biblioteca de cepas de E. coli de intercambio de marcadores de solubilidad subsiguiente para mejorar

el rendimiento fenotípico frente a la cepa de E. coli de referencia, identificando así combinaciones únicas de variación

genética que confieren mejoras de rendimiento fenotípico adicionales; y repetir las etapas d)-e) una o más veces, de

una forma lineal o no lineal, hasta que una cepa de E. coli presente un nivel deseado de rendimiento fenotípico

mejorado en comparación con el rendimiento fenotípico de la cepa de E. coli de producción, en donde cada iteración

subsiguiente crea una nueva biblioteca de cepas microbianas de cepas de E. coli de intercambio de marcadores de

solubilidad, donde cada cepa de la nueva biblioteca comprende variaciones genéticas que son una combinación de

variaciones genéticas seleccionadas de entre al menos dos cepas individuales de E. coli de una biblioteca precedente.

En algunos ejemplos, la biblioteca de cepas de E. coli de intercambio de marcadores de solubilidad subsiguiente es

una biblioteca combinatoria completa de la biblioteca de cepas de E. coli de intercambio de marcadores de solubilidad

inicial.

un subconjunto de una biblioteca combinatoria completa de la biblioteca de cepas de E. coli de intercambio de

marcadores de solubilidad inicial.

una biblioteca combinatoria completa de una biblioteca de cepas de E. coli de intercambio de marcadores de

solubilidad precedente.

un subconjunto de una biblioteca combinatoria completa de una biblioteca de cepas de E. coli de intercambio de

marcadores de solubilidad precedente.

En algunos ejemplos, las etapas d)-e) se repiten hasta que el rendimiento fenotípico de una cepa de E. coli de una

biblioteca de cepas de E. coli de intercambio de marcadores de solubilidad subsiguiente presenta al menos un aumento

de 10% en una variable fenotípica medida en comparación con el rendimiento fenotípico de la cepa de E. coli de

producción.

En algunos ejemplos, las etapas d)-e) se repiten hasta que el rendimiento fenotípico de una cepa de E. coli de una biblioteca de cepas de E. coli de intercambio de marcadores de solubilidad subsiguiente presenta al menos un aumento de una vez en una variable fenotípica medida en comparación con el rendimiento fenotípico de la cepa de E. coli de producción.

En algunos ejemplos, el rendimiento fenotípico mejorado de la etapa f) se selecciona del grupo que consiste en: productividad volumétrica de un producto de interés, productividad específica de un producto de interés, rendimiento de un producto de interés, título de un producto de interés, y combinaciones de los mismos.

En algunos ejemplos, el rendimiento fenotípico mejorado de la etapa f) es: producción mayor o más eficiente de un producto de interés, dicho producto de interés seleccionado del grupo que consiste en: una molécula pequeña, enzima, péptido, aminoácido, ácido orgánico, compuesto sintético, combustible, alcohol, metabolito extracelular primario, metabolito extracelular secundario, molécula de componente intracelular y combinaciones de los mismos.

En algunos ejemplos, la presente descripción enseña un método para generar una biblioteca de cepas de E. coli de intercambio de marcadores de degradación de proteínas, que comprende las etapas de: a. proporcionar una pluralidad de genes diana endógenos para una cepa base de E. coli, y una escalera de marcadores de degradación, en donde dicha escalera de marcadores de degradación comprende una pluralidad de marcadores de degradación que presentan diferentes perfiles de solubilidad en la cepa base de E. coli; y b. modificar el genoma de la cepa base de E. coli, para crear así una biblioteca de cepas de E. coli de intercambio de marcadores de degradación inicial que comprende una pluralidad de cepas de E. coli individuales con variaciones genéticas únicas que se encuentran dentro de cada cepa de dicha pluralidad de cepas de E. coli individuales, en donde cada una de dichas variaciones genéticas únicas comprende uno o más de los marcadores de degradación de la escalera de marcadores de degradación unidos operativamente a uno de los genes diana endógenos para la cepa de E. coli base.

En algunos ejemplos, la presente descripción enseña un método de intercambio de marcadores de degradación de proteínas para mejorar el rendimiento fenotípico de una cepa de E. coli de producción, que comprende las etapas de: proporcionar una pluralidad de genes diana endógenos para una cepa base de E. coli, y una escalera de marcadores de degradación, en donde dicha escalera de marcadores de degradación comprende una pluralidad de marcadores de degradación que presentan diferentes perfiles de expresión en la cepa base de E. coli; modificar el genoma de la cepa base de E. coli, para crear así una biblioteca de cepas de E. coli de intercambio de marcadores de degradación inicial que comprende una pluralidad de cepas de E. coli individuales con variaciones genéticas únicas que se encuentran dentro de cada cepa de dicha pluralidad de cepas de E. coli individuales, en donde cada una de dichas variaciones genéticas únicas comprende uno o más de los marcadores de degradación de la escalera de marcadores de degradación unidos operativamente a uno de los genes diana endógenos para la cepa base de E. coli; cribar y seleccionar cepas de E. coli individuales de la biblioteca de cepas de E. coli de intercambio de marcadores de degradación inicial para mejorar el rendimiento fenotípico frente a una cepa de E. coli de referencia, identificando así variaciones genéticas únicas que confieren mejoras del rendimiento fenotípico; proporcionar una pluralidad subsiguiente de microbios de E. coli que comprende cada uno una combinación de variaciones genéticas únicas de las variaciones genéticas presentes en al menos dos cepas de E. coli individuales cribadas en la etapa precedente, para crear así una biblioteca de cepas de E. coli de intercambio de marcadores de degradación subsiguiente; cribar y seleccionar cepas de E. coli individuales de la biblioteca de cepas de E. coli de intercambio de marcadores de degradación subsiguiente para mejorar el rendimiento fenotípico frente a la cepa de E. coli de referencia, identificando así combinaciones únicas de variación genética que confieren mejoras adicionales del rendimiento fenotípico; y repetir las etapas d)-e) una o más veces, de una forma lineal o no lineal, hasta que una cepa de E. coli presenta un nivel deseado de rendimiento fenotípico mejorado en comparación con el rendimiento fenotípico de la cepa de E. coli de producción, en donde cada iteración subsiguiente crea una nueva biblioteca de cepas microbianas de cepas E. coli de intercambio de marcadores de degradación, donde cada cepa de la nueva biblioteca comprende variaciones genéticas que son una combinación de variaciones genéticas seleccionadas de entre al menos dos cepas individuales de E. coli de una biblioteca precedente.

En algunos ejemplos, la biblioteca de cepas de E. coli de intercambio de marcadores de degradación subsiguiente es una biblioteca combinatoria completa de la biblioteca de cepas de E. coli de intercambio de marcadores de degradación inicial.

En algunos ejemplos, la biblioteca de cepas de E. coli de intercambio de marcadores de degradación subsiguiente es un subconjunto de una biblioteca combinatoria completa de la biblioteca de cepas de E. coli de intercambio de marcadores de degradación inicial.

En algunos ejemplos, la biblioteca de cepas de E. coli de intercambio de marcadores de degradación subsiguiente es una biblioteca combinatoria completa de una biblioteca de cepas de E. coli de intercambio de marcadores de degradación precedente.

En algunos ejemplos, la biblioteca de cepas de E. coli de intercambio de marcadores de degradación subsiguiente es un subconjunto de una biblioteca combinatoria completa de una biblioteca de cepas de E. coli de intercambio de marcadores de degradación precedente.

En algunos ejemplos, las etapas d)-e) se repiten hasta que el rendimiento fenotípico de una cepa de E. coli de una biblioteca de cepas de E. coli de intercambio de marcadores de degradación subsiguiente presenta al menos un aumento de 10% en una variable fenotípica medida en comparación con el rendimiento fenotípico de la cepa de E. coli de producción.

En algunos ejemplos, las etapas d)-e) se repiten hasta que el rendimiento fenotípico de una cepa de E. coli de una biblioteca de cepas de E. coli de intercambio de marcadores de degradación subsiguiente presenta al menos un aumento de una vez en una variable fenotípica medida en comparación con el rendimiento fenotípico de la cepa de E. coli de producción.

En algunos ejemplos, la presente descripción enseña un promotor quimérico sintético operativamente unido a un gen heterólogo para la expresión en una célula hospedante microbiana, en donde el promotor quimérico sintético es de 60-90 nucleótidos de longitud y consiste en una parte distal del promotor pr del fago lambda, regiones variables -35 y -10 de los promotores p¡_ y pr del fago lambda que tienen seis nucleótidos de longitud cada uno, partes centrales de los promotores pl y pr del fago lambda y una parte 5' UTR/Sitio de unión al ribosoma (RBS) del promotor pr del fago lambda.

En algunos ejemplos, las secuencias de ácido nucleico de la parte distal del promotor pr del fago lambda, las regiones variables -35 y -10 de los promotores pl y pr del fago lambda, las partes centrales de los promotores pl y pr del fago lambda y la parte 5' UTR/sitio de unión al ribosoma (RBS) del promotor pr del fago lambda se seleccionan de las secuencias de ácidos nucleicos que se encuentran en la Tabla 1.5.

En algunos ejemplos, la presente descripción enseña un promotor quimérico sintético operativamente unido a un gen heterólogo para la expresión en una célula hospedante microbiana, en donde el promotor quimérico sintético es de 60-90 nucleótidos de longitud y consiste en una parte distal del promotor pr del fago lambda, regiones variables -35 y -10 de los promotores pl y pr del fago lambda que es cada uno de seis nucleótidos de longitud, partes centrales de los promotores pl y pr del fago lambda y una parte 5' UTR/sitio de unión al ribosoma (RBS) del promotor del gen acs de E. coli.

En algunos ejemplos, las secuencias de ácido nucleico de la parte distal del promotor pr del fago lambda, las regiones variables -35 y -10 de los promotores pl y pr del fago lambda, las partes centrales de los promotores pl y pr del fago lambda y la parte 5' UTR/sitio de unión al ribosoma (RBS) del promotor del gen acs de E. coli se seleccionan de las secuencias de ácidos nucleicos que se encuentran en la Tabla 1.5.

En algunos ejemplos, el promotor quimérico sintético consiste en una secuencia de ácido nucleico seleccionada de las SEQ ID NOs. 132-152, 159-160, 162, 165, 174-175, 188, 190, 199-201 o 207.

En algunos ejemplos, el promotor quimérico sintético consiste en una secuencia de ácido nucleico seleccionada de las SEQ ID NOs. 153-158, 161, 163-164, 166-173, 176-187, 189, 191 -198 o 202-206.

En algunos ejemplos, la célula hospedante microbiana es E. coli.

En algunos ejemplos, el gen heterólogo que codifica un producto proteína de interés que se encuentra en la Tabla 2.

En algunos ejemplos, el gen heterólogo es un gen que es parte de una ruta biosintética de la lisina.

En algunos ejemplos, el gen heterólogo se selecciona del gen asd, el gen ask, el gen hom, el gen dapA, el gen dapB, el gen dapD, el gen ddh, el gen argD, el gen dapE, el gen dapF, el gen lysA, el gen lysE, el gen zwf, el gen pgi, el gen ktk, el gen fbp, el gen ppc, el gen pck, el gen ddx, el gen pyc o el gen icd.

En algunos ejemplos, el gen heterólogo es un gen que es parte de una ruta biosintética del licopeno.

En algunos ejemplos, el gen heterólogo se selecciona del gen dxs, el gen ispC, el gen ispE, el gen ispD, el gen ispF, el gen ispG, el gen ispH, el gen idi, el gen ispA, el gen ispB, el gen crtE, el gen crtB, el gen crtI, el gen crtY, el gen ymgA, el gen dxr, el gen elbA, el gen gdhA, el gen appY, el gen elbB o el gen ymgB.

En algunos ejemplos, el gen heterólogo codifica un producto biofarmacéutico o es un gen en una ruta para generar un producto biofarmacéutico.

En algunos ejemplos, el producto biofarmacéutico se selecciona de humulina (rh insulina), intrónA (interferón alfa2b), roferón (interferón alfa2a), humatrope (hormona del crecimiento rh somatropina), neupogen (filgrastim), detaferón (interferón beta-lb), lispro (insulina de acción rápida), rapilysin (reteplasa), infergen (interferón alfacon-1), glucagón, beromun (tasonermina), ontak (denileuquina diftitox), lantus (insulina glargina de acción prolongada), kineret (anakinra), natrecor (nesiritida), somavert (pegvisomant), calcitonina (calcitonina recombinante de salmón), lucentis (ranibizumab), preotact (hormona paratiroidea humana), kyrstexxal (rh urato oxidasa, PEGilada), nivestim (filgrastim, rhGCSF), voraxaze (glucarpidasa), o preos (hormona paratiroidea).

En algunos ejemplos, la presente descripción enseña un gen heterólogo operativamente unido a un promotor quimérico sintético con una secuencia de ácido nucleico seleccionada de las SEQ ID NO. 132-207.

En algunos ejemplos, el gen heterólogo codifica un producto proteína de interés encontrado en la Tabla 2.

En algunos ejemplos, el gen heterólogo es un gen que es parte de la ruta biosintética del licopeno.

En un primer aspecto de la invención se proporciona un método para generar una biblioteca de cepas de E. coli de intercambio de promotores, que comprende las etapas de:

a. proporcionar una pluralidad de genes diana endógenos para una cepa de E. coli base, y una escalera de promotores, en donde dicha escalera de promotores comprende una pluralidad de promotores que presentan diferentes perfiles de expresión en la cepa base E. coli, en donde al menos uno de la pluralidad de promotores es un promotor quimérico sintético, en donde el promotor quimérico sintético es de 60-90 nucleótidos de longitud y consiste en una parte distal del promotor pr del fago lambda, regiones variables -35 y -10 de los promotores p¡_ y pr del fago lambda que son cada uno de seis nucleótidos de longitud, partes centrales de los promotores pl y Pr del fago lambda y una parte 5' UTR/sitio de unión al ribosoma (RBS) que es la parte 5' UTR/RBS del promotor Pr del fago lambda o la parte de 5' UTR/sitio de unión al ribosoma (RBS) del promotor del gen acs de E. coli; y

b. transformar el genoma de la cepa base de E. coli, para crear así una biblioteca de cepas de E. coli de intercambio de promotores inicial que comprende una pluralidad de cepas de E. coli individuales con variaciones genéticas únicas encontradas dentro de cada cepa de dicha pluralidad de cepas de E. coli individuales, en donde cada una de dichas variaciones genéticas únicas comprende uno o más de los promotores de la escalera de promotores operativamente unidos a uno de los genes diana endógenos para la cepa base de E. coli.

En un segundo aspecto de la invención, se proporciona un método para mejorar el rendimiento fenotípico de una cepa de E. coli de producción, que comprende las etapas de:

c. proporcionar una pluralidad de genes diana endógenos para una cepa base de E. coli, y una escalera de promotores, en donde dicha escalera de promotores comprende una pluralidad de promotores que presentan diferentes perfiles de expresión en la cepa base de E. coli, en donde al menos uno de la pluralidad de promotores es un promotor quimérico sintético, en donde el promotor quimérico sintético es de 60-90 nucleótidos de longitud y consiste en una parte distal del promotor pr del fago lambda, regiones variables -35 y -10 de los promotores pl y pr del fago lambda que son cada uno de seis nucleótidos de longitud, partes centrales de los promotores pl y Pr del fago lambda y una parte de 5' UTR/sitio de unión al ribosoma (RBS) que es la parte 5' UTR/RBS del promotor pr del fago lambda o la parte de 5' UTR/sitio de unión al ribosoma del promotor del gen acs de E. coli;

d. transformar el genoma de la cepa base de E. coli, para crear así una biblioteca de cepas de E. coli de intercambio de promotores inicial que comprende una pluralidad de cepas de E. coli individuales con variaciones genéticas únicas encontradas dentro de cada cepa de dicha pluralidad de cepas de E. coli individuales, en donde cada una de dichas variaciones genéticas únicas comprende uno o más de los promotores de la escalera de promotores unidos operativamente a uno de los genes diana endógenos para la cepa base de E. coli;

e. cribar y seleccionar cepas de E. coli individuales de la biblioteca de cepas de E. coli de intercambio de promotores inicial para mejorar el rendimiento fenotípico frente a una cepa de E. coli de referencia, identificando así variaciones genéticas únicas que confieren mejoras del rendimiento fenotípico;

f. proporcionar una pluralidad subsiguiente de microbios de E. coli que comprende cada uno una combinación de variaciones genéticas únicas de las variaciones genéticas presentes en al menos dos cepas de E. coli individuales cribadas en la etapa precedente, para crear así una biblioteca de cepas de E. coli de intercambio de promotores subsiguiente;

g. cribar y seleccionar cepas de E. coli individuales de la biblioteca de cepas de E. coli de intercambio de promotores subsiguiente para mejorar el rendimiento fenotípico frente a la cepa de E. coli de referencia, identificando así combinaciones únicas de variación genética que confieren mejoras adicionales del rendimiento fenotípico; y

h. repetir las etapas d)-e) una o más veces, de una forma lineal o no lineal, hasta que una cepa de E. coli presenta un nivel deseado de rendimiento fenotípico mejorado en comparación con el rendimiento fenotípico de la cepa de E. coli de producción, donde cada iteración subsiguiente crea una nueva biblioteca de cepas microbianas de cepas de E. coli de intercambio de promotores, donde cada cepa de la nueva biblioteca comprende variaciones genéticas que son una combinación de variaciones genéticas seleccionadas de entre al menos dos cepas de E. coli individuales de una biblioteca precedente.

Las realizaciones preferidas de la invención en cualquiera de sus diversos aspectos son las descritas a continuación o como se definen en las subreivindicaciones.

Breve descripción de las figuras

La figura 1 representa un método de recombinación de ADN de la presente descripción para aumentar la variación en grupos de diversidad. Las secciones de ADN, tal como las regiones de genoma de especies relacionadas, se pueden cortar por medios físicos o enzimáticos/químicos. Las regiones de ADN cortadas se funden y se deja que se reasocien, de modo que las regiones genéticas superpuestas ceban las reacciones de extensión de la polimerasa. Las reacciones de fusión/extensión subsiguientes se llevan a cabo hasta que los productos se vuelven a ensamblar en ADN quimérico, que comprende elementos de una o más secuencias de partida.

La figura 2 describe métodos de la presente descripción para generar nuevas cepas de E. coli hospedantes con modificaciones de secuencia seleccionadas (p. ej, 100 SNP para intercambiar). Brevemente, el método comprende (1) los insertos de ADN deseados se diseñan y generan combinando uno o más oligos sintetizados en una reacción de ensamblaje, (2) los insertos de ADN se clonan en plásmidos de transformación, (3) los plásmidos completos se transfieren a las cepas de producción deseadas, donde se integran en el genoma de la cepa hospedante, y (4) los marcadores de selección y otros elementos de ADN no deseados se sacan en bucle de la cepa hospedante. Cada etapa de ensamblaje de ADN puede implicar etapas de control de calidad (CC) adicionales, tales como la clonación de plásmidos en bacterias E. coli para amplificación y secuenciación.

La figura 3 representa el ensamblaje de los plásmidos de transformación de la presente descripción y su integración en un genoma de E. coli hospedante. El inserto de ADN se genera combinando uno o más oligos sintetizados en una reacción de ensamblaje. Los insertos de ADN que contienen la secuencia deseada están flanqueados por regiones de ADN homólogas a la región diana del genoma. Estas regiones homólogas facilitan la integración genómica y, una vez integradas, forman regiones de repetición directas diseñadas para sacar un bucle de ADN de la cadena principal del vector en etapas subsiguientes. Los plásmidos ensamblados contienen el inserto de ADN y, opcionalmente, uno o más marcadores de selección.

La figura 4 representa un procedimiento para la salida bucles de regiones seleccionadas de ADN de cepas de E. coli hospedantes. Las regiones de repetición directa del ADN insertado y el genoma del hospedante pueden "salir en un bucle" en un suceso de recombinación. El contador de células seleccionado para el marcador de selección contiene deleciones del ADN del bucle flanqueado por las regiones de repetición directa.

La figura 5 representa un ejemplo del procedimiento de mejora de cepas de E. coli de la presente descripción. Las secuencias de la cepa hospedante que contienen modificaciones genéticas (diseño genético) se ensayan para mejorar el rendimiento de la cepa en varios contextos de cepas (construcción de cepas). Las cepas que presentan mutaciones beneficiosas se analizan (ID de aciertos y análisis) y los datos se almacenan en bibliotecas para su análisis adicional (p. ej., bibliotecas de intercambio de SNP, bibliotecas de intercambio de PRO y combinaciones de las mismas, entre otras). Las reglas de selección de la presente descripción generan nuevas secuencias de cepas hospedantes de E. coli propuestas basadas en el efecto predicho de combinar elementos de una o más bibliotecas para un análisis iterativo adicional.

La figura 6A-B representa las etapas de ensamblaje de ADN, transformación y cribado de cepas de E. coli de uno de los ejemplos de la presente descripción. La figura 6^a representa las etapas para construir fragmentos de ADN, clonar dichos fragmentos de ADN en vectores, transformar dichos vectores en cepas de E. coli hospedantes y salida de bucle de secuencias de selección mediante contraselección. La figura 6B representa las etapas para el cultivo, cribado y evaluación de alta capacidad de cepas hospedantes de E. coli seleccionadas. Esta figura también describe las etapas opcionales de cultivo, cribado y evaluación de cepas de E. coli seleccionadas en tanques de cultivo.

La figura 7 representa un ejemplo del sistema automatizado de la presente descripción. La presente descripción enseña el uso de sistemas robóticos automatizados con varios módulos capaces de clonar, transformar, cultivar, cribar y/o secuenciar E. coli hospedantes.

La figura 8 representa una visión general de un ejemplo del programa de mejora de cepas de E. coli de la presente descripción.

La figura 9 es una representación del genoma de Corynebacterium glutamicum, que comprende aproximadamente 3,2 millones de pares de bases.

La figura 10 representa los resultados de un experimento de transformación de la presente descripción. Se seleccionaron insertos de ADN en el intervalo de 0,5 kb a 5,0 kb para insertar en varias regiones (mostradas como posiciones relativas 1 -24) del genoma de Corynebacterium glutamicum. El color claro indica una integración con éxito, mientras que el color más oscuro indica fallo de inserción.

La figura 11 representa los resultados de un programa de intercambio de PRO de ingeniería de HTP de segunda ronda. Las combinaciones de promotor: :gen superiores identificadas durante la primera ronda de intercambio de PRO se analizaron de acuerdo con los métodos de la presente descripción para identificar combinaciones de dichas mutaciones que sería probable que presentaran efectos beneficiosos aditivos o combinatorios en el rendimiento del hospedante. Por lo tanto, los mutantes de intercambio de PRO de segunda ronda comprendían combinaciones de pares de varias mutaciones de promotor:: gen. Los mutantes de la segunda ronda resultantes se cribaron según las diferencias en el rendimiento de la célula hospedante de una biomolécula seleccionada. Un par de mutaciones de combinaciones que se había predicho que presentarían efectos beneficiosos se enfatiza con un círculo.

La figura 12 representa los resultados de un experimento que ensaya el ensamblaje de plásmido con éxito para plásmidos transformados en E. coli. Escoger cuatro colonias es suficiente para lograr una tasa de fallo de 13% para plásmidos que contienen secuencias de inserción de 1 y 2 kb. Las inserciones más grandes pueden requerir un cribado de colonias adicional para lograr resultados consistentes.

La figura 13 representa los resultados de un experimento que ensaya la transformación con éxito de Corynebacterium glutamicum con vectores de inserción. Los tamaños de insertos de ADN de 2 y 5 kb presentaron tasas altas de transformación con tasas bajas de fallo del ensamblaje.

La figura 14 representa los resultados de las selecciones de salidas de bucle en Corynebacterium glutamicum. La resistencia a la sacarosa de las bacterias transformadas indica salida de bucle del marcador de selección sacB. El tamaño del inserto de ADN no parece tener impacto en la eficiencia de la salida de bucle.

La figura 15 es una matriz de similitud calculada usando la medida de correlación. La matriz es una representación de la similitud funcional entre variantes de SNP. Se espera que la consolidación de SNP con baja similitud funcional tenga una mayor probabilidad de mejorar el rendimiento de las cepas, en contraposición a la consolidación de SNP con mayor similitud funcional.

La figura 16A-B representa los resultados de un experimento de mapeo de epistasis. La combinación de intercambios de SNP y de PRO con bajas similitudes funcionales da un mejor rendimiento de las cepas. La figura 16A representa un dendrograma agrupado por similitud funcional de todos los intercambios de SNP/PRO. La figura 16B representa el rendimiento de la cepa hospedante de SNP consolidados medidos por el rendimiento del producto. Una mayor distancia de agrupamientos se correlaciona con un mejor rendimiento de consolidación de la cepa hospedante.

La figura 17A-B representa diferencias de SNP entre variantes de cepas en el grupo de diversidad. La figura 17A representa la relación entre las cepas de este experimento. La cepa A es la cepa hospedante de tipo natural. La cepa B es una cepa modificada intermedia. La cepa C es la cepa de producción industrial. La figura 17B es un gráfico que identifica el número de SNP únicos y compartidos en cada cepa.

La figura 18 representa un experimento de intercambio de SNP de primera ronda de acuerdo con los métodos de la presente descripción. (1) todos los SNP de C se clonarán de forma individual y/o combinatoria en la cepa A base ("onda ascendente" de A a C). (2) todos los SNP de C se eliminarán de forma individual y/o combinatoria de la cepa comercial C ("onda descendente" de C a A). (3) todos los SNP de B se clonarán de forma individual y/o combinatoria en la cepa base A (onda ascendente de A a B). (4) todos los SNP de B se eliminarán de forma individual y/o combinatoria de la cepa comercial B (onda descendente de B a A). (5) todos los SNP únicos de C se clonarán de forma individual y/o combinatoria en la cepa B comercial (onda ascendente de B a C). (6) todos los SNP únicos de C se eliminarán de forma individual y/o combinatoria de la cepa comercial C (onda descendente C a B).

La figura 19 ilustra dianas génicas de ejemplo que se usarán en un procedimiento de intercambio de promotores. Los 4 subrayados son genes de desvío que se pueden dirigir para regulación por disminución, mientras que los 19 genes restantes en la ruta se pueden dirigir para sobreexpresión.

La figura 20 ilustra una biblioteca de promotores de ejemplo que se está utilizando para llevar a cabo un procedimiento de intercambio de promotores para las dianas de genes identificadas. Los promotores utilizados en el procedimiento de intercambio de PRO (es decir, intercambio de promotores) son P¹-P⁸, cuyas secuencias e identidad se pueden encontrar en la Tabla 1.

La figura 21 ilustra los diferentes enfoques disponibles para el intercambio de promotores dependiendo de si el gen diana comprende su propio promotor o es parte de un operón.

La figura 22 representa datos de intercambio de promotores de HTP de ejemplo que muestran modificaciones que afectan significativamente al funcionamiento en el rendimiento de lisina. El eje X representa diferentes cepas dentro de la biblioteca de cepas microbianas de diseño genético de intercambio de promotores, y el eje Y incluye valores relativos de rendimiento de lisina para cada cepa. Cada letra del gráfico representa un gen diana de intercambio de PRO. Cada punto de datos representa una repetición. Los datos demuestran que una herramienta molecular adaptada para aplicaciones de HTP, como se describe en el presente documento (es decir, intercambio de PRO), es capaz de crear y optimizar de manera eficiente el rendimiento de cepas microbianas para la producción de un compuesto o molécula de interés. En este caso, el compuesto de interés era lisina; sin embargo, la herramienta molecular de intercambio de PRO enseñada se puede utilizar para optimizar y/o aumentar la producción de cualquier compuesto de interés. Un experto en la técnica comprendería cómo elegir genes diana, que codifican la producción de un compuesto deseado, y después utilizar el procedimiento de intercambio de PRO enseñado. Un experto en la técnica apreciaría fácilmente que los datos demostrados que ilustran los aumentos de rendimiento de lisina enseñados en el presente documento, junto con la descripción detallada presentada en la solicitud, permiten que la herramienta molecular de intercambio de PRO sea un avance ampliamente aplicable en la ingeniería genómica de HTP.

La figura 23 ilustra la distribución de los rendimientos de cepas relativos para los datos de entrada considerados. Un rendimiento relativo de cero indica que la cepa modificada funcionaba igualmente bien que la cepa base en la placa. Los procedimientos descritos en el presente documento están diseñados para identificar las cepas que es probable que funcionen significativamente por encima de cero.

La figura 24 ilustra los valores del coeficiente de regresión lineal, que representan el cambio promedio (aumento o disminución) en el rendimiento relativo de las cepas asociado con cada cambio genético incorporado en las cepas representadas.

La figura 25 ilustra la composición de los cambios para los 100 diseños superiores de cepas pronosticadas. El eje x da el conjunto de cambios genéticos potenciales (las mutaciones dss son intercambios de SNP y las mutaciones Pcg son intercambios de PRO), y el eje y muestra el orden de clasificación. Las celdas negras indican la presencia de un cambio particular en el diseño candidato, mientras que las celdas blancas indican la ausencia de ese cambio. En este ejemplo particular, todos los 100 diseños superiores contienen los cambios pcg3121_pgi, pcg1860_pyc, dss_339 y pcg0007_39_lysa. Además, el diseño del candidato superior contiene los cambios dss_034, dss_009.

La figura 26 representa las etapas de ensamblaje y transformación de ADN de uno de los ejemplos de la presente descripción. El diagrama de flujo representa las etapas para construir fragmentos de ADN, clonar dichos fragmentos de ADN en vectores, transformar dichos vectores en cepas de E. coli hospedantes y la salida de bucle de secuencias de selección mediante contraselección.

La figura 27 representa las etapas para el cultivo, cribado y evaluación de alta capacidad de cepas de E. coli hospedantes seleccionadas. Esta figura también representa las etapas opcionales de cultivo, cribado y evaluación de cepas de E. coli seleccionadas en tanques de cultivo.

La figura 28 representa perfiles de expresión de promotores ilustrativos que presentan un intervalo de expresión reguladora, de acuerdo con las escaleras de promotores de la presente descripción. La expresión del promotor A alcanza su máximo en la fase de retardo de los cultivos bacterianos, mientras que el promotor B y C alcanzan su máximo en la fase exponencial y estacionaria, respectivamente.

La figura 29 representa perfiles de expresión de promotores ilustrativos que presentan un intervalo de expresión reguladora, de acuerdo con las escaleras de promotores de la presente descripción. La expresión del promotor A alcanza su máximo inmediatamente después de la adición de un sustrato seleccionado, pero vuelve rápidamente a niveles indetectables a medida que se reduce la concentración del sustrato. La expresión del promotor B alcanza su máximo inmediatamente después de la adición del sustrato seleccionado y baja lentamente hasta niveles indetectables junto con la correspondiente reducción en el sustrato. La expresión del promotor C alcanza su máximo tras la adición del sustrato seleccionado y permanece con expresión alta a lo largo de todo el cultivo, incluso después de que el sustrato se haya disipado.

La figura 30 representa perfiles de expresión de promotores ilustrativos que presentan un intervalo de niveles de expresión constitutivos, de acuerdo con las escaleras de promotores de la presente descripción. El promotor A presenta la expresión más baja, seguido de niveles de expresión crecientes del promotor B y C, respectivamente.

La figura 31 representa gráficamente un ejemplo del sistema LIMS de la presente descripción para la mejora de cepas de E. coli.

La figura 32 representa gráficamente una implementación computacional en la nube de ejemplos del sistema LIMS de la presente descripción.

La figura 33 representa un ejemplo del flujo de trabajo de diseño predictivo de cepas iterativo de la presente descripción.

La figura 34 representa gráficamente un ejemplo de un sistema informático, de acuerdo con ejemplos de la presente descripción.

La figura 35 representa el flujo de trabajo asociado con el ensamblaje de ADN según un ejemplo de la presente descripción. Este procedimiento se divide en 4 etapas: generación de partes, ensamblaje del plásmido, CC del plásmido y preparación del plásmido para la transformación. Durante la generación de las partes, los oligonucleótidos diseñados por el sistema de gestión de información de laboratorio (LIMS) se encargan a un proveedor de secuenciación de oligonucleótidos y se utilizan para amplificar las secuencias diana del organismo hospedante por PCR. Estas partes de la PCR se limpian para eliminar contaminantes y se evalúa su éxito por análisis de fragmentos, comparación de control de calidad in silico de tamaños de fragmentos observados con teóricos y cuantificación de ADN. Las partes se transforman en levaduras junto con un vector de ensamblaje y se ensamblan en plásmidos por recombinación homóloga. Los plásmidos ensamblados se aíslan de la levadura y se transforman en E. coli para el subsiguiente control de calidad del ensamblaje y amplificación. Durante el control de calidad del ensamblaje del plásmido, se aíslan varias copias de cada plásmido, se amplifican por amplificación en círculo rodante (RCA) y se evalúa el ensamblaje correcto por digestión enzimática y análisis de fragmentos. Los plásmidos correctamente ensamblados identificados durante el procedimiento de CC se seleccionan como aciertos para generar reservas permanentes y el ADN del plásmido se extrae y cuantifica antes de la transformación en el organismo hospedante diana.

La figura 36 representa los resultados de un experimento que caracteriza los efectos de terminadores T1-T8 en dos medios en dos puntos de tiempo. Las condiciones A y C representan los dos puntos de tiempo para los medios BHI, mientras que los puntos B y D representan los dos puntos de tiempo para los medios de ensayo HTP.

La figura 37 representa los resultados de un experimento que compara la eficacia de enfoques tradicionales de mejora de cepas tales como mutagénesis por UV frente a las metodologías de ingeniería de HTP de la presente descripción. La gran mayoría de las mutaciones por UV no produjeron un aumento notable en el rendimiento de las células hospedantes. Por el contrario, las metodologías de intercambio de PRO de la presente descripción produjeron una alta proporción de mutantes que presentaban aumentos de 1,2 a 2 veces en el rendimiento de las células hospedantes.

La figura 38 representa los resultados de la primera ronda de un programa de intercambio de SNP de ingeniería de HTP. Se identificaron 186 mutaciones de SNP individuales y se clonaron individualmente en una cepa base. Los mutantes resultantes se cribaron según las diferencias en el rendimiento de la célula hospedante de una biomolécula seleccionada.

La figura 39 representa los resultados de la segunda ronda de un programa de intercambio de SNP de ingeniería de HTP. Se clonaron individualmente 176 mutaciones de SNP individuales de una primera ronda del programa de intercambio de SNP en una cepa de células hospedantes de la segunda ronda que contenía un SNP beneficioso identificado durante un programa de SNP de la primera ronda. Por lo tanto, los mutantes resultantes representan el efecto de dos pares de combinaciones de mutaciones. Se muestran los resultados del cribado según las diferencias en el rendimiento de la célula hospedante (eje Y) y la productividad (eje X) para la biomolécula seleccionada.

La figura 40 representa los resultados de un experimento de validación de fermentación en tanque. Los pares de mutaciones superiores de la segunda ronda de intercambio de SNP de HTP se cultivaron en tanques de fermentación. Se muestran los resultados del rendimiento y la productividad de las células hospedantes para la biomolécula seleccionada (es decir, lisina). Como puede verse, en una ronda de ingeniería genómica, los autores de la invención utilizaron el procedimiento de intercambio de PRO para determinar que un mutante de intercambio de PRO particular (zwf) presentaba mayor rendimiento de una biomolécula seleccionada en comparación con la cepa base (es decir, se compara la cepa base con la cepa base zwf). Después, los autores de la invención llevaron a cabo otra ronda de ingeniería genómica, en donde se utilizó un procedimiento de intercambio de SNP para determinar mutaciones de SNP beneficiosas que podrían afectar al rendimiento de la biomolécula, cuando se combinan con dicho mutante de intercambio de PRO. La combinación del procedimiento de intercambio de PRO y el procedimiento de intercambio de SNP creaba mutantes con rendimientos incluso más altos que los mutantes de intercambio de PRO solo anteriores (es decir, se compara la cepa base zwf SNP121 con la cepa base zwf previamente descrita). Esta figura ilustra las mejoras notables en el rendimiento que se pueden lograr al combinar los procedimientos de intercambio de PRO e intercambio de SNP de la descripción. En ejemplos, la combinación de una campaña de ingeniería genómica de intercambio de PRO con una campaña de ingeniería genómica de intercambio de SNP puede conducir a un mayor rendimiento y/o productividad de una biomolécula/producto de interés en un factor de 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9% 10%, 15%, 20%, 25%, 30%, 40%, 45%, 50%, o más, en relación con una cepa base.

La figura 41 representa los resultados de la primera ronda de un programa de intercambio de PRO de ingeniería de HTP. Los genes seleccionados que se cree que están asociados con el rendimiento del hospedante se combinaron con una escalera de promotores para crear una biblioteca de intercambio de PRO de la primera ronda, de acuerdo con los métodos de la presente descripción. Los mutantes resultantes se cribaron según las diferencias en el rendimiento de la célula hospedante de una biomolécula seleccionada (es decir, lisina).

La figura 42 es un diagrama de flujo que ilustra la consideración de los efectos epistáticos en la selección de mutaciones para el diseño de una cepa microbiana, de acuerdo con los ejemplos de la descripción.

La figura 43 representa una secuencia reguladora de diseño bicistrónico (BCD), de acuerdo con la presente descripción. En algunos ejemplos, la presente descripción enseña que se pueden usar los BCD en lugar de los promotores tradicionales con el fin de mejorar la consistencia de la expresión entre diferentes combinaciones de promotores: :genes diana en intercambios de PRO. En algunos ejemplos, los BCD comprenden un promotor, un primer sitio de unión al ribosoma (SD1), una primera secuencia cistrónica (Cis1), un segundo sitio de unión al ribosoma (SD2), operativamente unido a un gen diana de interés (Cis2). En algunos ejemplos, la presente descripción enseña que Cis1 puede ser cualquier secuencia codificante de péptidos. Se proporciona información adicional sobre el diseño y uso de BCD en secciones posteriores de la memoria descriptiva.

La figura 44 es una ilustración de la colocalización de enzimas de rutas mediante dominios de unión a ADN recombinantes. Una célula modificada codifica las enzimas de ruta Enz1 -3 con dominios de unión al ADN. Cuando se expresan, estas enzimas se unen a un ADN armazón u otra ubicación diana, que comprende motivos de ADN que son reconocidos por los dominios de unión de ADN recombinantes fusionados con las enzimas de ruta. Cuando los dominios de unión de ADN fusionados se unen a sus motivos de ADN cognado en el plásmido de armazón, las enzimas están constreñidas cerca unas de otras en el espacio, lo que puede mejorar la productividad de la ruta.

La figura 45 es un diagrama esquemático para la incorporación de secuencias de nucleótidos que codifican dominios de unión de ADN en enzimas de ruta. El GOI codifica una enzima de ruta. Las células de E. coli se transforman con un plásmido que codifica una versión mutante de GOI que incluye una secuencia de nucleótidos que codifica un dominio de unión de ADN (indicado con una estrella). El plásmido también codifica un marcador de resistencia a antibióticos (Ab) que permite la selección de células con "entrada de bucle" ("Loop-in") y un marcador de contraselección (Contador) que permite la contraselección posterior de las células con "salida de bucle" ("Loop-out"). En la etapa de "entrada de bucle", el plásmido completo, incluido el GOI mutante, se incorpora en el genoma por recombinación homóloga (HR). Durante la etapa de "salida de bucle", algunas de las células volverán a la secuencia nativa del GOI a través de HR, mientras que otras sufrirán un suceso de HR que dejará al GOI mutante en el genoma.

La figura 46 es un diagrama de puntos para el rendimiento previsto frente al rendimiento medido de los datos de entrenamiento para un modelo de rendimiento de la presente descripción. El modelo subyacente es un modelo de regresión de Kernel Ridge (con kernel polinomial de orden 4). El modelo se entrena en 1864 construcciones genéticas únicas y el rendimiento fenotípico asociado. El modelo ajustado tiene un valor r2 de 0,52.

La figura 47 representa la composición genética de los diseños de candidatos generados por los algoritmos de predicción de la presente descripción. Estos diseños de candidatos se enviaron para la construcción y análisis de HTP. Aquí, el diseño de candidato se define como la combinación de la id de la cepa parental y la mutación o mutaciones introducidas.

La Figura 48 es un diagrama de puntos del rendimiento previsto frente al rendimiento medido de los diseños de candidatos generados por los algoritmos de predicción de la presente descripción, y construido de acuerdo con los métodos de construcción de HTP de la presente descripción. Esta figura demuestra que el modelo puede predecir el rendimiento de la cepa candidata con un grado aceptable de precisión.

La figura 49 es un diagrama de caja y bigotes que representa el porcentaje de cambio de rendimiento de las cepas candidatas con respecto a las cepas parentales. En el eje y, un valor de 0,01 corresponde al 1 %. Esta figura demuestra que las cepas diseñadas por un modelo computacional (gris claro) logran una mejora cuantificable frente a sus cepas parentales correspondientes. Además, la figura demuestra que estas mejoras de la cepa base del modelo son comparables en magnitud a las mejoras logradas por cepas diseñadas por expertos humanos.

La figura 50 ilustra la distribución del comportamiento del rendimiento para las cepas diseñadas por el modelo computacional (gris oscuro) y por un experto humano (gris claro). Las cepas diseñadas por ordenador presentaban distribuciones más ajustadas con ganancias medianas más altas.

La figura 51 es un diagrama de caja y bigotes que representa el rendimiento absoluto de cepas candidatas generadas por ordenador (gris claro) o por un experto humano (gris oscuro). Los resultados se agregan por cepa parental.

La figura 52 es una representación del genoma de Escherichia coli, que comprende aproximadamente 4,6 millones de pares de bases.

La figura 53 ilustra el efecto de las partes aislantes y terminadoras en las cadenas principales del vector en la eficiencia de la transformación y la integración del plásmido.

La figura 54 ilustra el diseño combinatorio de secuencias de promotor-5'UTR sintéticas de la Tabla 1.4.

La figura 55 representa el mapa de plásmido que ilustra los componentes de la cadena principal del vector 1. La figura 56 representa el mapa de plásmido que ilustra los componentes de la cadena principal del vector 2. La figura 57 representa el mapa de plásmido que ilustra los componentes de la cadena principal del vector 3. La figura 58 representa el mapa de plásmido que ilustra los componentes de la cadena principal del vector 4. La figura 59 representa la ruta biosintética del licopeno de E. coli.

La figura 60 representa ediciones del terminador en las dianas de la ruta del licopeno id ie ymgA. El terminador TyjbE demuestra una disminución del rendimiento de la cepa en relación con el control, destacando así la utilidad de estos tipos de bibliotecas para identificar las dianas de las rutas críticas.

La figura 61 representa ediciones del terminador en múltiples dianas de la ruta del licopeno.

La figura 62 representa los intercambios de promotores (para comparación), marcadores de degradación y terminadores en la diana dxs de la ruta del licopeno. El marcador de degradación ssrA_LAA demuestra un rendimiento de cepa mejorado con respecto al control. Esto es inesperado ya que esta cepa es una combinación de un PROSWP con una marcador de degradación en una única diana de ruta. Se espera que el PROSWP inicial aumente la abundancia de proteínas, y se espera que el marcador de degradación disminuya la abundancia de proteínas, demostrando así la utilidad de las combinaciones de tipos de bibliotecas para ajustar el rendimiento óptimo de la cepa. La figura 63 representa intercambios de marcadores de solubilidad, promotores y terminadores en la diana gdhA de la ruta del licopeno. El marcador de solubilidad FH8 demuestra un rendimiento de cepa mejorado con respecto al control, pero el marcador de solubilidad GB1 no, lo que demuestra la necesidad de evaluar bibliotecas de cada tipo de modificación.

Descripción detallada

Definiciones

Aunque se cree que los siguientes términos son bien entendidos por un experto en la técnica, las siguientes definiciones se exponen para facilitar la explicación de la materia objeto actualmente descrita.

El término "un" o "una" se refiere a uno o más de esa entidad, es decir, se puede referir a varios referentes. Así pues, los términos "un" o "una", "uno o más" y "al menos uno" se usan indistintamente en el presente documento. Además, la referencia a "un elemento" por el artículo indefinido "un" o "una" no excluye la posibilidad de que esté presente más de uno de los elementos, a menos que el contexto requiera claramente que haya uno y solo uno de los elementos. Como se usa en el presente documento, los términos "organismo celular" "microorganismo" o "microbio" deben tomarse de manera amplia. Estos términos se usan indistintamente e incluyen, pero no se limitan a los dos dominios procariotas, Bacteria y Archaea, así como a ciertos protistas y hongos eucariotas. En algunos ejemplos, la descripción se refiere a los "microorganismos" u "organismos celulares" o "microbios" de listas/tablas y figuras presentes en la descripción. Esta caracterización se puede referir no solo a los géneros taxonómicos identificados de las tablas y figuras, sino también a las especies taxonómicas identificadas, así como a las diversas cepas nuevas y recién identificadas o diseñadas de cualquier organismo en dichas tablas o figuras. La misma caracterización es válida para la mención de estos términos en otras partes de la memoria descriptiva, tal como en los ejemplos.

El término "procariotas" es reconocido en la técnica y se refiere a células que no contienen núcleo u otros orgánulos celulares. Los procariotas se clasifican en general en uno de dos dominios, las Bacteria y las Archea. La diferencia definitiva entre organismos de los dominios Archaea y Bacteria se basa en diferencias fundamentales en la secuencia de bases de nucleótidos en el ARN ribosómico 16S.

El término "Archaea" se refiere a una categorización de organismos de la división Mendosicutes, que se encuentran típicamente en ambientes inusuales y se distinguen del resto de los procariotas por varios criterios, que incluyen el número de proteínas ribosómicas y la falta de ácido murámico en las paredes celulares. Basado en el análisis de ssrARN, las Archaea consisten en dos grupos filogenéticamente distintos: Crenarchaeota y Euryarchaeota. Basado en su fisiología, las Archaea se pueden organizar en tres tipos: metanógenos (procariotas que producen metano); halófilos extremos (procariotas que viven en concentraciones muy altas de sal (NaCl); y (hiper) termófilos extremos (procariotas que viven a temperaturas muy altas). Además de las características unificadoras de las arqueas que las distinguen de las bacterias (es decir, sin mureína en la pared celular, lípidos de membrana unidos por éster, etc.), estos procariotas presentan atributos estructurales o bioquímicos únicos que los adaptan a sus hábitats particulares. La Crenarchaeota consiste principalmente en procariotas hipertermófilos dependientes de azufre y la Euryarchaeota contiene los metanógenos y halófilos extremos.

"Bacteria" o "eubacteria" se refiere a un dominio de organismos procariotas. Las bacterias incluyen al menos 11 grupos distintos como sigue: (1) bacterias Gram positivas (Gram+), de las cuales hay dos subdivisiones principales: (1) grupo de alto contenido G+C (Actinomycetes, Mycobacteria, Micrococcus, otros) (2) grupo de bajo contenido G+C (Bacillus, Clostridia, Lactobacillus, Staphylococci, Streptococci, Mycoplasmas); (2) Proteobacterias, p. ej., bacterias Gram negativas fotosintéticas púrpura+no fotosintéticas (incluye las bacterias Gram negativas más "comunes"); (3) Cianobacterias, p. ej., fotótrofos oxigénicos; (4) Espiroquetas y especies relacionadas; (5) Planctomicetos; (6) Bacteroides, Flavobacteria;(7) Chlamydia; (8) Bacterias verdes del azufre; (9) Bacterias verdes no del azufre (también fotótrofos anaeróbicos); (10) Micrococos radiorresistentes y relacionados; (11) Thermotoga y Thermosipho thermophiles.

Un "eucariota" es cualquier organismo cuyas células contienen un núcleo y otros orgánulos encerrados dentro de membranas. Los eucariotas pertenecen al taxón Eukarya o Eukaryota. La característica definitoria que diferencia a las células eucariotas de las células procariotas (las bacterias y arqueas mencionadas anteriormente) es que tienen orgánulos unidos a la membrana, especialmente el núcleo, que contiene el material genético, y está encerrado por la envoltura nuclear.

Las expresiones "célula hospedante genéticamente modificada", "célula hospedante recombinante" y "cepa recombinante" se utilizan indistintamente en el presente documento y se refieren a células hospedantes que han sido modificadas genéticamente mediante los métodos de clonación y transformación de la presente descripción. Por lo tanto, las expresiones incluyen una célula hospedante (p. ej., bacteria, célula de levadura, célula fúngica, CHO, célula humana, etc.) que ha sido alterada, modificada o manipulada genéticamente, de modo que presenta un genotipo y/o fenotipo (p. ej., cuando la modificación genética afecta a las secuencias de ácido nucleico codificantes del microorganismo) alterado, modificado o diferente en comparación con el organismo natural del que se ha obtenido. Se entiende que en algunos ejemplos, los términos se refieren no solo a la célula hospedante recombinante particular en cuestión, sino también a la progenie o la potencial progenie de dicha célula hospedante.

La expresión "microorganismo de tipo natural" o "célula hospedante de tipo natural" describe una célula que se encuentra en la naturaleza, es decir, una célula que no ha sido modificada genéticamente.

La expresión "genéticamente transformado" se puede referir a cualquier manipulación del genoma de una célula hospedante (p. ej., por inserción, deleción, mutación o reemplazo de ácidos nucleicos).

El término "control" o "célula hospedante de control" se refiere a una célula hospedante de comparación adecuada para determinar el efecto de una modificación genética o tratamiento experimental. En algunos ejemplos, la célula hospedante de control es una célula de tipo natural. En otros ejemplos, una célula hospedante de control es genéticamente idéntica a la célula hospedante genéticamente modificada, salvo por la o las modificaciones genéticas que diferencian a la célula hospedante de tratamiento. En algunos ejemplos, la presente descripción enseña el uso de cepas parentales como células hospedantes de control (p. ej., la cepa Si que se usó como base para el programa de mejora de cepas). En otros ejemplos, una célula hospedante puede ser una célula genéticamente idéntica que carece de un promotor o SNP específico que se esté ensayando en la célula hospedante de tratamiento.

Como se usa en el presente documento, el término "alelo(s)" significa cualquiera de una o más formas alternativas de un gen, todos cuyos alelos están relacionados con al menos un rasgo o característica. En una célula diploide, los dos alelos de un gen determinado ocupan locus correspondientes en un par de cromosomas homólogos.

Como se usa en el presente documento, el término "locus" (plural locus) significa un lugar o lugares específicos o un sitio en un cromosoma donde, por ejemplo, se encuentra un gen o marcador genético.

Como se usa en el presente documento, la expresión "genéticamente ligado" se refiere a dos o más rasgos que se co-heredan en una alta tasa durante la reproducción, de modo que son difíciles de separar por cruzamiento.

Una "recombinación" o "suceso de recombinación" como se usa en el presente documento, se refiere a un cruce cromosómico o una distribución independiente.

Como se usa en el presente documento, el término "fenotipo" se refiere a las características observables de una célula individual, cultivo celular, organismo o grupo de organismos que resultan de la interacción entre la composición genética de ese individuo (es decir, genotipo) y el medio ambiente.

Como se usa en el presente documento, el término "quimérico" o "recombinante" cuando se describe una secuencia de ácido nucleico o una secuencia de proteína se refiere a un ácido nucleico, o una secuencia de proteína, que une al menos dos polinucleótidos heterólogos, o dos polipéptidos heterólogos, en un solo macromolécula, o que reordena uno o más elementos de al menos una secuencia de proteína o ácido nucleico natural. Por ejemplo, el término "recombinante" se puede referir a una combinación artificial de dos segmentos de secuencia separados de otro modo, p. ej., por síntesis química o por la manipulación de segmentos aislados de ácidos nucleicos por técnicas de ingeniería genética.

Como se usa en el presente documento, una "secuencia de nucleótidos sintética" o "secuencia de polinucleótidos sintética" es una secuencia de nucleótidos que no se conoce que se produzca en la naturaleza o que no se produce de forma natural. Generalmente, dicha secuencia de nucleótidos sintética comprenderá al menos una diferencia de nucleótidos en comparación con cualquier otra secuencia de nucleótidos que se encuentra de forma natural.

Como se usa en el presente documento, el término "ácido nucleico" se refiere a una forma polimérica de nucleótidos de cualquier longitud, sean ribonucleótidos o desoxirribonucleótidos, o análogos de los mismos. Este término se refiere a la estructura primaria de la molécula y, por tanto, incluye ADN bicatenario y monocatenario, así como ARN bicatenario y monocatenario. También incluye ácidos nucleicos modificados tales como ácidos nucleicos metilados y/o con caperuza, ácidos nucleicos que contienen bases modificadas, modificaciones de la cadena principal y similares. Los términos "ácido nucleico" y "secuencia de nucleótidos" se usan indistintamente.

Como se usa en el presente documento, la expresión "armazón de ADN" o "armazón de ácido nucleico" se refiere a un armazón de ácido nucleico que se produce de forma artificial o a una secuencia de origen natural que se readapta como armazón. En un ejemplo de la presente descripción, el armazón de ácido nucleico es un armazón de ácido desoxirribonucleico sintético. Los desoxirribonucleótidos del armazón sintético pueden comprender bases de purina y pirimidina u otras bases desoxirribonucleotídicas naturales, modificadas química o bioquímicamente, no naturales o derivatizadas. Como se describe con más detalle en el presente documento, el armazón de ácido nucleico de la presente descripción se utiliza para ensamblar e inmovilizar espacial y temporalmente dos o más proteínas implicadas en una ruta biológica, es decir, enzimas biosintéticas, para crear un complejo funcional. El ensamblaje e inmovilización de cada proteína de la ruta biológica en el armazón se produce a través de la interacción de unión entre una de las secuencias de unión a proteínas, es decir, sitios de acoplamiento de proteínas, del armazón y una parte de unión al ADN correspondiente de una enzima biosintética quimérica. Por consiguiente, el armazón de ácido nucleico comprende una o más subunidades, comprendiendo cada subunidad dos o más secuencias de unión a proteínas para acomodar la unión de dos o más proteínas quiméricas diferentes de la ruta biológica.

Como se usa en el presente documento, una "secuencia de unión de ADN" o "sitio de unión de ADN" se refiere a una secuencia de ácido nucleico específica que es reconocida y unida por una parte del dominio de unión de ADN de un gen biosintético quimérico (p. ej., enzima biosintética quimérica) codificado por genes modificados de la presente descripción. Muchos dominios de unión de ADN y sus sitios de reconocimiento de ADN de la pareja de unión análoga (es decir, sitios de unión de ADN) son bien conocidos en la técnica. Por ejemplo, se conocen en la técnica numerosos dominios de unión de dedos de zinc y sus correspondientes sitios diana de unión de ADN y son adecuados para usar en la presente descripción. Otros dominios de unión de ADN incluyen, sin limitación, dominios de unión de cremallera de leucina y sus correspondientes sitios de unión de ADN, dominios de unión de ADN de hélice alada y sus correspondientes sitios de unión de ADN, dominios de unión de ADN de hélice alada-giro-hélice y sus correspondientes sitios de unión de ADN, dominios de unión de ADN HMG-caja y sus correspondientes secuencias de unión de ADN, dominios de unión de ADN de hélice-bucle-hélice y sus correspondientes secuencias de unión de ADN, y dominios de unión de ADN de hélice-giro-hélice y sus correspondientes secuencias de unión de ADN. Otros dominios de unión de ADN conocidos con secuencias de unión de ADN conocidas incluyen el dominio de ADN de inmunoglobulina, dominio de unión de ADN B3 y dominios de unión de ADN efector TAL. Las subunidades de armazón de ácido nucleico de la presente descripción pueden comprender dos o más de los sitios de unión de ADN mencionados antes.

Como se usa en el presente documento, el término "gen" se refiere a cualquier segmento de ADN asociado con una función biológica. Por lo tanto, los genes incluyen, pero no se limitan a, secuencias codificantes y/o las secuencias reguladoras necesarias para su expresión. Los genes también pueden incluir segmentos de ADN no expresados que, por ejemplo, forman secuencias de reconocimiento para otras proteínas. Los genes se pueden obtener de una variedad de fuentes, que incluyen la clonación de una fuente de interés o la síntesis a partir de información de secuencia conocida o prevista, y pueden incluir secuencias diseñadas para tener los parámetros deseados.

Como se usa en el presente documento, el término "homólogo" u "ortólogo" se conoce en la técnica y se refiere a secuencias relacionadas que comparten un ancestro o miembro de familia común y se determinan basándose en el grado de identidad de secuencia. Los términos "homología", "homólogo", "sustancialmente similar" y "que se corresponde sustancialmente" se usan indistintamente en el presente documento. Se refieren a fragmentos de ácido nucleico en donde los cambios en una o más bases de nucleótidos no afectan a la capacidad del fragmento de ácido nucleico para mediar en la expresión génica o producir un determinado fenotipo. Estos términos también se refieren a modificaciones de los fragmentos de ácido nucleico de la presente descripción tales como deleción o inserción de uno o más nucleótidos que no alteran sustancialmente las propiedades funcionales del fragmento de ácido nucleico resultante con respecto al fragmento inicial no modificado. Por lo tanto, se entiende, como apreciarán los expertos en la técnica, que la descripción abarca más que las secuencias de ejemplo específicas. Estos términos describen la relación entre un gen que se encuentra en una especie, subespecie, variedad, variedad cultivada o cepa y el gen correspondiente o equivalente en otra especie, subespecie, variedad, cultivo o cepa. Para los propósitos de esta descripción, se comparan secuencias homólogas. Se piensa, se cree o se sabe que las "secuencias homólogas" u "homólogos" u "ortólogos" están funcionalmente relacionados. Una relación funcional se puede indicar en cualquiera de varias formas, que incluyen, pero no se limitan a: (a) grado de identidad de secuencia y/o (b) la misma o similar función biológica. Preferiblemente, se indican tanto (a) como (b). La homología se puede determinar usando programas de software fácilmente disponibles en la técnica, tales como los descritos en Current Protocols in Molecular Biology (F.M. Ausubel et al., Eds., 1987) Suplemento 30, sección 7.718, Tabla 7.71. Algunos programas de alineamiento son MacVector (Oxford Molecular Ltd, Oxford, Reino Unido), ALIGN Plus (Scientific and Educational Software, Pensilvania) y AlignX (Vector NTI, Invitrogen, Carlsbad, CA). Otro programa de alineamiento es Sequencher (Gene Codes, Ann Arbor, Michigan), que utiliza parámetros predeterminados.

Como se usa en el presente documento, el término "endógeno" o "gen endógeno" se refiere al gen de origen natural, en la ubicación en la que se encuentra de forma natural dentro del genoma de la célula hospedante. En el contexto de la presente descripción, unir operativamente un promotor heterólogo a un gen endógeno significa insertar genéticamente una secuencia promotora heteróloga delante de un gen existente, en la ubicación donde ese gen está presente de forma natural. Un gen endógeno como se describe en el presente documento puede incluir alelos de genes naturales que se han mutado de acuerdo con cualquiera de los métodos de la presente descripción.

Como se usa en el presente documento, el término "exógeno" se usa indistintamente con el término "heterólogo" y se refiere a una sustancia que proviene de alguna fuente distinta a su fuente nativa. Por ejemplo, las expresiones "proteína exógena" o "gen exógeno" se refieren a una proteína o gen de una fuente o ubicación no nativa, y que se han suministrado artificialmente a un sistema biológico.

Como se usa en el presente documento, la expresión "cambio de nucleótidos" se refiere, p. ej., a la sustitución, deleción y/o inserción de nucleótidos, como se entiende bien en la técnica. Por ejemplo, las mutaciones contienen alteraciones que producen sustituciones, adiciones o deleciones silenciosas, pero no alteran las propiedades o actividades de la proteína codificada o cómo se producen las proteínas.

Como se usa en el presente documento, la expresión "modificación de proteínas" se refiere, p. ej., a la sustitución de aminoácidos, modificación, deleción y/o inserción de aminoácidos, como se entiende bien en la técnica.

Como se usa en el presente documento, la expresión "al menos una parte" o "fragmento" de un ácido nucleico o polipéptido significa una parte que tiene las características de tamaño mínimo de dichas secuencias, o cualquier fragmento más grande de la molécula de longitud completa, hasta e incluyendo la molécula de longitud completa. Un fragmento de un polinucleótido de la descripción puede codificar una parte biológicamente activa de un elemento regulador genético. Se puede preparar una parte biológicamente activa de un elemento regulador genético aislando una parte de uno de los polinucleótidos de la descripción que comprende el elemento regulador genético y evaluando la actividad como se describe en el presente documento. De manera similar, una parte de un polipéptido puede ser de 4 aminoácidos, 5 aminoácidos, 6 aminoácidos, 7 aminoácidos, etc., subiendo hasta el polipéptido de longitud completa. La longitud de la parte que se va a usar dependerá de la aplicación particular. Una parte de un ácido nucleico útil como sonda de hibridación puede ser tan corta como 12 nucleótidos; en algunos ejemplos, es de 20 nucleótidos. Una parte de un polipéptido útil como un epítopo puede ser tan corta como 4 aminoácidos. Una parte de un polipéptido que realiza la función del polipéptido de longitud completa generalmente sería más larga que 4 aminoácidos.

Los polinucleótidos variantes también abarcan secuencias derivadas de un procedimiento mutagénico y recombinogénico, tal como el barajado de ADN. Las estrategias para dicho barajado de ADN son conocidas en la técnica. Véase, por ejemplo, Stemmer (1994) PNAS 91:10747-10751; Stemmer (1994) Nature 370:389-391; Crameri et al. (1997) Nature Biotech. 15:436-438; Moore et al. (1997) J. Mol. Biol. 272:336-347; Zhang et al. (1997) PNAS 94:4504-4509; Crameri et al. (1998) Nature 391:288-291; y patentes de EE.UU. n25.605.793 y 5.837.458.

Para las amplificaciones por PCR de los polinucleótidos descritos en el presente documento, se pueden diseñar cebadores oligonucleótidos para usar en reacciones de PCR para amplificar las secuencias de ADN correspondientes a partir de ADNc o ADN genómico extraído de cualquier organismo de interés. Los métodos para diseñar cebadores de PCR y la clonación de PCR se conocen en general en la técnica y se describen en Sambrook et al. (2001) Molecular Cloning: A Laboratory Manual (3a ed., Cold Spring Harbor Laboratory Press, Plainview, New York). Véase también Innis et al., eds. (1990) PCR Protocols: A Guide to Methods and Applications (Academic Press, New York); Innis y Gelfand, eds. (1995) pCr Strategies (Academic Press, New York); e Innis y Gelfand, eds. (1999) PCR Methods Manual (Academic Press, New York). Los métodos conocidos de PCR incluyen, pero no se limitan a métodos que usan cebadores emparejados, cebadores anidados, cebadores específicos únicos, cebadores degenerados, cebadores específicos de genes, cebadores específicos de vector, cebadores parcialmente mal emparejados y similares.

El término "cebador", como se usa en el presente documento, se refiere a un oligonucleótido que es capaz de hibridar con la diana de amplificación permitiendo que una ADN polimerasa se una, sirviendo así como un punto de inicio de la síntesis de ADN cuando se pone en condiciones en las que se induce la síntesis del producto de extensión del cebador, es decir, en presencia de nucleótidos y un agente para la polimerización tal como ADN polimerasa y a una temperatura y pH adecuados. El cebador (de amplificación) es preferiblemente monocatenario para una máxima eficacia en la amplificación. Preferiblemente, el cebador es un oligodesoxirribonucleótido. El cebador debe ser suficientemente largo para cebar la síntesis de productos de extensión en presencia del agente para la polimerización. Las longitudes exactas de los cebadores dependerán de muchos factores, que incluyen la temperatura y la composición (contenido de A/T frente a G/C) del cebador. Un par de cebadores bidireccionales consisten en un cebador directo y uno inverso como se usa comúnmente en la técnica de la amplificación de ADN, tal como en la amplificación por PCR.

Como se usa en el presente documento, "promotor" se refiere a una secuencia de ADN capaz de controlar la expresión de una secuencia codificante o ARN funcional. En algunos ejemplos, la secuencia de promotor consiste en elementos secuencia arriba proximales y más distales, estos últimos elementos a menudo denominados potenciadores. Por consiguiente, un "potenciado^ es una secuencia de ADN que puede estimular la actividad del promotor y puede ser un elemento innato del promotor o un elemento heterólogo insertado para mejorar el nivel o la especificidad tisular de un promotor. Los promotores se pueden obtener en su totalidad de un gen nativo, o estar compuestos de diferentes elementos derivados de diferentes promotores encontrados en la naturaleza, o incluso comprender segmentos de ADN sintéticos. Los expertos en la técnica entenderán que diferentes promotores pueden dirigir la expresión de un gen en diferentes tejidos o tipos de células, o en diferentes etapas de desarrollo, o en respuesta a diferentes condiciones ambientales. Se reconoce además que, puesto que en la mayoría de los casos los límites exactos de las secuencias reguladoras no se han definido completamente, los fragmentos de ADN de alguna variación pueden tener actividad promotora idéntica.

Como se usa en el presente documento, las frases "construcción recombinante", "construcción de expresión", "construcción quimérica", "construcción" y "construcción de ADN recombinante" se usan indistintamente en el presente documento. Una construcción recombinante comprende una combinación artificial de fragmentos de ácido nucleico, p. ej., secuencias reguladoras y codificantes que no se encuentran juntas en la naturaleza. Por ejemplo, una construcción quimérica puede comprender secuencias reguladoras y secuencias codificantes que derivan de diferentes fuentes, o secuencias reguladoras y secuencias codificantes derivadas de la misma fuente, pero dispuestas de una manera diferente a la que se encuentra en la naturaleza. Dicha construcción se puede usarse por sí misma o se puede usar junto con un vector. Si se usa un vector, entonces la elección del vector depende del método que se usará para transformar las células hospedantes, como es bien conocido por los expertos en la técnica. Por ejemplo, se puede utilizar un vector plasmídico. El experto en la técnica conoce bien los elementos genéticos que deben estar presentes en el vector con el fin de transformar, seleccionar y propagar con éxito las células hospedantes que comprenden cualquiera de los fragmentos de ácido nucleico aislados de la descripción. El experto en la técnica también reconocerá que diferentes sucesos de transformación independientes darán como resultado diferentes niveles y patrones de expresión (Jones et al., (1985) EMBO J. 4: 2411-2418; De Almeida et al., (1989) Mol. Gen. Genetics 218: 78-86) y, por lo tanto, se deben cribar múltiples sucesos para obtener líneas que presenten el nivel y patrón de expresión deseados. Dicho cribado se puede llevar a cabo por análisis Southern de ADN, análisis Northern de expresión de ARNm, análisis de inmunotransferencia de expresión de proteínas o análisis fenotípico, entre otros. Los vectores pueden ser plásmidos, virus, bacteriófagos, pro-virus, fagémidos, transposones, cromosomas artificiales y similares, que se replican de forma autónoma o se pueden integrar en un cromosoma de una célula hospedante. Un vector también puede ser un polinucleótido de ARN desnudo, un polinucleótido de ADN desnudo, un polinucleótido compuesto de ADN y ARN dentro de la misma cadena, un ADN o ARN conjugado con polilisina, un ADN o ARN conjugado con péptido, un ADN conjugado con liposoma, o similar, que no se replica de forma autónoma. Como se usa en el presente documento, el término "expresión" se refiere a la producción de un producto final funcional, p. ej., un ARNm o una proteína (precursora o madura).

"Operativamente unido" significa en este contexto la disposición secuencial del polinucleótido promotor de acuerdo con la descripción con un oligo o polinucleótido adicional, dando como resultado la transcripción de dicho polinucleótido adicional.

La expresión "producto de interés" o "biomolécula" como se usa en el presente documento se refiere a cualquier producto producido por microbios a partir de materia prima. En algunos casos, el producto de interés puede ser una molécula pequeña, enzima, péptido, aminoácido, ácido orgánico, compuesto sintético, combustible, alcohol, etc. Por ejemplo, el producto de interés o biomolécula puede ser cualquier metabolito extracelular primario o secundario. El metabolito primario puede ser, entre otros, etanol, ácido cítrico, ácido láctico, ácido glutámico, glutamato, lisina, treonina, triptófano y otros aminoácidos, vitaminas, polisacáridos, etc. El metabolito secundario puede ser, entre otros, un compuesto antibiótico tal como la penicilina o un inmunosupresor tal como la ciclosporina A, una hormona vegetal tal como la giberelina, un fármaco estatina tal como la lovastatina, un fungicida tal como la griseofulvina, etc. El producto de interés o biomolécula también puede ser cualquier componente intracelular producido por un microbio, tal como: una enzima microbiana, que incluye: catalasa, amilasa, proteasa, pectinasa, glucosa isomerasa, celulasa, hemicelulasa, lipasa, lactasa, estreptoquinasa y muchas otras. El componente intracelular también puede incluir proteínas recombinantes, tales como: insulina, vacuna contra la hepatitis B, interferón, factor estimulante de colonias de granulocitos, estreptoquinasa y otros.

La expresión "fuente de carbono" se refiere en general a una sustancia adecuada para ser usada como fuente de carbono para el crecimiento celular. Las fuentes de carbono incluyen, pero no se limitan a hidrolizados de biomasa, almidón, sacarosa, celulosa, hemicelulosa, xilosa y lignina, así como componentes monoméricos de estos sustratos. Las fuentes de carbono pueden comprender diferentes compuestos orgánicos en diversas formas, que incluyen, pero no se limitan a polímeros, carbohidratos, ácidos, alcoholes, aldehídos, cetonas, aminoácidos, péptidos, etc. Estos incluyen, por ejemplo, varios monosacáridos tales como glucosa, dextrosa (D-glucosa), maltosa, oligosacáridos, polisacáridos, ácidos grasos saturados o insaturados, succinato, lactato, acetato, etanol, etc., o mezclas de los mismos. Los organismos fotosintéticos pueden además producir una fuente de carbono como producto de la fotosíntesis. En algunos ejemplos, las fuentes de carbono se pueden seleccionar de hidrolizados de biomasa y glucosa.

El término "materia prima" se define como una materia prima o mezcla de materias primas suministradas a un microorganismo o proceso de fermentación a partir del cual se pueden producir otros productos. Por ejemplo, una fuente de carbono, tal como la biomasa o los compuestos de carbono derivados de la biomasa son una materia prima para un microorganismo que produce un producto de interés (p. ej., molécula pequeña, péptido, compuesto sintético, combustible, alcohol, etc.) en un proceso de fermentación. Sin embargo, una materia prima puede contener otros nutrientes además de una fuente de carbono.

El término "productividad volumétrica" o "tasa de producción" se define como la cantidad de producto formado por volumen de medio por unidad de tiempo. La productividad volumétrica se puede dar en gramos por litro por hora (g/l/h).

La expresión "productividad específica" se define como la tasa de formación del producto. La productividad específica se define en el presente documento además como la productividad específica en gramos de producto por gramo de peso seco de células (CDW) por hora (g/g CDW/h). Usando la relación de CDW a DO⁶⁰⁰para el microorganismo dado, la productividad específica también se puede expresar como gramos de producto por litro de medio de cultivo por densidad óptica del caldo de cultivo a 600 nm (DO) por hora (g/L/h/DO).

El término "rendimiento" se define como la cantidad de producto obtenido por unidad de peso de materia prima y se puede expresar como g de producto por g de sustrato (g/g). El rendimiento se puede expresar como porcentaje del rendimiento teórico. El "rendimiento teórico" se define como la cantidad máxima de producto que se puede generar por una cantidad dada de sustrato según lo dictado por la estequiometría de la ruta metabólica usada para producir el producto.

El término "título" se define como la fuerza de una solución o la concentración de una sustancia en solución. Por ejemplo, el título de un producto de interés (p. ej., molécula pequeña, péptido, compuesto sintético, combustible, alcohol, etc.) en un caldo de fermentación se describe como g de producto de interés en solución por litro de caldo de fermentación (g/l).

La expresión "título total" se define como la suma de todo el producto de interés producido en un proceso, que incluye, pero no se limita al producto de interés en solución, el producto de interés en fase gaseosa, si se aplica, y cualquier producto de interés retirado del proceso y recuperado con respecto al volumen inicial en el proceso o el volumen operativo en el proceso. Como se usa en el presente documento, la expresión "biblioteca de diseño genéticode HTP" o "biblioteca" se refiere a colecciones de perturbaciones genéticas según la presente descripción. En algunos ejemplos, las bibliotecas de la presente descripción se pueden poner de manifiesto como i) una colección de información de secuencias en una base de datos u otro archivo informático, ii) una colección de construcciones genéticas que codifican la serie de elementos genéticos mencionada antes, o iii) cepas de células hospedantes que comprenden dichos elementos genéticos. En algunos ejemplos, las bibliotecas de la presente descripción pueden referirse a colecciones de elementos individuales (p. ej., colecciones de promotores para bibliotecas de intercambio de PRO, colecciones de terminadores para bibliotecas de intercambio de STOP, colecciones de marcadores de solubilidad de proteínas para bibliotecas de intercambio de marcadores de solubilidad o colecciones de marcadores de degradación de proteínas para bibliotecas de intercambio de marcadores de degradación). En otros ejemplos, las bibliotecas de la presente descripción también pueden referirse a combinaciones de elementos genéticos, tales como combinaciones de promotores:genes, genes:terminadores o incluso promotores:genes:terminadores. En algunos ejemplos, las bibliotecas de la presente descripción también pueden referirse a combinaciones de promotores, terminadores, marcadores de solubilidad de proteínas y/o marcadores de degradación de proteínas. En algunos ejemplos, las bibliotecas de la presente descripción comprenden además metadatos asociados con los efectos de aplicar cada miembro de la biblioteca en organismos hospedantes. Por ejemplo, una biblioteca como se usa en el presente documento puede incluir una colección de combinaciones de secuencias de promotor::gen, junto con el efecto resultante de esas combinaciones en uno o más fenotipos en una especie en particular, mejorando así el valor predictivo futuro de usar dicha combinación en futuros intercambios de promotores.

Como se usa en el presente documento, el término "SNP" se refiere a polimorfismo(s) nuclear(es) pequeño(s). En algunos ejemplos, los SNP de la presente descripción deben interpretarse de manera amplia e incluyen polimorfismos de un solo nucleótido, inserciones, deleciones, inversiones de secuencia y otros reemplazos de secuencia. Como se usa en el presente documento, la expresión "no sinónimos" o "SNP no sinónimos" se refiere a mutaciones que conducen a cambios en la codificación de las proteínas de la célula hospedante. Un método de "alta capacidad (HTP)" de ingeniería genómica puede implicar la utilización de al menos una pieza de equipo automatizado (p. ej., un manipulador de líquidos o una máquina manipuladora de placas) para llevar a cabo al menos un paso de dicho método.

Métodos tradicionales de mejora de cepas

Los enfoques tradicionales para la mejora de cepas se pueden clasificar ampliamente en dos tipos de enfoques: transformación de cepas dirigida y mutagénesis aleatoria.

Los métodos de transformación dirigidos para mejorar las cepas implican la perturbación planificada de unos cuantos elementos genéticos de un organismo específico. Estos enfoques se centran típicamente en modular programas biosintéticos o de desarrollo específicos y se basan en el conocimiento previo de los factores genéticos y metabólicos que afectan a dichas rutas. En sus ejemplos más simples, la ingeniería dirigida implica la transferencia de un rasgo caracterizado (p. ej., gen, promotor u otro elemento genético capaz de producir un fenotipo cuantificable) de un organismo a otro organismo de la misma o diferente especie.

Los enfoques aleatorios para la transformación de cepas implican la mutagénesis aleatoria de las cepas parentales, acoplada con un cribado exhaustivo diseñado para identificar mejoras en el rendimiento. Los enfoques para generar estas mutaciones aleatorias incluyen la exposición a radiación ultravioleta o productos químicos mutagénicos tales como el metanosulfonato de etilo. Aunque aleatorio y en gran parte impredecible, este enfoque tradicional para mejorar cepas tenía varias ventajas en comparación con las manipulaciones genéticas más dirigidas. Primero, muchos organismos industriales estaban (y siguen estando) mal caracterizados en términos de sus repertorios genéticos y metabólicos, haciendo difíciles, sino imposibles, los enfoques alternativos de mejora dirigida.

Segundo, incluso en sistemas relativamente bien caracterizados, los cambios genotípicos que dan como resultado mejoras en el rendimiento industrial son difíciles de predecir y, a veces, solo se manifiestan como fenotipos epistáticos que requieren mutaciones acumulativas en muchos genes de función conocida y desconocida.

Adicionalmente, durante muchos años, las herramientas genéticas necesarias para realizar mutaciones genómicas dirigidas en un organismo industrial dado no han estado disponibles o eran muy lentas y/o difíciles de usar.

La aplicación extendida de los programas tradicionales de mejora cepas, sin embargo, da ganancias progresivamente reducidas en un linaje de cepa dado y, finalmente conduce a agotar las posibilidades de obtener mayores eficiencias de las cepas. Las mutaciones aleatorias beneficiosas son eventos relativamente raros y requieren grandes grupos de detección y altas tasas de mutación. Esto inevitablemente da como resultado la acumulación accidental de muchas mutaciones neutrales y/o perjudiciales (o parcialmente perjudiciales) en cepas "mejoradas", que finalmente crean un lastre para las futuras ganancias de eficiencia.

Otra limitación de los enfoques tradicionales de mejora acumulada es que se conoce poca o ninguna información sobre cualquier efecto de una mutación particular en cualquier medida de la cepa. Esto limita fundamentalmente la capacidad de un investigador para combinar y consolidar mutaciones beneficiosas, o para eliminar el "bagaje" mutagénico neutro o perjudicial.

Existen otros enfoques y tecnologías para recombinar aleatoriamente mutaciones entre cepas dentro de un linaje mutagénico. Por ejemplo, algunos formatos y ejemplos para la recombinación de secuencias iterativas, a veces denominados barajado de ADN, evolución o reproducción molecular, se han descrito en las solicitudes de patente de EE.UU. N° de serie 08/198.431, presentada el 17 de Feb., 1994, N° de serie PCT/US95/02126, presentada el 17 de Feb., 1995, N° de serie 08/425.684, presentada el 18 de abril, 1995, N° de serie 08/537,874, presentada el 30 de Oct., 1995, N° de serie 08/564.955, presentada el 30 de Nov., 1995, N° de serie 08/621.859, presentada el 25 de Marzo, 1996, N° de serie 08/621.430, presentada el 25 de Marzo, 1996, N° de serie PCT/US96/05480, presentada el 18 de abril, 1996, N° de serie 08/650.400, presentada el 20 de Mayo, 1996, N° de serie 08/675.502, presentada el 3 de Jul., 1996, N° de serie 08/721.824, presentada el 27 de Sep., 1996, y N° de serie 08/722.660 presentada el 27 de Sep., 1996; Stemmer, Science 270:1510 (1995); Stemmer et al., Gene 164:49-53 (1995); Stemmer, Bio/Technology 13:549-553 (1995); Stemmer, Proc. Nati. Acad. Sci. U.S.A. 91:10747-10751 (1994); Stemmer, Nature 370:389-391 (1994); Crameri et al., Nature Medicine 2(1 ):1-3 (1996); Crameri et al., Nature Biotechnology 14:315-319 (1996.

Estos incluyen técnicas como la fusión de protoplastos y barajado del genoma completo que facilitan la recombinación genómica a través de cepas mutadas. Para algunos microorganismos industriales tales como las levaduras y los hongos filamentosos, también se pueden aprovechar los ciclos de apareamiento naturales para la recombinación genómica por pares. De esta manera, las mutaciones perjudiciales se pueden eliminar por el "retrocruzamiento" de mutantes con cepas parentales y consolidar las mutaciones beneficiosas. Además, las mutaciones beneficiosas de dos linajes de cepas diferentes se pueden combinar potencialmente, lo que crea posibilidades de mejora adicionales de lo que podría estar disponible de la mutación de un solo linaje de cepas por sí solo. Sin embargo, estos enfoques están sujetos a muchas limitaciones que se eluden usando los métodos de la presente descripción.

Por ejemplo, los enfoques recombinantes tradicionales descritos antes son lentos y se basan en un número relativamente pequeño de sucesos cruzados de recombinación aleatoria para intercambiar mutaciones y, por lo tanto, están limitados en el número de combinaciones que se pueden intentar en cualquier ciclo o periodo de tiempo dado. Además, aunque los sucesos de recombinación natural en la técnica anterior son esencialmente aleatorios, también están sujetos al sesgo posicional del genoma.

Lo que es más importante, los enfoques tradicionales también proporcionan poca información sobre la influencia de mutaciones individuales y, debido a la distribución aleatoria de mutaciones recombinadas, muchas combinaciones específicas no se pueden generar ni evaluar.

Para superar muchos de los problemas mencionados anteriormente asociados con los programas tradicionales de mejora de cepas, la presente descripción establece una plataforma de ingeniería genómica de HTP única que se dirige computacionalmente e integra biología molecular, automatización, análisis de datos y protocolos de aprendizaje automático. Esta plataforma integradora utiliza una serie de conjuntos de herramientas moleculares de HTP que se usan para construir bibliotecas de diseño genético de HTP. Estas bibliotecas de diseño genético se elaborarán a continuación. La Figura 8 representa una visión general de un ejemplo del programa de mejora de cepas de E. co lide la presente descripción.

La plataforma de HTP actualmente descrita y sus bibliotecas de diseño genético microbiano únicas cambian fundamentalmente el paradigma del desarrollo y evolución de cepas microbianas. Por ejemplo, los métodos tradicionales basados en mutagénesis de desarrollo de una cepa microbiana industrial finalmente conducirán a microbios cargados con una carga mutagénica pesada que se ha acumulado a lo largo de años de mutagénesis aleatoria.

La capacidad para resolver este problema (es decir, eliminar el bagaje genético acumulado por estos microbios) ha eludido a los investigadores microbianos durante décadas. Sin embargo, utilizando la plataforma de HTP descrita en el presente documento, estas cepas industriales se pueden "rehabilitar" y las mutaciones genéticas que son perjudiciales se pueden identificar y eliminar. De manera congruente, las mutaciones genéticas que se identifican como beneficiosas se pueden mantener y, en algunos casos, mejorar. Las cepas microbianas resultantes demuestran rasgos fenotípicos superiores (p. ej., producción mejorada de un compuesto de interés), en comparación con sus cepas parentales.

Además, la plataforma de HTP enseñada en el presente documento es capaz de identificar, caracterizar y cuantificar el efecto que tienen las mutaciones individuales en el rendimiento de la cepa microbiana. Esta información, es decir, qué efecto tiene un cambio genético dado x en el fenotipo de la célula hospedante y (p. ej., producción de un compuesto o producto de interés), se puede generar y después almacenar en las bibliotecas de diseño genético de HTP microbiano descritas a continuación. Es decir, la información de secuencia para cada permutación genética y su efecto en el fenotipo de la célula hospedante se almacenan en una o más bases de datos y están disponibles para análisis posteriores (por ejemplo, mapeo de epistasis, como se describe a continuación). La presente descripción también enseña métodos para guardar/almacenar físicamente permutaciones genéticas valiosas en forma de construcciones de inserción genética, o en forma de uno o más organismos de células hospedantes que contienen dicha permutación genética (p. ej., véanse las bibliotecas descritas a continuación).

Cuando se combinan estas bibliotecas de diseño genético de HTP en un procedimiento iterativo que está integrado con un análisis de datos sofisticado y un proceso de aprendizaje automático, surge una metodología radicalmente diferente para mejorar las células hospedantes. Por lo tanto, la plataforma enseñada es fundamentalmente diferente de los métodos tradicionales descritos antes de desarrollo de cepas de células hospedantes. La plataforma de HTP enseñada no adolece de muchos de los inconvenientes asociados con los métodos anteriores. Estas y otras ventajas resultarán evidentes con referencia a los conjuntos de herramientas moleculares de HTP y las bibliotecas de diseño genético derivadas que se analizan a continuación.

Diseño genético e ingeniería microbiana: un enfoque combinatorio sistemático para mejorar cepas utilizando una serie de herramientas moleculares de HTP y bibliotecas de diseño genético de HTP

Como se ha mencionado antes, la presente descripción proporciona una plataforma de HTP y una estrategia de diseño genético novedosos para transformar organismos microbianos mediante la introducción y eliminación sistemáticas iterativas de cambios genéticos entre cepas. La plataforma está respaldada por una serie de herramientas moleculares, que permiten la creación de bibliotecas de diseño genético de HTP y permiten la implementación eficiente de alteraciones genéticas en una cepa hospedante dada.

Las bibliotecas de diseño genético de HTP de la descripción sirven como fuentes de posibles alteraciones genéticas que se pueden introducir en un contexto de cepa microbiana particular. De esta manera, las bibliotecas de diseño genético de HTP son repositorios de diversidad genética, o colecciones de perturbaciones genéticas, que se pueden aplicar a la ingeniería inicial o posterior de una cepa microbiana dada. Las técnicas para programar diseños genéticos para su implementación en cepas hospedantes se describen en la solicitud de patente de EE.UU. en tramitación, n° de serie 15/140.296, y solicitud de patente internacional en tramitación de n° de serie PCT/US17/29725, titulada "Sistema y métodos de diseño de cepas microbianas para mejorar las producción a gran escala de secuencias de nucleótidos modificadas".

Los conjuntos de herramientas moleculares de HTP utilizados en esta plataforma pueden incluir, entre otros: (1) Intercambios de promotores (Intercambio de PRO), (2) Intercambios de SNP, (3) Intercambios de codones de inicio/detención, (4) Intercambios de STOP, (5) optimización de secuencia, (6) intercambios de MARCADORES DE SOLUBILIDAD y (7) intercambios de MARCADORES DE DEGRADACIÓN. Los métodos de HTP de la presente descripción también enseñan métodos para dirigir la consolidación/uso combinatorio de conjuntos de herramientas de HTP, que incluyen (8) protocolos de mapeo de epistasis. Como se ha mencionado antes, esta serie de herramientas moleculares, ya sea de forma aislada o en combinación, permite la creación de bibliotecas de células hospedantes de diseño genético de HTP.

Como se demostrará, la utilización de las bibliotecas de diseño genético de HTP mencionadas antes en el contexto de la plataforma de ingeniería microbiana de HTP enseñada permite la identificación y consolidación de mutaciones o secciones de genes "causativas" beneficiosas y también la identificación y eliminación de mutaciones o secciones de genes pasivos o perjudiciales. Este nuevo enfoque permite mejoras rápidas en el rendimiento de la cepa que no podrían lograrse por la mutagénesis aleatoria tradicional o la ingeniería genética dirigida. La eliminación de la carga genética o la consolidación de cambios beneficiosos en una cepa sin carga genética también proporciona un punto de partida nuevo y sólido para mutagénesis aleatoria adicional que puede permitir mejoras adicionales.

En algunos ejemplos, la presente descripción enseña que a medida que se identifican cambios ortogonales beneficiosos a través de varias ramas discretas de un linaje de cepas mutagénicas, también se pueden consolidar rápidamente en cepas de mejor rendimiento. Estas mutaciones también se pueden consolidar en cepas que no forman parte de linajes mutagénicos, tales como cepas con mejoras obtenidas por ingeniería genética dirigida.

En algunos ejemplos, la presente descripción difiere de los enfoques de mejora de cepas conocidos en cuanto que analiza el efecto combinatorio de mutaciones en todo el genoma a lo largo de múltiples regiones genómicas dispares, incluyendo elementos genéticos expresados y no expresados, y usa la información recopilada (p. ej., resultados experimentales) para predecir las combinaciones de mutaciones que se espera produzcan mejoras en las cepas.

En algunos ejemplos, la presente descripción enseña: i) microorganismos industriales y otras células hospedantes susceptibles de mejora a través de las divulgaciones descritas, ii) la generación de grupos de diversidad para análisis secuencia abajo, iii) métodos y hardware para cribado y secuenciación de alta capacidad de grupos de variantes grandes, iv) métodos y hardware para el análisis computacional de aprendizaje automático y la predicción de efectos sinérgicos de mutaciones en todo el genoma, y v) métodos para la ingeniería de cepas de alta capacidad.

Las siguientes herramientas y bibliotecas moleculares se describen en términos de ejemplos microbianos ilustrativos. Los expertos en la técnica reconocerán que las herramientas moleculares de HTP de la presente descripción son compatibles con cualquier célula hospedante, incluyendo formas celulares eucariotas y de vida superiores. Además, muchos de los ejemplos ilustrados se llevan a cabo en Corynebacterium; sin embargo, se pueden implementar los mismos principios y procedimientos en Escherichia coli.

Ahora se describirá cada uno de los conjuntos de herramientas moleculares HTP identificados, que permiten la creación de las diversas bibliotecas de diseño genético de HTP utilizadas en la plataforma de ingeniería microbiana.

1. Intercambios de promotores: una herramienta molecular para la obtención de bibliotecas de cepas microbianas de intercambios de promotores

En algunos ejemplos, la presente descripción enseña métodos para seleccionar promotores con propiedades de expresión óptimas para producir efectos beneficiosos en el fenotipo general de la cepa del hospedante (p. ej., rendimiento o productividad).

Por ejemplo, en algunos ejemplos, la presente descripción enseña métodos para identificar uno o más promotores y/o generar variantes de uno o más promotores dentro de una célula hospedante, que presentan un intervalo de fuerzas de expresión (p. ej., escaleras de promotores descritas más adelante), o propiedades reguladoras superiores (p. ej., control regulador más estrecho para genes seleccionados). Una combinación particular de estos promotores identificados y/o generados se puede agrupar como una escalera de promotores, que se explica con más detalle a continuación.

La escalera del promotor en cuestión después se asocia con un gen de interés dado. Por lo tanto, si se tienen los promotores P¹-P⁸(que representan ocho promotores que se han identificado y/o generado para presentar un intervalo de fuerzas de expresión) y se asocia la escalera de promotores con un solo gen de interés en un microbio (es decir, transformar genéticamente un microbio con un promotor dado operativamente unido a un gen diana dado), entonces el efecto de cada combinación de los ocho promotores se puede determinar caracterizando cada una de las cepas transformadas que resultan de cada esfuerzo combinatorio, dado que los microbios transformados tienen un contexto genético por lo demás idéntico excepto el o los promotores particulares asociados con el gen diana.

Los microbios resultantes que se transforman por este procedimiento forman bibliotecas de diseño genético de HTP.

La biblioteca de diseño genético de HTP se puede referir a la colección de cepas microbianas físicas reales que se forma por este procedimiento, siendo cada cepa miembro representativa de un promotor dado operativamente unido a un gen diana particular, en un contexto genético por lo demás idéntico, denominándose dicha biblioteca una "biblioteca de cepas microbianas de intercambio de promotores". En el contexto específico de E. coli, la biblioteca se puede denominar una "biblioteca de cepas de E. coli de intercambio de promotores", pero los términos se pueden usar como sinónimos, ya que E. coli es un ejemplo específico de un microbio.

Además, la biblioteca de diseño genético de HTP se puede referir a la colección de perturbaciones genéticas, en este caso un promotor dado x operativamente unido a un gen y dado, dicha colección se denomina "biblioteca de intercambio de promotores".

Además, se puede utilizar la misma escalera de promotores que comprende los promotores P¹-P⁸para transformar microbios, en donde cada uno de los 8 promotores está operativamente unido a 10 genes diana diferentes. El resultado de este procedimiento serían 80 microbios que se supone que por lo demás son genéticamente idénticos, excepto por los promotores particulares operativamente unidos a un gen diana de interés. Estos 80 microbios se podrían cribar y caracterizar adecuadamente y dar lugar a otra biblioteca de diseño genético de HTP. La caracterización de las cepas microbianas en la biblioteca de diseño genético de HTP produce información y datos que se pueden almacenar en cualquier construcción de almacenamiento de datos, incluyendo una base de datos relacional, una base de datos orientada a objetos o una base de datos NoSQL altamente distribuida. Estos datos/información podrían ser, por ejemplo, un efecto del promotor dado (p. ej. P¹-P⁸) cuando está operativamente unido a un gen diana dado. Estos datos/información también pueden ser el conjunto más amplio de efectos combinatorios que resultan de unir operativamente dos o más de los promotores P¹-P⁸a un gen diana dado.

Los ejemplos mencionados antes de ocho promotores y 10 genes diana son meramente ilustrativos, ya que el concepto se puede aplicar con cualquier número dado de promotores que se hayan agrupado entre sí basándose en la presentación de un intervalo de fuerzas de expresión y cualquier número dado de genes diana. Las personas con experiencia en la técnica también reconocerán la capacidad de unir operativamente dos o más promotores delante de cualquier gen diana. Por lo tanto, en algunos ejemplos, la presente descripción enseña bibliotecas de intercambio de promotores en las que 1,2, 3 o más promotores de una escalera de promotores están operativamente unidos a uno o más genes.

En resumen, la utilización de varios promotores para dirigir la expresión de varios genes en un organismo es una herramienta poderosa para optimizar un rasgo de interés. La herramienta molecular de intercambio de promotores, desarrollada por los autores de la invención, usa una escalera de secuencias de promotores que se ha demostrado que varían la expresión de al menos un locus en al menos una condición. Después, esta escalera se aplica sistemáticamente a un grupo de genes en el organismo usando la ingeniería de genoma de alta capacidad. Se determina que este grupo de genes tiene una alta probabilidad de tener impacto en el rasgo de interés basándose en uno cualquiera de una serie de métodos. Estos podrían incluir la selección basada en la función conocida o el impacto en el rasgo de interés, o la selección algorítmica basada en la diversidad genética beneficiosa previamente determinada. En algunos ejemplos, la selección de genes puede incluir todos los genes de un hospedante dado. En otros ejemplos, la selección de genes puede ser un subconjunto de todos los genes en un hospedante dado, elegidos de forma aleatoria.

Después se evalúa en la biblioteca de cepas microbianas de diseño genético HTP resultante de organismos que contienen una secuencia de promotor ligada a un gen su rendimiento en un modelo de cribado de alta capacidad, y se determinan las uniones promotor-gen que conducen a un mayor rendimiento y la información se almacena en una base de datos. La colección de perturbaciones genéticas (es decir, un promotor x dado operativamente unido a un gen y dado) forma una "biblioteca de intercambio de promotores", que se puede utilizar como una fuente de alteraciones genéticas potenciales para utilizar en el procesamiento de ingeniería microbiana. Con el tiempo, a medida que se implementa un mayor conjunto de perturbaciones genéticas contra una mayor diversidad de contextos genéticos de células hospedantes, cada biblioteca se vuelve más potente como un corpus de datos confirmados experimentalmente que se pueden usar para diseñar de manera más precisa y predecible cambios dirigidos contra cualquier contexto de interés.

Los niveles de transcripción de genes en un organismo son un punto clave de control para afectar al comportamiento del organismo. La transcripción está estrechamente ligada a la traducción (expresión de proteínas), y qué proteínas se expresan en qué cantidades determina el comportamiento del organismo. Las células expresan miles de tipos diferentes de proteínas, y estas proteínas interaccionan de numerosas formas complejas para crear funciones. Al variar los niveles de expresión de un conjunto de proteínas de forma sistemática, la función se puede alterar de formas que, debido a la complejidad, son difíciles de predecir. Algunas alteraciones pueden aumentar el rendimiento, por lo que, junto con un mecanismo para evaluar el rendimiento, esta técnica permite la generación de organismos con función mejorada.

En el contexto de una ruta de síntesis de moléculas pequeñas, las enzimas interactúan a través de sus sustratos y productos de moléculas pequeñas en una cadena lineal o ramificada, comenzando con un sustrato y terminando con una molécula pequeña de interés. Debido a que estas interacciones están unidas secuencialmente, este sistema presenta el control distribuido, y el aumento de la expresión de una enzima solo puede aumentar el flujo de la ruta hasta que otra enzima se vuelva limitante de la velocidad.

El análisis de control metabólico (MCA) es un método para determinar, a partir de datos experimentales y primeros principios, qué enzima o enzimas son limitantes de la velocidad. Sin embargo, el MCA está limitado porque requiere una experimentación extensa después de cada cambio de nivel de expresión para determinar la nueva enzima limitante de la velocidad. El intercambio de promotores es ventajoso en este contexto, porque a través de la aplicación de una escalera de promotores a cada enzima en una ruta, se encuentra la enzima limitante, y se puede hacer lo mismo en rondas posteriores para encontrar nuevas enzimas que se conviertan en limitantes de la velocidad. Además, debido a que la función de lectura es una mejor producción de la molécula pequeña de interés, el experimento para determinar qué enzima es limitante es el mismo que la ingeniería para aumentar la producción, acortando así el tiempo de desarrollo. En algunos ejemplos, la presente descripción enseña la aplicación de intercambio de PRO a genes que codifican subunidades individuales de enzimas de múltiples unidades. En otros ejemplos más, la presente descripción enseña métodos para aplicar técnicas de intercambio de PRO a genes responsables de regular enzimas individuales o rutas biosintéticas completas.

En algunos ejemplos, la herramienta de intercambio de promotores de la presente descripción se usa para identificar la expresión óptima de un gen diana seleccionado. En algunos ejemplos, el objetivo del intercambio de promotores puede ser aumentar la expresión de un gen objetivo para reducir los cuellos de botella en una ruta metabólica o genética. En otros ejemplos, el objetivo o el intercambio de promotores puede ser para reducir la expresión del gen diana para evitar gastos de energía innecesarios en la célula hospedante, cuando no se requiere la expresión de dicho gen diana.

En el contexto de otros sistemas celulares como la transcripción, transporte o señalización, se pueden usar varios métodos racionales para probar y descubrir, a priori, qué proteínas son dianas para el cambio de expresión y cuál debería ser ese cambio. Estos métodos racionales reducen el número de perturbaciones que se deben ensayar para encontrar una que mejore el rendimiento, pero lo hacen con un coste significativo. Los estudios de deleción de genes identifican proteínas cuya presencia es crítica para una función particular, y después los genes importantes se pueden sobreexpresar. Debido a la complejidad de las interacciones de las proteínas, esto a menudo es ineficaz para aumentar el rendimiento. Se han desarrollado diferentes tipos de modelos que intentan describir, desde los primeros principios, el comportamiento de transcripción o señalización en función de los niveles de proteínas en la célula. Estos modelos a menudo sugieren dianas donde los cambios de expresión pueden conducir a una función diferente o mejorada. Las suposiciones que subyacen a estos modelos son simplistas y los parámetros difíciles de medir, por lo que las predicciones que hacen a menudo son incorrectas, especialmente para organismos que no son modelo. Tanto con la deleción de genes como con el modelado, los experimentos necesarios para determinar cómo afectar a un determinado gen son diferentes del trabajo posterior para hacer el cambio que mejora el rendimiento. El intercambio de promotores evita estos desafíos, porque la cepa construida que resalta la importancia de una perturbación particular también es, ya, la cepa mejorada.

Por lo tanto, en ejemplos particulares, el intercambio de promotores es un procedimiento de múltiples etapas que comprende:

1. Seleccionar un conjunto de promotores "x" para que actúen como una "escalera". Idealmente, se ha mostrado que estos promotores conducen a una expresión muy variable a lo largo de múltiples locus genómicos, pero el único requisito es que perturben la expresión génica de alguna manera.

2. Seleccionar un conjunto de genes "n" para direccionamiento. Este conjunto puede ser cada marco de lectura abierto (ORF) en un genoma, o un subconjunto de ORF. El subconjunto se puede elegir usando anotaciones en los ORF relacionados con la función, por relación con perturbaciones beneficiosas previamente demostradas (intercambios de promotores previos o intercambios de SNP previos), por selección algorítmica basada en interacciones epistáticas entre perturbaciones generadas previamente, otros criterios de selección basados en hipótesis relacionadas con ORF beneficiosas para la diana, o mediante selección aleatoria. En otros ejemplos, los genes dirigidos "n" pueden comprender genes que no codifican proteínas, incluyendo ARN no codificantes.

3. Ingeniería de cepas de alta capacidad para llevar a cabo rápidamente, y en algunos ejemplos, en paralelo, las siguientes modificaciones genéticas: Cuando existe un promotor nativo delante del gen diana n y se conoce su secuencia, reemplazar el promotor nativo con cada uno de los promotores x de la escalera. Cuando el promotor nativo no existe, o su secuencia es desconocida, insertar cada uno de los promotores x de la escalera delante del gen n (véase, p. ej., la Figura 21). De esta manera se construye una "biblioteca" (también denominada biblioteca de diseño genético HTP) de cepas, en donde cada miembro de la biblioteca es un caso de promotor x operativamente unido a la diana n, en un contexto genético por lo demás idéntico. Como se describió anteriormente, se pueden insertar combinaciones de promotores, ampliando el intervalo de posibilidades combinatorias sobre las que se construye la biblioteca.

4. Cribado de alta capacidad de la biblioteca de cepas en un contexto en donde su rendimiento frente a una o más medidas es indicativo de que el rendimiento se está optimizando.

Este procedimiento fundamental se puede extender para proporcionar mejoras adicionales en el rendimiento de las cepas, entre otras cosas: (1) Consolidando múltiples perturbaciones beneficiosas en un solo contexto genético de la cepa, ya sea una a la vez en un proceso interactivo, o como múltiples cambios en una sola etapa. Las múltiples perturbaciones pueden ser un conjunto específico de cambios definidos o una biblioteca combinatoria parcialmente aleatoria de cambios. Por ejemplo, si el conjunto de dianas son todos los genes de una ruta, la regeneración secuencial de la biblioteca de perturbaciones en un miembro o miembros mejorados de la biblioteca de cepas previa puede optimizar el nivel de expresión de todos los genes en una ruta, independientemente de qué genes son limitantes de velocidad en cualquier iteración dada; (2) Introduciendo los datos de rendimiento que resultan de la generación individual y combinatoria de la biblioteca en un algoritmo que usa esos datos para predecir un conjunto óptimo de perturbaciones basado en la interacción de cada perturbación; y (3) Implementando una combinación de los dos enfoques anteriores (véase la Figura 20).

La herramienta o técnica molecular descrita antes se caracteriza como intercambio de promotores, pero no se limita a los promotores y puede incluir otros cambios de secuencias que varían sistemáticamente el nivel de expresión de un conjunto de dianas. Otros métodos para variar el nivel de expresión de un conjunto de genes podrían incluir: a) una escalera de sitios de unión a ribosomas (o secuencias de Kozak en eucariotas); b) reemplazar el codón de inicio de cada diana por cada uno de los otros codones de inicio (es decir, intercambios de codones de inicio/parada descritos más adelante); c) unión de varias secuencias estabilizadoras o desestabilizadoras de ARNm al extremo 5' o 3', o en cualquier otra ubicación, de una transcripción, d) unión de varias secuencias estabilizadoras o desestabilizadoras de proteínas en cualquier ubicación de la proteína (es decir, degradación o intercambios de marcadores de solubilización descritos más adelante).

El enfoque se ilustra en la presente descripción con microorganismos industriales, pero es aplicable a cualquier organismo donde se puedan identificar los rasgos deseados en una población de mutantes genéticos. Por ejemplo, esto se podría usar para mejorar el rendimiento de células CHO, levaduras, células de insectos, algas, así como organismos multicelulares, tales como plantas.

2. Intercambios de SNP: una herramienta molecular para la obtención de bibliotecas de cepas microbianas de intercambio de SNP

En ciertos ejemplos, el intercambio de SNP no es un enfoque mutagénico aleatorio para mejorar una cepa microbiana, sino que implica más bien la introducción o eliminación sistemática de mutaciones de nucleótidos individuales de polimorfismo nuclear pequeño (p. ej., SNP) (de ahí el nombre "intercambio de SNP") a lo largo de las cepas.

Los microbios resultantes que se transforman mediante este procedimiento forman bibliotecas de diseño genético de HTP.

La biblioteca de diseño genético de HTP se puede referir a la colección de cepas microbianas físicas reales que se forma a través de este procedimiento, siendo cada cepa miembro representativa de la presencia o ausencia de un SNP dado, en un contexto genético por lo demás idéntico, denominándose dicha biblioteca "biblioteca de cepas microbianas de intercambio de SNP". En el contexto específico de E. coli, la biblioteca se puede denominar "biblioteca de cepas de E. coli de intercambio de SNP", pero los términos se pueden usar como sinónimos, ya que E. coli es un ejemplo específico de un microbio.

Además, la biblioteca de diseño genético de HTP se puede referir a la colección de perturbaciones genéticas, en este caso estando presente un SNP dado o estando ausente un SNP dado, denominándose dicha colección "biblioteca de intercambio de SNP".

En algunos ejemplos, el intercambio de SNP implica la reconstrucción de organismos hospedantes con combinaciones óptimas de "bloques de construcción" de SNP diana con efectos de rendimiento beneficiosos identificados. Por lo tanto, en algunos ejemplos, el intercambio de SNP implica la consolidación de múltiples mutaciones beneficiosas en un solo contexto genético de cepa, ya sea una a la vez en un proceso iterativo o como múltiples cambios en una sola etapa. Los múltiples cambios pueden ser un conjunto específico de cambios definidos o una biblioteca combinatoria parcialmente aleatorizada de mutaciones.

En otros ejemplos, el intercambio de SNP también implica la eliminación de múltiples mutaciones identificadas como perjudiciales de una cepa, ya sea una a la vez en un proceso iterativo o como múltiples cambios en una sola etapa. Los cambios múltiples pueden ser un conjunto específico de cambios definidos o una biblioteca combinatoria parcialmente aleatorizada de mutaciones. En algunos ejemplos, los métodos de intercambio de SNP de la presente descripción incluyen tanto la adición de SNP beneficiosos como la eliminación de mutaciones neutras y/o perjudiciales.

El intercambio de SNP es una herramienta poderosa para identificar y explotar mutaciones tanto beneficiosas como perjudiciales en un linaje de cepas sometidas a mutagénesis y selección para un rasgo de interés mejorado. El intercambio de SNP utiliza técnicas de ingeniería genómica de alta capacidad para determinar sistemáticamente la influencia de mutaciones individuales en un linaje mutagénico. Las secuencias del genoma se determinan para cepas a lo largo de una o más generaciones de un linaje mutagénico con mejoras de rendimiento conocidas. La ingeniería genómica de alta capacidad se usa luego sistemáticamente para recapitular mutaciones de cepas mejoradas en cepas de linaje anteriores y/o revertir mutaciones en cepas posteriores a secuencias de cepas anteriores. Después, se evalúa el rendimiento de estas cepas y se puede determinar la contribución de cada mutación individual en el fenotipo mejorado de interés. Como se ha mencionado antes, las cepas microbianas que resultan de este procedimiento se analizan/caracterizan y forman la base para las bibliotecas de diseño genético de intercambio de SNP que pueden informar de la mejora de las cepas microbianas entre las cepas hospedantes.

La eliminación de mutaciones perjudiciales puede proporcionar mejoras inmediatas en el rendimiento, y la consolidación de mutaciones beneficiosas en el contexto genético de una cepa no sujeta a carga mutagénica puede mejorar rápida y enormemente el rendimiento de la cepa. Las diversas cepas microbianas producidas por el procedimiento de intercambio de SNP forman las bibliotecas de intercambio de SNP de diseño genético HTP, que son cepas microbianas que comprenden los diversos SNP añadidos/eliminados/o consolidados, pero por lo demás contextos genéticos idénticos.

Como se ha descrito previamente, la mutagénesis aleatoria y el cribado posterior para mejorar el rendimiento es una técnica comúnmente usada para mejorar cepas industriales, y muchas cepas que se usan actualmente para la producción a gran escala se han desarrollado usando este procedimiento de manera iterativa a lo largo de un periodo de muchos años, a veces décadas. Los enfoques aleatorios para generar mutaciones genómicas, tales como la exposición a la radiación UV o mutágenos químicos tales como el metanosulfonato de etilo, eran un método preferido para mejorar cepas industriales porque: 1) los organismos industriales pueden estar mal caracterizados genética o metabólicamente, haciendo difícil sino imposible la selección de dianas para los enfoques de mejora dirigida; 2) incluso en sistemas relativamente bien caracterizados, los cambios que dan como resultado mejoras en el rendimiento industrial son difíciles de predecir y pueden requerir la perturbación de genes que no tienen una función conocida, y 3) las herramientas genéticas para producir mutaciones genómicas dirigidas en un organismo industrial dado pueden no estar disponible o ser muy lentas y/o difíciles de usar.

Sin embargo, a pesar de los beneficios mencionados anteriormente de este procedimiento, también existen una serie de desventajas conocidas. Las mutaciones beneficiosas son sucesos relativamente raros y, con el fin de encontrar estas mutaciones con una capacidad de cribado fija, las tasas de mutaciones deben ser lo suficientemente altas. Esto a menudo da como resultado la incorporación de mutaciones neutras y parcialmente perjudiciales no deseadas en las cepas junto con cambios beneficiosos. Con el tiempo, esta "carga mutagénica" se acumula, dando como resultado cepas con deficiencias en la robustez general y rasgos clave tales como las tasas de crecimiento. Finalmente, la "carga mutagénica" hace que las mejoras adicionales en el rendimiento a través de la mutagénesis aleatoria sean cada vez más difíciles o imposibles de obtener. Sin herramientas adecuadas, es imposible consolidar mutaciones beneficiosas que se encuentran en ramas discretas y paralelas de linajes de cepas.

El intercambio de SNP es un enfoque para superar estas limitaciones recapitulando o revertiendo sistemáticamente algunas o todas las mutaciones observadas cuando se comparan cepas dentro de un linaje mutagénico. De esta manera, se puede tanto identificar y consolidar mutaciones beneficiosas ("causativas") como se puede identificar y eliminar mutaciones perjudiciales. Esto permite mejoras rápidas en el rendimiento de la cepa que no podrían lograrse por mutagénesis aleatoria adicional o ingeniería genética dirigida.

La eliminación de la carga genética o la consolidación de cambios beneficiosos en una cepa sin carga genética también proporciona un punto de partida nuevo y sólido para la mutagénesis aleatoria adicional que puede permitir mejoras adicionales.

Además, a medida que se identifican cambios beneficiosos ortogonales en ramas discretas diversas de un linaje de cepas mutagénicas, se pueden consolidar rápidamente en cepas de mejor rendimiento. Estas mutaciones también se pueden consolidar en cepas que no forman parte de linajes mutagénicos, tales como cepas con mejoras obtenidas por ingeniería genética dirigida.

Existen otros enfoques y tecnologías para recombinar mutaciones aleatoriamente entre cepas dentro de un linaje mutagénico. Estos incluyen técnicas como fusión de protoplastos y el barajado del genoma completo que facilitan la recombinación genómica entre cepas mutadas. Para algunos microorganismos industriales, tales como levaduras y hongos filamentosos, también se pueden aprovechar los ciclos de apareamiento naturales para la recombinación genómica por pares. De esta manera, las mutaciones perjudiciales se pueden eliminar por "retrocruzamiento" de mutantes con cepas parentales y consolidar mutaciones beneficiosas. Sin embargo, estos enfoques están sujetos a muchas limitaciones que se eluden usando los métodos de intercambio de SNP de la presente descripción.

Por ejemplo, puesto que estos enfoques se basan en un número relativamente pequeño de sucesos cruzados de recombinación aleatoria para intercambiar mutaciones, pueden ser necesarios muchos ciclos de recombinación y cribado para optimizar el rendimiento de la cepa. Además, aunque los sucesos de recombinación natural son esencialmente aleatorios, también están sujetos al sesgo posicional del genoma y puede ser difícil dirigirse a algunas mutaciones. Estos enfoques también proporcionan poca información sobre la influencia de mutaciones individuales sin secuenciación y análisis adicionales del genoma. El intercambio de SNP supera estas limitaciones fundamentales, ya que no es un enfoque aleatorio, sino más bien la introducción o eliminación sistemática de mutaciones individuales entre cepas.

En algunos ejemplos, la presente descripción enseña métodos para identificar la diversidad de secuencias de SNP presente entre los organismos de un grupo de diversidad. Un grupo de diversidad puede ser un número n dado de microbios utilizados para el análisis, y representando los genomas de dichos microbios el "grupo de diversidad".

En ejemplos particulares, un grupo de diversidad puede ser una cepa parental original (Si) con una secuencia genética "base" o de "referencia" en un punto de tiempo particular (S¹Gem) y después cualquier número de cepas descendientes subsiguientes (S²-n) que derivaron/se desarrollaron a partir de dicha cepa S¹y que tienen un genoma diferente (S²-nGen²-n), en relación con el genoma base de S¹.

Por ejemplo, en algunos ejemplos, la presente descripción enseña la secuenciación de los genomas microbianos en un grupo de diversidad para identificar los SNP presentes en cada cepa. En un ejemplo, las cepas del grupo de diversidad son cepas históricas de producción microbiana. Por lo tanto, un grupo de diversidad de la presente descripción puede incluir, por ejemplo, una cepa industrial de referencia y una o más cepas industriales mutadas producidas por programas tradicionales de mejora de cepas.

En algunos ejemplos, los SNP dentro de un grupo de diversidad se determinan con referencia a una "cepa de referencia". En algunos ejemplos, la cepa de referencia es una cepa de tipo natural. En otros ejemplos, la cepa de referencia es una cepa industrial original antes de ser sometida a cualquier mutagénesis. La cepa de referencia puede ser definida por el médico y no tiene que ser una cepa de tipo natural original o una cepa industrial original. La cepa base es simplemente representativa de lo que se considerará la "base", "referencia" o el contexto genético original, por el cual se van a comparar cepas posteriores que se derivaron o se desarrollaron a partir de dicha cepa de referencia.

Una vez que se identifican todos los SNPS en el grupo de diversidad, la presente descripción enseña métodos de intercambio de SNP y métodos de cribado para delinear (es decir, cuantificar y caracterizar) los efectos (p. ej., creación de un fenotipo de interés) de los SNP individualmente y/o en grupos.

En algunos ejemplos, los métodos de intercambio de SNP de la presente descripción comprenden la etapa de introducir uno o más SNP identificados en una cepa mutada (p. ej., una cepa de entre S²-nGen²-n) en una cepa de referencia (S¹Gem) o cepa de tipo natural ("onda ascendente").

En otros ejemplos, los métodos de intercambio de SNP de la presente descripción comprenden la etapa de eliminar uno o más SNP identificados en una cepa mutada (p. ej., una cepa de entre S²-nGen²-n) ("onda descendente").

En algunos ejemplos, cada cepa generada que comprende uno o más cambios de SNP (que introduce o elimina) se cultiva y se analiza bajo uno o más criterios de la presente descripción (p. ej., producción de un producto químico o producto de interés). Los datos de cada una de las cepas hospedantes analizadas se asocian o correlacionan con el SNP particular o grupo de SNP presentes en la cepa hospedante y se registran para uso futuro. Por lo tanto, la presente descripción permite la creación de bibliotecas de cepas microbianas de diseño genético HTP grandes y muy registradas que son capaces de identificar el efecto de un SNP en cualquier serie de rasgos genéticos o fenotípicos microbianos de interés. La información almacenada en estas bibliotecas de diseño genético HTP informa a los algoritmos de aprendizaje automático de la plataforma de ingeniería genómica HTP y dirige las iteraciones futuras del procedimiento, que finalmente conduce a organismos microbianos evolucionados que poseen propiedades/rasgos altamente deseables.

3. Intercambios de codones de inicio/parada: una herramienta molecular para la obtención de bibliotecas de cepas microbianas de codones de inicio/parada

En algunos ejemplos, la presente descripción enseña métodos para intercambiar variantes de codones de inicio y parada. Por ejemplo, los codones de parada típicos para S. cerevisiae y mamíferos son TAA (UAA) y TGA (UGA), respectivamente. El codón de parada típico para plantas monocotiledóneas es TGA (UGA), mientras que los insectos y E. coli habitualmente usan TAA (UAA) como codón de parada (Dalphin et al. (1996) Nucl. Acids Res. 24: 216-218). En otros ejemplos, la presente descripción enseña el uso de los codones de parada TAG (UAG).

La presente descripción enseña de manera similar el intercambio de codones de inicio. En algunos ejemplos, la presente descripción enseña el uso del codón de inicio ATG (AUG) utilizado por la mayoría de los organismos (especialmente eucariotas). En algunos ejemplos, la presente descripción enseña que los procariotas lo que más usan es ATG (AUG), seguido de GTG (GUG) y TTG (UUG).

En otros ejemplos, la presente descripción enseña la sustitución de los codones de inicio ATG por TTG. En algunos ejemplos, la presente descripción enseña la sustitución de los codones de inicio ATG por GTG. En algunos ejemplos, la presente descripción enseña la sustitución de los codones de inicio GTG por ATG. En algunos ejemplos, la presente descripción enseña la sustitución de los codones de inicio GTG por TTG. En algunos ejemplos, la presente descripción enseña la sustitución de los codones de inicio TTG por ATG. En algunos ejemplos, la presente descripción enseña la sustitución de los codones de inicio TTG por GTG.

En otros ejemplos, la presente descripción enseña la sustitución de los codones de parada de TAA por TAG. En algunos ejemplos, la presente descripción enseña la sustitución de los codones de parada de TAA por TGA. En algunos ejemplos, la presente descripción enseña la sustitución de los codones de parada de TGA por TAA. En algunos ejemplos, la presente descripción enseña la sustitución de los codones de parada de TGA por TAG. En algunos ejemplos, la presente descripción enseña la sustitución de los codones de parada de TAG por TAA. En algunos ejemplos, la presente descripción enseña la sustitución de los codones de parada de TAG por TGA.

4. Intercambio de Stop: una herramienta molecular para la obtención de bibliotecas de cepas microbianas de intercambio de STOP

En algunos ejemplos, la presente descripción enseña métodos para mejorar la productividad de las células hospedantes mediante la optimización de la transcripción de genes celulares. La transcripción de genes es el resultado de varios fenómenos biológicos distintos, que incluyen el inicio de la transcripción (reclutamiento de RNAp y formación de complejos transcripcionales), elongación (síntesis/extensión de la hebra) y la terminación de la transcripción (separación y terminación de RNAp). Aunque se ha prestado mucha atención al control de la expresión génica a través de la modulación transcripcional de genes (p. ej., cambiando promotores o induciendo factores de transcripción reguladores), se han hecho comparativamente pocos esfuerzos dirigidos a la modulación de la transcripción mediante la modulación de secuencias terminadoras de genes.

La forma más obvia en que la transcripción impacta en los niveles de expresión génica es a través de la velocidad de inicio de la Pol II, que puede ser modulada por combinaciones de promotor o fuerza del potenciador y factores trans activadores (Kadonaga, JT. 2004 "Regulation of RNA polymerase II transcription by sequence-specific DNA binding factors" Cell. 23 de enero de 2004; 116 (2): 247-57). En eucariotas, la tasa de elongación también puede determinar los patrones de expresión génica al influir en el empalme alternativo (Cramer P. et al., 1997 "Functional association between promoter structure and transcript alternative splicing". Proc Natl Acad Sci U S A. 14 de octubre de 1997; 94 (21): 11456-60). La terminación fallida en un gen puede alterar la expresión de genes secuencia abajo al reducir la accesibilidad del promotor a Pol II (Greger IH. Et al., 2000 "Balancing transcriptional interference and initiation on the GAL7 promoter of Saccharomyces cerevisiae". Proc Natl Acad Sci USA. 2000 18 de julio; 97 (15): 8415-20). Este proceso, conocido como interferencia transcripcional, es particularmente relevante en eucariotas inferiores, ya que a menudo tienen genes poco espaciados.

Las secuencias de terminación también pueden afectar a la expresión de los genes a los que pertenecen las secuencias. Por ejemplo, los estudios muestran que la terminación transcripcional ineficaz en eucariotas da como resultado una acumulación de pre-ARNm sin empalmar (véase West, S. y Proudfoot, N.J., 2009 "Transcriptional Termination Enhances Protein Expression in Human Cells" Mol Cell. 13 de febrero de 2009; 33 (3-9); 354-364). Otros estudios también han mostrado que el procesamiento del extremo 3' se puede retrasar por la terminación ineficaz (West, S et al., 2008 "Molecular dissection of mammalian RNA polymerase II transcriptional termination" Mol Cell. 14 de marzo de 2008; 29 (5): 600-10.). La terminación de la transcripción también puede afectar la estabilidad del ARNm al liberar transcripciones de los sitios de síntesis. Además, las secuencias de terminación fuertes pueden aumentar la estabilidad del ARNm, aumentando así la abundancia de proteínas y la actividad general de la ruta.

Terminación del mecanismo de transcripción en eucariotas

La terminación transcripcional en eucariotas opera a través de señales de terminadores que son reconocidas por factores proteicos asociados con la ARN polimerasa II. En algunos ejemplos, el factor de especificidad de escisión y poliadenilación (CPSF) y el factor de estimulación de escisión (CstF) se transfieren desde el dominio carboxilo terminal de la ARN polimerasa II a la señal poli-A. En algunos ejemplos, los factores CPSF y CstF también reclutan otras proteínas en el sitio de terminación, que luego escinden el transcrito y liberan el ARNm del complejo de transcripción. La terminación también desencadena la poliadenilación de los transcritos de ARNm. Los ejemplos ilustrativos de factores de terminación eucariotas validados y sus estructuras conservadas se discuten en partes posteriores de este documento.

Terminación de la transcripción en procariotas.

En los procariotas, dos mecanismos principales, denominados terminación independiente de Rho y dependiente de Rho, median la terminación de la transcripción. Las señales de terminación independientes de Rho no requieren un factor de terminación de la transcripción extrínseco, ya que la formación de una estructura de tallo-bucle en el ARN transcrito a partir de estas secuencias junto con una serie de restos de uridina (U) promueve la liberación de la cadena de ARN del complejo de transcripción. La terminación dependiente de Rho, por otro lado, requiere un factor de terminación de la transcripción llamado Rho y elementos que actúan en cis en el ARNm. El sitio de unión inicial para Rho, el sitio de utilización de Rho (rut), es una región monocatenaria extendida (~70 nucleótidos, a veces 80-100 nucleótidos) caracterizada por un alto contenido de citidina/bajo contenido de guanosina y relativamente poca estructura secundaria en el ARN que está siendo sintetizado, secuencia arriba de la secuencia de terminador real. Cuando se encuentra un sitio de pausa de la polimerasa, se produce la terminación y el transcrito es liberado por la actividad helicasa de Rho.

Intercambio de terminadores (intercambio de STOP)

En algunos ejemplos, la presente descripción enseña métodos para seleccionar secuencias de terminación ("terminadores") con propiedades de expresión óptimas para producir efectos beneficiosos en la productividad general de la cepa hospedante.

Por ejemplo, en algunos ejemplos, la presente descripción enseña métodos de identificación de uno o más terminadores y/o de generación de variantes de uno o más terminadores dentro de una célula hospedante, que presentan un intervalo de fuerzas de expresión (p. ej., escaleras de terminadores descritas más adelante). Una combinación particular de estos terminadores identificados y/o generados se puede agrupar entre sí como una escalera de terminadores, que se explica con más detalle a continuación.

La escalera de terminadores en cuestión después se asocia con un gen de interés dado. Por lo tanto, si se tienen los terminadores T¹-T⁸(que representan ocho terminadores que han sido identificados y/o generados para presentar un intervalo de fuerzas de expresión cuando se combinan con uno o más promotores) y se asocia la escalera de terminadores con un solo gen de interés en una célula hospedante (es decir, transformar genéticamente una célula hospedante con un terminador dado operativamente ligado al extremo 3' de un gen diana dado), entonces el efecto de cada combinación de los terminadores se puede determinar caracterizando cada una de las cepas transformadas que resultan de cada esfuerzo combinatorio, dado que las células hospedantes transformadas tienen un contexto genético por lo demás idéntico, excepto el o los terminadores particulares asociados con el gen diana. Las células hospedantes resultantes que se transforman por este procedimiento forman bibliotecas de diseño genético HTP.

La biblioteca de diseño genético de HTP se puede referir a la colección de cepas microbianas físicas reales que se forma por este procedimiento, siendo cada cepa miembro representativa de un terminador dado operativamente unido a un gen diana particular, en un contexto genético por lo demás idéntico, denominándose dicha biblioteca una "biblioteca de cepas microbianas de intercambio de terminadores" o "biblioteca de cepas microbianas de intercambio de STOP". En el contexto específico de E. coli, la biblioteca puede denominarse "biblioteca de cepas de E. coli de intercambio de terminadores" o "biblioteca de cepas de E. coli de intercambio de STOP", pero las expresiones se pueden usar como sinónimos, ya que E. coli es un ejemplo específico de microbio.

Además, la biblioteca de diseño genético de HTP se puede referir a la colección de perturbaciones genéticas, en este caso un terminador x dado operativamente unido a un gen y dado, denominándose dicha colección "biblioteca de intercambio de terminadores" o "biblioteca de intercambio de STOP".

Además, se puede utilizar la misma escalera de terminadores que comprende los terminadores T¹-T⁸para transformar microbios, en donde cada uno de los ocho terminadores se une operativamente a 10 genes diana diferentes. El resultado de este procedimiento serían 80 cepas de células hospedantes que por lo demás se suponen genéticamente idénticas, excepto por los terminadores particulares ligados operativamente a un gen diana de interés. Estas 80 cepas de células hospedantes se podrían cribar y caracterizar adecuadamente y dar lugar a otra biblioteca de diseño genético de HTP. La caracterización de las cepas microbianas en la biblioteca de diseño genético HTP produce información y datos que se pueden almacenar en cualquier base de datos, incluyendo, sin limitación, una base de datos relacional, una base de datos orientada a objetos o una base de datos NoSQL altamente distribuida. Estos datos/información podrían incluir, por ejemplo, un efecto de "terminadores" dado (p. ej., TiT8) cuando se unen operativamente a un gen diana dado. Estos datos/información también pueden ser el conjunto más amplio de efectos combinatorios que resultan de unir operativamente dos o más promotores (p. ej., T¹-T⁸) a un gen diana dado.

Los ejemplos mencionados antes de ocho terminadores y 10 genes diana son meramente ilustrativos, ya que el concepto se puede aplicar con cualquier número dado de terminadores que se hayan agrupado entre sí basándose en la presentación de un intervalo de fuerzas de expresión y cualquier número dado de genes diana. Por ejemplo, otro conjunto de terminadores que se puede usar en los métodos proporcionados en el presente documento (p. ej., intercambio de STOP) es el conjunto de terminadores que se encuentran en la Tabla 1.2 con las SEQ ID NO 225, 226, 227, 228, 229 o 230 de ácido nucleico.

En resumen, la utilización de varios terminadores para modular la expresión de varios genes en un organismo es una herramienta potente para optimizar un rasgo de interés. La herramienta molecular de intercambio de terminadores, desarrollada por los autores de la invención, usa una escalera de secuencias de terminadores que se ha demostrado que varían la expresión de al menos un locus en al menos una condición. Después, esta escalera se aplica sistemáticamente a un grupo de genes en el organismo mediante la ingeniería genómica de alta capacidad. Se determina que este grupo de genes tiene una alta probabilidad de tener impacto en el rasgo de interés basándose en uno cualquiera de varios métodos. Estos podrían incluir la selección basada en la función conocida o el impacto en el rasgo de interés, o la selección algorítmica basada en la diversidad genética beneficiosa previamente determinada.

Después, se evalúa el rendimiento de la biblioteca microbiana de diseño genético de HTP resultante de organismos que contienen una secuencia de terminador unida a un gen en un modelo de cribado de alta capacidad, y se determinan las uniones terminador-gen que conducen a un mayor rendimiento y la información se almacena en una base de datos. La colección de perturbaciones genéticas (es decir, un terminador x dado unido a un gen y dado) forma una "biblioteca de intercambio de terminadores", que se puede utilizar como una fuente de alteraciones genéticas potenciales que se utilizarán en el procesamiento de ingeniería microbiana. Con el tiempo, a medida que se implementa un mayor conjunto de perturbaciones genéticas contra una mayor diversidad de contextos genéticos microbianos, cada biblioteca se vuelve más potente como un corpus de datos experimentalmente confirmados que se pueden utilizar para diseñar de manera más precisa y predecible cambios dirigidos contra cualquier contexto genético de interés. Es decir, en algunos ejemplos, las presentes descripciones enseñan la introducción de uno o más cambios genéticos en una célula hospedante basándose en resultados experimentales previos insertados dentro de los metadatos asociados con cualquiera de las bibliotecas de diseño genético de la descripción.

Por lo tanto, en ejemplos particulares, el intercambio de terminadores es un procedimiento de múltiples etapas que comprende:

1. Seleccionar un conjunto de terminadores "x" para que actúen como una "escalera". "Idealmente, se ha mostrado que estos terminadores conducen a una expresión muy variable en múltiples locus genómicos, pero el único requisito es que perturben la expresión génica de alguna manera.

2. Seleccionar un conjunto de genes "n" para dirigir. Este conjunto puede ser todos los ORF de un genoma o un subconjunto de ORF. El subconjunto se puede elegir usando anotaciones en ORF relacionados con la función, por relación con perturbaciones beneficiosas demostradas previamente (intercambios de promotores previos, intercambios de STOP, intercambios de marcadores de solubilidad, intercambios de marcadores de degradación o intercambios de SNP), por selección algorítmica basada en interacciones epistáticas entre perturbaciones previamente generadas, otros criterios de selección basados en hipótesis relacionadas con el ORF beneficioso para direccionamiento, o mediante selección aleatoria. En otros ejemplos, los genes dirigidos "n" pueden comprender genes que no codifican proteínas, que incluyen los ARN no codificantes.

3. Ingeniería de cepas de alta capacidad para llevar a cabo de forma rápida y en paralelo las siguientes modificaciones genéticas: Cuando existe un terminador nativo en el extremo 3' del gen diana n y se conoce su secuencia, se sustituye el terminador nativo por cada uno de los terminadores x de la escalera. Cuando el terminador nativo no existe, o se desconoce su secuencia, se inserta cada uno de los terminadores x en la escalera después del codón de parada del gen. De esta manera, se construye una "biblioteca" (también denominada biblioteca de diseño genético HTP) de cepas, en donde cada miembro de la biblioteca es un caso de terminador x unido a diana n, en un contexto genético por lo demás idéntico. Como se ha descrito previamente, se pueden insertar combinaciones de terminadores, ampliando la variedad de posibilidades combinatorias sobre las que se construye la biblioteca.

4. Cribado de alta capacidad de la biblioteca de cepas en un contexto donde su rendimiento frente a uno o más indicadores es indicativo del rendimiento que se está optimizando.

Este procedimiento fundamental se puede extender para proporcionar mejoras adicionales en el rendimiento de la cepa, entre otras cosas: (1) Consolidando múltiples perturbaciones beneficiosas en un solo contexto de cepa, ya sea una a la vez en un proceso interactivo, o como múltiples cambios en una sola etapa. Múltiples perturbaciones pueden ser un conjunto específico de cambios definidos o una biblioteca combinatoria parcialmente aleatorizada de cambios. Por ejemplo, si el conjunto de dianas son todos los genes de una ruta, la regeneración secuencial de la biblioteca de perturbaciones en un miembro o miembros mejorados de la biblioteca de cepas anterior puede optimizar el nivel de expresión de cada gen en una ruta, independientemente de qué genes son limitantes de la velocidad en cualquier iteración dada; (2) Introducir los datos de rendimiento resultantes de la generación individual y combinatoria de la biblioteca en un algoritmo que usa esos datos para predecir un conjunto óptimo de perturbaciones basado en la interacción de cada perturbación; y (3) Implementar una combinación de los dos enfoques anteriores.

5. Optimización de secuencias: una herramienta molecular para la obtención de bibliotecas de cepas microbianas de secuencias optimizadas

En un ejemplo, los métodos de la descripción comprenden codones que optimizan uno o más genes expresados por el organismo hospedante. Los métodos de optimización de codones para mejorar la expresión en varios hospedantes se conocen en la técnica y se describen en la bibliografía (véase la Pub. de solicitud de patente de EE.UU. N° 2007/0292918). Las secuencias de codificación optimizadas que contienen codones preferidos por un hospedante procariota o eucariota particular (véase también, Murray et al. (1989) Nucl. Acids Res. 17: 477-508) se pueden preparar, por ejemplo, para aumentar la velocidad de traducción o para producir transcritos de ARN recombinante que tengan propiedades deseables, tales como una semivida más larga, en comparación con los transcritos producidos a partir de una secuencia no optimizada.

La expresión de proteínas se rige por una serie de factores, que incluyen los que afectan a la transcripción, procesamiento del ARNm y la estabilidad y el inicio de la traducción. Por lo tanto, la optimización puede abordar cualquiera de una serie de características de secuencia de cualquier gen en particular. Como ejemplo específico, una pausa de traducción inducida por codones raros puede dar como resultado una expresión de proteína reducida. Una pausa de traducción inducida por codones raros incluye la presencia de codones en el polinucleótido de interés que rara vez se usan en el organismo hospedante y puede tener un efecto negativo en la traducción de proteínas debido a su escasez en el grupo de ARNt disponible.

El inicio de traducción alternativo también puede dar como resultado la expresión reducida de proteína heteróloga. El inicio de traducción alternativo puede incluir una secuencia de polinucleótidos sintética que contiene accidentalmente motivos capaces de funcionar como un sitio de unión al ribosoma (RBS). Estos sitios pueden dar como resultado el inicio de la traducción de una proteína truncada desde un sitio interno del gen. Un método para reducir la posibilidad de producir una proteína truncada, que puede ser difícil de eliminar durante la purificación, incluye eliminar las supuestas secuencias de RBS internas de una secuencia de polinucleótido optimizada.

El deslizamiento de la polimerasa inducido por repetición puede dar como resultado la expresión de proteína heteróloga reducida. El deslizamiento de la polimerasa inducido por repetición implica repeticiones de secuencias de nucleótidos que se ha mostrado que provocan deslizamiento o tartamudeo de la ADN polimerasa, lo que puede dar como resultado mutaciones de cambio de marco. Dichas repeticiones también pueden producir el deslizamiento de la ARN polimerasa. En un organismo con un alto sesgo de contenido de G+C, puede haber un mayor grado de repeticiones compuestas por repeticiones de nucleótidos G o C. Por lo tanto, un método de reducción de la posibilidad de inducir el deslizamiento de la ARN polimerasa incluye la alteración de repeticiones extendidas de nucleótidos G o C.

La interferencia de estructuras secundarias también puede dar como resultado una expresión de proteína heteróloga reducida. Las estructuras secundarias pueden secuestrar la secuencia de RBS o el codón de inicio y se han correlacionado con una reducción en la expresión de proteínas. Las estructuras de tallo-bucle también pueden estar implicadas en la pausa y atenuación de la transcripción. Una secuencia de polinucleótidos optimizada puede contener estructuras secundarias mínimas en el RBS y las regiones codificantes de genes de la secuencia de nucleótidos para permitir una mejor transcripción y traducción.

Por ejemplo, el procedimiento de optimización puede comenzar identificando la secuencia de aminoácidos deseada para ser expresada por el hospedante. A partir de la secuencia de aminoácidos se puede diseñar un polinucleótido o secuencia de ADN candidata. Durante el diseño de la secuencia de ADN sintético, la frecuencia de uso de codones se puede comparar con el uso de codones del organismo de expresión hospedante y los codones del hospedante raros se pueden eliminar de la secuencia sintética. Además, la secuencia de ADN candidata sintética se puede modificar con el fin de eliminar los sitios de restricción enzimáticos indeseables y añadir o eliminar cualesquiera secuencias señal, conectores o regiones no traducidas deseadas. Se puede analizar en la secuencia de ADN sintético la presencia de una estructura secundaria que pueda interferir con el proceso de traducción, tal como repeticiones G/C y estructuras de tallo-bucle.

6. Intercambio de MARCADORES DE SOLUBILIDAD: una herramienta molecular para la obtención de bibliotecas de cepas microbianas de intercambio de MARCADORES DE SOLUBILIDAD

En algunos ejemplos, la presente descripción enseña métodos para mejorar la productividad de la célula hospedante mediante la optimización de los mecanismos postraduccionales. La mejora tradicional de cepas a menudo se puede lograr mediante la sobreexpresión de genes de la ruta que producen alguna molécula de interés. Típicamente, se pueden duplicar genes de la ruta conocidos o se pueden insertar promotores fuertes para dirigir la expresión de estos genes y, por lo tanto, aumentar los niveles de transcrito de ARNm con el objetivo de aumentar la abundancia de proteínas de la ruta para lograr una velocidad, título o rendimiento mejorados de una ruta determinada. Este enfoque se puede aplicar sistemáticamente a escala del genoma completo para identificar todos los genes que pueden mejorar el rendimiento de la cepa. Otro enfoque aplicado con frecuencia puede ser la deleción de genes de la ruta potencialmente competidores con el objetivo de eliminar por completo los productos proteicos que pueden desviar el carbono de la ruta deseada. Sin embargo, estos enfoques de mejora de cepas de sobreexpresión y/o deleción conocidos en la técnica pueden tener varias limitaciones.

Comenzando con la duplicación de la ruta o la inserción de un promotor fuerte, el efecto esperado de niveles mayores de transcrito de ARNm puede no dar como resultado necesariamente mayor abundancia de proteínas. Varios productos proteicos pueden tener varias etapas limitantes de la velocidad en su producción, y esta etapa limitante de la velocidad pueden no ser los niveles de transcritos de ARNm. En escenarios donde la transcripción de ARNm no es la etapa limitante de la velocidad, es posible que los mecanismos postraduccionales puedan estar teniendo impacto en la abundancia de proteínas en general. Por ejemplo, la presencia de marcadores de solubilidad de proteínas se puede usar para aumentar la abundancia de proteína activa correctamente plegada que puede contribuir a la producción de una molécula diana, mientras que el simple aumento de los niveles de transcritos de ARNm puede conducir solo a un aumento de proteína inactiva mal plegada. Los efectos de los marcadores de solubilidad de proteínas también se hacer que sean ajustables dependiendo de la secuencia del marcador de solubilidad que se use, lo que permite una optimización precisa del fenotipo diana.

Intercambio de marcadores de solubilidad de proteínas (intercambio de MARCADORES DE SOLUBILIDAD)

En algunos ejemplos, la presente descripción enseña métodos de selección de secuencias de marcadores de solubilidad de proteínas ("marcadores de solubilidad") con propiedades óptimas de solubilidad de proteínas para producir efectos beneficiosos en la productividad general de la cepa hospedante.

Por ejemplo, en algunos ejemplos, la presente descripción enseña métodos de identificación de uno o más marcadores de solubilidad de proteínas y/o generación de variantes de uno o más marcadores de solubilidad de proteínas dentro de una célula hospedante, que presentan un intervalo de fuerzas de solubilidad (p. ej., marcadores de solubilidad de proteínas descritas más adelante). Una combinación particular de estos marcadores de solubilidad de proteínas identificados y/o generados se pueden agrupar entre sí como una escalera de marcadores de solubilidad de proteínas, que se explica con más detalle a continuación.

La escalera de marcadores de solubilidad de proteínas en cuestión después se asocia con un gen de interés dado. Por lo tanto, si se tienen los marcadores de solubilidad de proteínas, PST¹-PST⁴(véase la Tabla 17) que representan un subconjunto de marcadores de solubilidad de proteínas que se han identificado en Costa et al., Front Microbiol.

2014; 5: 63 para mejorar la solubilidad de proteínas y también ser de menos de 100 aminoácidos, y asocia la escalera de marcadores de solubilidad de proteínas con un solo gen de interés en una célula hospedante (es decir, transformar genéticamente una célula hospedante con un marcador de solubilidad de proteínas dado operativamente unido a un determinado gen diana para generar una proteína diana marcada en el extremo N o en el extremo C). El efecto de cada combinación del marcador de solubilidad de proteínas se puede determinar caracterizando cada una de las cepas transformadas que resultan de cada esfuerzo combinatorio, dado que las células hospedantes transformadas tienen un contexto genético por lo demás idéntico excepto el o los marcadores de solubilidad particulares asociados con el gen diana. Las células hospedantes resultantes que se transforman por este procedimiento forman bibliotecas de diseño genético de HTP.

La biblioteca de diseño genético de HTP se puede referir a la colección de cepas microbianas físicas reales que se forma a través de este procedimiento, siendo cada cepa miembro representativa de una marcador de solubilidad de proteínas dado operativamente unido a una proteína diana particular, en un contexto genético por lo demás idéntico, denominándose dicha biblioteca una "biblioteca de cepas microbianas de intercambio de marcadores de solubilidad" o "biblioteca de cepas microbianas de intercambio de MARCADORES DE SOLUBILIDAD". En el contexto específico de E. coli, la biblioteca se puede denominar una "biblioteca de cepas de E. co lide intercambio de MARCADORES DE SOLUBILIDAD" o "biblioteca de cepas de E. coli de intercambio de MARCADORES DE SOLUBILIDAD", pero los términos se pueden usar como sinónimos, ya que E. coli es un ejemplo específico de un microbio.

Además, la biblioteca de diseño genético HTP se puede referir a la colección de perturbaciones genéticas, en este caso una marcador de solubilidad de proteína x dado operativamente unido a un gen y dado, denominándose dicha colección una "biblioteca de intercambio de marcadores de solubilidad de proteínas" o "biblioteca de intercambio de MARCADOR DE SOLUBILIDAD".

Además, se puede utilizar la misma escalera de marcadores de solubilidad de proteínas que comprende el marcador de solubilidad de proteínas PST¹-PST⁴para transformar microbios, en donde cada uno de las cuatro marcadores de solubilidad de proteínas está operativamente unido a 10 genes diana diferentes. El resultado de este procedimiento serían 40 cepas de células hospedantes que por lo demás se suponen genéticamente idénticas, excepto por los marcadores de solubilidad de proteínas particulares unidos operativamente a un gen diana de interés. Estas 40 cepas de células hospedantes se podrían cribar y caracterizar adecuadamente y dar lugar a otra biblioteca de diseño genético HTP. La caracterización de las cepas microbianas en la biblioteca de diseño genético HTP produce información y datos que se pueden almacenar en cualquier base de datos, incluyendo, sin limitación, una base de datos relacional, una base de datos orientada a objetos o una base de datos NoSQL altamente distribuida. Estos datos/información podrían incluir, por ejemplo, un efecto del marcador de solubilidad de proteínas dado (p. ej., PST¹-PST⁴) cuando está operativamente unido a un gen diana dado. Estos datos/información también pueden ser el conjunto más amplio de efectos combinatorios que resultan de unir operativamente de dos o más marcadores de solubilidad (p. ej., PST¹-PST4) a un gen diana dado.

Los ejemplos mencionados anteriormente de cuatro marcadores de solubilidad de proteínas y 10 genes diana son meramente ilustrativos, ya que el concepto se puede aplicar con cualquier número dado de marcadores de solubilidad de proteínas que se han agrupado entre sí basado en la presentación de un intervalo de fuerzas de solubilidad y cualquier número dado de genes diana.

En resumen, la utilización de diversos marcadores de solubilidad de proteínas para modular la solubilidad de diversas proteínas en un organismo es una herramienta poderosa para optimizar un rasgo de interés. La herramienta molecular de intercambio de marcadores de solubilidad de proteínas, desarrollada por los autores de la invención, usa una escalera de secuencias de marcadores de solubilidad de proteínas que han demostrado que varían la solubilidad (p. ej., mejoran) de al menos una proteína en al menos una condición. Después, esta escalera se aplica sistemáticamente a un grupo de genes en el organismo usando ingeniería genómica de alta capacidad. Se determina que este grupo de genes tiene una alta probabilidad de tener impacto en el rasgo de interés basándose en uno cualquiera de una serie de métodos. Estos podrían incluir la selección basada en la función conocida o el impacto en el rasgo de interés, o la selección algorítmica basada en la diversidad genética beneficiosa previamente determinada.

Después se evalúa en la biblioteca microbiana de diseño genético de HTP resultante de organismos que contienen una secuencia de marcador de solubilidad de proteínas unido a un gen, el rendimiento en un modelo de cribado de alta capacidad, y se determinan las uniones de marcador de solubilidad de proteínas-gen que conducen a un mayor rendimiento y la información se almacena en una base de datos. La colección de perturbaciones genéticas (es decir, marcador de solubilidad de proteínas x dado unido a un gen y dado) forma una "biblioteca de intercambio de marcadores de solubilidad de proteínas", que se puede utilizar como una fuente de alteraciones genéticas potenciales que se utilizarán en el procesamiento de ingeniería microbiana. Con el tiempo, a medida que se implementa un mayor conjunto de perturbaciones genéticas contra una mayor diversidad de contextos genéticos microbianos, cada biblioteca se vuelve más poderosa como un corpus de datos confirmados experimentalmente que se pueden usar para diseñar de manera más precisa y predecible cambios específicos frente a cualquier contexto de interés. Es decir, en algunos ejemplos, las presentes descripciones enseñan la introducción de uno o más cambios genéticos en una célula hospedante basándose en resultados experimentales previos insertados dentro de los metadatos asociados con cualquiera de las bibliotecas de diseño genético de la descripción.

Por lo tanto, en ejemplos particulares, el intercambio de marcadores de solubilidad de proteínas es un procedimiento de múltiples etapas que comprende:

1. Seleccionar un conjunto de marcadores de solubilidad de proteínas "x" para que actúen como una "escalera". “ Idealmente, se ha mostrado que estos marcadores de solubilidad de proteínas conducen a una mayor solubilidad de proteínas a lo largo de múltiples locus genómicos, pero el único requisito es que perturben la solubilidad de alguna manera.

2. Seleccionar un conjunto de genes "n" para direccionamiento. Este conjunto puede ser todos los ORF de un genoma o un subconjunto de ORF. El subconjunto se puede elegir usando anotaciones en los ORF relacionados con la función, por relación con perturbaciones beneficiosas previamente demostradas (intercambios de promotores previos, intercambios de STOP, intercambios de MARCADORES DE DEGRADACIÓN o intercambios de SNP), por selección algorítmica basada en interacciones epistáticas entre perturbaciones generadas previamente, otros criterios de selección basados en hipótesis con respecto al ORF beneficioso para dirigir, o mediante selección aleatoria.

3. Ingeniería de cepas de alta capacidad para llevar a cabo rápidamente y en paralelo las siguientes modificaciones genéticas: Cuando existe un marcador de solubilidad de proteínas nativo dentro de un gen diana n y se conoce su secuencia, reemplazar el marcador de solubilidad de proteínas nativo con cada uno de los marcadores de solubilidad de proteínas x de la escalera. Cuando el marcador de solubilidad de proteínas nativo no existe, o su secuencia es desconocida, insertar cada uno de los marcadores de solubilidad de proteínas x en la escalera. De esta manera se construye una "biblioteca" (también denominada biblioteca de diseño genético HTP) de cepas, en donde cada miembro de la biblioteca es un caso de marcador de solubilidad de proteínas x unido a la diana n, en un contexto genético por lo demás idéntico. Como se ha descrito previamente, se pueden insertar combinaciones de marcadores de solubilidad de proteínas, ampliando la variedad de posibilidades combinatorias sobre las que se construye la biblioteca.

Este procedimiento fundamental se puede extender para proporcionar mejoras adicionales en el rendimiento de las cepas, entre otras cosas: (1) Consolidando múltiples perturbaciones beneficiosas en un solo contexto genético de cepa, ya sea una a la vez en un procedimiento interactivo, o como múltiples cambios en una sola etapa. Las múltiples perturbaciones pueden ser un conjunto específico de cambios definidos o una biblioteca combinatoria parcialmente aleatorizada de cambios. Por ejemplo, si el conjunto de dianas son todos los genes de una ruta, la regeneración secuencial de la biblioteca de perturbaciones en un miembro o miembros mejorados de la biblioteca de cepas previa puede optimizar el nivel de expresión de todos los genes en una ruta, independientemente de qué genes son limitantes de velocidad en cualquier iteración dada; (2) Introduciendo los datos de rendimiento resultantes de la generación individual y combinatoria de la biblioteca en un algoritmo que usa esos datos para predecir un conjunto óptimo de perturbaciones basado en la interacción de cada perturbación; y (3) Implementando una combinación de los dos enfoques anteriores.

El enfoque se ilustra en la presente descripción con microorganismos industriales, pero es aplicable a cualquier organismo donde se puedan identificar los rasgos deseados en una población de mutantes genéticos. Por ejemplo, esto podría usarse para mejorar el rendimiento de células CHO, levaduras, células de insectos, algas, así como organismos multicelulares, tales como plantas.

7. Intercambio de MARCADORES DE DEGRADACIÓN: una herramienta molecular para la obtención de bibliotecas de cepas microbianas de intercambio de MARCADORES DE DEGRADACIÓN

Además de los ejemplos anteriores con respecto a los métodos para mejorar la productividad de las células hospedantes a través de la optimización de los mecanismos postraduccionales, una estrategia de eliminación de genes también puede tener inconvenientes que pueden ser abordados por los marcadores de degradación de proteínas (así como terminadores y marcadores de solubilidad de proteínas) de la presente descripción. La eliminación en su totalidad de un gen y su correspondiente producto proteico puede, en algunos casos, imponer una modificación drástica a la célula. Se puede lograr una respuesta más precisa y ajustable a través de bibliotecas de marcadores de degradación de proteínas que se dirigen a una proteína para la degradación a velocidades variables. Este enfoque también puede tener el beneficio de permitir la modulación de productos proteicos que pueden ser esenciales para la supervivencia celular y no sería viable si se eliminaran por completo. Puesto que estos marcadores de degradación también funcionan a un nivel postraduccional, pueden ser capaces de abordar escenarios donde los niveles de transcripción de ARNm alterados no dan como resultado niveles de proteínas alterados como se ha descrito anteriormente.

Intercambio de marcadores de degradación de proteínas (intercambio de MARCADORES DE DEGRADACIÓN)

En algunos ejemplos, la presente descripción enseña métodos de selección de secuencias de marcadores de degradación de proteínas ("marcadores de degradación") con propiedades de degradación de proteínas óptimas o modulación del nivel de proteínas para producir efectos beneficiosos en la productividad general de las cepas hospedantes.

Por ejemplo, en algunos ejemplos, la presente descripción enseña métodos de identificación de uno o más marcadores de degradación de proteínas y/o generación de variantes de uno o más marcadores de degradación de proteínas dentro de una célula hospedante, que presentan un intervalo de fuerzas de degradación o modulan los niveles de proteínas diana (p. ej., marcadores de degradación de proteínas descritos más adelante). Una combinación particular de estos marcadores de degradación de proteínas identificados y/o generados se pueden agrupar entre sí como una escalera de marcadores de degradación de proteínas, lo cual se explica con más detalle a continuación.

La escalera de marcadores de degradación de proteínas en cuestión después se asocia con un gen de interés dado. Por lo tanto, si se tienen los marcadores de degradación de proteínas PDT¹-PDT⁸(véase la Tabla 18) que representan un subconjunto de marcadores de degradación de proteínas que se han identificado a partir de diversas fuentes como se detalla en la Tabla 18) y se asocia la escalera de marcadores de degradación de proteínas con un solo gen de interés en una célula hospedante (es decir, transformar genéticamente una célula hospedante con una marcador de degradación de proteínas dado operativamente unido a un gen diana dado), entonces el efecto de cada combinación del marcador de degradación de proteínas se puede determinar caracterizando cada una de las cepas transformadas resultantes de cada esfuerzo combinatorio, dado que las células hospedantes transformadas tienen un contexto genético por lo demás idéntico, excepto el o los marcadores de degradación particulares asociadas con el gen diana. Las células hospedantes resultantes que se transforman mediante este procedimiento forman bibliotecas de diseño genético de HTP.

La biblioteca de diseño genético de HTP se puede referir a la colección de cepas microbianas físicas reales que se forma a través de este procedimiento, siendo cada cepa miembro representativa de una marcador de degradación de proteínas dado operativamente unido a una proteína diana particular, en un contexto genético por lo demás idéntico, denominándose dicha biblioteca una "biblioteca de cepas microbianas de intercambio de marcadores de degradación" o "biblioteca de cepas microbianas de intercambio de MARCADORES DE DEGRADACIÓN". En el contexto específico de E. coli, la biblioteca se puede denominar "biblioteca de cepas de E. coli de intercambio de MARCADORES DE DEGRADACIÓN" o "biblioteca de cepas de E. coli de intercambio de MARCADORES DE DEGRADACIÓN", pero los términos se pueden usar como sinónimos, puesto que E. coli es un ejemplo específico de un microbio.

Además, la biblioteca de diseño genético de HTP se puede referir a la colección de perturbaciones genéticas, en este caso un marcador de degradación de proteínas x dado operativamente unido a un gen y dado, denominándose dicha colección una "biblioteca de intercambio de marcadores de degradación de proteínas" o "biblioteca de intercambio de MARCADORES DE DEGRADACIÓN".

Además, se puede utilizar la misma escalera de marcadores de degradación de proteínas que comprende el marcador de degradación de proteínas PDT¹-PDT⁸para diseñar microbios, en donde cada uno de las ocho marcadores de degradación de proteínas está operativamente unido a 10 genes diana diferentes. El resultado de este procedimiento serían 80 cepas de células hospedantes que por lo demás se suponen genéticamente idénticas, excepto por los marcadores de degradación de proteínas particulares operativamente unidos a un gen diana de interés. Estas 80 cepas de células hospedantes se podrían cribar y caracterizar adecuadamente y dar lugar a otra biblioteca de diseño genético de HTP. La caracterización de las cepas microbianas en la biblioteca de diseño genético de HTP produce información y datos que se pueden almacenar en cualquier base de datos, incluyendo, sin limitación, una base de datos relacional, una base de datos orientada a objetos o una base de datos NoSQL altamente distribuida. Estos datos/información podrían incluir, por ejemplo, un efecto del marcador de degradación de proteínas dado (p. ej., PDT¹-PDT8) cuando está operativamente unido a un gen diana dado. Estos datos/información también pueden ser el conjunto más amplio de efectos combinatorios que resultan de unir operativamente dos o más marcadores de degradación (p. ej., PDT¹-PDT⁸) a un gen diana dado.

Los ejemplos antes mencionados de ocho marcadores de degradación de proteínas y 10 genes diana son meramente ilustrativos, ya que el concepto se puede aplicar con cualquier número dado de marcadores de degradación de proteínas que se han agrupado entre sí basándose en la presentación de un intervalo de fuerzas de degradación y cualquier número dado de genes diana.

En resumen, la utilización de diversos marcadores de degradación de proteínas para modular la degradación de diversas proteínas en un organismo es una herramienta poderosa para optimizar un rasgo de interés. La herramienta molecular de intercambio de marcadores de degradación de proteínas, desarrollada por los inventores, utiliza una escalera de secuencias de marcadores de degradación de proteínas que han demostrado que varían la degradación (p. ej., mejoran) de al menos una proteína en al menos una condición. Después, esta escalera se aplica sistemáticamente a un grupo de genes en el organismo usando la ingeniería genómica de alta capacidad. Se determina que este grupo de genes tiene una alta probabilidad de tener impacto en el rasgo de interés basándose en uno cualquiera de una serie de métodos. Estos podrían incluir la selección basada en la función conocida o el impacto en el rasgo de interés, o la selección algorítmica basada en la diversidad genética beneficiosa previamente determinada.

Después, se evalúa el rendimiento de la biblioteca microbiana de diseño genético HTP resultante de organismos que contienen una secuencia de marcador de degradación de proteínas unida a un gen en un modelo de cribado de alta capacidad, y se determinan las uniones de marcador de degradación de proteínas-gen que conducen a un mayor rendimiento y la información se almacena en una base de datos. La colección de perturbaciones genéticas (es decir, marcador de degradación de proteínas x dado unido a un gen y dado) forma una "biblioteca de intercambio de marcadores de degradación de proteínas", que se puede utilizar como una fuente de potenciales alteraciones genéticas que se utilizarán en el procesamiento de transformación microbiana. Con el tiempo, a medida que se implementa un mayor conjunto de perturbaciones genéticas contra una mayor diversidad de contextos genéticos microbianos, cada biblioteca se vuelve más poderosa como un corpus de datos confirmados experimentalmente que se puede utilizar para diseñar de manera más precisa y predecible cambios concretos frente a cualquier contexto genético de interés. Es decir, en algunos ejemplos, las presentes descripciones enseñan la introducción de uno o más cambios genéticos en una célula hospedante basándose en resultados experimentales previos insertados dentro de los metadatos asociados con cualquiera de las bibliotecas de diseño genético de la descripción.

Por lo tanto, en ejemplos particulares, el intercambio de marcadores de degradación de proteínas es un procedimiento de múltiples etapas que comprende:

1. Seleccionar un conjunto de marcadores de degradación de proteínas "x" para que actúen como una "escalera". Idealmente, se ha mostrado que estos marcadores de degradación de proteínas conducen a una mayor degradación de proteínas en múltiples locus genómicos, pero el único requisito es que perturben la degradación de alguna manera.

2. Seleccionar un conjunto de genes "n" para direccionamiento. Este conjunto puede ser todos los ORF de un genoma o un subconjunto de ORF. El subconjunto se puede elegir utilizando anotaciones en ORF relacionados con la función, por relación con perturbaciones beneficiosas previamente demostradas (intercambios de promotores previos, intercambios de STOP, intercambios de MARCADORES DE SOLUBILIDAD o intercambios de SNP), por selección algorítmica basada en interacciones epistáticas entre perturbaciones generadas previamente, otros criterios de selección basados en hipótesis con respecto al ORF beneficioso como diana, o mediante selección aleatoria.

3. Ingeniería de cepas de alta capacidad para llevar a cabo rápidamente y en paralelo las siguientes modificaciones genéticas: Cuando existe una marcador de degradación de proteínas nativo dentro de un gen diana n y se conoce su secuencia, reemplazar el marcador de degradación de proteínas nativo con cada uno de los marcadores de degradación de proteínas x de la escalera. Cuando el marcador de degradación de proteínas nativo no existe, o se desconoce su secuencia, insertar cada uno de los marcadores de degradación de proteínas x de la escalera. De esta manera se construye una "biblioteca" (también denominada biblioteca de diseño genético de HTP) de cepas, en donde cada miembro de la biblioteca es un caso de marcador de degradación de proteínas x unido a la diana n, en un contexto genético por lo demás idéntico. Como se ha descrito previamente, se pueden insertar combinaciones de marcadores de degradación de proteínas, ampliando la variedad de posibilidades combinatorias sobre las que se construye la biblioteca.

Este procedimiento fundamental se puede extender para proporcionar mejoras adicionales en el rendimiento de las cepas, entre otras cosas: (1) Consolidando múltiples perturbaciones beneficiosas en un solo contexto genético de cepa, ya sea una a la vez en un procedimiento interactivo, o como múltiples cambios en una sola etapa. Las múltiples perturbaciones pueden ser un conjunto específico de cambios definidos o una biblioteca combinatoria parcialmente aleatorizada de cambios. Por ejemplo, si el conjunto de objetivos son todos los genes de una ruta, la regeneración secuencial de la biblioteca de perturbaciones en un miembro o miembros mejorados de la biblioteca de cepas previa puede optimizar el nivel de expresión de todos los genes en una ruta, independientemente de qué genes son limitantes de velocidad en cualquier iteración dada; (2) Introduciendo los datos de rendimiento resultantes de la generación individual y combinatoria de la biblioteca en un algoritmo que usa esos datos para predecir un conjunto óptimo de perturbaciones basado en la interacción de cada perturbación; y (3) Implementar una combinación de los dos enfoques anteriores.

El enfoque se ilustra en la presente descripción con microorganismos industriales, pero es aplicable a cualquier organismo donde se puedan identificar rasgos deseados en una población de mutantes genéticos. Por ejemplo, esto se podría usar para mejorar el rendimiento de células CHO, levaduras, células de insectos, algas, así como organismos multicelulares, tales como plantas.

8. Mapeo de epistasis - Una herramienta analítica predictiva que permite consolidaciones genéticas beneficiosas

En algunos ejemplos, la presente descripción enseña métodos de mapeo de epistasis para predecir y combinar alteraciones genéticas beneficiosas en una célula hospedante. Las alteraciones genéticas pueden ser creadas por cualquiera de los conjuntos de herramientas moleculares de HTP antes mencionados (p. ej., Intercambios de promotores, intercambios de SNP, intercambios de codones de inicio/parada, optimización de secuencia, intercambios de marcadores de solubilidad de proteínas, intercambios de marcadores de degradación de proteínas e intercambios de STOP) y el efecto de esas alteraciones genéticas se conocerían a partir de la caracterización de las bibliotecas de cepas microbianas de diseño genético de HTP obtenidas. Por lo tanto, como se usa en el presente documento, la expresión mapeo de epistasis incluye métodos para identificar combinaciones de alteraciones genéticas (p. ej., SNP beneficiosos o asociaciones de promotores/genes diana beneficiosas) que es probable que produzcan aumentos en el rendimiento del hospedante.

En ejemplos, los métodos de mapeo de epistasis de la presente descripción se basan en la idea de que es más probable que la combinación de mutaciones beneficiosas de dos grupos funcionales diferentes mejore el rendimiento del hospedante, en comparación con una combinación de mutaciones del mismo grupo funcional. Véase, p. ej., Costanzo, The Genetic Landscape of a Cell, Science, vol. 327, Número 5964, 22 de enero de 2010, págs. 425-431.

Es más probable que las mutaciones del mismo grupo funcional operen por el mismo mecanismo y, por lo tanto, es más probable que presenten epistasis negativa o neutra en el rendimiento general del hospedante. Por el contrario, es más probable que las mutaciones de diferentes grupos funcionales operen por mecanismos independientes, lo que puede conducir a un mejor rendimiento del hospedante y, en algunos casos, a efectos sinérgicos. Por ejemplo, en referencia a la Figura 19, lysA y zwf son genes que operan en diferentes rutas para lograr la producción de lisina. Basado en la diferencia en el rendimiento individual de esos genes, los cambios genéticos que usan esos genes deberían dar como resultado efectos de consolidación aditivos. Esto se confirmó en la medición real de los efectos consolidados de la combinación de lysA y zwf, como se muestra en la Figura 16B y el Ejemplo 6.

Por lo tanto, en algunos ejemplos, la presente descripción enseña métodos de análisis de mutaciones de SNP para identificar SNP que se predice que pertenecen a diferentes grupos funcionales. En algunos ejemplos, la similitud de los grupos funcionales de SNP se determina calculando la similitud del coseno de los perfiles de interacción de mutación (similar a un coeficiente de correlación, véase la Figura 16A). La presente descripción también ilustra la comparación de SNP mediante una matriz de similitud de mutaciones (véase la Figura 15, para el análisis de ejemplo realizado en Corynebacterium) o dendrograma (véase la Figura 16A, para el análisis de ejemplo realizado en Corynebacterium).

Por lo tanto, el procedimiento de mapeo de epistasis proporciona un método para agrupar y/o clasificar una diversidad de mutaciones genéticas aplicadas en uno o más contextos genéticos con el propósito de consolidaciones eficientes y efectivas de dichas mutaciones en uno o más contextos genéticos.

En los ejemplos, la consolidación se realiza con el objetivo de crear cepas novedosas que están optimizadas para la producción de biomoléculas diana. Mediante el procedimiento de mapeo de epistasis enseñado, es posible identificar agrupaciones funcionales de mutaciones, y dichas agrupaciones funcionales permiten una estrategia de consolidación que minimiza los efectos epistáticos indeseables.

Como se ha explicado previamente, la optimización de microbios para usar en la fermentación industrial es un problema importante y difícil, con amplias implicaciones para la economía, la sociedad y el mundo natural. Tradicionalmente, la ingeniería microbiana se ha realizado mediante un procedimiento lento e incierto de mutagénesis aleatoria. Dichos enfoques aprovechan la capacidad evolutiva natural de las células para adaptarse a la presión de selección impuesta artificialmente. Dichos enfoques también están limitados por la rareza de las mutaciones beneficiosas, la solidez del entorno de conveniencia subyacente y, de manera más general, infrautilizan el estado de la técnica en biología celular y molecular.

Los enfoques modernos aprovechan la nueva comprensión de la función celular en el nivel mecanístico y nuevas herramientas de biología molecular para llevar a cabo manipulaciones genéticas dirigidas a fines fenotípicos específicos. En la práctica, dichos enfoques racionales se confunden por la complejidad subyacente de la biología. Los mecanismos causales se entienden mal, en particular cuando se intentan combinar dos o más cambios los cuales tienen cada uno un efecto beneficioso observado. A veces, dichas consolidaciones de cambios genéticos producen resultados positivos (medidos por aumentos en la actividad fenotípica deseada), aunque el resultado positivo neto puede ser menor de lo esperado y en algunos casos mayor de lo esperado. En otros casos, dichas combinaciones producen un efecto neto neutro o un efecto neto negativo. Este fenómeno se conoce como epistasis y es uno de los desafíos fundamentales para la ingeniería microbiana (y la ingeniería genética en general).

Como se ha mencionado antes, la plataforma de ingeniería genómica de HTP actual resuelve muchos de los problemas asociados con los enfoques tradicionales de ingeniería microbiana. La plataforma de HTP actual usa tecnologías de automatización para realizar cientos o miles de mutaciones genéticas de una vez. En ejemplos particulares, a diferencia de los enfoques racionales descritos antes, la plataforma de HTP descrita permite la construcción paralela de miles de mutantes para explorar de manera más efectiva grandes subconjuntos del espacio genómico relevante, como se describe en la solicitud de EE.UU. N° 15/140.296, titulada "Diseño de cepas microbianas Sistema y métodos para la producción mejorada a gran escala de secuencias de nucleótidos diseñadas". Al intentar "todo", la presente plataforma de HTP evita las dificultades inducidas por nuestra comprensión biológica limitada.

Sin embargo, al mismo tiempo, la presente plataforma de HTP se enfrenta al problema de estar fundamentalmente limitada por el tamaño explosivo combinatorio del espacio genómico y la efectividad de las técnicas computacionales para interpretar los conjuntos de datos generados dada la complejidad de las interacciones genéticas. Se necesitan técnicas para explorar subconjuntos de espacios combinatorios vastos de manera que maximicen la selección no aleatoria de combinaciones que produzcan los resultados deseados.

Enfoques de HTP algo similares han demostrado ser efectivos en el caso de la optimización enzimática. En este nicho del problema, una secuencia genómica de interés (del orden de 1000 bases) codifica una cadena de proteínas con alguna configuración física complicada. La configuración precisa está determinada por las interacciones electromagnéticas colectivas entre sus componentes atómicos constituyentes. Esta combinación de secuencia genómica corta y problema de plegamiento físicamente restringido se presta específicamente a estrategias de optimización ambiciosas. Es decir, es posible mutar individualmente la secuencia en cada resto y barajar los mutantes resultantes para muestrear eficazmente el espacio de secuencia local con una resolución compatible con la modelización de respuesta de actividad de secuencia.

Sin embargo, para optimizaciones genómicas completas para biomoléculas, estos enfoques centrados en restos son insuficientes por algunas razones importantes. Primero, debido al aumento exponencial en el espacio de secuencia relevante asociado con optimizaciones genómicas para biomoléculas. Segundo, debido a la complejidad adicional de regulación, expresión e interacciones metabólicas en la síntesis de biomoléculas. Los autores de la presente invención han resuelto estos problemas mediante el procedimiento de mapeo de epistasis enseñado.

El método enseñado para modelar interacciones epistáticas, entre una colección de mutaciones con el propósito de una consolidación más eficiente y eficaz de dichas mutaciones en uno o más contextos genéticos, es innovador y muy necesario en la técnica.

Cuando se describe el procedimiento de mapeo de la epistasis, las expresiones "más eficiente" y "más efectivo" se refieren a evitar interacciones epistáticas indeseables entre cepas de consolidación con respecto a objetivos fenotípicos particulares.

Puesto que el procedimiento se ha desarrollado de forma general más arriba, ahora se describirá un ejemplo de flujo de trabajo más específico.

Primero, se comienza con una biblioteca de mutaciones M y uno o más contextos genéticos (p. ej., cepas bacterianas parentales). Ni la elección de la biblioteca ni la elección de los contextos genéticos son específicas del método descrito en el presente documento. Pero en una implementación particular, una biblioteca de mutaciones puede incluir exclusivamente, o en combinación: bibliotecas de intercambio de SNP, bibliotecas de intercambio de promotores o cualquier otra biblioteca de mutaciones descrita en el presente documento.

En una implementación, solo se proporciona un único contexto genético. En este caso, primero se generará una colección de distintos contextos genéticos (mutantes microbianos) a partir de este único contexto. Esto se puede lograr aplicando la biblioteca primaria de mutaciones (o algún subconjunto de la misma) al contexto dado, por ejemplo, la aplicación de una biblioteca de diseño genético de HTP de SNP particulares o una biblioteca de diseño genético de HTP de promotores particulares para el contexto genético dado, para crear una población (quizás cientos o miles) de mutantes microbianos con un contexto genético idéntico excepto por la alteración genética particular de la biblioteca de diseño genético de HTP dada incorporada en el mismo. Como se detalla a continuación, este ejemplo puede conducir a una biblioteca combinatoria o una biblioteca por pares.

En otra implementación, se puede dar simplemente una colección de distintos contextos genéticos conocidos. Como se detalla a continuación, este ejemplo puede conducir a un subconjunto de una biblioteca combinatoria.

En una implementación particular, se determina el número de contextos genéticos y la diversidad genética entre estos contextos (medidos en número de mutaciones o distancia de edición de secuencia o similar) para maximizar la eficacia de este método.

Un contexto genético puede ser una cepa natural, nativa o no manipulada genéticamente o una cepa transformada mutada. N cepas de distinto contexto genético se pueden representar por un vector b . En un ejemplo, el contexto de b puede representar contextos transformados, formados aplicando N mutaciones primarias mo = (m¹, m², ... mN) a una cepa de contexto de tipo natural bü para formar las N cepas de contexto mutado b = mo bü = (mnb⁰, m²bü, ... mN bo), donde mib⁰representa la aplicación de la mutación mi a la cepa de contexto b⁰.

En cualquier caso (es decir, un único contexto genético proporcionado o una colección de contextos genéticos), el resultado es una colección de N contextos genéticamente distintos. Se miden los fenotipos relevantes para cada contexto genético.

Segundo, cada mutación en una colección de M mutaciones m i se aplica a cada contexto dentro de la colección de N cepas de contexto b para formar una colección de mutantes M x N. En la implementación donde los N contextos se obtenían ellos mismos aplicando el conjunto primario de mutaciones mo (como se ha descrito antes), el conjunto resultante de mutantes se denominará a veces una biblioteca combinatoria o una biblioteca por pares. En otra implementación, en la que se ha proporcionado explícitamente una colección de contextos conocidos, el conjunto resultante de mutantes se puede denominar un subconjunto de una biblioteca combinatoria. Similar a la generación de vectores de contexto transformado, en los ejemplos, la interfaz de entrada 202 (véase la Figura 31) recibe el vector de mutación m i y el vector de contexto b, y una operación especificada tal como el producto cruzado.

Continuando con el ejemplo de contexto modificado anterior, la formación de la biblioteca combinatoria MxN se puede representar por la matriz formada por m¹x m⁰b⁰, el producto cruzado de mi aplicado a los N contextos de b = mo bo, donde cada mutación en mi se aplica a cada cepa de contexto dentro de b . Cada i-ésima fila de la matriz MxN resultante representa la aplicación de la i-ésima mutación dentro de m i a todas las cepas dentro de la colección de contexto b . En un ejemplo, m i = mo y la matriz representa la aplicación por pares de las mismas mutaciones a la cepa inicial b⁰. En ese caso, la matriz es simétrica con respecto a su diagonal (M=N), y la diagonal se puede ignorar en cualquier análisis ya que representa la aplicación de la misma mutación dos veces.

En los ejemplos, la formación de la matriz MxN se puede lograr introduciendo en la interfaz de entrada 202 (véase la Figura 31) la expresión compuesta m¹x m⁰bü. Los vectores componentes de la expresión se pueden introducir directamente con sus elementos especificados explícitamente, mediante una o más especificaciones de ADN, o como llamadas a la biblioteca 206 para permitir la recuperación de los vectores durante la interpretación por el intérprete 204. Como se describe en la solicitud de patente de EE.UU., Número de serie 15/140.296, titulada "Sistema y métodos de diseño de cepas microbianas para la producción mejorada a gran escalera de secuencias de nucleótidos transformadas", a través del intérprete 204, el motor de ejecución 207, el motor de colocación de pedidos 208 y la fábrica 210, el sistema LIMS 200 genera las cepas microbianas especificadas por la expresión de entrada.

Tercero, con referencia a la Figura 42, el equipo de análisis 214 (véase la Figura 31) mide las respuestas fenotípicas para cada mutante dentro de la matriz de biblioteca combinatoria MxN (4202). Así pues, la colección de respuestas se puede interpretar como una Matriz R de respuesta M x N. Cada elemento de R se puede representar como rij = y(mi, mj), donde y representa la respuesta (rendimiento) de la cepa de contexto bj dentro de la colección transformada b como mutada por la mutación mi. Por simplicidad y practicidad, se asumen mutaciones por pares donde m i = mo. Cuando, como aquí, el conjunto de mutaciones representa una biblioteca de mutaciones por pares, la matriz resultante también puede denominarse matriz de interacción de genes o, más particularmente, matriz de interacción de mutaciones.

Los expertos en la técnica reconocerán que, en algunos ejemplos, las operaciones relacionadas con los efectos epistáticos y el diseño predictivo de cepas se pueden realizar enteramente a través de medios automatizados del sistema LIMS 200, p. ej., mediante el equipo de análisis 214 (véase la Figura 31), o por implementación humana, o mediante una combinación de medios automatizados y manuales. Cuando una operación no está totalmente automatizada, los elementos del sistema LIMS 200, p. ej., el equipo de análisis 214, pueden recibir, por ejemplo, los resultados de rendimiento humanos de las operaciones en lugar de generar resultados a través de sus propias capacidades operativas. Como se describe en otra parte del presente documento, los componentes del sistema LIMS 200, tales como el equipo de análisis 214, se pueden implementar total o parcialmente mediante uno o más sistemas informáticos. En algunos ejemplos, en particular cuando las operaciones relacionadas con el diseño predictivo de cepas se realizan por una combinación de medios automatizados y manuales, el equipo de análisis 214 puede incluir no solo hardware, software o firmware informático (o una combinación de los mismos), sino también equipos operados por un operador humano tal como el que se citan en la Tabla 5 más adelante, p. ej., el equipo citado bajo la categoría de "Evaluar el rendimiento".

Cuarto, el equipo de análisis 212 (véase la Figura 31) normaliza la matriz de respuesta. La normalización consiste en procesos manuales y/o, en este ejemplo, automatizados para ajustar los valores de respuesta medidos con el fin de eliminar el sesgo y/o aislar las partes relevantes del efecto específico de este método. Con respecto a la Figura 42, la primera etapa 4202 puede incluir la obtención de datos medidos normalizados. En general, en las reivindicaciones dirigidas al diseño predictivo de cepas y al mapeo de epistasis, las expresiones "medida de rendimiento" o "rendimiento medido" o similares se pueden usar para describir un indicador que refleja los datos medidos, ya sea en bruto o procesados de alguna manera, p. ej., datos normalizados. En una implementación particular, la normalización se puede realizar restando una respuesta de contexto previamente medida del valor de respuesta medido. En esa implementación, los elementos de respuesta resultantes se pueden formar como rij = y(mi, mj) - y(mj), donde y(mj) es la respuesta de la cepa de contexto transformado bj dentro de la colección transformada b causada por aplicación de la mutación primaria mj a la cepa parental bo. Obsérvese que cada fila de la matriz de respuestas normalizadas se trata como un perfil de respuesta para su correspondiente mutación. Es decir, la i-ésima fila describe el efecto relativo de la mutación correspondiente mi aplicada a todas las cepas de contexto bj para j=1 a N.

Con respecto al ejemplo de mutaciones por pares, el rendimiento/respuesta combinado de las cepas resultantes de dos mutaciones puede ser mayor, menor o igual que el rendimiento/respuesta de la cepa para cada una de las mutaciones individualmente. Este efecto se conoce como "epistasis" y, en algunos ejemplos, se puede representar como eij = y(mi, mj) - (y(mi) y(mj)). Las variaciones de esta representación matemática son posibles y pueden depender, por ejemplo, de cómo interaccionan biológicamente los cambios individuales. Como se ha indicado antes, es más probable que las mutaciones del mismo grupo funcional operen por el mismo mecanismo y, por lo tanto, es más probable que presenten una epistasis negativa o neutra en el rendimiento general del hospedante. Por el contrario, es más probable que las mutaciones de diferentes grupos funcionales operen por mecanismos independientes, lo que puede conducir a un mejor rendimiento del hospedante al reducir los efectos mutantes redundantes, por ejemplo. Por lo tanto, es más probable que las mutaciones que producen respuestas diferentes se combinen de manera aditiva que las mutaciones que producen respuestas similares. Esto conduce al cálculo de la similitud en la siguiente etapa.

Quinto, el equipo de análisis 214 mide la similitud entre las respuestas, en el ejemplo de mutación por pares, la similitud entre los efectos de la i-ésima mutación y la j-ésima mutación (p. ej., primaria) dentro de la matriz de respuestas (4204). Recuerde que la i-ésima fila de R representa los efectos en el rendimiento de la i-ésima mutación mi en las N cepas de contexto, cada una de las cuales puede ser ella misma el resultado de mutaciones diseñadas como se ha descrito antes. Por lo tanto, la similitud entre los efectos de las mutaciones i-ésima y j-ésima se puede representar por la similitud Sij entre las filas i-ésima y j-ésima, pi y pj, respectivamente, para formar una matriz de similitud S, un ejemplo de la cual se ilustra en la Figura 15. La similitud se puede medir usando muchas técnicas conocidas, tales como la correlación cruzada o la similitud absoluta del coseno, p. ej., Sij = abs (cos(pi, pj)).

Como alternativa o complemento a un indicador como la similitud del coseno, se pueden agrupar los perfiles de respuesta para determinar el grado de similitud. El agrupamiento se puede realizar mediante el uso de algoritmos de agrupamiento basados en la distancia (p. ej., k-media, aglomeración jerárquica, etc.) junto con una medida de distancia adecuada (p. ej. Euclidiana, Hamming, etc.). Alternativamente, el agrupamiento se puede realizar usando algoritmos de agrupamiento basados en similitud (p. ej., espectral, corte mínimo, etc.) con una medida de similitud adecuada (p. ej., coseno, correlación, etc.). Por supuesto, las medidas de distancia se pueden equiparar a medidas de similitud y viceversa por una serie de operaciones funcionales estándar (p. ej., la función exponencial). En una implementación, el agrupamiento aglomerativo jerárquico se puede usar junto con una similitud de coseno absoluta. (Véase la Figura 16A para ver un ejemplo de análisis realizado en Corynebacterium).

Como ejemplo de agrupamiento, sea C un agrupamiento de mutaciones mi en k grupos distintos. Sea C la matriz de pertenencia al grupo, donde cij es el grado en que la mutación i pertenece al grupo j, un valor entre 0 y 1. La similitud basada en grupos entre las mutaciones i y j viene dada entonces por CixCj (el producto escalar de las filas i-ésima y j-ésima de C). En general, la matriz de similitud basada en grupos viene dada por CCT (es decir, C multiplicado por C-transposición). En el caso del agrupamiento duro (una mutación pertenece exactamente a un grupo), la similitud entre dos mutaciones es 1 si pertenecen al mismo grupo y 0 si no.

Como se describe en Costanzo, The Genetic Landscape of a Cell, Science, vol. 327, Número 5964, 22 de enero de 2010, págs. 425-431, dicho agrupamiento de perfiles de respuesta a mutaciones se relaciona con un mapeo aproximado de la organización funcional subyacente de una célula. Es decir, las mutaciones que se agrupan entre sí tienden a estar relacionadas por un proceso biológico subyacente o una ruta metabólica. Dichas mutaciones se denominan en el presente documento "grupo funcional". La observación clave de este método es que si dos mutaciones operan por el mismo proceso biológico o ruta, entonces los efectos observados (y en especial los beneficios observados) pueden ser redundantes. A la inversa, si dos mutaciones operan por un mecanismo distante, es menos probable que los efectos beneficiosos sean redundantes.

Sexto, basándose en el efecto epistático, el equipo de análisis 214 selecciona pares de mutaciones que conducen a respuestas diferentes, p. ej., su indicador de similitud de coseno cae por debajo de un umbral de similitud, o sus respuestas se encuentran dentro de grupos suficientemente separados (p. ej., en la Figura 15 y Figura 16A, por ejemplo, análisis realizados en Corynebacterium) como se muestra en la Figura 42 (4206). Basándose en su diferencia, los pares de mutaciones seleccionados deberían consolidarse en cepas de contexto mejor que pares similares.

Basado en los pares seleccionados de mutaciones que conducen a respuestas suficientemente diferentes, el sistema LIMS (p. ej., todas o alguna combinación del intérprete 204, motor de ejecución 207, colocador de pedidos 208 y fábrica 210) se puede usar para diseñar cepas microbianas que tengan esas mutaciones seleccionadas (4208). En los ejemplos, como se describe a continuación y en otra parte del presente documento, los efectos epistáticos se pueden incorporar o usar junto con el modelo predictivo para ponderar o filtrar la selección de la cepa.

Se supone que es posible estimar el rendimiento (también conocido como puntuación) de una cepa hipotética obtenida por la consolidación de una colección de mutaciones de la biblioteca en un contexto particular a través de algún modelo predictivo preferido. Un modelo predictivo representativo usado en los métodos enseñados se proporciona en la siguiente sección titulada "Diseño predictivo de cepas" que se encuentra en la sección más grande de: "Análisis computacional y predicción de efectos de los criterios de diseño genético de todo el genoma".

Cuando se emplea una técnica de diseño predictivo de cepas tal como la regresión lineal, el equipo de análisis 214 puede restringir el modelo a mutaciones que tienen medidas de similitud baja, p. ej., filtrando los resultados de la regresión para mantener solo mutaciones suficientemente diferentes. Alternativamente, el modelo predictivo se puede ponderar con la matriz de similitud. Por ejemplo, algunos ejemplos pueden emplear una regresión de mínimos cuadrados ponderados usando la matriz de similitud para caracterizar las interdependencias de las mutaciones propuestas. Como ejemplo, la ponderación se puede hacer aplicando el truco del "núcleo (Kernel)" al modelo de regresión. (En la medida en que el "truco del núcleo" es general para muchos enfoques de modelización de aprendizaje automático, esta estrategia de reponderación no se limita a la regresión lineal).

Los expertos en la técnica conocen dichos métodos. En los ejemplos, el núcleo es una matriz que tiene elementos 1 -w*sy donde 1 es un elemento de la matriz identidad y w es un valor real entre 0 y 1. Cuando w = 0, esto se reduce a un modelo de regresión estándar. En la práctica, el valor de w estará ligado a la precisión (valor r2 o error cuadrático medio (RMSE)) del modelo predictivo cuando se evalúe frente a las construcciones combinatorias por pares y sus efectos asociados y(m¡, mj). En una implementación simple, w se define como w = 1- r2. En este caso, cuando el modelo es completamente predictivo, w = 1-r2 = 0 y la consolidación se basa únicamente en el modelo predictivo y el procedimiento de mapeo epistático no juega ningún papel. Por otro lado, cuando el modelo predictivo no es predictivo en absoluto, w = 1-r2 = 1 y la consolidación se basa únicamente en el procedimiento de mapeo epistático. Durante cada iteración, se puede evaluar la precisión para determinar si el rendimiento del modelo está mejorando.

Debería estar claro que el procedimiento de mapeo epistático descrito en el presente documento no depende de qué modelo usa el equipo de análisis 214. Dado dicho modelo predictivo, es posible puntuar y clasificar todas las cepas hipotéticas accesibles a la biblioteca de mutaciones a través de la consolidación combinatoria.

En algunos ejemplos, para tener en cuenta los efectos epistáticos, el equipo de análisis 214 puede usar los perfiles de respuesta de mutación diferentes para aumentar la puntuación y el rango asociados con cada cepa hipotética del modelo predictivo. Este procedimiento puede considerarse de manera general como una ponderación de nuevo de las puntuaciones, para así favorecer las cepas candidatas con perfiles de respuesta diferentes (p. ej., cepas extraídas de una diversidad de grupos). En una implementación simple, una cepa puede tener su puntuación reducida por el número de mutaciones constituyentes que no satisfacen el umbral de disimilitud o que se extraen del mismo grupo (con ponderación adecuada). En una implementación particular, la estimación del rendimiento de una cepa hipotética se puede reducir por la suma de términos en la matriz de similitud asociada con todos los pares de mutaciones constituyentes asociadas con la cepa hipotética (nuevamente con la ponderación adecuada). Las cepas hipotéticas pueden volver a clasificarse utilizando estas puntuaciones aumentadas. En la práctica, dichos cálculos de reponderación se pueden realizar junto con la estimación de puntuación inicial.

El resultado es una colección de cepas hipotéticas con puntuación y rango aumentados para evitar de manera más efectiva interacciones epistáticas de confusión. Las cepas hipotéticas se pueden construir en este momento, o se pueden pasar a otro método computacional para su posterior análisis o uso.

Los expertos en la técnica reconocerán que el mapeo de epistasis y el diseño predictivo iterativo de cepas como se describe en el presente documento no se limitan a emplear solamente mutaciones por pares, sino que pueden expandirse a la aplicación simultánea de muchas más mutaciones a una cepa de contexto. En otro ejemplo, se pueden aplicar mutaciones adicionales secuencialmente a cepas que ya han sido mutadas usando mutaciones seleccionadas de acuerdo con los métodos predictivos descritos en el presente documento. En otro ejemplo, los efectos epistáticos se imputan aplicando la misma mutación genética a varios contextos de cepas que difieren ligeramente entre sí, y observando cualquier diferencia significativa en los perfiles de respuesta positiva entre los contextos de cepas modificadas.

Organismos susceptibles de diseño genético

La plataforma de ingeniería genómica HTP descrita se ilustra con cultivos de células microbianas industriales (p. ej., Corynebacterium), pero es aplicable a cualquier organismo celular hospedante donde se pueden identificar los rasgos deseados en una población de mutantes genéticos.

Además, como se expone en la introducción, la descripción actual proporciona una plataforma de ingeniería genómica HTP para mejorar las características de la célula hospedante en sistemas de E. co liy resuelve muchos problemas que previamente han impedido el desarrollo de dicho sistema en E. coli.

Por lo tanto, como se usa en el presente documento, el término "microorganismo" se debe tomar de manera amplia. Incluye, pero no se limita a los dos dominios procariotas, bacterias y arqueas, así como ciertos protistas y hongos eucariotas. Sin embargo, en ciertos ejemplos, se pueden usar organismos eucariotas "superiores" tales como insectos, plantas y animales en los métodos enseñados en el presente documento.

Las células hospedantes adecuadas incluyen, pero no se limitan a: células bacterianas, células de algas, células vegetales, células fúngicas, células de insectos y células de mamíferos. En un ejemplo ilustrativo, las células hospedantes adecuadas incluyen E. coli (p. ej., E. coli competente SHuffle™ disponible de New England BioLabs en Ipswich, Mass.). El genoma de E. coli tiene un tamaño de 4.646.332 pb (véase la Figura 52).

Las cepas hospedantes adecuadas de la especie E. coli comprenden: E. coli enterotoxigénica (ETEC), E. coli enteropatógena (EPEC), E. colienteroinvasiva (EIEC), E. colienterohemorrágica (EHEC), E. co liuropatógena (UPEC), E. coli productora de verotoxina, E. coli O157:H7, E. coli O104:H4, Escherichia coli 0121, Escherichia coli O104:H21, Escherichia coli K1 y Escherichia coli NC101. En algunos ejemplos, la presente descripción enseña la transformación genómica de E. coli K12, E. coli B y E. coli C.

En algunos ejemplos, la presente descripción enseña la transformación genómica de las cepas de E. co liNCTC 12757, NCTC 12779, NCTC 12790, NCTC 12796, NCTC 12811, ATCC 11229, ATCC 25922, ATCC 8739, DSM 30083, BC 5849, BC 8265, BC 8267, BC 8268, BC 8270, BC 8271, BC 8272, BC 8273, BC 8276, BC 8277, BC 8278, BC 8279, BC 8312, BC 8317, BC 8319, BC 8320, BC 8321, BC 8322, BC 8326, BC 8327, BC 8331, BC 8335, BC 8338, BC 8341, BC 8344, BC 8345, BC 8346, BC 8347, BC 8348, BC 8863, y BC 8864.

En algunos ejemplos, la presente descripción enseña E. co liverocitotoxigénicas (VTEC), tal como las cepas BC 4734 (O26:H11), BC 4735 (O157:H-), BC 4736 , BC 4737 (n.d.), BC 4738 (O157:H7), BC 4945 (O26:H-), BC 4946 (O157:H7), BC 4947 (O111 :H-), BC 4948 (O157:H), BC 4949 (O5), BC 5579 (O157:H7), BC 5580 (O157:H7), BC 5582 (O3:H), BC 5643 (O2:H5), BC 5644 (0128), BC 5645 (O55:H-), BC 5646 (O69:H-), BC 5647 (O101:H9), BC 5648 (O103:H2), BC 5850 (O22:H8), BC 5851 (O55:H-), BC 5852 (O48:H21), BC 5853 (O26:H11), BC 5854 (O157:H7), BC 5855 (O157:H-), BC 5856 (O26:H-), BC 5857 (O103:H2), BC 5858 (O26:H11), BC 7832, BC 7833 (O forma cruda:H-), BC 7834 (ONT:H-), BC 7835 (O103:H2), BC 7836 (O57:H-), BC 7837 (ONT:H-), BC 7838, BC 7839 (O128:H2), BC 7840 (O157:H-), BC 7841 (O23:H-), BC 7842 (O157:H-), BC 7843, BC 7844 (O157:H-), BC 7845 (O103:H2), BC 7846 (O26:H11), BC 7847 (O145:H-), BC 7848 (O157:H-), BC 7849 (O156:H47), BC 7850, BC 7851 (O157:H-), BC 7852 (O157:H-), BC 7853 (O5:H-), BC 7854 (O157:H7), BC 7855 (O157:H7), BC 7856 (O26:H-), BC 7857, BC 7858, BC 7859 (ONT:H-), BC 7860 (O129:H-), BC 7861, BC 7862 (O103:H2), BC 7863, BC 7864 (O forma cruda:H-), BC 7865, BC 7866 (O26:H-), BC 7867 (O forma cruda:H-), BC 7868, BC 7869 (ONT:H-), BC 7870 (O113:H-), BC 7871 (ONT:H-), BC 7872 (ONT:H-), BC 7873, BC 7874 (O forma cruda:H-), BC 7875 (O157:H-), BC 7876 (O111:H-), BC 7877 (O146:H21), BC 7878 (O145:H-), BC 7879 (O22:H8), BC 7880 (O forma cruda:H-), BC 7881 (O145:H-), BC 8275 (O157:H7), BC 8318 (O55:K-:H-), BC 8325 (O157:H7), y BC 8332 (ONT), BC 8333.

En algunos ejemplos, la presente descripción enseña E. coli enteroinvasivas (EIEC), tal como las cepas BC 8246 (O152:K-:H-), BC 8247 (O124:K(72):H3), BC 8248 (0124), BC 8249 (0112), BC 8250 (O136:K(78):H-), BC 8251 (O124:H-), BC 8252 (O144:K-:H-), BC 8253 (O143:K:H-), BC 8254 (0143), BC 8255 (0112), BC 8256 (O28a.e), BC 8257 (O124:H-), BC 8258 (0143), BC 8259 (O167:K-:H5), BC 8260 (O128a.c.:H35), BC 8261 (0164), BC 8262 (O164:K-:H-), BC 8263 (0164), y BC 8264 (0124).

En algunos ejemplos, la presente descripción enseña E. coli enterotoxigénicas (ETEC), tal como las cepas BC 5581 (078:H11), BC 5583 (O2:K1), BC 8221 (0118), BC 8222 (O148:H-), BC 8223 (O111), BC 8224 (O110:H-), BC 8225 (0148), BC 8226 (0118), BC 8227 (O25:H42), BC 8229 (06), BC 8231 (O153:H45), BC 8232 (09), BC 8233 (0148), BC 8234 (0128), BC 8235 (0118), BC 8237 (O111), BC 8238 (O110:H17), BC 8240 (0148), BC 8241 (O6H16), BC 8243 (0153), BC 8244 (O15:H-), BC 8245 (020), BC 8269 (O125a.c:H-), BC 8313 (O6:H6), BC 8315 (O153:H-), BC 8329, BC 8334 (O118:H12), y BC 8339.

En algunos ejemplos, la presente descripción enseña E. coli enteropatógenas (EPEC), tal como las cepas BC 7567 (O86), BC 7568 (O128), BC 7571 (O114), BC 7572 (O119), BC 7573 (0125), BC 7574 (0124), BC 7576 (O127a), BC 7577 (0126), BC 7578 (0142), BC 7579 (O26), BC 7580 (OK26), BC 7581 (0142), BC 7582 (O55), BC 7583 (O158), BC 7584 (O-), BC 7585 (O-), BC 7586 (O-), BC 8330, BC 8550 (O26), BC 8551 (O55), BC 8552 (O158), BC 8553 (O26), BC 8554 (O158), BC 8555 (O86), BC 8556 (O128), BC 8557 (OK26), BC 8558 (O55), BC 8560 (O158), BC 8561 (O158), BC 8562 (O114), BC 8563 (O86), BC 8564 (O128), BC 8565 (O158), BC 8566 (O158), BC 8567 (O158), BC 8568 (O111), BC 8569 (O128), BC 8570 (O114), BC 8571 (O128), BC 8572 (O128), BC 8573 (O158), BC 8574 (O158), BC 8575 (O158), BC 8576 (O158), BC 8577 (O158), BC 8578 (O158), BC 8581 (O158), BC 8583 (O128), BC 8584 (O158), BC 8585 (O128), BC 8586 (O158), BC 8588 (O26), BC 8589 (O86), BC 8590 (0127), BC 8591 (O128), BC 8592 (O114), BC 8593 (O114), BC 8594 (O114), BC 8595 (0125), BC 8596 (O158), BC 8597 (O26), BC 8598 (O26), BC 8599 (O158), BC 8605 (O158), BC 8606 (O158), BC 8607 (O158), BC 8608 (O128), BC 8609 (O55), BC 8610 (O114), BC 8615 (O158), BC 8616 (O128), BC 8617 (O26), BC 8618 (O86), BC 8619, BC 8620, BC 8621, BC 8622, BC 8623, BC 8624 (O158), y BC 8625 (0158).

En algunos ejemplos, la presente descripción también enseña métodos para a transformación de organismos Shigella, que incluyen Shigella flexneri, Shigella dysenteriae, Shigella boydii y Shigella sonnei.

Generación de grupos de diversidad genética para usar en el diseño genético y la plataforma de ingeniería microbiana de HTP

En algunos ejemplos, los métodos de la presente descripción se caracterizan como diseño genético. Como se usa en el presente documento, la expresión diseño genético se refiere a la reconstrucción o alteración del genoma de un organismo hospedante a través de la identificación y selección de las variantes más óptimas de un gen particular, parte de un gen, promotor, codón de parada, 5'UTR, 3'UTR u otra secuencia de ADN para diseñar y crear nuevas células hospedantes superiores.

En algunos ejemplos, una primera etapa en los métodos de diseño genético de la presente descripción es obtener una población de grupo de diversidad genética inicial con una pluralidad de variaciones de secuencia a partir de la cual se puede reconstruir un nuevo genoma de hospedante.

En algunos ejemplos, una etapa posterior en los métodos de diseño genético enseñados en el presente documento es usar uno o más de los conjuntos de herramientas moleculares de HTP antes mencionados (p. ej., intercambio de SNP, intercambio de promotor, intercambio de terminador, intercambio de marcadores de solubilidad de proteínas o intercambio de marcadores de degradación de proteínas) para construir bibliotecas de diseño genético de HTP, que luego funcionan como conductores del procedimiento de ingeniería genómica, proporcionando bibliotecas de alteraciones genómicas particulares para ensayar en una célula hospedante.

Aprovechamiento de grupos de diversidad de cepas de tipo natural existentes

En algunos ejemplos, la presente descripción enseña métodos para identificar la diversidad de secuencias presente entre los microbios de una población de tipo natural dada. Por lo tanto, un grupo de diversidad puede ser un número n dado de microbios de tipo natural usados para el análisis, representando dichos genomas de microbios el "grupo de diversidad".

En algunos ejemplos, los grupos de diversidad pueden ser el resultado de la diversidad existente presente en la variación genética natural entre dichos microbios de tipo natural. Esta variación puede resultar de variantes de cepas de una célula hospedante dada o puede ser el resultado de que los microbios sean especies completamente diferentes. Las variaciones genéticas pueden incluir cualquier diferencia en la secuencia genética de las cepas, se encuentren de forma natural o no. En algunos ejemplos, las variaciones genéticas pueden incluir intercambios de SNP, intercambios de PRO, intercambios de codón de inicio/detención, intercambios de MARCADORES DE SOLUBILIDAD, intercambios de MARCADORES DE DEGRADACIÓN o intercambios de STOP, entre otros.

Aprovechamiento de grupos de diversidad de variantes de cepas industriales existentes

En otros ejemplos de la presente descripción, los grupos de diversidad son variantes de cepas creadas durante los procedimientos tradicionales de mejora de cepas (p. ej., una o más cepas de organismos hospedantes generadas por mutación aleatoria y seleccionadas para obtener mejores rendimientos a lo largo de los años). Por tanto, en algunos ejemplos, el grupo de diversidad o los organismos hospedantes pueden comprender una colección de cepas de producción históricas.

En ejemplos particulares, un grupo de diversidad puede ser una cepa microbiana parental original (S¹) con una secuencia genética "base" en un punto de tiempo particular (S¹Gem) y después cualquier número de cepas descendientes posteriores (S², S³, S⁴, S⁵, etc., generalizable a S²-n) que se derivaron/desarrollaron a partir de dicha cepa S¹y que tienen un genoma diferente (S²-nGen²-n), en relación con el genoma base de Si.

Por ejemplo, en algunos ejemplos, la presente descripción enseña la secuenciación de los genomas microbianos en un grupo de diversidad para identificar los SNP presentes en cada cepa. En un ejemplo, las cepas del grupo de diversidad son cepas de producción microbiana históricas. Por lo tanto, un grupo de diversidad de la presente descripción puede incluir, por ejemplo, una cepa base industrial y una o más cepas industriales mutadas producidas por programas tradicionales de mejora de cepas.

Una vez que se identifican todos los SNP en el grupo de diversidad, la presente descripción enseña métodos de intercambio de SNP y métodos de cribado para delinear (es decir, cuantificar y caracterizar) los efectos (p. ej., creación de un fenotipo de interés) de los SNP individualmente y en grupos. Por lo tanto, como se ha mencionado antes, una etapa inicial en la plataforma enseñada puede ser obtener una población de grupo de diversidad genética inicial con una pluralidad de variaciones de secuencia, p. ej. SNP. Después, una etapa posterior en la plataforma enseñada puede ser usar uno o más de los conjuntos de herramientas moleculares de HTP antes mencionados (p. ej. intercambio de SNP) para construir bibliotecas de diseño genético de HTP, que después funcionan como conductores del procedimiento de ingeniería genómica, proporcionando bibliotecas de alteraciones genómicas particulares para ensayar en un microbio.

En algunos ejemplos, los métodos de intercambio de SNP de la presente descripción comprenden la etapa de introducir uno o más SNP identificados en una cepa mutada (p. ej., una cepa de entre S²-nGen²-n) en una cepa base (S¹Gem) o cepa de tipo natural.

En otros ejemplos, los métodos de intercambio de SNP de la presente descripción comprenden la etapa de eliminar uno o más SNP identificados en una cepa mutada (p. ej., una cepa de entre S²-nGen²-n).

Creación de grupos de diversidad por mutagénesis

En algunos ejemplos, las mutaciones de interés en una población de células de un grupo de diversidad dado se pueden generar artificialmente por cualquier medio para la mutaciones de cepas, incluidas sustancias químicas mutagénicas o radiación. El término "mutagenizante" se usa en el presente documento para referirse a un método para inducir una o más modificaciones genéticas en material de ácido nucleico celular.

La expresión "modificación genética" se refiere a cualquier alteración del ADN. Las modificaciones de genes representativas incluyen inserciones, deleciones, sustituciones de nucleótidos y combinaciones de las mismas, y pueden ser tan pequeñas como una sola base o tan grandes como decenas de miles de bases. Por lo tanto, la expresión "modificación genética" abarca inversiones de una secuencia de nucleótidos y otros reordenamientos cromosómicos, de modo que se altera la posición u orientación del ADN que comprende una región de un cromosoma. Un reordenamiento cromosómico puede comprender un reordenamiento intracromosómico o un reordenamiento intercromosómico.

En un ejemplo, los métodos mutagenizantes empleados en la materia objeto actualmente reivindicada son sustancialmente aleatorios, de modo que se puede producir una modificación genética en cualquier posición de nucleótido disponible dentro del material de ácido nucleico que se va a mutagenizar. Dicho de otra manera, en un ejemplo, la mutagenización no muestra una preferencia o mayor frecuencia de aparición en secuencias de nucleótidos particulares.

Los métodos de la descripción pueden emplear cualquier agente mutagénico que incluye, pero no se limita a: luz ultravioleta, radiación de rayos X, radiación gamma, N-etil-N-nitrosourea (ENU), metinitrosourea (MNU), procarbazina (PRC), trietilen-melamina (TEM), monómero de acrilamida (AA), clorambucilo (CHL), melfalán (MLP), ciclofosfamida (CPP), sulfato de dietilo (DES), metanosulfonato de etilo (EMS), metanosulfonato de metilo (MMS), 6-mercaptopurina (6-MP), mitomicina-C (MMC), N-metil-N'-nitro-N-nitrosoguanidina (MNNG), 3H²O y uretano (UR) (véase, p. ej., Rinchik, 1991; Marker et al., 1997; y Russell, 1990). Los agentes mutagénicos adicionales son bien conocidos por los expertos en la técnica, incluidos los descritos en http://www.iephb.nw.ru/~spirov/hazard/mutagen_lst.html.

El término "mutagenizar" también abarca un método para alterar (p. ej., por mutación dirigida) o modular una función celular, para mejorar así la velocidad, la calidad o la extensión de la mutagénesis. Por ejemplo, una célula se puede alterar o modular para que de ese modo sea disfuncional o deficiente en la reparación del ADN, metabolismo mutágeno, sensibilidad a mutágenos, estabilidad genómica o combinaciones de los mismos. Por lo tanto, la alteración de las funciones génicas que normalmente mantienen la estabilidad genómica se puede usar para potenciar la mutagénesis. Los objetivos representativos de la alteración incluyen, pero no se limitan a ADN ligasa I (Bentley et al., 2002) y caseína quinasa I (patente de Estados Unidos N° 6.060.296).

En algunos ejemplos, la mutagénesis específica de sitio (p. ej., mutagénesis dirigida por cebador usando un kit disponible en el mercado tal como el kit Transformer Site Directed mutagenesis (Clontech)) se usa para realizar una pluralidad de cambios a lo largo de una secuencia de ácido nucleico con el fin de generar ácido nucleico que codifica una enzima de escisión de la presente descripción.

La frecuencia de modificación genética tras la exposición a uno o más agentes mutagénicos se puede modular variando la dosis y/o la repetición del tratamiento, y se puede adaptar para una aplicación particular.

Por lo tanto, en algunos ejemplos, la "mutagénesis", como se usa en el presente documento, comprende todas las técnicas conocidas en la técnica para inducir mutaciones, incluida la mutagénesis por PCR propensa a errores, mutagénesis dirigida por oligonucleótidos, mutagénesis dirigida al sitio y recombinación de secuencias iterativa por cualquiera de las técnicas descritas en el presente documento.

Mutaciones de un solo locus para generar diversidad

En algunos ejemplos, la presente descripción enseña la mutación de poblaciones de células introduciendo, eliminando o reemplazando porciones seleccionadas de ADN genómico. Por tanto, en algunos ejemplos, la presente descripción enseña métodos para dirigir mutaciones a un locus específico. En otros ejemplos, la presente descripción enseña el uso de tecnologías de edición de genes tales como ZFN, TALENS, Lambda Red o CRISPR, para editar selectivamente regiones de ADN diana.

En otros ejemplos, la presente descripción enseña la mutación de regiones de ADN seleccionadas fuera del organismo hospedante y después la inserción de la secuencia mutada de nuevo en el organismo hospedante. Por ejemplo, en algunos ejemplos, la presente descripción enseña la mutación de promotores nativos o sintéticos para producir una gama de variantes de promotores con diversas propiedades de expresión (véase la escalera de promotores más adelante). En otros ejemplos, la presente descripción es compatible con técnicas de optimización de un solo gen, tales como ProSAR (Fox et al. 2007. "Improving catalytic function by ProSAR-driven enzyme evolution". Nature Biotechnology Vol 25 (3) 338-343).

En algunos ejemplos, las regiones seleccionadas de ADN se producen in vitro por el barajado de genes de variantes naturales o barajado con oligos sintéticos, recombinación plásmido-plásmido, recombinación de plásmido virus, recombinación de virus-virus. En otros ejemplos, las regiones genómicas se producen por PCR propensa a errores.

En algunos ejemplos, la generación de mutaciones en regiones genéticas seleccionadas se logra por "PCR de reensamblaje". Brevemente, se sintetizan los cebadores oligonucleótidos (oligos) para la amplificación por PCR de segmentos de una secuencia de ácido nucleico de interés, de manera que las secuencias de los oligonucleótidos se solapan con las uniones de dos segmentos. La región de solapamiento tiene típicamente una longitud de aproximadamente 10 a 100 nucleótidos. Cada uno de los segmentos se amplifica con un conjunto de dichos cebadores. Después, los productos de PCR se "reensamblan" de acuerdo con los protocolos de ensamblaje. En resumen, en un protocolo de ensamblaje, los productos de la PCR primero se purifican de los cebadores, por ejemplo, mediante electroforesis en gel o cromatografía de exclusión por tamaños. Los productos purificados se mezclan entre sí y se someten a aproximadamente 1-10 ciclos de desnaturalización, reasociación y extensión en presencia de polimerasa y desoxinucleósido trifosfatos (dNTP) y sales tampón adecuadas en ausencia de cebadores adicionales ("autocebado"). La PCR posterior con cebadores que flanquean el gen se usa para amplificar el rendimiento de los genes completamente reensamblados y barajados.

En algunos ejemplos de la descripción, las regiones de ADN mutado, tal como las descritas antes, se enriquecen con secuencias mutantes de modo que el espectro de mutantes múltiples, es decir, las posibles combinaciones de mutaciones, se muestrea de manera más eficiente. En algunos ejemplos, las secuencias mutadas se identifican mediante una matriz de afinidad de proteína mutS (Wagner et al., Nucleic Acids Res. 23(19): 3944-3948 (1995); Su et al., Proc. Natl. Acad. Sci. (U.S.A.), 83: 5057-5061 (1986)) con una etapa preferida de amplificación del material purificado por afinidad in vitro antes de una reacción de ensamblaje. Este material amplificado después se pone en una reacción de PCR de ensamblaje o reensamblaje como se describe en partes posteriores de esta solicitud.

Escalera de promotores

Los promotores regulan la velocidad a la que se transcriben los genes y pueden influir en la transcripción en una variedad de formas. Los promotores constitutivos, por ejemplo, dirigen la transcripción de sus genes asociados a una velocidad constante independientemente de las condiciones celulares internas o externas, mientras que los promotores regulables aumentan o disminuyen la velocidad a la que se transcribe un gen dependiendo de las condiciones celulares internas y/o externas, p. ej., velocidad de crecimiento, temperatura, respuestas a sustancias químicas ambientales específicas y similares. Los promotores se pueden aislar de sus entornos celulares normales y transformar para regular la expresión de prácticamente cualquier gen, lo que permite la modificación eficaz del crecimiento celular, el rendimiento del producto y/u otros fenotipos de interés.

En algunos ejemplos, la presente descripción enseña métodos para producir bibliotecas de escalera de promotores para usar en métodos de diseño genético posteriores. Por ejemplo, en algunos ejemplos, la presente descripción enseña métodos para identificar uno o más promotores y/o generar variantes de uno o más promotores dentro de una célula hospedante, que presentan un intervalo de fuerzas de expresión o propiedades reguladoras superiores. Una combinación particular de estos promotores identificados y/o generados se puede agrupar como una escalera de promotores, que se explica con más detalle a continuación.

En algunos ejemplos, la presente descripción enseña el uso de escaleras de promotores. En algunos ejemplos, las escaleras de promotores de la presente descripción comprenden promotores que presentan un intervalo continuo de perfiles de expresión. Por ejemplo, en algunos ejemplos, las escaleras de promotores se crean por: identificación de promotores naturales, nativos o de tipo natural que presentan un intervalo de fuerzas de expresión en respuesta a un estímulo, o por expresión constitutiva (véase, p. ej., la Figura 20 y Figuras 28- 30). Estos promotores identificados se pueden agrupar entre sí como una escalera de promotores.

En otros ejemplos, la presente descripción enseña la creación de escaleras de promotores que presentan un intervalo de perfiles de expresión en diferentes condiciones. Por ejemplo, en algunos ejemplos, la presente descripción enseña la creación de una escalera de promotores con máximos de expresión extendidos a lo largo de las diferentes etapas de una fermentación (véase, p. ej., la Figura 28). En otros ejemplos, la presente descripción enseña la creación de una escalera de promotores con diferentes dinámicas de máximos de expresión en respuesta a un estímulo específico (véase, p. ej., la Figura 29). Los expertos en la técnica reconocerán que las escaleras de promotores reguladores de la presente descripción pueden ser representativas de uno o más perfiles reguladores.

En algunos ejemplos, las escaleras de promotores de la presente descripción están diseñadas para perturbar la expresión génica de una manera predecible a lo largo de un intervalo continuo de respuestas. En algunos ejemplos, la naturaleza continua de una escalera de promotores confiere a los programas de mejora de cepas un poder predictivo adicional. Por ejemplo, en algunos ejemplos, el intercambio de promotores o secuencias de terminación de una ruta metabólica seleccionada puede producir una curva de rendimiento de la célula hospedante, que identifica la relación o perfil de expresión más óptimo; producir una cepa en la que el gen diana ya no es un factor limitante para una reacción particular o cascada genética, mientras que también evita la sobreexpresión innecesaria o la expresión errónea en circunstancias inadecuadas. En algunos ejemplos, las escaleras de promotores se crean por: identificación de promotores naturales, nativos o de tipo natural que presentan los perfiles deseados. En la Tabla 1.4 se pueden encontrar ejemplos de promotores nativos para usar en los métodos proporcionados en el presente documento. En otros ejemplos, las escaleras de promotores se crean mutando promotores que se encuentran de forma natural para derivar múltiples secuencias de promotores mutadas. En cada uno de estos promotores mutados se analiza su efecto en la expresión del gen diana. En algunos ejemplos, en los promotores editados se analiza la actividad de expresión a través de una variedad de condiciones, de modo que la actividad de cada variante del promotor se documenta/caracteriza/anota y se almacena en una base de datos. Las variantes de promotores editadas resultantes se organizan posteriormente en escaleras de promotores dispuestas en función de la fuerza de su expresión (p. ej., con variantes de expresión alta cerca de la parte superior y expresión atenuada cerca de la parte inferior, conduciendo así al término "escalera"). En la Tabla 1.4 se pueden encontrar ejemplos de promotores sintéticos para usar en los métodos proporcionados en el presente documento.

En algunos ejemplos, la presente descripción enseña escaleras de promotores que son una combinación de promotores que se encuentran de forma natural identificados y promotores variantes mutados.

En algunos ejemplos, la presente descripción enseña métodos para identificar promotores naturales, nativos o de tipo natural que satisfacen los dos criterios siguientes: 1) representan una escalera de promotores constitutivos; y 2) podrían ser codificados por secuencias de ADN cortas, idealmente menos de 100 pares de bases. En algunos ejemplos, los promotores constitutivos de la presente descripción presentan expresión génica constante en dos condiciones de crecimiento seleccionadas (típicamente comparadas entre las condiciones experimentadas durante el cultivo industrial). En el Ejemplo 12 se puede encontrar un ejemplo de examen de la expresión génica usando diferentes promotores proporcionados en el presente documento. En algunos ejemplos, los promotores de la presente descripción consistirán en un promotor central de ~60 pares de bases y una 5' UTR de entre 26 y 40 pares de bases de longitud.

Los promotores nativos para incluir en las escaleras de promotores para usar en los métodos PROSWP proporcionados en el presente documento se pueden seleccionar basándose en dicho promotor nativo que muestra una variación mínima en la expresión de un gen asociado. Además, los promotores nativos pueden tener una longitud de 60-90 pb y pueden consistir en una secuencia que se encuentra 50 pb delante de un sitio de inicio de transcripción putativo y, opcionalmente, la secuencia hasta pero sin incluir un codón de inicio putativo. En la Tabla 1.4 se pueden encontrar ejemplos de promotores nativos para usar en los métodos proporcionados en el presente documento. En particular, los promotores nativos para usar en los métodos proporcionados en el presente documento se pueden seleccionar de los ácidos nucleicos de SEQ ID NO 71-131 de la Tabla 1.4.

En algunos ejemplos, una o más de las secuencias de promotores que se encuentran de forma natural identificadas mencionadas anteriormente se eligen para la edición de genes. En algunos ejemplos, los promotores naturales se editan por cualquiera de los métodos de mutación descritos más arriba. En otros ejemplos, los promotores de la presente descripción se editan sintetizando nuevas variantes de promotores con la secuencia deseada.

Los promotores sintéticos para incluir en escaleras de promotores para usar en los métodos PROSWP proporcionados en el presente documento pueden ser secuencias quiméricas de 60-90 pb de longitud. Las bibliotecas de promotores sintéticos para usar en el presente documento pueden comprender un conjunto o pluralidad de promotores sintéticos que se pueden diseñar y construir de manera que es probable que se expresen constitutivamente y/o representen un intervalo de fuerzas de expresión en comparación entre sí. Además, los promotores sintéticos se pueden diseñar y construir de manera que no sea probable que se unan a elementos reguladores presentes en E. coli y, por lo tanto, dirijan la expresión génica de forma constitutiva.

Para lograr estos objetivos de diseño, los promotores sintéticos quiméricos pueden comprender todos o una combinación de los elementos que se encuentran en la Tabla 1.5. En particular, en relación con un sitio de inicio de la transcripción, los promotores sintéticos pueden comprender o consistir en una región distal, una región -35, una región central, una región -10 y una región 5'UTR/sitio de unión del ribosoma (RBS), como se muestra en la Figura 54. La región distal puede estar situada justo secuencia arriba de la región -35, mientras que la región central puede estar situada entre las regiones -35 y -10, como se muestra en la Figura 54. Tanto la región distal como la central pueden ser importantes para la unión de elementos reguladores (véase Cox et al., MolSystBiol. 2007; 3: 145). Puesto que se espera que el promotor pr del fago lambda dirija la expresión de manera constitutiva, las regiones distal y central de este promotor se pueden usar en la estrategia de diseño. La región central del promotor pl del fago lambda también se incluirá por la misma razón, así como para añadir variedad adicional a la biblioteca.

Las regiones -35 y -10 se pueden incluir porque se sabe que son particularmente importantes en procariotas para la unión de la ARN polimerasa y, por lo tanto, pueden ser críticas para modular el grado de expresión. En un ejemplo, se usan las regiones -35 y -10 del promotor pr y el promotor pl del fago lambda. Las regiones -35 y -10 de pr y pl se pueden usar ya que se espera que dirijan una expresión fuerte. Además, se pueden usar las regiones -35 y -10 que se encuentran en muchos promotores de E. coli nativos, de modo que dichas regiones -35 y -10 representan variaciones pequeñas de pr y pl y se puede esperar que disminuyan la fuerza del promotor en comparación con pr y pL. La secuencia variable de 6 pb que constituye las regiones -35 y -10 se puede seleccionar de las secuencias -35 y -10 que se encuentran en la Tabla 1.5.

Además de los elementos anteriores, los promotores sintéticos quiméricos pueden comprender una región no traducida 5' (5'-UTR) que incluye un sitio de unión al ribosoma (RBS), que puede ser particularmente importante en procariotas para la unión al ribosoma y, por lo tanto, ser crítico para modular el grado de expresión de proteínas. En un ejemplo, el 5'-UTR/RBS del gen acs nativo de E. coli se puede usar para añadir variedad adicional a la biblioteca. En otro ejemplo, se puede usar el 5'UTR/RBS del promotor pr del fago lambda.

En la Tabla 1.4 se pueden encontrar ejemplos de promotores sintéticos para usar en los métodos proporcionados en el presente documento. En particular, los promotores sintéticos para usar en los métodos proporcionados en el presente documento se pueden seleccionar de los ácidos nucleicos de SEQ ID NO 132-207 de la Tabla 1.4.

La descripción completa de la solicitud de patente de EE.UU. No. 62/264.232, presentada el 07 de diciembre de 2015.

En la Tabla 1 y/o Tabla 1.4 a continuación se proporciona una lista no exhaustiva de los promotores de la presente descripción. Cada una de las secuencias de promotores se puede denominar promotor heterólogo o polinucleótido promotor heterólogo.

Tabla 1. Secuencias de promotores seleccionadas de la presente descripción.

Tabla 1.4 Secuencias de promotores adicionales de la presente descripción.

Tabla 1.5. Partes de secuencias usadas en la biblioteca de promotor sintético-5'UTR combinatoria

En algunos ejemplos, los promotores de la presente descripción presentan una identidad de secuencia de al menos 100%, 99%, 98%, 97%, 96%, 95%, 94%, 93%, 92%, 91%, 90%, 89%, 88%, 87%, 86%, 85%, 84%, 83%, 82%, 81 %, 80%, 79%, 78%, 77%, 76%, o 75% con un promotor de la tabla 1 y/o tabla 4.

Diseño de elementos reguladores bicistrónicos

Una de las barreras para un diseño genético de HTP eficiente y escalable es la falta de piezas estándar que se puedan reutilizar de forma fiable en combinaciones novedosas. Muchos ejemplos dentro de E. coli destacan cómo las funciones genéticas aparentemente simples se comportan de manera diferente en diferentes entornos. Por ejemplo, en algunos ejemplos, un elemento del sitio de unión al ribosoma (RBS) procariota que inicia la traducción de una secuencia codificante podría no funcionar en absoluto con otra secuencia codificante (véase Salis, H.M., et al. "Automated design of synthetic ribosome binding sites to control protein expression" Nat. Biotechnol. Vol. 27, 946-950 (2009)). Si los elementos genéticos que codifican el control de los procesos celulares centrales, tales como la transcripción y la traducción, no se pueden reutilizar de manera fiable, entonces hay pocas posibilidades de que objetos de orden superior codificados a partir de dichos elementos básicos sean fiables en sistemas a mayor escala. En algunos ejemplos, los métodos de la presente descripción superan estos desafíos mencionados antes mediante el uso de secuencias reguladoras de diseño bicistrónico.

Los diseños bicistrónicos de la presente descripción, en algunos ejemplos, pueden reducir en gran medida la variabilidad dependiente del marco en la fuerza de expresión de un promotor dado para una variedad de genes codificantes (Mutalik, et al. "Precise and reliable gene expression via standard transcription and translation initiation elements" Nat. Biotechnol. Vol 10 (4) págs. 354-368 (2013)). En algunos ejemplos, la presente descripción enseña que un diseño bicistrónico (BCD) es una secuencia de nucleótidos en la que un promotor dirige la expresión de dos secuencias codificantes, donde la primera secuencia codificante (Cistrón 1) termina y la segunda secuencia codificante empieza en la misma base nucleotídica (Cistrón 2/gen diana). Esta estrategia proporciona un medio para evitar la variabilidad en la fuerza de expresión de las segundas secuencias codificantes debido a interacciones impredecibles entre el promotor y la segunda secuencia codificante.

En algún ejemplo, los promotores de la presente descripción son secuencias reguladoras de compuestos que siguen el diseño bicistrónico. Es decir, en algunos ejemplos, los promotores en las escaleras de promotores de la presente descripción son secuencias reguladoras más grandes que comprenden i) un promotor operativamente unido a ii) un primer sitio de unión al ribosoma (SD1), que está operativamente unido a iii) una primera secuencia cistrónica (Cis1), en donde Cis1 se solapa con iv) un segundo sitio de unión al ribosoma (SD2), que después se une operativamente a v) una secuencia codificante del gen diana (Cis2) (véase la Figura 43). En algunos ejemplos, la presente descripción se refiere a la combinación de los elementos i)-iv) como un "diseño bicistrónico" o "secuencia reguladora de diseño bicistrónico" (BCD).

En algunos ejemplos, los BCD de la presente descripción se pueden unir operativamente a cualquier gen diana. Por lo tanto, en algunas realizaciones, los BCD de la presente descripción se pueden usar en lugar de los promotores tradicionales. En algunos ejemplos, la presente descripción enseña que el uso de BCD en la caja de herramientas de intercambio de PRO aumenta la coherencia con la que los transcritos expresados se traducen. Sin desear estar ligados a ninguna teoría, los autores de la presente invención creen que la presencia de secuencias líder SD1 y Cis1 unidas operativamente al gen diana recluta complejos ribosomales activos, que después son capaces de reiniciar regularmente la traducción del gen diana a través del sitio de unión al ribosoma SD2.

Se ha descrito una colección de promotores y elementos de diseño bicistrónico que se pueden usar para la ingeniería genómica de HTP (véase Mutalik, et al. "Precise and reliable gene expression via standard transcription and translation initiation elements" Nat. Biotechnol. Vol 10 (4) págs. 354-368 (2013)). Sin embargo, todas estas secuencias descritas contienen secuencias de ADN idénticas en los primeros 35 nt de los 48 nt de la secuencia de diseño bicistrónico reguladora (véase la secuencia del estado actual de Mutalik en la Figura 43).

En algunos ejemplos, la presente descripción enseña que el BCD de Mutalik et al., no se podría usar para transformar eficazmente múltiples genes diana en un solo organismo. Es decir, en algunos ejemplos, la presente descripción enseña contra la integración múltiple de Mutalik BCD en el genoma de una célula hospedante. Sin desear estar ligados por ninguna teoría, los autores de la presente invención creen que el uso repetido de del BCD de Mutalik et al. daría como resultado tasas crecientes de recombinación homóloga (HR) no deseada desencadenada por la presencia de secuencias altamente homólogas en todo el genoma.

En algunos ejemplos, la presente descripción resuelve este problema describiendo nuevos BCD con secuencias de nucleótidos no idénticas. Estos nuevos BCD se pueden usar para la ingeniería genómica de HTP en E. coli para proporcionar cambios predecibles en la expresión de múltiples genes dentro de un solo genoma, independientemente de las secuencias codificantes de estos genes, sin inducir recombinación homóloga indeseable.

En algunos ejemplos, la presente descripción enseña métodos de expresión de dos proteínas génicas diana en un organismo hospedante en niveles relativamente similares. Por lo tanto, en algunos ejemplos, la presente descripción enseña la expresión de dos o más proteínas de genes diana dentro de 0,2, 0,4, 0,6, 0,8, 1, 1,2, 1,4, 1,6, 1,8, 2, 2,2, 2,4, 2,6, 2,8 o 3 veces el uno del otro.

En algunos ejemplos, la presente descripción enseña métodos de expresión dos proteínas génicas diana en un organismo hospedante en niveles similares, mientras que se reduce el riesgo de sucesos de recombinación homóloga (HR) no deseables desencadenados por el uso de secuencias reguladoras idénticas. Por lo tanto, en algunos ejemplos, la presente descripción enseña métodos para variar la secuencia de BCD de una manera que mantiene los niveles de expresión, a la vez que reduce el riesgo de HR. Es decir, en algunos ejemplos, la presente descripción enseña la expresión de dos o más genes que codifican proteínas a través de BCD que son idénticos salvo por sus secuencias Cis1.

Promotores de BCD

En algunos ejemplos, los BCD de la presente descripción comprenden una secuencia de promotor. En algunos ejemplos, los promotores comprendidos en los BCD pueden ser cualquier promotor capaz de expresarse en la célula hospedante. Por lo tanto, en algunos ejemplos, los promotores pueden ser cualquier promotor descrito en la memoria descriptiva. En algunos ejemplos, el promotor puede ser cualquier promotor que se sepa que funciona en E. coli. En otros ejemplos, los promotores pueden ser cualquier promotor descrito en la Tabla 1 y/o la Tabla 1.4.

Primer y segundo sitio de unión al ribosoma (SD1 y SD2)

En algunos ejemplos, los BCD de la presente descripción comprenden un primer y un segundo sitio de unión al ribosoma, denominados SD1 y SD2, respectivamente. En algunos ejemplos, las secuencias de SD1 y SD2 pueden ser las mismas. En otros ejemplos, las secuencias de SD1 y SD2 pueden ser diferentes.

En algunos ejemplos, las secuencias de los SD pueden ser cualquier sitio de unión al ribosoma conocido funcional en el hospedante sometido a la ingeniería genómica de HTP. En otros ejemplos, la presente descripción enseña una secuencia de SD de NNNGGANNN, en donde N se refiere a cualquier nucleótido. En otros ejemplos, la presente descripción enseña secuencias de SD seleccionadas de las secuencias descritas en la Tabla 1.1.

Tabla 1.1 - Lista no limitante de sitios de unión al ribosoma, susceptibles para usar de SD1 y SD2.

Debería estar claro que el procedimiento de mapeo epistático descrito en el presente documento no depende de qué modelo usa el equipo de análisis 214. Dado dicho modelo predictivo, se pueden puntuar y clasificar todas las cepas hipotéticas accesibles a la biblioteca de mutaciones a través de la consolidación combinatoria.

En algunos ejemplos, la presente descripción enseña que la variación de secuencias de SD individuales en el BCD afectará a la expresión general del BCD. Algunas secuencias de SD pueden servir para aumentar o disminuir el potencial de expresión general del BCD. Sin embargo, se espera que cada BCD presente resultados de expresión consistentes cuando se combinen con diferentes secuencias Cis2 de genes diana.

En algunos ejemplos, la secuencia de SD2 está completamente insertada dentro de la secuencia codificante de la primera secuencia cistrónica. Es decir, en algunos ejemplos, la secuencia de SD2 está integrada en las secuencias codificantes de Cis2. Sin desear estar ligados a ninguna teoría, los autores de la presente invención creen que las disposiciones del BCD en las que el sitio de unión al ribosoma del gen diana (SD2) está completamente insertado en la secuencia codificante del gen secuencia arriba (Cis1) da como resultado el acoplamiento de la traducciones de los péptidos Cis1 y Cis2. Más específicamente, los autores de la presente invención plantean la hipótesis de que la actividad de helicasa intrínseca de los ribosomas que llegan al codón de parada de una secuencia Cis1 secuencia arriba elimina las estructuras de ARN inhibidoras que de otro modo interrumpirían el inicio de la traducción del gen diana de Cis2 secuencia abajo.

Primera secuencia cistrónica (Cis1)

En algunos ejemplos, la primera secuencia cistrónica Cis1 de la presente descripción puede ser cualquier secuencia que codifique un péptido continuo. Por ejemplo, en algunos ejemplos, la secuencia de Cis1 codifica un péptido que tiene 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24, 25, 26, 27, 28, 29, 30, 31,32, 33, 34, 35,

36, 37, 38, 39, 40, 41,42, 43, 44, 45, 46, 47, 48, 49, 50, 100, 150, 200, 250, 300, 350, 400, 450, 500, 550, 600, 650,

700, 750, 800, 850, 900, 950, 1000, o más aminoácidos de longitud, incluyendo cualquier intervalo y subintervalo de los mismos. En algunos ejemplos, no es necesario que Cis1 codifique un péptido funcional.

En algunos ejemplos, la secuencia de Cis1 codifica un péptido líder de 16 aminoácidos. En algunos ejemplos la secuencia de nucleótidos de Cis1 es:

5' -ATGAAAGCAATTTTCGTACTGAAACATCTTAATCATGCACAGGAGACTTTCTAA-3' (SEQ ID No. 17).

En otros ejemplos, la presente descripción enseña de que secuencia de Cis1 puede ser 5'-ATGNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN - 3' , donde N puede ser cualquier ácido nucleico, con la condición de que Cis1 codifique un péptido.

En algunos ejemplos, la presente descripción enseña que el codón de parada de Cis1 y el codón de inicio de Cis2 deben estar próximos o solaparse. Por ejemplo, en algunos ejemplos, el codón de parada de Cis1 debe estar dentro de 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 3 34, 35, 36, 37, 38, 39, 40, 41,42, 43, 44, 45, 46, 47, 48, 49, o 50 nucleótidos del codón de inicio de Cis2, incluyendo todos los intervalos y subintervalos en los mismos.

En algunos ejemplos, la secuencia de Cis1 solapa con la secuencia de Cis 2 en 1,2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13,

14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31,32, 33, 34, 35, 36, 37, 38, 39, 40, 41,42, 43, 44, 45, 46, 47, 48, 49, 50, 100 o más nucleótidos, incluyendo todos los intervalos y subintervalos en los mismos. En otros ejemplos, el BCD de la presente descripción está diseñado de manera que la secuencia Cis1 solapa en 1 nucleótido con la secuencia Cis2 codificante del gen diana, de modo que los últimos nucleótidos codifican tanto un codón de parada como de inicio a través de un desplazamiento de marco de -1 (véase la Figura 43). En algunos ejemplos, las secuencias Cis1 y Cis 2 deben ser codificadas en diferentes marcos de lectura abiertos para evitar así la formación de una proteína quimérica que combine las secuencias de Cis1 y Cis2.

En algunos ejemplos, la presente descripción enseña que el codón de inicio de la secuencia de Cis1 puede ser cualquier codón de inicio funcional. En algunos ejemplos, la presente descripción enseña que los procariotas usan

ATG (AUG) en el codón de inicio más común, seguido de Gt G (GUG) y TTG (UUG).

En algunos ejemplos, la presente descripción enseña que la secuencia de Cis1 no tiene ningún codón de parada prematuro. En otros ejemplos, la presente descripción enseña que codones raros en la secuencia de Cis1 pueden reducir la eficacia de traducción de Cis2. Por lo tanto, en algunos ejemplos, Cis1 codificará un péptido sin ningún codón raro para lograr la máxima expresión. En otros ejemplos, Cis1 codificará un péptido con uno o más codones raros con el fin de modular la expresión de Cis2.

En otros ejemplos, la presente descripción enseña que múltiples codones repetidos en la secuencia de Cis1 pueden reducir la eficacia de traducción de Cis2. Por lo tanto, en algunos ejemplos, Cis1 codificará un péptido sin ninguna repetición de codones para lograr la máxima expresión. En otros ejemplos, Cis1 codificará un péptido con una o más repeticiones de codones con el fin de modular la expresión de Cis2.

Segunda secuencia cistrónica (Cis2- Gen diana)

En algunos ejemplos, la presente descripción enseña que los BCD de la presente descripción están operativamente unidos a una secuencia del gen diana Cis2, de la misma manera en que los promotores de las bibliotecas de intercambio de PRO están unidos operativamente a secuencias diana. Es decir, en algunos ejemplos, los BCD de la presente descripción pueden tomar el lugar de los promotores tradicionales en las bibliotecas y métodos de intercambio de PRO de la presente descripción. Las secuencias de Cis2, en algunos ejemplos, pueden ser cualquier secuencia de interés.

La presente descripción enseña que, en algunos ejemplos, los genes diana que codifican un polipéptido serán regulados más eficazmente por BCD que por un promotor. Es decir, en algunos ejemplos, los BCD no modularán la expresión de ARN no codificante más de lo que sería posible mediante un promotor.

Escaleras de terminadores

En algunos ejemplos, la presente descripción enseña métodos para mejorar las cepas hospedantes transformadas genéticamente proporcionando una o más secuencias de terminación de la transcripción en una posición 3' hasta el final del elemento codificante de ARN. En algunos ejemplos, la presente descripción enseña que la adición de secuencias de terminación mejora la eficacia de la transcripción de ARN de un gen seleccionado en el hospedante genéticamente transformado. En otros ejemplos, la presente descripción enseña que la adición de secuencias de terminación reduce la eficacia de la transcripción de ARN de un gen seleccionado en el hospedante genéticamente transformado. Por lo tanto, en algunos ejemplos, las escaleras de terminadores de la presente descripción comprenden una serie de secuencias de terminadores que presentan un intervalo de eficiencias de transcripción (p. ej., un terminador débil, un terminador medio y un promotor fuerte).

Una secuencia de terminación de la transcripción puede ser cualquier secuencia de nucleótidos, que cuando se pone transcripcionalmente secuencia abajo de una secuencia de nucleótidos que codifica un marco de lectura abierto, produce el final de la transcripción del marco de lectura abierto. Dichas secuencias son conocidas en la técnica y pueden ser de origen procariota, eucariota o fago. Los ejemplos de secuencias de terminadores incluyen, pero no se limitan al terminador de PTH, terminador de pET-T7, terminador de T3-TF, terminador de pBR322-P4, terminador del virus de estomatitis vesicular, terminador de rrnB-T1, terminador de rrnC, terminador transcripcional TTadc y secuencias de terminación reconocidas por levaduras, tales como el terminador de la transcripción Mata (factor a), secuencia de terminación de la transcripción del factor a nativo, secuencia de terminación de la transcripción ADR1, secuencia de terminación de la transcripción ADH2 y secuencia de terminación de la transcripción GAPD. Se puede encontrar una lista no exhaustiva de secuencias terminadoras de la transcripción en el registro iGEM, que está disponible en: http://partsregistry.org/Terminators/Catalog.

En algunos ejemplos, las secuencias de terminación de la transcripción pueden ser específicas de la polimerasa o no específicas, sin embargo, los terminadores de la transcripción seleccionados para usar en los presentes ejemplos deben formar una "combinación funcional" con el promotor seleccionado, lo que significa que la secuencia del terminador debe ser capaz de terminar la transcripción por el tipo de ARN polimerasa que comienza en el promotor. Por ejemplo, en algunos ejemplos, la presente descripción enseña que un promotor de ARN pol II eucariota y terminadores de ARN pol II eucariotas, un promotor T7 y terminadores T7, un promotor T3 y terminadores T3, un promotor reconocido por levadura y secuencias de terminación reconocidas por levadura, etc., generalmente formarían una combinación funcional. La identidad de las secuencias de terminación de la transcripción usadas también se puede seleccionar basándose en la eficacia con la que se termina la transcripción a partir de un promotor dado. Por ejemplo, una secuencia de terminador de la transcripción heteróloga se puede proporcionar transcripcionalmente secuencia abajo del elemento codificante del ARN para lograr una eficiencia de terminación de al menos 60%, al menos 70%, al menos 75%, al menos 80%, al menos 85%, al menos 90%, al menos 91%, al menos 92%, al menos 93%, al menos 94%, al menos 95%, al menos 96%, al menos 97%, al menos 98% o al menos 99% a partir de un promotor dado.

En algunos ejemplos, la eficacia de la transcripción de ARN a partir de la construcción de expresión transformada se puede mejorar proporcionando una secuencia de ácido nucleico que forme una estructura secundaria que comprenda dos o más horquillas en una posición 3' hasta el extremo del elemento codificante de ARN. Sin desear estar ligado a una teoría particular, la estructura secundaria desestabiliza el complejo de elongación de la transcripción y conduce a que la polimerasa se disocie del molde de ADN, minimizando así la transcripción improductiva de la secuencia no funcional y aumentando la transcripción del ARN deseado. Por consiguiente, se puede proporcionar una secuencia de terminación que forme una estructura secundaria que comprenda dos o más horquillas adyacentes. Generalmente, una horquilla puede estar formada por una secuencia de nucleótidos palindrómica que puede plegarse sobre sí misma para formar una región de tallo emparejada cuyos brazos están conectados por un bucle de una sola hebra. En algunos ejemplos, la secuencia de terminación comprende 2, 3, 4, 5, 6, 7, 8, 9, 10 o más horquillas adyacentes. En algunos ejemplos, las horquillas adyacentes están separadas por 0, 1,2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14 o 15 nucleótidos no emparejados. En algunos ejemplos, un tallo de la horquilla comprende 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30 o más pares de bases de longitud. En ciertos ejemplos, un tallo de horquilla tiene de 12 a 30 pares de bases de longitud. En ciertos ejemplos, la secuencia de terminación comprende dos o más horquillas de tamaño mediano que tienen una región de tallo que comprende aproximadamente de 9 a 25 pares de bases. En algunos ejemplos, la horquilla comprende una región que forma bucle de 1, 2, 3, 4, 5, 6, 7, 8, 9 o 10 nucleótidos. En algunos ejemplos, la región que forma bucle comprende 4-8 nucleótidos. Sin desear estar ligados a una teoría particular, la estabilidad de la estructura secundaria se puede correlacionar con la eficiencia de la terminación. La estabilidad de la horquilla está determinada por su longitud, el número de emparejamientos erróneos o protuberancias que contiene y la composición de bases de la región emparejada. Los emparejamientos entre guanina y citosina tienen tres enlaces de hidrógeno y son más estables en comparación con los emparejamientos de adeninatimina, que solo tienen dos. El contenido de G/C de una secuencia de nucleótidos palindrómica formadora de horquilla puede ser al menos 60%, al menos 65%, al menos 70%, al menos 75%, al menos 80%, al menos 85%, al menos 90% o más. En algunos ejemplos, el contenido de G/C de una secuencia de nucleótidos palindrómica formadora de horquilla es al menos de 80%. En algunos ejemplos, la secuencia de terminación deriva de una o más secuencias terminadoras de la transcripción de origen procariota, eucariota o fago. En algunos ejemplos, se proporciona una secuencia de nucleótidos que codifica una serie de 4, 5, 6, 7, 8, 9, 10 o más adeninas (A) en 3' de la secuencia de terminación.

En algunos ejemplos, la presente descripción enseña el uso de una serie de secuencias de terminación en tándem. En algunos ejemplos, la primera secuencia de terminador de la transcripción de una serie de 2, 3, 4, 5, 6, 7 o más se puede poner directamente en 3' del nucleótido final del elemento que codifica el ARNbc o a una distancia de al menos 1-5, 5-10, 10-15, 15-20, 20-25, 25-30, 30-35, 35-40, 40-45, 45-50, 50-100, 100-150, 150-200, 200-300, 300-400, 400 500, 500-1,000 o más nucleótidos 3' hasta el nucleótido final del elemento codificante de ARNbc. El número de nucleótidos entre las secuencias de terminadores de la transcripción en tándem puede variar, por ejemplo, las secuencias de terminadores de la transcripción pueden estar separadas por 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 10-15, 15 20, 20-25, 25-30, 30-35, 35-40, 40-45, 45-50 o más nucleótidos. En algunos ejemplos, las secuencias de terminador de la transcripción se pueden seleccionar basándose en su estructura secundaria predicha según lo determinado por un algoritmo de predicción de estructura. Los programas de predicción de estructuras son bien conocidos en la técnica e incluyen, por ejemplo, CLC Main Workbench.

Los expertos en la técnica reconocerán que los métodos de la presente descripción son compatibles con cualquier secuencia de terminación. En algunos ejemplos, la presente descripción enseña el uso de terminadores de Corynebacterium glutamicum anotados como se describe en Pfeifer-Sancar et al. 2013. "Comprehensive analysis of the Corynebacterium glutamicum transcriptome using an improved RNAseq technique" Pfeifer-Sancar et al. BMC Genomics 2013, 14:888). En otros ejemplos, la presente descripción enseña el uso de secuencias de terminadores de la transcripción que se encuentran en el registro iGEM, que está disponible en: http://partsregistry.org/Terminators/Catalog. En la Tabla 1.2 a continuación se proporciona una lista no exhaustiva de secuencias de terminadores de la transcripción de la presente descripción.

T a b la 1.2. Lista no exhaustiva de secuencias de terminación de la presente descripción.

Escalera de marcadores de solubilidad de proteínas

En a lg u n o s e jem p los , la p re se n te d e sc rip c ió n e n se ñ a m étodos p a ra m e jo ra r ce p a s h o sp e d a n te s g e n é tica m e n te tra n s fo rm a d a s p ro p o rc io n a n d o u n a o m ás s e cu e n c ia s de m arca d o re s de so lub ilidad de p ro te ín a s o p e ra tiva m e n te u n id as con u n a p ro te ín a d ia n a d e riv a d a de un gen d ian a . Los m arca d o re s de so lu b ilid a d pu ed en s e r pa re jas de fus ió n o p e ra tiva m e n te u n id as con la p ro te ín a d ia n a en el e x tre m o N o en el e x tre m o C de la p ro te ín a d iana . En a lgunos e jem p los , la p re se n te d e sc rip c ió n e n se ñ a q u e la ad ic ió n de s e cu e n c ia s de m a rca d o re s de so lu b ilid a d m e jo ra la so lu b ilid a d de u n a p ro te ín a tra d u c id a de un gen s e le cc io n a d o en e l ho sp e d a n te g e n é tic a m e n te tra n s fo rm a d o . En o tros e je m p lo s , los m a rca d o re s de so lu b ilid a d ta m b ié n se pu ed en u s a r pa ra a y u d a r en la p u rifica c ió n de la p ro te ín a d iana .

Los m arca d o re s e fica ce s pa ra u s a r en las e sca le ra s de m a rca d o re s de so lu b ilid a d de p ro te ín a s de la p re sen te d e sc rip c ió n p u ed en s e r c u a lq u ie r m a rca d o r de so lub ilidad c o n o c id o en la té c n ic a que fo rm e d o m in io s in de pen d ien te s , b ien p leg ado s , d o m in io s a lta m e n te so lub les . E stos d o m in io s p u ed en c o n trib u ir a la so lub ilidad de su p ro te ín a d ia n a a tra v é s de un e fe c to ad itivo , o cu a n d o se usan co m o un a m a rca d o r N -te rm ina l se p u ed en p le g a r rá p id a m e n te de spu és de s a lir de l rib o so m a y b lo q u e a r e s té rica m e n te la ca d e n a de a m in o á c id o s e m e rg e n te de la p ro te ín a d ia n a pa ra q u e no in te ra cc io n e con o tros c o m p o n e n te s ce lu la re s q u e p u ed en c a u s a r un p leg ado e rró ne o . A d e m á s , los m a rca d o re s de so lu b ilid a d pa ra in c lu ir en las e sca la s de m a rca d o re s de so lu b ilid a d pu eden te n e r p ro p ie d a d e s en com ú n ta le s com o s e r d o m in io s p e qu eñ os , e s tre ch a m e n te p leg ado s o s e r s e cu e n c ia s líd e r de p ro te ínas que se sabe que son a lta m en te so lub les . Las s e cu e n c ia s de m arca d o re s de so lub ilidad de p ro te ín a s pu ed en s e r cu a lq u ie ra de los m a rca do res co n o c id o s en la té c n ic a ta le s com o , p o r e je m p lo , c u a lq u ie ra de los m a rca d o re s e n co n tra d o s en C o s ta e t a l., Front Microbiol. 2014 ; 5: 63. En un e je m p lo , las s e cu e n c ia s de m arca d o re s de so lu b ilid a d in c luye n los m a rca d o re s que se e n cu e n tra n en la T a b la 17.

En un e jem p lo , e l m a rca d o r de so lub ilidad de p ro te ín a s es una pa re ja de fus ió n . El gen que co d ific a la pa re ja de fus ió n pu ed e e s ta r p re se n te en c u a lq u ie ra de los ve c to re s (p. e j., ve c to re s la nza de ra ) p ro p o rc io n a d o s en el p re sen te d o cu m e n to de m an e ra q u e la in te g ra c ión de l gen pa ra una p ro te ín a d ia n a en el v e c to r une o p e ra tiva m e n te el gen que co d ific a la p a re ja de fu s ió n con el gen d ian a . Los ve c to re s de e xp res ión de E. coli q u e co m p re n d e n m arca d o re s de so lu b ilid a d pa ra u sa r en e l p re se n te d o cu m e n to pu ed en co m p re n d e r una s e cu e n c ia de re co n o c im ie n to de p ro te a sa e n tre e l gen q u e co d ific a la p a re ja de fu s ió n de l m a rca d o r de so lu b ilid a d y e l gen q u e co d ific a la p ro te ín a d iana , que pu ed e p e rm itir la e lim in a c ió n de l m a rca d o r seg ún sea ne cesa rio . La e le cc ió n de una p a re ja de fu s ió n pa ra u sa r en los m é to d o s de in te rca m b io de so lu b ilid a d p ro p o rc io n a d o s en e l p re se n te d o cu m e n to pued e d e p e n d e r de:

(i) El p ro p ó s ito de la fu s ió n : ¿es pa ra m e jo ra r la so lub ilidad o pa ra la p u rifica c ió n p o r a fin id a d ? S e e n cue n tran d isp o n ib le s u n a va rie d a d de m a rca d o re s de fu s ió n que tie n e n d ife re n te s p ro pó s itos , y los s is te m a s que con tien en m a rca d o re s ta n to de so lub ilidad co m o de a fin id ad com o , p o r e je m p lo , e l m a rca do b le de h e xa h is tin a (H is6 )-M B P , se pueden d is e ñ a r con el fin de o b te n e r u n a p ro d u cc ió n de p ro te ín a ráp id a "en u n a so la e ta pa". A lgunos m a rca d o re s de p ro te ín a s ta m b ié n pu ed en fu n c io n a r ta n to en fu n c io n e s de a fin id ad co m o de so lub ilidad , com o p o r e je m p lo , la M BP o la g lu ta tió n -S -tra n s fe ra s a (G S T ; E spos ito y C h a tte rje e , C u rr O p in B io te chn o l. 2006 A go s to ; 17 (4 ): 353-8. P ub licac ió n e le c tró n ica 15 de ju n io de 2006).

(ii) La co m p o s ic ió n y ta m a ñ o de los a m in o á c id o s : las p ro te ín a s d ia n a pu ed en re q u e rir m a rca d o re s m ás g ra n d e s o m ás p e q u e ñ o s d e p e n d ie n d o de su ap lica c ió n . Los m arca do res m ás g ra n d e s pu ed en p re s e n ta r una gran d ive rs id a d en e l co n te n id o de a m in o á c id o s y pu ed en im p o n e r u n a ca rg a m e ta b ó lica en la cé lu la ho spe da n te d ife re n te de la im p u e s ta p o r los m a rca d o re s pequ eñ os .

(iii) Los niveles de producción requeridos: los estudios estructurales pueden requerir niveles de producción de proteínas más altos que se pueden lograr rápidamente con una marcador de fusión más grande, que tiene señales de inicio de la traducción fuertes, mientras que el estudio de interacciones fisiológicas puede exigir niveles de producción más bajos y marcadores pequeños.

(iv) Ubicación del marcador: las parejas de fusión pueden promover diferentes efectos cuando se ubican en el extremo N o el extremo C de la proteína diana. Los marcadores N-terminales a menudo pueden ser ventajosas frente a los marcadores C-terminales porque: (1) proporcionan un entorno fiable para el inicio de la traducción eficiente, en el que las proteínas de fusión aprovechan los sitios de inicio de la traducción eficientes en el marcador; (2) se pueden eliminar dejando pocos restos adicionales o ninguno en la secuencia N-terminal nativa de la proteína diana, puesto que la mayoría de las endoproteasas escinden en o cerca del extremo C de sus sitios de reconocimiento.

Tabla 17. Lista no exhaustiva de secuencias de marcadores de solubilidad de proteínas de la presente descripción.

Escaleras de marcadores de degradación de proteínas

En algunos ejemplos, la presente descripción enseña métodos para mejorar cepas hospedantes genéticamente transformadas proporcionando una o más secuencias de marcadores de degradación de proteínas operativamente unidas con una proteína diana derivada de un gen diana. La adición de una secuencia de marcador de degradación usando los métodos proporcionados en el presente documento puede marcar la proteína diana para la degradación. Marcar la proteína diana para la degradación puede reducir o modular la abundancia de proteína diana dentro de una célula. Al reducir o modular los niveles o la abundancia de proteína diana en la célula, la adición de secuencias de marcadores de degradación a una proteína diana puede afectar finalmente al fenotipo general de las cepas resultantes.

Los marcadores efectivos para usar en las escaleras de marcadores de degradación de proteínas de la presente descripción pueden ser cualquier marcador de degradación conocido en la técnica que sea parte de una ruta de degradación conocida en el organismo hospedante (p. ej., E. coli). Por ejemplo, las rutas de degradación conocidas en E. coli pueden incluir el sistema clpXP/clpAP, el sistema Hf1 B, el sistema ftsH y el sistema Ion. Por consiguiente, los marcadores de degradación para usar en los métodos de intercambio de marcadores de degradación proporcionados en el presente documento pueden incluir cualquier marcador que se sepa que funciona en cualquiera de estos sistemas de degradación de proteínas de E. coli. En algunos casos, los marcadores de degradación se pueden mutar de manera que se confiera la capacidad del marcador mutante resultante para tener su actividad sintonizada. Por ejemplo, la clase de marcadores ssrA se puede mutar de modo que los marcadores de degradación ssrA mutados marcan una proteína marcada para la degradación a través de la ruta de degradación de ClpXP con diferentes grados de eficacia. En un ejemplo, los marcadores ssrA pueden contener mutaciones de un solo aminoácido en los últimos tres restos de la secuencia consenso de AANDENYALAA, de modo que las proteínas diana que comprenden una marcador ssrA mutado C-terminal pueden ser degradadas en diferentes niveles de eficacia por determinadas proteasas intracelulares específicas de la cola. (p. ej., proteasa Tsp) dependiendo de qué aminoácido se ha mutado en los últimos tres restos de la secuencia consenso del marcador ssrA (véase Keiler K C, Sauer R T. "Sequence determinants of C-terminal substrate recognition by the Tsp protease". J Biol Chem. 1996;271:2589-2593. Por consiguiente, usando los métodos de intercambio de marcadores de degradación de la presente descripción, es posible obtener cepas de células hospedantes que tienen proteínas diana de estabilidad variable mediante la construcción de variantes que portan marcadores peptídicos C-terminales con alteraciones menores en la secuencia consenso de Tsp. Los ejemplos de marcadores ssrA mutantes para usar en los métodos del presente documento pueden comprender la SEQ ID NO: 248, 249 o 250 de aminoácidos.

Otro ejemplo de marcadores ssrA mutados para usar en los métodos proporcionados en el presente documento pueden ser los marcadores DAS encontrados en McGinness et al., "Engineering Controllable Protein Degradation" Mol. Cell, Vol 22 (5), junio de 2006. En los marcadores DAS, dos restos en el marcador ssrA se reemplazaban dando como resultado marcadores ssrA mutados que presentan una unión de ClpX debilitada sin disminuir el reconocimiento de SspB. Así pues, las proteínas diana que llevan los marcadores DAS pueden ser degradadas de manera eficiente por ClpXP solo cuando está presente SspB, permitiendo regular la degradación intracelular controlando los niveles de SspB.

En la Tabla 18 se puede encontrar una lista no exhaustiva de secuencias de marcadores de degradación de proteínas de la presente descripción.

Tabla 18. Lista no exhaustiva de secuencias de marcadores de degradación de proteínas de la presente descripción.

Los marcadores de degradación pueden ser parejas de fusión operativamente unidas con la proteína diana en el extremo N o en el extremo C de la proteína diana. Por consiguiente, el gen que codifica la pareja de fusión puede estar presente en cualquiera de los vectores (p. ej., vectores lanzadera) proporcionados en el presente documento de manera que la integración del gen para una proteína diana en el vector une operativamente el gen que codifica la pareja de fusión con el gen diana de manera que la traducción de la construcción genera una proteína de fusión con el marcador de degradación presente en el extremo N o en el extremo C de la proteína diana, según se desee. En un ejemplo, la colocación de los marcadores de degradación (o sus mutantes) en el extremo N o el extremo C de una proteína diana puede depender del marcador usado. Por ejemplo, los marcadores de degradación (o sus mutantes) asociados con el sistema clpXP/clpAP, el sistema Hf1 B, el sistema ftsH o el marcador sul20 del sistema Ion se pueden unir operativamente a una proteína diana en el extremo C, mientras que los marcadores de degradación p20 (o sus mutantes) del sistema de Ion se pueden unir operativamente a una proteína diana en el extremo N o internamente. En un ejemplo, el marcador de degradación es el marcador N-degron (Ntag) para E. coli como se encuentra en Sekar K, Gentile AM, Bostick JW, Tyo KEJ (2016) N-Terminal-Based Targeted, Inducible Protein Degradation in Escherichia coli. PLoS ONE 11 (2): e0149746. Ntag se puede colocar en el extremo N de una proteína diana de interés y puede servir para marcar la proteína diana de interés para la degradación en la célula hospedante de E. coli a través del sistema clpXP/clpAP. En otro ejemplo, el marcador de degradación es el marcador RepA que se puede situar en el extremo N de una proteína diana como se describe en Butz et al., Biochemistry, 2011, 50 (40), págs. 8594-8602. El marcador RepA N-terminal puede servir para marcar la proteína diana de interés para la degradación en la célula hospedante de E. coli a través del sistema clpXP/clpAP.

Grupos de diversidad basados en hipótesis y ascenso de colina

La presente descripción enseña que los métodos de ingeniería genómica de HTP de la presente descripción no requieren conocimiento genético previo para lograr ganancias significativas en el rendimiento de la célula hospedante. De hecho, la presente descripción enseña métodos para generar grupos de diversidad (p. ej., Figura 1) a través de varios enfoques funcionalmente agnósticos, incluyendo la mutagénesis aleatoria y la identificación de la diversidad genética entre las variantes de células hospedantes preexistentes (p. ej., tal como la comparación entre una célula hospedante de tipo natural y una variante industrial).

Sin embargo, en algunos ejemplos, la presente descripción también enseña métodos basados en hipótesis de diseño de mutaciones de diversidad genética que se usarán para la transformación de HTP secuencia abajo. Es decir, en algunos ejemplos, la presente descripción enseña el diseño dirigido de mutaciones seleccionadas. En algunos ejemplos, las mutaciones dirigidas se incorporan en las bibliotecas de ingeniería de la presente descripción (p. ej., intercambio de SNP, intercambio de PRO, intercambio de STOP, intercambio de MARCADORES DE SOLUBILIDAD o intercambio de MARCADORES DE DEGRADACIÓN).

En algunos ejemplos, la presente descripción enseña la creación de mutaciones dirigidas basadas en la anotación de genes, la función génica hipotética (o confirmada) o la ubicación dentro de un genoma. Los grupos de diversidad de la presente descripción pueden incluir mutaciones en genes que se plantea que están implicadas en una ruta metabólica o genética específica asociada en la bibliografía con un rendimiento mayor de una célula hospedante. En otros ejemplos, el grupo de diversidad de la presente descripción también puede incluir mutaciones de genes presentes en un operón asociado con un rendimiento mejorado del hospedante. En otros ejemplos más, el grupo de diversidad de la presente descripción también puede incluir mutaciones de genes basadas en la función predicha algorítmica u otra anotación genética.

En algunos ejemplos, la presente descripción enseña un enfoque basado en "cubiertas" para priorizar los objetivos de mutaciones basadas en hipótesis. La metáfora de las cubiertas para priorizar objetivos se basa en la hipótesis de que solo un puñado de genes primarios son responsables de la mayor parte de un ejemplo particular del rendimiento de una célula hospedante (p. ej., la producción de una sola biomolécula). Estos genes primarios se encuentran en el núcleo de la cubierta, seguidos por los genes de efectos secundarios en la segunda capa, los efectos terciarios en la tercera cubierta, y ... etc. Por ejemplo, en un ejemplo, el núcleo de la cubierta podría comprender genes que codifican enzimas biosintéticas críticas dentro de una ruta metabólica seleccionada (p. ej., producción de ácido cítrico). Los genes ubicados en la segunda cubierta podrían comprender genes que codifican otras enzimas dentro de la ruta biosintética responsable de la desviación del producto o la señalización por retroalimentación. Los genes de tercer nivel bajo esta metáfora ilustrativa probablemente comprenderían genes reguladores responsables de modular la expresión de la ruta biosintética, o de regular el flujo de carbono general dentro de la célula hospedante.

La presente descripción también enseña métodos de "ascenso de colina (Hillclimb)" para optimizar las ganancias de rendimiento de cada mutación identificada. En algunos ejemplos, la presente descripción enseña que las mutaciones aleatorias, naturales o basadas en hipótesis en bibliotecas de diversidad de HTP pueden dar como resultado la identificación de genes asociados con el rendimiento de la célula hospedante. Por ejemplo, los presentes métodos pueden identificar uno o más SNP beneficiosos ubicados en, o cerca de, una secuencia codificante de gen. Este gen podría estar asociado con el rendimiento de la célula hospedante, y su identificación se puede comparar con el descubrimiento de una "colina" de rendimiento en el espacio de mutaciones genéticas combinatorias de un organismo.

En algunos ejemplos, la presente descripción enseña métodos para explorar el espacio combinatorio alrededor del ascenso identificado incorporado en la mutación SNP. Es decir, en algunos ejemplos, la presente descripción enseña la perturbación del gen identificado y las secuencias reguladoras asociadas con el fin de optimizar las ganancias de rendimiento obtenidas de ese nodo genético (es decir, ascenso de colina). Por lo tanto, de acuerdo con los métodos de la presente descripción, un gen podría identificarse primero en una biblioteca de diversidad procedente de mutagénesis aleatoria, pero posteriormente se podría mejorar para usar en el programa de mejora de cepas mediante la mutación dirigida de otra secuencia dentro del mismo gen.

El concepto de ascenso de colina también se puede ampliar más allá de la exploración del espacio combinatorio que rodea a una sola secuencia de gen. En algunos ejemplos, una mutación en un gen específico podría revelar la importancia de una ruta metabólica o genética particular para el rendimiento de la célula hospedante. Por ejemplo, en algunos ejemplos, el descubrimiento de que una mutación en un solo gen de degradación de ARN daba como resultado ganancias significativas en el rendimiento del hospedante se podría usar como base para la mutación de genes de degradación de ARN relacionados como un medio para extraer ganancias de rendimiento adicionales del organismo hospedante. Las personas con experiencia en la técnica reconocerán variantes de los enfoques de las cubiertas y el ascenso de colina descritos anteriormente para el diseño genético dirigido.

A rm a z ó n d e la ru ta b io s in té t ic a

En algunos ejemplos, la presente descripción enseña que la productividad de algunos procedimientos bioindustriales está limitada por la difusión aleatoria de sustratos, compuestos intermedios y enzimas biosintéticas dentro de una célula hospedante. En algunos ejemplos, la presente descripción enseña que la productividad de los cultivos de células hospedantes se puede aumentar mediante la co-localización de enzimas biosintéticas en una ruta. Por lo tanto, en algunos ejemplos, la presente descripción enseña la unión de enzimas biosintéticas a un armazón, tal como un armazón de ADN o de proteínas.

En algunos ejemplos, la colocalización se logra mediante fusiones recombinantes de dominios de unión de ADN a las enzimas biosintéticas en la ruta, que después se unen a una región de armazón de ADN, restringiendo así a las enzimas de la ruta cerca unas de otras en la célula. En otros ejemplos, la colocalización se logra mediante fusiones recombinantes de dominios de unión de proteínas a las enzimas biosintéticas en la ruta, que después se unen a una región de armazón de proteína, restringiendo así las enzimas de la ruta cerca unas de otras en la célula. En algunos ejemplos, la colocalización aumenta la tasa de producción y disminuye la concentración de los compuestos intermedios de la ruta en la célula (véase la Figura 44).

En algunos ejemplos, la presente descripción enseña un método de alta capacidad para transformar el genoma de Escherichia coli, en donde las secuencias de nucleótidos que codifican dominios de unión de ADN o de unión de proteínas se insertan en genes que codifican enzimas en una ruta biosintética, y se introduce un plásmido de armazón de ADN o una proteína armazón en la célula. De acuerdo con un ejemplo de la descripción, se cree que los dominios de unión de ADN o proteína ligados a los genes biosintéticos localizarán las enzimas recombinantes de la ruta juntas en el plásmido o péptido armazón, conduciendo así a una productividad mejorada del producto diana.

En algunos ejemplos, esta descripción resuelve el problema de la productividad limitada por difusión de moléculas pequeñas en células de E. coli con genomas transformados por métodos de alta capacidad. Actualmente, los únicos ejemplos descritos de armazón de ADN para localizar enzimas biosintéticas han sido procedimientos de baja capacidad en los que las enzimas recombinantes de la ruta son codificadas en plásmidos (Lee, et al., "Improved Production of L-Threonine in Escherichia coli by Use of a DNA Scaffold System" App. And Environ. Microbiol. Vol 79(3), pág. 774-782 (2013)). En algunos ejemplos, la descripción actual proporciona un medio para incorporar dominios de unión de ADN en enzimas de la ruta que están codificadas cromosómicamente, de una manera de alta capacidad.

En algunos ejemplos, la presente descripción enseña enzimas biosintéticas quiméricas y ADN y proteínas de armazón. Los diversos ejemplos de esta tecnología se discuten con más detalle a continuación.

Proteínas quiméricas de unión de ADN

En algunos ejemplos, la presente descripción enseña proteínas quiméricas que comprenden enzimas biosintéticas seleccionadas que están ligadas al dominio de unión de ADN. De acuerdo con estos ejemplos, se espera que las enzimas biosintéticas quiméricas sean reclutadas a un armazón de ADN por sus dominios de unión de ADN, concentrando así las diversas actividades biosintéticas en un área de la célula hospedante.

En algunos ejemplos, las enzimas biosintéticas y los dominios de unión de ADN se unen covalentemente. En algunos ejemplos, las enzimas biosintéticas se fusionan traduccionalmente a los dominios de unión de ADN. Por lo tanto, en algunos ejemplos, las enzimas biosintéticas quiméricas se forman acoplando el dominio de unión de ADN al extremo amino, al extremo carboxi o a un sitio interno dentro de la proteína de la ruta biosintética. Los expertos en la técnica reconocerán la necesidad de asegurarse de que la adición del dominio de unión de ADN no reduzca sustancialmente la actividad de la enzima biosintética.

En algunos ejemplos de la presente descripción, la enzima biosintética se acopla a su dominio de unión de ADN por una secuencia de conector polipeptídico corto. Los conectores adecuados incluyen péptidos de entre aproximadamente 6 y aproximadamente 40 aminoácidos de longitud. Las secuencias de conectores preferidas incluyen secuencias de conectores ricas en glicina (p. ej. G3-5), ricas en serina (p. ej. GSG, GSGS (SEQ ID NO. 18), GSGSG (SEQ ID NO. 19), GSNG (SEQ ID NO. 20), o ricas en alanina (p. ej., TSAAA (SEQ ID NO. 21)). Otras secuencias de conectores de ejemplo tienen una combinación de restos de glicina, alanina, prolina y metionina tales como AAAGGM (SEQ ID NO. 22); AAAGGMPPAAAGGM (SEQ ID NO. 23); AAAGGM (SEQ ID NO. 24); y PPAAAGGMM (SEQ ID NO. 25). Los conectores pueden tener prácticamente cualquier secuencia que dé como resultado una proteína de ruta biológica quimérica generalmente flexible.

En algunos ejemplos, los métodos de la presente descripción son compatibles con cualquier dominio de unión de ADN capaz de funcionar en cis con la enzima biosintética. En algunos ejemplos, los dominios de unión de ADN son preferiblemente exógenos al organismo hospedante. En otros ejemplos, la presente descripción enseña la selección de dominios de unión de ADN que son suficientemente selectivos para evitar una unión excesiva fuera del ADN armazón diseñado.

Se conocen en la técnica varios dominios de unión de ADN junto con sus correspondientes sitios de reconocimiento de nucleótidos en el ADN (es decir, sitios de unión de ADN) y son adecuados para su uso en el sistema y los métodos de la presente descripción. Por ejemplo, en un ejemplo de la presente descripción, la parte de unión de ADN de una proteína de la ruta biológica quimérica comprende un dominio de unión de ADN de cremallera de leucina en donde el armazón comprende la secuencia de unión de ADN de cremallera de leucina correspondiente. En otro ejemplo de la presente descripción, la parte de unión de ADN de una proteína de la ruta biológica quimérica comprende un dominio de unión de ADN de hélice-bucle-hélice en donde el armazón comprende la correspondiente secuencia de unión de ADN de hélice-bucle-hélice. En otro ejemplo, la parte de unión de ADN de una proteína de la ruta biológica quimérica co m p re n d e un d o m in io de un ión de A D N de hé lice a la d a en do n d e el a rm a zó n c o m p re n d e la s e cu e n c ia de un ión de A D N de hé lice a la d a co rre sp o n d ie n te . En o tro e jem p lo , la pa rte de un ión de A D N de una p ro te ín a de la ru ta b io ló g ica q u im é ric a co m p re n d e un d o m in io de un ión de Ad N de h é lice -g iro -h é lice a la d a en do n d e el a rm a zón co m p re n d e la c o rre s p o n d ie n te s e cu e n c ia de un ión de A D N de h é lice -g iro -h é lice a lada . En o tro e jem p lo , la pa rte de un ión de A D N de una p ro te ín a de la ru ta b io ló g ica q u im é ric a co m p re n d e u n a un ión de A D N de h é lice -g iro -h é lice en do n d e el a rm a zón co m p re n d e la co rre s p o n d ie n te s e c u e n c ia de un ión de A D N de h é lice -g iro -h é lice . En o tro e jem p lo , la pa rte de un ión de A D N de la p ro te ín a de la ru ta b io ló g ica q u im é ric a co m p re n d e un d o m in io de un ión de A D N de H M G -ca ja en do n d e el a rm a zó n co m p re n d e la co rre s p o n d ie n te s e c u e n c ia de un ión de A D N de H M G -ca ja . En o tro e jem p lo , la pa rte de un ión de A D N de la p ro te ín a de la ru ta b io ló g ica q u im é ric a c o m p re n d e un d o m in io de un ión de A D N de T A L E d ise ñ a d o a m e d id a en do n d e el a rm a zó n c o m p re n d e la co rre s p o n d ie n te s e c u e n c ia de un ión de A D N de T A LE d ise ñ a d a . En o tro e je m p lo de la p re se n te de sc rip c ió n , la pa rte de un ión de A D N de una p ro te ín a de la ru ta b io ló g ica q u im é ric a c o m p re n d e un d o m in io de un ión de A D N de de d o de z in c en do n d e el a rm a zón co m p re n d e la co rre sp o n d ie n te s e c u e n c ia de un ión de A D N de d e d o de z inc.

En la T a b la 1.3 se p ro p o rc io n a n e je m p lo s de se cu e n c ia s de d o m in io de un ión de A D N de d e d o s de z in c y los co rre s p o n d ie n te s s itio s de un ión de A D N . O tro s d o m in io s de un ión de A D N de d e d o s de z in c y sus co rre sp o n d ie n te s se cu e n c ia s de un ión de A D N d ia n a c o n o c id a s en la té c n ic a ta m b ié n son a d e cu a d o s p a ra usa r en la p re se n te d e sc rip c ió n (véase , p o r e jem p lo , G re ism a n H A y P abo C O, "A G en e ra l S tra te g y fo r S e lec tin g H ig h -A ffin ity Z in c F ing e r P ro te ins fo r D ive rse D N A T a rg e t S ite s ," Science 275 :657-661 (1997 ), R e ba r E J y P abo C O, "Z in c F ing e r P hage: A ffin ity S e lec tio n o f F inge rs w ith N e w D N A -B in d in g S p e c ific itie s ," Science 263 :671 -673 (1994 ); M ae d e r e t al., "R ap id "O p e n -S o u rce " E ng in ee ring o f C u s to m ize d Z in c -F in g e r N u c le a se s fo r H igh ly E ffic ie n t G ene M o d ifica tio n ," Mol. Cell. 31 :294-301 (2008), S a n d e r e t al., "S e le c tio n -F re e Z in c -F in g e r-N u c le a s e E ng in ee ring by C o n te x t-D e p e n d e n t A sse m b ly (C o D A )," Nat. Methods 8 :67 -69 (2011), pa te n te de E E .U U . n° 5.5789.538 de R ebar, p a ten te de E E .U U . n° 6.410.248 de G re ism a n , p a ten te de E E .U U . n° 7.605.140 de R ebar, pa te n te de E E .U U . n° 6.140.081 de B arbas, pa te n te de E E .U U . n° 7.067.617 de B arbas, pa te n te de E E .U U . n° 6.205.404 de M ich ae ls , y p u b licac ión de so lic itud de pa ten te de E E .U U . n° 20070178454 de Joung .

T a m b ié n se co n o ce n en la té c n ic a m é tod os de o p tim iza c ió n de las e sp e c ific id a d e s de un ión de A D N de los d o m in io s de d e d o s de z in c y m é to d o s de tra n s fo rm a c ió n de s itio s de un ión de A D N s in té tico s , y se p u ed en usa r en la p re sen te d e sc rip c ió n p a ra g e n e ra r nu eva s pa re jas de un ión de d e d o s de z in c (véa se p. ej., B u lyk e t al., "E xp lo ring the D N A -b ind ing S p e c ific itie s o f Z in c F ing e rs w ith D N A M ic ro a rra ys ," Proc. Nat'l Acad. Sci. U.S.A 98 (13 ): 7158 -63 (2001) y "H u rt e t al., "H ig h ly S p e c ific Z in c F ing e r P ro te ins O b ta ined by D irec ted D om a in S h u fflin g and C e ll-b a se d S e le c tio n ," Proc. Nat'l Acad. Sci. U.S.A. 100(21 ): 12271-6 (2003), pa te n te de E E .U U . n° 5.5789.538 de R ebar, p a ten te de E E .U U . n° 6.410.248 de G re ism a n , p a ten te de E E .U U . n° 7.605.140 de R ebar, pa te n te de E E .U U . n° 6.140.081 de B arbas, p a ten te de E E .U U . n° 7.067.617 de B arbas, pa te n te de E E .U U . n° 6.205.404 de M ichae ls , y p u b licac ión de so lic itud de p a ten te de E E .U U . n° 20070178454 de Joung .

T a b la 1.3 - L is ta no lim ita n te de d o m in io s de un ión de A D N

Secuencia de armazón de ácido nucleico

En a lg u n o s e jem p los , la p re se n te d e sc rip c ió n e n se ñ a un a rm a zón de A D N q u e co m p re n d e un a o m ás de las s e cu e n c ia s de un ión de A D N c o rre s p o n d ie n te s a los d o m in io s de un ión de A D N co n te n id o s d e n tro de las en z im a s b io s in té tica s qu im é rica s . En a lg u n o s e jem p los , el a rm a zón de A D N es un p lá sm id o e x tra c ro m o só m ico u o tro vec to r. En o tros e jem p los , el a rm a zón de A D N e s tá co d ifica d o d e n tro de l g e n o m a de un a c é lu la ho spedan te .

Los ve c to re s de á c ido nuc le ico a d e cu a d o s in c luyen , s in lim itac ión , p lásm id os , v e c to re s de ba cu lov iru s , v e c to re s de b a c te rió fa g o s , fa g é m id o s , cósm ido s , fósm id os , c ro m o so m a s a rtif ic ia le s b a c te ria n o s , v e c to re s v ira le s (po r e jem p lo , v e c to re s v ira le s b a sad os en v iru s va cc in ia , po lio v iru s , a d en ov iru s , v iru s ad e n o a so c ia d o , S V 40, v iru s de l he rpes s im p le y similares), cromosomas artificiales, plásmidos de levadura, cromosomas artificiales de levadura y otros vectores. En algunos ejemplos de la presente descripción, se prefieren los vectores adecuados para usar en células hospedantes procariotas. Por consiguiente, los vectores de ejemplo para usar en procariotas tales como Escherichia coli incluyen, pero no se limitan a pACYC184, pBeloBacll, pBR332, pBAD33, pBBR1MCS y sus derivados, pSC101, SuperCos (cosmid), pWE15 (cosmid), pTrc99A, pBAD24, vectores que contiene un origen de replicación ColE1 y sus derivados, pUC, pBluescript, pGEM, Ori_Plsmd27 (SEQ ID NO. 213), cadena principal del vector 1 (SEQ ID n O. 214), cadena principal del vector 2 (SEQ ID NO. 215), cadena principal del vector 3 (s Eq ID NO. 216), cadena principal del vector 4 (SEQ ID NO. 217) y vectores pTZ.

En algunos ejemplos, la presente descripción enseña que una subunidad de armazón de ácido nucleico puede comprender 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25 o más sitios de unión de ADN diferentes acoplados entre sí para facilitar la unión e inmovilización de 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25 o más proteínas de la ruta biosintética diferentes. En algunos ejemplos, la presente descripción enseña que los armazones de ADN tienen un único sitio de unión de ADN para cada proteína biosintética quimérica correspondiente.

En otros ejemplos, el armazón de ácido nucleico puede comprender dos o más copias del mismo sitio de unión de ADN. Esta arquitectura permite optimizar la estequiometría de la proteína biológica que se va a conseguir. De acuerdo con este ejemplo de la presente descripción, los mismos sitios de unión de ADN se pueden acoplar entre sí para crear centros enzimáticos para una reacción química particular. Por lo tanto, en algunos ejemplos, el armazón de ADN comprende grupos de múltiples sitios de unión de ADN, correspondiendo cada grupo a un gen/enzima biosintética quimérica específica.

En algunos ejemplos de la presente descripción, el método de ensamblar una ruta biológica sintética implica inmovilizar al menos un primer gen biosintético quimérico (p. ej., una enzima) y una segunda enzima biosintética quimérica sobre el armazón de ácido nucleico. La primera enzima biosintética quimérica produce un primer producto que es un sustrato para la segunda proteína quimérica de la ruta biológica. La segunda enzima biosintética quimérica se inmoviliza sobre la construcción de armazón de manera que se coloque adyacente o muy cerca de la primera enzima biosintética quimérica. De esta forma, la concentración eficaz del primer producto es alta y la segunda enzima biosintética quimérica puede actuar eficazmente sobre el primer producto. Como un ejemplo, un armazón de ácido nucleico sintético ha inmovilizado sobre el mismo, en el orden de 3 '^ 5' o 5 '^ 3' de la construcción de armazón a) la primera enzima biosintética quimérica, y b) la segunda enzima biosintética quimérica para formar una "subunidad de armazón". La subunidad de armazón se puede repetir dos o más veces dentro del armazón de ácido nucleico sintético.

De acuerdo con este y todos los ejemplos de la presente descripción, se pueden inmovilizar dos o más copias (p. ej., dos, tres, cuatro, cinco, seis, siete, ocho, nueve, diez o más moléculas) de cada enzima biosintética quimérica sobre una subunidad de armazón. Por ejemplo, en algunos ejemplos, una subunidad de armazón ha inmovilizado sobre la misma, a) una molécula (copia) de la primera enzima biosintética quimérica y b) una molécula de la segunda enzima biosintética quimérica. En otros ejemplos, una subunidad de armazón ha inmovilizado sobre la misma, a) una molécula de la primera enzima biosintética quimérica y b) dos o más moléculas (p. ej., dos, tres, cuatro, cinco, seis o más moléculas) de la segunda enzima biosintética quimérica. Por consiguiente, se puede variar la relación de cualquier proteína dada en una ruta biológica con respecto a cualquier otra proteína en la ruta. Solo a modo de ejemplo, la relación de una primera proteína de la ruta biológica quimérica a una segunda proteína de la ruta biológica quimérica puede variar de aproximadamente 0,1:10 hasta aproximadamente 10:0,1, por ejemplo, de aproximadamente 0,1:10 a aproximadamente 0,5:10, de aproximadamente 0,5:10 a aproximadamente 1,0:10, de aproximadamente 1,0:10 a aproximadamente 2:10, de aproximadamente 2:10 a aproximadamente 5:10, de aproximadamente 5:10 a aproximadamente 7:10, de aproximadamente 7:10 a aproximadamente 10:10, de aproximadamente 10:7 a aproximadamente 10:5, de aproximadamente 10:5 a aproximadamente 10:2, de aproximadamente 10:2 a aproximadamente 10:1, de aproximadamente 10:1 a aproximadamente 10:0,5, o de aproximadamente 10:0,5 a aproximadamente 10:1.

En algunos ejemplos, se inmovilizan al menos tres enzimas biosintéticas quiméricas sobre el armazón de ácido nucleico sintético para comprender una subunidad de armazón. De acuerdo con este ejemplo de la presente descripción, la primera enzima biosintética quimérica produce un primer producto que es un sustrato para la segunda enzima biosintética quimérica, y la segunda proteína quimérica de la ruta biológica produce un segundo producto que es un sustrato para la tercera enzima biosintética quimérica. En estos ejemplos, una subunidad de armazón ha inmovilizado sobre la misma, en el orden de 3 '^ 5' o 5 '^ 3' del armazón a) la primera enzima biosintética quimérica, b) la segunda enzima biosintética quimérica, y c) la tercera enzima biosintética enzima. La unidad de armazón se puede repetir dos o más veces en la construcción de ácido nucleico como se ha descrito antes.

En otro ejemplo de la presente descripción, se inmovilizan al menos cuatro enzimas biosintéticas quiméricas sobre el armazón de ácido nucleico. En otro ejemplo de la presente descripción, se inmovilizan al menos cinco enzimas biosintéticas quiméricas sobre el armazón de ácido nucleico. Será evidente a partir de estos ejemplos que se puede inmovilizar una sexta, séptima, octava, novena, décima, etc., enzima biosintética quimérica sobre el armazón de ácido nucleico, que las proteínas quiméricas están inmovilizadas espacialmente en el orden en que funcionan en un ruta, y que cada proteína se puede inmovilizar sobre el armazón en una dos, tres, cuatro, cinco, seis, siete, ocho, nueve, diez o más copias (o moléculas).

En a lg u n o s e jem p los , la p re se n te d e sc rip c ió n e n s e ñ a e l e sp a c ia m ie n to de c a d a s itio de un ión de A D N d e n tro de l ác ido nu c le ico a rm a zón . De a cu e rd o con es te e je m p lo de la p re se n te d e sc rip c ió n , los do s o m ás s itio s de un ión de A D N es tá n u b ica d o s ad ya ce n te s e n tre s í d e n tro de u n a su b un ida d de a rm a zón , a co p la d o s e n tre s í en tán dem o sep a ra dos p o r al m en os un n u c le ó tido e sp a c ia d o r. Los do s o m ás s itio s de un ión al A D N p u ed en e s ta r se p a ra d o s e n tre s í p o r 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 35, 40, 45, 50, o m ás n u c le ó tid o s e sp a c ia d o re s . El e sp a c io e n tre d ife re n te s s itio s de un ión de A D N pued e v a r ia r d e n tro de u n a un id ad de a rm a zón (es dec ir, e l esp ac io e n tre un p r im e r y un se g u n d o s itio de un ión de A D N pued e d ife r ir de l e sp a c io e n tre el se g u n d o y te rc e r s itio de un ión de A D N ). El e sp a c ia m ie n to óp tim o e n tre d ife re n te s s itio s de un ión de A D N d e n tro de u n a su b un ida d de a rm azón v a ria rá d e p e n d ie n d o de los req u is itos de la e n z im a b io s in té tica y la ru ta b io ló g ica q u e se e s tá reco ns truye nd o , y de be o p tim iza rse pa ra lo g ra r una p ro d u c tiv id a d ó p tim a de la ru ta b io lóg ica .

A rm a z ó n p e p t íd ic o

En a lg u n o s e jem p los , los m é tod os de fo rm a c ió n de a rm a zón de la p re se n te d e sc rip c ió n ta m b ié n se p u ed en a p lic a r a a rm a zo n e s p ro te ico s /e s tru c tu ra le s d e n tro de la cé lu la . En a lg u n o s e jem p los , la p re se n te d e sc rip c ió n e n se ñ a la a p lica c ió n de m é tod os d e sc rito s en la so lic itud de pa te n te p u b lica d a de Ee .UU. n° 20110008829.

P ro te ín a s q u im é r ic a s q u e s e u n e n a p ro te ín a s

En a lg u n o s e jem p los , la p re se n te d e sc rip c ió n e n s e ñ a p ro te ín a s q u im é rica s q u e co m p re n d e n en z im a s b io s in té tica s s e le cc io n a d a s que es tá n ligad as a uno o m ás d o m in io s de un ión de p ro te ínas ca p a ce s de un irse a un p é p tid o de re c lu ta m ie n to . De acu e rd o con e s to s e jem p los , se e sp e ra que las e n z im a s b io s in té tica s q u im é rica s se rec lu ten en un pé p tid o a rm a zón in te ra cc io n a n d o con p é p tid o s de re c lu ta m ie n to co n te n id o s d e n tro de l p é p tid o a rm azón .

En a lg u n o s e je m p lo s , las e n z im a s b io s in té tica s y los d o m in io s de un ión de p ro te ín a s están un id os co va le n te m e n te . En a lgu nos e jem p los , las e n z im a s b io s in té tica s se fu s io n a n tra d u c c io n a lm e n te a los d o m in io s de un ión de p ro te ínas . P o r lo ta n to , en a lg u n o s e jem p los , las e n z im a s b io s in té tica s q u im é rica s se fo rm a n p o r a c o p la m ie n to de l d o m in io de un ió n de p ro te ín a s al e x tre m o am ino , al ex tre m o ca rb ox i o a un s itio in te rno d e n tro de la p ro te ín a de la ru ta b ios in té tica . Los e xp e rto s en la té c n ic a reco n o ce rá n la neces idad de a se g u ra r que la ad ic ió n de l d o m in io de un ión de p ro te ín a s no red uce su s ta n c ia lm e n te la ac tiv ida d de la e n z im a b ios in té tica .

En a lg u n o s e je m p lo s de la p re sen te de sc rip c ió n , la e n z im a b io s in té tica se a co p la a su d o m in io de un ión de p ro te ínas p o r un a se cu e n c ia de c o n e c to r po lip e p tíd ico co rto co m o se d e sc rib e en pa rtes a n te rio re s de e s ta de sc rip c ió n .

S e co n o ce n en la té c n ic a va r io s d o m in io s de un ión de p ro te ínas (P B D ) ju n to con sus co rre sp o n d ie n te s s e cu e n c ia s de p é p tid o s de re c lu ta m ie n to y son a d e cu a d o s pa ra u sa r en el s is te m a y los m é tod os de la p re se n te de sc rip c ió n . A co n tin u a c ió n se p re se n ta u n a d iscu s ió n ilu s tra tiva no lim itan te de los P BD adecu ad os .

S H 3

Los PBD a d e cu a d o s in c luye n d o m in io s S H 3. Los d o m in io s S H 3 in c luye n d o m in io s S H 3 de C lase I; d o m in io s S H 3 de c la se II; y d o m in io s S H 3 no co n ve n c io n a le s . Las se cu e n c ia s de a m in o á c id o s de los d o m in io s S H 3 se co n o ce n en la té cn ica . V é a n se , p o r e jem p lo , los a m in o á c id o s 136-189 de la se cu e n c ia de a m in o á c id o s p ro p o rc io n a d a en G e n B ank con el n° de acce so N P .sub .--058431 (p ro te ín a C rk de H om o sap ie ns ); a m in o á c id o s 136-189 de la s e c u e n c ia de a m in o á c id o s p ro p o rc io n a d a en G e n B a n k con e l n° de acce so A A H 31149 (p ro te ín a C rk de M us m uscu lu s ); y a m in o á c id o s 4 -77 de la s e c u e n c ia de a m in o á c id o s p ro p o rc io n a d a en G e n B a n k con el n° de acce so P 27986 (subun idad p85 de H om o sa p ie n s de fo s fa tid ilin o s ito l 3 -q u inasa ).

En a lgu nos e jem p los , un d o m in io S H 3 es un d o m in io S H 3 de C la se I y co m p re n d e u n a se cu e n c ia de a m in o á c id o s que t ie n e al m en os a p ro x im a d a m e n te 75% , 76% , 77% , 78% , 79% , 80% , 81% , 82% , 83% , 84% , 85% , 86% , 87% , 88% , 89% , 90% , 91% , 92% , 93% , 94% , 95% , 96% , 97% , 98% , 99% , o 100% de s im ilitud de s e c u e n c ia de a m ino ác id os re sp e c to a la se cu e n c ia de a m in o á c id o s : E G Y Q Y R A L Y D Y K K E R E E D ID L H LG D IL T V N K G S L V A L G F S D G Q E A R P E E IG W LN G Y N E T T G E R G D F P G T Y V E Y I (S E Q ID NO. 44 ), in c luye nd o to d o s los in te rva los y su b in te rva lo s in te rm ed ios .

En a lg u n o s e jem p los , un d o m in io S H 3 es un d o m in io S H 3 de C lase II y co m p re n d e una se cu e n c ia de a m in o á c id o s q u e t ie n e al m en os a p ro x im a d a m e n te 75% , 76% , 77% , 78% , 79% , 80% , 81% , 82% , 83% , 84% , 85% , 86% , 87% , 88% , 89% , 90% , 91% , 92% , 93% , 94% , 95% , 96% , 97% , 98% , 99% , o 100% de s im ilitud de s e c u e n c ia de a m ino ác id os re sp e c to a la s e cu e n c ia de am ino ác id os : Y V R A L F D F N G N D E E D L P F K K G D IL R IR D K P E E Q W W N A E D S E G K R G M IP V P Y V E K (S E Q ID NO. 45). C o m o un e je m p lo no lim itan te , un d o m in io S H 3 c o m p re n d e la se cu e n c ia de am ino ác id os : M A E Y V R A L F D F N G N D E E D L P F K K G D IL R IR D K P E E Q W W N A E D S E G K R G M IP V P Y V E K Y (S E Q ID NO. 46 ), in c luye nd o to d o s los in te rva los y s u b in te rva lo s in te rm ed ios .

Un d o m in io S H 3 se une a pé p tid o s ricos en p ro lin a que fo rm a n u n a hé lice de t ip o II de p o lip ro lin a levóg ira , dond e d ich o s pé p tid o s co m p re n d e n la s e cu e n c ia co n se n so m ín im a P ro -X -X -P ro . En a lg u n o s e je m p lo s , ca d a Pro es tá p re ce d id a p o r un resto a lifá tico . En a lg u n o s e jem p los , un p é p tid o de re c lu ta m ie n to es un ligan do de l d o m in io S H 3. Un d o m in io S H 3 une pé p tid o s ricos en p ro lin a q u e fo rm a n un a hé lice de tipo II de p o lip ro lin a levóg ira , d o n d e d icho s péptidos comprenden la secuencia consenso mínima Pro-X-X-Pro. En algunos ejemplos, cada Pro está precedida por un resto alifático. Por ejemplo, los ejemplos no limitantes de secuencias de aminoácidos de péptidos que comprenden ligandos del dominio SH3 incluyen: RPLPVAP (SEQ ID NO. 47; unido por un dominio SH3 de Clase I); PPPALPPKRRRPG (SEQ ID NO. 48); y PPPALPPKKR (SEQ ID NO. 49; unido por un dominio SH3 de Clase II).

PDZ

Los PBD adecuados incluyen dominios PDZ. Las secuencias de aminoácidos de dominios PDZ son conocidas en la técnica. Véase, por ejemplo, los aminoácidos 108-191, aminoácidos 201 -287, y aminoácidos 354-434 de la secuencia de aminoácidos proporcionada en GenBank con el n° de acceso AAC52113 (proteína de densidad post-sináptica 95 de Homo sapiens); y los aminoácidos 80-161 de la secuencia de aminoácidos proporcionada en GenBank con el n° de acceso NP_033254 (sintrofina de Mus musculus).

En algunos ejemplos, un dominio PDZ adecuado comprende una secuencia de aminoácidos que tiene al menos aproximadamente 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, o 100% de similitud de secuencia de aminoácidos respecto a la secuencia de aminoácidos: EITLERGNSGLGFSIAGGTDNPHIGDDPSIFIT KIIPGGAAAQDGRLRVNDSILFVNEVDVREVTHSAAVEALKEAGSIVRLYV (SEQ ID NO. 50), incluyendo todos los intervalos y subintervalos intermedios.

En algunos ejemplos, un dominio PDZ adecuado comprende una secuencia de aminoácidos que tiene al menos aproximadamente 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, o 100% de similitud de secuencia de aminoácidos respecto a la secuencia de aminoácidos: VMEIKLIKGPKGLGFSIAGGVGNQHIPGDN SIYVTKIIEGGAAHKDGRLQ IGDKILAVNSVGLEDVMHEDAVAALKNTYDVVYLKVA (SEQ ID NO.51), incluyendo todos los intervalos y subintervalos intermedios.

En algunos ejemplos, un dominio PDZ adecuado comprende una secuencia de aminoácidos que tiene al menos aproximadamente 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, o 100% de similitud de secuencia de aminoácidos respecto a la secuencia de aminoácidos: RIVIHRGSTGLGFNIVGGEDGEGIFISFILAGGPA DLSGELRKGDQILSVNGVDLRNASHEQAAIALKNAGQTVTIIAQ (SEQ ID NO. 52), incluyendo todos los intervalos y subintervalos intermedios.

En algunos ejemplos, un dominio PDZ adecuado comprende una secuencia de aminoácidos que tiene al menos aproximadamente 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, o 100% de similitud de secuencia de aminoácidos respecto a la secuencia de aminoácidos: RRVTVRKADAGGLGISIKGGRENKMPILISK IFKGLAADQTEALFVGDAILSVNGEDLSSATHDEAVQALKKTGKEWLEVK (SEQ ID NO. 53), incluyendo todos los intervalos y subintervalos intermedios. Por ejemplo, un dominio PDZ puede comprender la secuencia de aminoácidos MLQRRRVTVRKADAGGLGISIKGGRENKMPILISKIFKGLAADQTEALFVGDAILSVNGE DLSS ATHDEAVQALKKTGKEVVLEVKYMKEVSPYFKGS (SEQ ID NO. 54).

En algunos ejemplos, un péptido de reclutamiento es un ligando del dominio PDZ. Un dominio PDZ se une a los restos 4-5 C-terminales de las proteínas diana. En algunos ejemplos, un ligando del dominio PDZ consenso comprende un resto hidrófobo, p. ej., Val o Ile, en el extremo carboxi. Por ejemplo, ejemplos no limitantes de secuencias de aminoácidos de péptidos que comprenden ligandos del dominio PDZ incluyen: IESDV (SEQ ID NO. 55); VKESLV (SEQ ID NO. 56); GVKESLV (SEQ ID NO. 57); GVKQSLL (SEQ ID NO. 58); GVKESGA (SEQ ID NO. 59); YVKESLV (SEQ ID NO. 60); y VETDV (SEQ ID NO. 61).

G B D

Los PBD adecuados incluyen dominios de unión de GTPasa (GBD), también denominados en la técnica motivos CRIB (Cdc42/Rac-unión interactiva) motifs. En algunos ejemplos, un GBD se une a una GTPasa pequeña tipo Cdc42p y/o tipo Rho. Las secuencias de aminoácidos of GBD son conocidas en la técnica. Véase, p. ej., los aminoácidos 198-240 de la secuencia de aminoácidos proporcionada en GenBank con el n° de acceso NP.sub.--001103835 (proteína similar al síndrome de Wiskott-Aldrich de Rattus norvegicus (WASP)); los aminoácidos 69-112 de la secuencia de aminoácidos proporcionada en GenBank con el n° de acceso Q13177 (PAK-2 de Homo sapiens); y los aminoácidos 70-105 de la secuencia de aminoácidos proporcionada en GenBank con el n° de acceso P35465 (PAK-1 de Rattus norvegicus). Véanse también las secuencias de aminoácidos PAK (75-111), ACK (504-549) y WASP (232-274), presentadas en la FIG. 3A de Garrard et al. (2003) EMBO J. 22:1125. Véanse también las secuencias de aminoácidos ACK (505-531), WASP (236-258), PAK1 (70-94), PAK2 (71-91), PAK-4 (6-30), presentadas en la FIG. 1A de Bishop y Hall (2000) Biochem. J. 348:241.

En algunos ejemplos, un GBD adecuado comprende una secuencia de aminoácidos que tiene al menos aproximadamente 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, o 100% de similitud de secuencia de aminoácidos respecto a la se cu e n c ia de a m in o á c id o s : A D I G T P S N F Q H IG H V G W D P N T G F D L N N L D P E L K N L F D M C G IS E (S E Q ID NO. 62), y to d o s los in te rva los y su b in te rva lo s in te rm ed ios .

En a lgu nos e jem p los , un G B D a d e cu a d o co m p re n d e una s e c u e n c ia de a m in o á c id o s qu e tie n e al m enos a p ro x im a d a m e n te 75% , 76% , 77% , 78% , 79% , 80% , 81% , 82% , 83% , 84% , 85% , 86% , 87% , 88% , 89% , 90% , 91% , 92% , 93% , 94% , 95% , 96% , 97% , 98% , 99% , o 100% de s im ilitud de se cu e n c ia de a m in o á c id o s resp ec to a la se cu e n c ia de a m in o á c id o s : K E R P E IS L P S D F E H T 1H V G F D A V T G E F T G M P E Q W A R (S E Q ID NO. 63), y to d o s los in te rva los y s u b in te rva lo s in te rm ed ios .

En a lg u n o s e jem p los , un G B D a d e cu a d o co m p re n d e una s e c u e n c ia de a m in o á c id o s qu e tie n e al m enos a p ro x im a d a m e n te 75% , 76% , 77% , 78% , 79% , 80% , 81% , 82% , 83% , 84% , 85% , 86% , 87% , 88% , 89% , 90% , 91% , 92% , 93% , 94% , 95% , 96% , 97% , 98% , 99% , o 100% de s im ilitud de se cu e n c ia de a m in o á c id o s resp ec to a la se cu e n c ia de a m in o á c id o s : M T K A D IG T P S N F Q H IG H V G W D P N T G F D L N N L D P E L K N L F D M C G IS E A Q L K D R E T S K V IY D F IE K T G G V E A V K N E L R R Q A P (S E Q ID NO. 64), y to d o s los in te rva los y s u b in te rva lo s in te rm ed ios .

En a lg u n o s e jem p los , un p é p tid o de re c lu ta m ie n to es un ligan do de G B D . Un ligan do de e je m p lo no lim itan te de G B D co m p re n d e la s e cu e n c ia de a m in o á c id o s L V G A L M H V M Q K R S R A 1H S S D E G E D Q A G D E D E D (S E Q ID NO. 65).

P é p t id o s d e la c re m a lle ra d e le u c in a

Los P BD ad e cu a d o s inc luyen p é p tid o s de la c re m a lle ra de leuc ina . En a lgu nos e jem p los , los pé p tid o s de la c re m a lle ra de le uc in a son pé p tid o s q u e in te racc iona n po r un d o m in io s u p e re n ro lla d o . Las s e cu e n c ia s de a m in o á c id o s de los d o m in io s de la c re m a lle ra de le uc in a son co n o c id o s en la té cn ica . Los pé p tid o s de la c re m a lle ra de le uc in a inc luyen un p é p tid o de c re m a lle ra de le uc in a E E 12R R 345 L ; un p é p tid o de c re m a lle ra de le uc in a R R 12E E 354 L ; y s im ila res . Un e je m p lo de u n a s e cu e n c ia de a m in o á c id o s de un pé p tid o de c re m a lle ra de le uc in a es u n a c re m a lle ra de le uc in a E E 12 R R 345 L de la s e cu e n c ia de a m in o á c id o s : L E IE A A F L E R E N T A L E T R V A E L R Q R V Q R L R N R V S Q Y R T R Y G P L G G G K (S E Q ID NO. 66).

En a lg u n o s e je m p lo s , un p é p tid o de c re m a lle ra de le uc in a co m p re n d e una s e cu e n c ia de a m in o á c id o s que t ie n e al m en os a p ro x im a d a m e n te 75% , 76% , 77% , 78% , 79% , 80% , 81% , 82% , 83% , 84% , 85% , 86% , 87% , 88% , 89% , 90% , 91% , 92% , 93% , 94% , 95% , 96% , 97% , 98% , 99% , o 100% de s im ilitud de s e cu e n c ia de a m in o á c id o s resp ec to a la se cu e n c ia de a m in o á c id o s : LE IE A A F L E R E N T A L E T R V A E L R Q R V Q R L R N R V S Q Y R T R Y G P L G G G K (S E Q ID NO . 67), y to d o s los in te rva los y s u b in te rva lo s in te rm ed ios . D icho p é p tid o de c re m a lle ra de le uc in a pu ed e s e rv ir co m o un PBD o co m o un p é p tid o de rec lu tam ie n to .

O tro e je m p lo no lim itan te de u n a se cu e n c ia de a m in o á c id o s de un p é p tid o de c re m a lle ra de le uc in a es un p é p tid o de c re m a lle ra de le uc in a R R 12 E E 345 L de la s e cu e n c ia de a m in o á c id o s : L E IR A A F L R Q R N T A L R T E V A E L E Q E V Q R L E N E V S Q Y E T R Y G P L G G G K (S E Q ID NO . 68).

Las d e sc rip c io n e s a n te rio re s han d e sc rito la p ro d u cc ió n de p ro te ín a s b io s in té tica s q u im é rica s que co m p re n d e n un d o m in io de un ión de p ro te ín a s d ise ñ a d o pa ra d ir ig irse (un irse a) uno o m ás pé p tid o s de re c lu ta m ie n to ub ica d o s en un p o lip é p tid o a rm a zón . Los e xp e rto s en la té cn ica reco n o ce rá n o tra s v a ria c io n e s co m p a tib le s de e s ta d isp o s ic ió n . P or e je m p lo , en a lg u n o s e jem p los , la p re se n te d e sc rip c ió n e n se ñ a la p ro d u cc ió n de p ro te ín a s b io s in té tica s q u im é rica s que c o m p re n d e n pé p tid o s de re c lu ta m ie n to d ir ig id o s po r d o m in io s de un ión de p ro te ínas u b ica d o s en un p o lip ép tido a rm a zón . En o tros e jem p los , e l d o m in io de un ión de p ro te ín a s y los pé p tid o s de re c lu ta m ie n to se in co rp o ran ca d a uno en dos o m ás p ro te ín a s b io s in té tica s qu im é rica s , de m an e ra q u e las p ro te ín a s q u im é rica s fo rm a n co m p le jo s (p. ej., d ím e ro s o h e te ro d ím e ro s ). Un e je m p lo ilu s tra tivo de fo rm a c ió n de c o m p le jo s es el uso de d o m in io s de c re m a lle ra de le uc in a co m p a tib le s co lo ca d o s en p ro te ín a s b io s in té tica s q u im é rica s , de m odo q u e dos o m ás p ro te ín a s b ios in té ticas q u im é rica s pu ed en fo rm a r un c o m p le jo a tra vé s de los d o m in io s de c re m a lle ra de leuc ina .

P o l ip é p t id o a rm a z ó n

En a lg u n o s e je m p lo s , la p re se n te d e sc rip c ió n e n se ñ a un p o lip é p tid o a rm a zón qu e o rg a n iza las e n z im a s de la ru ta b io s in té tica en un c o m p le jo fu n c io n a l. En a lgu nos e jem p los , los p o lip é p tid o s a rm a zón de la p re se n te d e sc rip c ió n co m p re n d e n dos o m ás pé p tid o s de re c lu tam ie n to . Es dec ir, en a lg u n o s e jem p los , los p o lip é p tid o s a rm a zón de la p re se n te d e sc rip c ió n son ca p a ce s de re c lu ta r do s p ro te ín a s b io s in té tica s q u im é rica s m ás.

En a lgu nos e je m p lo s , e l p o lip é p tid o a rm a zón de la p re se n te d e sc rip c ió n es un p é p tid o e xó g e n o in tro d u c id o en una cé lu la h o sp e d a n te (p. e j., p o r la tra n s fo rm a c ió n de u n a s e cu e n c ia de A D N q u e c o d ifica el po lip é p tid o a rm a zón o la in tro du cc ión d ire c ta de l pé p tid o ). En o tro s e jem p los , e l p o lip é p tid o a rm a zón es u n a e s tru c tu ra na tu ra l d e n tro de la cé lu la ho spe da n te . Es dec ir, en a lg u n o s e jem p los , e l p o lip é p tid o a rm a zón es un o rg á n u lo o m e m b ra n a (p. e j., e l re tícu lo e n d o p lá s m ic o o el a p a ra to de G o lg i). P or lo tan to , en a lg u n o s e jem p los , e l p o lip é p tid o a rm a zón de la p re sen te d e sc rip c ió n in c luye e s tru c tu ra s de cé lu la s h o spe da n tes co m p u e s ta s po r m ás de u n a se cu e n c ia de pép tidos .

En a lgu nos e jem p los , las s e cu e n c ia s de p é p tid o s de re c lu ta m ie n to de n tro de l p o lip é p tid o a rm a zón se o rg a n iza n pa ra a s í o p tim iz a r las ru tas b io s in té tica s d ia n a cuya s e n z im a s se es tá n rec lu tan do . En a lg u n o s e jem p los , la o rg a n iza c ió n de l p o lip é p tid o a rm a zón es s im ila r a la d e sc rita an tes p a ra a rm a zo n e s de A D N . P or lo tan to , en a lgu nos e jem p los , los polipéptidos armazón contienen agrupaciones de péptidos de reclutamiento con el fin de regular el orden y las proporciones de diversas proteínas biosintéticas quiméricas.

Cultivo celular y fermentación

Las células de la presente descripción se pueden cultivar en medios nutritivos convencionales modificados según sea adecuado para cualquier reacción o selección biosintética deseada. En algunos ejemplos, la presente descripción enseña el cultivo en medios inductores para activar promotores. En algunos ejemplos, la presente descripción enseña medios con agentes de selección, incluyendo agentes de selección de transformantes (p. ej., antibióticos), o selección de organismos adecuados para crecer en condiciones de inhibición (p. ej., condiciones de alto contenido de etanol). En algunos ejemplos, la presente descripción enseña el cultivo de cultivos celulares en medios optimizados para el crecimiento celular. En otros ejemplos, la presente descripción enseña el cultivo de cultivos celulares en medios optimizados para el rendimiento del producto. En algunos ejemplos, la presente descripción enseña cultivos en crecimiento en medios capaces de inducir el crecimiento celular y también contiene los precursores necesarios para la producción del producto final (p. ej., altos niveles de azúcares para la producción de etanol).

Las condiciones de cultivo, tales como temperatura, pH y similares, son las adecuadas para usar con la célula hospedante seleccionada para la expresión, y resultarán evidentes para los expertos en la técnica. Como se ha indicado, se encuentran disponibles muchas referencias para el cultivo y producción de muchas células, incluyendo células de origen bacteriano, vegetal, animal (incluyendo mamífero) y arquebacteriano. Véase, p. ej., Sambrook, Ausubel (véase todo antes), así como Berger, Guide to Molecular Cloning Techniques, Methods in Enzymology volumen 152 Academic Press, Inc., San Diego, CA; y Freshney (1994) Culture of Animal Cells, a Manual of Basic Technique, tercera edición, Wiley-Liss, New York y las referencias citadas en el mismo; Doyle y Griffiths (1997) Mammalian Cell Culture: Essential Techniques John Wiley and Sons, NY; Humason (1979) Animal Tissue Techniques, cuarta edición W.H. Freeman y Company; y Ricciardelle et al., (1989) In Vitro Cell Dev. Biol. 25:1016-1024. Para el cultivo y regeneración de células vegetales, Payne et al. (1992) Plant Cell and Tissue Culture in Liquid Systems John Wiley & Sons, Inc. New York, N.Y.; Gamborg y Phillips (eds) (1995) Plant Cell, Tissue and Organ Culture; Fundamental Methods Springer Lab Manual, Springer-Verlag (Berlin Heidelberg N.Y.); Jones, ed. (1984) Plant Gene Transfer and Expression Protocols, Humana Press, Totowa, N.J. y Plant Molecular Biology (1993) R. R. D. Croy, Ed. Bios Scientific Publishers, Oxford, U.K. ISBN 0121983706. Los medios de cultivo celular se exponen en general en Atlas and Parks (eds.) The Handbook of Microbiological Media (1993) CRC Press, Boca Raton, Fla.. Se encuentra información adicional para el cultivo celular en la bibliografía disponible en el mercado tal como el Life Science Research Cell Culture Catalogue de Sigma-Aldrich, Inc (St Louis, Mo.) ("Sigma-LSRCCC") y, por ejemplo, The Plant Culture Catalogue and supplement también de Sigma-Aldrich, Inc (St Louis, Mo.) ("Sigma-PCCS").

El medio de cultivo para usar debe usarse de una forma adecuada que cumpla los requisitos de las respectivas cepas. Se presentan descripciones de medios de cultivo de diversos microorganismos en el "Manual of Methods for General Bacteriology" de la American Society for Bacteriology (Washington D.C., EE.UU., 1981).

La presente descripción además proporciona un procedimiento para la preparación fermentativa de un producto de interés, que comprende las etapas de: a) cultivar un microorganismo según la presente descripción en un medio adecuado, que da como resultado un caldo de fermentación; y b) concentrar el producto de interés en el caldo de fermentación de a) y/o en las células del microorganismo.

En algunos ejemplos, la presente descripción enseña que los microorganismos producidos se pueden cultivar de forma continua, como se describe, por ejemplo, en el documento WO 05/021772, o de forma discontinua en un procedimiento discontinuo (cultivo discontinuo) o en un procedimiento discontinuo alimentado o discontinuo alimentado repetido con el fin de producir el compuesto químico orgánico deseado. Un resumen de carácter general sobre los métodos de cultivo conocidos está disponible en el libro de texto de Chmiel (BioprozeBtechnik. 1: Einführung in die Bioverfahrenstechnik (Gustav Fischer Verlag, Stuttgart, 1991)) o en el libro de texto de Storhas (Bioreaktoren and periphere Einrichtungen (Vieweg Verlag, Braunschweig/Wiesbaden, 1994)).

En algunos ejemplos, las células de la presente descripción se cultivan en condiciones de fermentación continua o discontinua.

La fermentación discontinua clásica es un sistema cerrado, en donde las composiciones del medio se establecen al comienzo de la fermentación y no están sujetas a alternancias artificiales durante la fermentación. Una variación del sistema discontinuo es una fermentación discontinua alimentada que también tiene uso en la presente descripción. En esta variación, el sustrato se añade en incrementos a medida que avanza la fermentación. Los sistemas discontinuos alimentados son útiles cuando es probable que la represión de catabolitos inhiba el metabolismo de las células y cuando es deseable tener cantidades limitadas de sustrato en el medio. Las fermentaciones discontinuas y discontinuas alimentadas son comunes y bien conocidas en la técnica.

La fermentación continua es un sistema donde se añade continuamente un medio de fermentación definido a un biorreactor y se retira una cantidad igual de medio acondicionado simultáneamente para procesar y recolectar los productos biomoléculas de interés deseados. En algunos ejemplos, la fermentación continua generalmente mantiene los cultivos a una densidad alta constante donde las células están principalmente en fase de crecimiento logarítmico.

En a lgu nos e jem p los , la fe rm e n ta c ió n co n tin u a g e n e ra lm e n te m an tien e los cu ltivo s en u n a fa se de c re c im ie n to e s ta c io n a ria o lo g a rítm ica /e s ta c io n a ria ta rd ía . Los s is te m a s de fe rm e n ta c ió n c o n tin u a se e s fu e rza n p o r m a n te n e r co n d ic io n e s de c re c im ie n to en e s ta d o es ta c ion a rio .

Los m é tod os pa ra m o d u la r los nu trien te s y los fa c to re s de c re c im ie n to pa ra los p ro ce d im ie n to s de fe rm e n ta c ió n con tinu a , a s í co m o las té cn ica s pa ra m a x im iza r la v e lo c id a d de fo rm a c ió n de l p ro du c to , son b ien c o n o c id o s en la té c n ic a de la m ic ro b io lo g ía industria l.

P o r e je m p lo , un a lis ta no lim itan te de fu e n te s de c a rb o n o pa ra los c u ltivo s de la p re se n te d e sc rip c ió n in c luye azú ca re s y c a rb o h id ra to s ta le s com o , p o r e je m p lo , g luco sa , saca rosa , lac tosa , fruc tosa , m a ltosa , m e lazas , so lu c io n e s que co n tie n e n s a ca ro sa de l p ro ce sa m ie n to de la re m o la ch a a zu ca re ra o ca ñ a de azúca r, a lm idón , h id ro liza do de a lm idón y c e lu lo sa ; ace ites y g ra sa s ta le s com o , po r e jem p lo , ace ite de so ja , ace ite de g iraso l, ace ite de c a ca h u e te y g ra sa de co co ; ác ido s g ra sos ta le s com o , p o r e je m p lo , ác ido pa lm ítico , ác ido e s te á rico y ác ido lino le ico ; a lcoh o le s ta le s com o , p o r e je m p lo , g lice ro l, m e tan o l y e ta n o l; y ác ido s o rg á n ico s ta le s com o , po r e je m p lo , ác ido acé tico o ác ido láctico . U n a lis ta no lim itan te de las fu e n te s de n itró ge no pa ra los c u ltivo s de la p re se n te d e sc rip c ió n in c luye co m p u e s to s o rg á n ico s q u e co n tie n e n n itró g e n o ta le s co m o pe p ton as , e x tra c to de le vadura , e x tra c to de ca rn e , e x tra c to de m alta , lico r de m ace rac ió n de m aíz, ha rin a de so ja y u rea ; o c o m p u e s to s in o rg á n ico s ta le s co m o su lfa to de am on io , c lo ru ro de am o n io , fo s fa to de am on io , ca rb o n a to de a m o n io y n itra to de am on io . Las fu e n te s de n itró g e n o se pu ed en u sa r in d iv id u a lm e n te o co m o un a m ezcla .

U na lis ta no lim itan te de las p o s ib le s fu e n te s de fó s fo ro pa ra los cu ltivo s de la p re se n te d e sc rip c ió n in c luye ác ido fo s fó rico , d ih id ro g e n o fo s fa to de p o tas io o h id ro g e n o fo s fa to de d ip o ta s io o las co rre sp o n d ie n te s sa les que con tien en sod io .

El m ed io de c u ltivo pued e c o m p re n d e r a d ic io n a lm e n te sa les, p o r e je m p lo en fo rm a de c lo ru ro s o su lfa to s de m e ta les ta le s com o , p o r e jem p lo , sod io , po tas io , m ag ne s io , ca lc io y h ie rro , ta le s co m o po r e je m p lo su lfa to de m ag ne s io o su lfa to de h ie rro , q u e son n e ce sa rio s pa ra el c rec im ien to .

F in a lm e n te , se pu ed en u sa r fa c to re s de c re c im ie n to e se n c ia le s ta le s co m o am ino ác id os , p o r e je m p lo h o m o se rin a y v ita m in a s , p o r e je m p lo tia m in a , b io tin a o ác ido p a n to tén ico , ad em á s de las su s ta n c ia s an tes m en c io nad as .

En a lg u n o s e jem p los , el pH de l cu ltivo se pued e c o n tro la r con c u a lq u ie r ác ido o base, o sal ta m p ó n , in c luye nd o , pero no lim itado a h id ró x ido de sod io , h id ró x ido de po tas io , a m o n ia co o a m o n iaco acu oso ; o co m p u e s to s ác ido s ta le s com o ác ido fo s fó r ic o o ác ido su lfú rico de un a m an e ra adecu ad a . En a lgu nos e jem p los , el pH se a ju s ta g e n e ra lm e n te a un v a lo r de 6 ,0 a 8,5, p re fe rib le m e n te de 6 ,5 a 8.

En a lg u n o s e jem p los , los cu ltivo s de la p re se n te d e sc rip c ió n pu ed en in c lu ir un a g en te a n tie sp u m a n te ta l com o , po r e je m p lo , és te re s p o lig licó lico s de ác ido s g ra sos . En a lgu nos e je m p lo s , los cu ltivo s de la p re se n te d e sc rip c ió n se m od ifica n pa ra e s ta b iliz a r los p lá sm id o s de los cu ltivo s a ñ a d ie n d o su s ta n c ia s se le c tiva s a d e cu a d a s ta le s com o , po r e je m p lo , an tib ió ticos .

En a lg u n o s e jem p los , e l cu ltivo se rea liza en co n d ic io n e s a e rób icas . C on e l fin de m a n te n e r e s ta s co n d ic io n e s , se in tro du cen en e l c u ltivo o x íg e n o o m ezc las de g a se s q u e con tien en ox íg e n o ta le s com o , po r e je m p lo , a ire . A s im ism o , se p u ed en u sa r líqu idos e n riq u e c id o s con pe róx ido de h id ró gen o . La fe rm e n ta c ió n se lleva a cab o , cu a n d o sea a d ecu ad o , a p res ión e leva da , p o r e je m p lo a una p res ión e le v a d a de 0 ,03 a 0 ,2 M P a. La te m p e ra tu ra de l cu ltivo es n o rm a lm e n te de 20°C a 45°C y p re fe rib le m e n te de 25°C a 40°C , en p a rtic u la r p re fe rib le m e n te de 30°C a 37°C . En los p ro ce d im ie n to s d isco n tin u o s o d isco n tin u o s a lim e n ta d o s , el cu ltivo p re fe rib le m e n te se c o n tin ú a ha s ta qu e se haya fo rm a d o u n a ca n tid a d de l p ro d u c to d e se a d o de in te rés (p. e j., un c o m p u e s to q u ím ico o rg á n ico ) su fic ie n te pa ra se r recu pe rado . E ste o b je tivo n o rm a lm e n te se pued e lo g ra r en un p lazo de 10 ho ras a 160 ho ras. En p ro ce d im ie n to s co n tin u o s , son p o s ib le s tie m p o s de cu ltivo m ás la rgos. La ac tiv ida d de los m ic ro o rg a n ism o s d a co m o resu ltad o una co n ce n tra c ió n (a cu m u la c ió n ) de l p ro d u c to de in te rés en e l m ed io de fe rm e n ta c ió n y /o en las cé lu la s de d icho s m ic ro o rg a n ism o s .

En a lgu nos e jem p los , el cu ltivo se lleva a cab o en co n d ic io n e s a n ae rób icas .

C r ib a d o

En a lgu nos e jem p los , la p re se n te d e sc rip c ió n e n se ñ a c rib a d o s in ic ia le s de a lta cap ac idad . En o tros e jem p los , la p re se n te d e sc rip c ió n ta m b ié n e n s e ñ a va lid a c io n e s rob us tas b a sa d a s en ta n q u e s de d a to s de re n d im ie n to (véa se la F igu ra 6B).

En a lgu nos e jem p los , el p ro ce d im ie n to de c rib a d o de a lta ca p a c id a d e s tá d ise ñ a d o p a ra p re d e c ir el re n d im ie n to de las ce p a s en b io rre a c to re s . C o m o se ha de sc rito p re v ia m e n te , las co n d ic io n e s de c u ltivo se se le cc io n a n pa ra q u e sean a d e cu a d a s pa ra e l o rg a n ism o y re fle jen las co n d ic io n e s de l b io rrea c to r. Las co lo n ia s in d iv id u a le s se recogen y se tra n s fie re n a p laca s de 96 po c illo s y se incuban d u ra n te un p e rio do de t ie m p o a d ecu ad o . P os te rio rm e n te , las cé lu la s se tra n s fie re n a nu eva s p laca s de 96 p o c illo s pa ra cu ltivo s de s ie m b ra a d ic io n a le s o p a ra c u ltivo s de p ro du cc ión . Los c u ltivo s se in cuban d u ra n te pe rio d o s de t ie m p o va ria b le s , do n d e q u e se pu ed en re a liza r m ú ltip le s m ed ic io ne s . Estas pueden incluir mediciones de producto, biomasa u otras características que predicen el rendimiento de las cepas en biorreactores. Los resultados de los cultivos de alta capacidad se usan para predecir el rendimiento del biorreactor.

En algunos ejemplos, la validación del rendimiento basada en tanques se usa para confirmar el rendimiento de las cepas aisladas por cribado de alta capacidad. Las cepas candidatas se criban usando reactores de fermentación a escala de laboratorio (p. ej., los reactores descritos en la Tabla 5 de la presente descripción) según características relevantes de rendimiento de la cepa tales como productividad o rendimiento.

R e c u p e ra c ió n y c u a n t i f ic a c ió n d e p ro d u c to s

Los expertos en la técnica conocen métodos de cribado para la producción de productos de interés y se describen a lo largo de la presente memoria descriptiva. Dichos métodos se pueden emplear cuando se criban las cepas de la descripción.

En algunos ejemplos, la presente descripción enseña métodos para mejorar cepas diseñadas para producir productos intracelulares no secretados. Por ejemplo, la presente descripción enseña métodos para mejorar la solidez, el rendimiento, la eficiencia o la conveniencia general de los cultivos celulares que producen enzimas intracelulares, aceites, productos farmacéuticos u otras moléculas pequeñas o péptidos valiosos. La recuperación o aislamiento de productos intracelulares no secretados se puede lograr mediante técnicas de lisis y recuperación que son bien conocidas en la técnica, incluidas las descritas en el presente documento.

Por ejemplo, en algunos ejemplos, las células de la presente descripción se pueden recolectar por centrifugación, filtración, sedimentación u otro método. A continuación, las células recolectadas se rompen mediante cualquier método conveniente, que incluyen ciclos de congelación-descongelación, sonicación, rotura mecánica o el uso de agentes de lisis celular u otros métodos, que son bien conocidos por los expertos en la técnica.

El producto de interés resultante, p. ej. un polipéptido, se puede recuperar/aislar y opcionalmente purificar por cualquiera de una serie de métodos conocidos en la técnica. Por ejemplo, un producto polipéptido se puede aislar del medio nutriente por procedimientos convencionales que incluyen, pero no se limitan a: centrifugación, filtración, extracción, secado por pulverización, evaporación, cromatografía (p. ej., intercambio iónico, afinidad, interacción hidrofóbica, cromatoenfoque y exclusión por tamaños) o precipitación. Finalmente, se puede usar cromatografía líquida de alto rendimiento (HPLC) en las etapas finales de purificación. (Véase, por ejemplo, Purification of intracellular protein as described in Parry et al., 2001, Biochem. J. 353:117, y Hong et al., 2007, Appl. Microbio!. Biotechnol.

73:1331).

Además de las referencias indicadas antes, se conocen bien en la técnica una variedad de métodos de purificación, que incluyen, por ejemplo, los expuestos en: Sandana (1997) Bioseparation of Proteins, Academic Press, Inc.; Bollag et al. (1996) Protein Methods, 2a Edición, Wiley-Liss, NY; Walker (1996) The Protein Protocols Handbook Humana Press, NJ; Harris y Angal (1990) Protein Purification Applications: A Practical Approach, IRL Press at Oxford, Oxford, Inglaterra; Harris y Angal Protein Purification Methods: A Practical Approach, IRL Press at Oxford, Oxford, Inglaterra; Scopes (1993) Protein Purification: Principles and Practice 3a Edición, Springer Verlag, NY; Janson y Ryden (1998) Protein Purification: Principles, High Resolution Methods and Applications, Segunda Edición, Wiley-VCH, NY; y Walker (1998) Protein Protocols on CD-ROM, Humana Press, NJ.

En algunos ejemplos, la presente descripción enseña los métodos para mejorar las cepas diseñadas para producir productos secretados. Por ejemplo, la presente descripción enseña métodos para mejorar la solidez, rendimiento, eficiencia o la conveniencia general de los cultivos celulares que producen moléculas pequeñas o péptidos valiosos.

En algunos ejemplos, se pueden usar métodos inmunológicos para detectar y/o purificar productos secretados o no secretados producidos por las células de la presente descripción. En un enfoque de ejemplo, el anticuerpo generado contra una molécula de producto (p. ej., contra un polipéptido de insulina o un fragmento inmunogénico del mismo) usando métodos convencionales se inmoviliza sobre perlas, se mezcla con medio de cultivo celular en condiciones en las que se une la endoglucanasa y se hace precipitar. En algunos ejemplos, la presente descripción enseña el uso de ensayos de inmunoabsorción ligados a enzimas (ELISA).

En otros ejemplos relacionados, se usa inmunocromatografía, como se describe en la patente de EE.UU. N° 5.591.645, patente de EE.UU. N° 4.855.240, patente de EE.UU. N° 4.435.504, patente de EE.UU. N° 4.980.298, y Se-Hwan Paek, et al., "Development of rapid One-Step Immunochromatographic assay, Methods", 22, 53-60, 2000). Una inmunocromatografía general detecta una muestra mediante el uso de dos anticuerpos. Existe un primer anticuerpo en una solución de ensayo o en una parte en un extremo de una pieza de ensayo en una forma aproximadamente rectangular hecha de una membrana porosa, donde se deja caer la solución de ensayo. Este anticuerpo está marcado con partículas de látex o partículas coloidales de oro (en lo sucesivo este anticuerpo se denominará como anticuerpo marcado). Cuando la solución de ensayo vertida incluye una muestra que se va a detectar, el anticuerpo marcado reconoce la muestra para unirse con la muestra. Un complejo de la muestra y el anticuerpo marcado fluye por capilaridad hacia un absorbente, que está hecho de un papel de filtro y unido a un extremo opuesto al extremo que tiene incluido el anticuerpo marcado. Durante el flujo, el complejo de la muestra y el anticuerpo marcado es reconocido y capturado por un segundo anticuerpo (en lo sucesivo, se denominará anticuerpo de golpeteo) que existe en el medio de la m e m b ra n a p o ro sa y, co m o resu ltad o de esto , a p a re ce el co m p le jo en una pa rte de d e te cc ió n de la m e m b ran a p o ro sa co m o señ a l v is ib le y se de tec ta .

En a lgu nos e jem p los , los m é tod os de c rib a d o de la p re se n te d e sc rip c ió n se basan en té c n ic a s de de tecc ió n fo to m é tr ica (ab so rc ió n , f lu o re sce n c ia ). P o r e je m p lo , en a lg u n o s e jem p los , la de te cc ió n se pu ed e b a sa r en la p re se n c ia de un d e te c to r de flu o ró fo ro co m o G FP un id a a un an ticu e rp o . En o tro s e jem p los , la d e te cc ió n fo to m é tr ic a se pu ede b a sa r en la acu m u la c ió n de l p ro du c to d e s e a d o de l c u ltivo ce lu la r. En a lgu nos e jem p los , e l p ro d u c to pued e s e r d e tec tab le p o r U V de l c u ltivo o e x tra c to s de d ich o cu ltivo .

Los e xp e rto s en la té c n ic a reco n o ce rá n q u e los m é tod os de la p re se n te d e sc rip c ió n son c o m p a tib le s con las cé lu la s h o sp e d a n te s que p ro d u ce n c u a lq u ie r p ro d u c to b io m o lé c u la d e se a b le de in te rés. La T a b la 2 a c o n tin u a c ió n p re se n ta u n a lis ta no lim itan te de las ca te g o ría s de p ro du c to s , b io m o lé cu la s y cé lu la s ho spe da n te , inc lu ida s d e n tro de l a lcan ce de la p re se n te de sc rip c ión . E stos e je m p lo s se p ro p o rc io n a n con fin e s ilu s tra tivo s y no p re te nd en lim ita r la ap lica b ilid ad de la te c n o lo g ía d e s c r ita ac tu a lm e n te de n ing una m anera .

T a b la 2. - U na lis ta no lim itan te de cé lu la s h o sp e d a n te s y p ro d u c to s de in te rés de la p re se n te de sc rip c ió n .

Genes heterólogos de interés

En un ejemplo, se proporcionan en el presente documento métodos para expresar genes heterólogos en una célula hospedante microbiana. El gen heterogéneo se puede introducir en la célula hospedante microbiana usando los métodos proporcionados en el presente documento y/o conocidos en la técnica, de manera que la célula hospedante microbiana use el gen heterólogo para producir un producto de interés. En un ejemplo, la célula hospedante microbiana es una cepa de E. coli. La cepa de E. co lipuede ser cualquier cepa de E. co liconocida en la técnica y/o proporcionada en el presente documento. El gen heterólogo puede ser una versión de tipo natural de dicho gen o un mutante del mismo. El gen heterólogo se puede unir operativamente a un promotor, terminador, marcador de solubilidad de proteínas, marcador de degradación de proteínas o cualquier combinación de los mismos. La unión operativa del gen heterólogo al promotor, terminador, marcador de solubilidad de proteínas o marcador de degradación de proteínas se puede lograr usando los métodos de intercambio de promotores, intercambio de terminadores, intercambio de marcadores de solubilidad y/o intercambio de degradación proporcionados a lo largo de esta descripción.

En un ejemplo, el gen heterólogo se une operativamente a un promotor seleccionado de la Tabla 1. En un ejemplo, el gen heterólogo se une operativamente a una secuencia de promotor sintético quimérico de 60-90 pb, en donde el promotor quimérico sintético consiste en una parte distal del promotor pn del fago lambda, regiones -35 y -10 variables de los promotores pl y pn del fago lambda, partes centrales de los promotores pl y pn del fago lambda y una parte 5' UTR/sitio de unión al ribosoma (RBS) del promotor pn del fago lambda o una parte 5' UTR/sitio de unión al ribosoma (RBS) del promotor del gen acs de E. coli. Las secuencias de ácido nucleico de la parte distal del promotor pn del fago lambda, regiones -35 y -10 variables de los promotores pl y pn del fago lambda, porciones centrales de los promotores pl y pn del fago lambda y una parte 5' UTR/sitio de unión al ribosoma (RBS) del promotor pn del fago lambda o una parte de 5' UTR/sitio de unión ribosómico (RBS) del promotor del gen acs de E. coli para usar en el promotor quimérico sintético se puede seleccionar de las secuencias de ácido nucleico que se encuentran en la Tabla 1.5. En un ejemplo, el gen heterólogo se puede unir operativamente a un promotor quimérico sintético que tiene una secuencia de ácido nucleico seleccionada de las SEQ ID NO. 132-207 que se encuentran en la Tabla 1.4.

En un ejemplo, el gen heterólogo está operativamente unido a un terminador seleccionado de la tabla 1.2. En otro ejemplo, el gen heterólogo está operativamente unido a una secuencia de terminador seleccionada de la tabla 19.

En un ejemplo, el gen heterólogo está operativamente unido a un marcador de solubilidad seleccionado de la tabla 17.

En un ejemplo, el gen heterólogo está operativamente unido a una secuencia de marcador de degradación seleccionada de la tabla 18.

Además de los ejemplos anteriores, el gen heterólogo puede ser cualquiera de los genes requeridos para generar los productos de interés encontrados en la tabla 2 o cualquier gen conocido en la técnica que pueda ser expresado como un gen heterólogo en la célula hospedante microbiana (p. ej., E. coli) para producir un producto de interés.

En un ejemplo, el gen heterólogo es un gen que es parte de la ruta biosintética de la lisina como se ilustra en la figura 19. Además de este ejemplo, el gen heterólogo se puede seleccionar del gen asd, el gen ask, el gen hom, el gen dapA, el gen dapB, el gen dapD, el gen ddh, el gen argD, el gen dapE, el gen dapF, el gen lysA, el gen lysE, el gen zwf, el gen pgi, el gen ktk, el gen fbp, el gen ppc, el gen pck, el gen ddx, el gen pyc o el gen icd. En un ejemplo, el gen heterólogo que es parte de la ruta de la lisina como se proporciona en el presente documento está operativamente unido a un promotor sintético quimérico con una secuencia de ácido nucleico seleccionada de las SEQ ID NO. 132 207.

En un ejemplo, el gen heterólogo es un gen que es parte de la ruta biosintética del licopeno como se ilustra, por ejemplo, en la figura 59. Además de este ejemplo, el gen heterólogo se puede seleccionar del gen dxs, el gen ispC, el gen ispE, el gen ispD, el gen ispF, el gen ispG, el gen ispH, el gen idi, el gen ispA, el gen ispB, el gen crtE, el gen crtB, el gen crtI, el gen crtY, el gen ymgA, el gen dxr, el gen elbA, el gen gdhA, el gen appY, el gen elbB gene, o el gen ymgB. En un ejemplo, un gen heterólogo que es parte de la ruta del licopeno como se proprociona en el presente documento está operativamente unido a un promotor sintético quimérico con una secuencia de ácido nucleico seleccionada de las SEQ ID NO. 132-207.

En un ejemplo, el gen heterólogo es un gen que codifica un producto biofarmacéutico o un gen en la ruta para generar un producto biofarmacéutico. En un ejemplo, la célula hospedante microbiana es E. coli y el producto biofarmacéutico es cualquier producto biofarmacéutico que se haya mostrado que es producido en E. coli. El producto biofarmacéutico se puede seleccionar entre humulina (insulina rh), intrónA (interferón alfa2b), roferon (interferón alfa2a), humatrope (hormona de crecimiento somatropina rh), neupogen (filgrastim), detaferon (interferón beta-lb), lispro (insulina de acción rápida), Rapilysin (reteplasa), infergen (interferón alfacon-1), glucagón, beromun (tasonermina), ontak (denileucina diftitox), lantus (insulina glargina de acción prolongada), kineret (anakinra), natrecor (nesiritida), somavert (pegvisomant), calcitonina (calcitonina recombinante de salmón), lucentis (ranibizumab), preotact (hormona paratiroidea humana), kyrstexxal (urato oxidasa rh, PEGlilada), nivestim (filgrastim, rhGCSF), voraxaze (glucarpidasa) u preos (hormona paratiroidea). En un ejemplo, un gen heterólogo que codifica un producto biofarmacéutico o un gen en una ruta que genera un producto biofarmacéutico como se proporciona en el presente documento está operativamente unido a un promotor quimérico sintético con una secuencia de ácido nucleico seleccionada de las SEQ ID NO. 132-207.

Criterios de selección y objetivos

Los criterios de selección aplicados a los métodos de la presente descripción variarán con los objetivos específicos del programa de mejora de cepas. La presente descripción puede adaptarse para cumplir cualquier objetivo del programa. Por ejemplo, en algunos ejemplos, el objetivo del programa puede ser maximizar los rendimientos de lotes individuales de reacciones sin límites de tiempo inmediatos. En otros ejemplos, el objetivo del programa puede ser reequilibrar los rendimientos biosintéticos para producir un producto específico o para producir una relación particular de productos. En otros ejemplos, el objetivo del programa puede ser modificar la estructura química de un producto, tal como alargar la cadena de carbonos de un polímero. En algunos ejemplos, el objetivo del programa puede ser mejorar las características de rendimiento tales como el rendimiento, título, productividad, eliminación de subproductos, tolerancia a las variaciones del proceso, temperatura de crecimiento óptima y tasa de crecimiento. En algunos ejemplos, el objetivo del programa es mejorar el rendimiento del hospedante medido por la productividad volumétrica, productividad específica, rendimiento o título de un producto de interés producido por un microbio.

En otros ejemplos, el objetivo del programa puede ser optimizar la eficiencia de síntesis de una cepa comercial en términos de rendimiento del producto final por cantidad de entrada (p. ej., cantidad total de etanol producido por libra de sacarosa). En otros ejemplos, el objetivo del programa puede ser optimizar la velocidad de síntesis, medida, por ejemplo, en términos de tasas de finalización de lotes o tasas de rendimiento en sistemas de cultivo continuo. En otros ejemplos, el objetivo del programa puede ser aumentar la resistencia de la cepa a un fago particular, o aumentar de otro modo el vigor/robustez de la cepa en condiciones de cultivo.

En algunos ejemplos, los proyectos de mejora de cepas pueden estar sujetos a más de un objetivo. En algunos ejemplos, el objetivo del proyecto de cepas puede girar en torno a la calidad, fiabilidad o la rentabilidad general. En algunos ejemplos, la presente descripción enseña métodos de mutaciones o grupos de mutaciones seleccionadas asociadas con una o más de las propiedades de cepas descritas anteriormente.

Las personas que tengan conocimientos ordinarios en la técnica reconocerán cómo adaptar los criterios de selección de cepas para cumplir el objetivo particular del proyecto. Por ejemplo, las selecciones del rendimiento máximo de un lote individual de una cepa en la saturación de la reacción pueden ser adecuadas para identificar cepas con altos rendimientos de lotes individuales. La selección basada en la consistencia del rendimiento en un intervalo de temperaturas y condiciones puede ser adecuada para identificar cepas con mayor robustez y fiabilidad.

En algunos ejemplos, los criterios de selección para la fase inicial de alta capacidad y la validación basada en tanque serán idénticos. En otros ejemplos, la selección basada en tanques puede operar con criterios de selección adicionales y/o diferentes. Por ejemplo, en algunos ejemplos, la selección de cepas de alta capacidad se podría basar en los rendimientos de finalización de la reacción de lotes individuales, mientras que la selección basada en el tanque puede ampliarse para incluir selecciones basadas en los rendimientos de la velocidad de reacción.

Secuenciación

En algunos ejemplos, la presente descripción enseña la secuenciación del genoma completo de los organismos descritos en el presente documento. En otros ejemplos, la presente descripción también enseña la secuenciación de plásmidos, productos de PCR y otros oligonucleótidos como controles de calidad para los métodos de la presente descripción. Los expertos en la técnica conocen bien los métodos de secuenciación para proyectos grandes y pequeños.

En algunos ejemplos, se puede usar cualquier técnica de alta capacidad para secuenciar ácidos nucleicos en los métodos de la descripción. En algunos ejemplos, la presente descripción enseña la secuenciación del genoma completo. En otros ejemplos, la presente descripción enseña secuenciación de amplicones secuenciación ultra profunda para identificar variaciones genéticas. En algunos ejemplos, la presente descripción también enseña métodos novedosos para la preparación de bibliotecas, que incluyen el marcaje (véase el documento WO/2016/073690). Las técnicas de secuenciación de ADN incluyen reacciones clásicas de secuenciación de didesoxi (método de Sanger) utilizando terminadores o cebadores marcados y separación en gel en soporte plano o capilar; secuenciación por síntesis usando nucleótidos marcados terminados de forma reversible, pirosecuenciación; secuenciación 454; hibridación específica de alelos con una biblioteca de sondas de oligonucleótidos marcadas; secuenciación por síntesis usando hibridación específica de alelos con una biblioteca de clones marcados que va seguida de ligación; monitorización en tiempo real de la incorporación de nucleótidos marcados durante una etapa de polimerización; secuenciación de polony; y secuenciación SOLiD.

En un ejemplo de la descripción, se emplean métodos de secuenciación de alta capacidad que comprenden una etapa de aislamiento espacial de moléculas individuales en una superficie sólida donde se secuencian en paralelo. Dichas superficies sólidas pueden incluir superficies no porosas (tales como en la secuenciación de Solexa, p. ej. Bentley et al, Nature, 456: 53-59 (2008) o secuenciación de Complete Genomics, p. ej. Drmanac et al, Science, 327: 78-81 (2010)), matrices de pocillos, que pueden incluir moldes unidos a perlas o partículas (tal como con 454, p. ej. Margulies et al, Nature, 437: 376-380 (2005) o secuenciación de Ion Torrent, publicación de patente de EE.UU. 2010/0137143 o 2010/0304982), membranas micromecanizadas (tales como con secuenciación SMRT, p. ej. Eid et al, Science, 323: 133-138 (2009)), o matrices de perlas (tal como con secuenciación SOLiD o secuenciación polony, p. ej. Kim et al., Science, 316: 1481-1414 (2007)).

En otro ejemplo, los métodos de la presente descripción comprenden amplificar las moléculas aisladas antes o después de que se aíslen espacialmente en una superficie sólida. La amplificación previa puede comprender amplificación basada en emulsión, tal como PCR en emulsión o amplificación por círculo rodante. También se enseña la secuenciación basada en Solexa donde las moléculas molde individuales se aíslan espacialmente sobre una superficie sólida, después de lo cual se amplifican en paralelo por PCR puente para formar poblaciones clonales separadas, o agrupamientos, y luego se secuencian, como se describe en Bentley et al. (citado antes) y en las instrucciones del fabricante (p. ej. Kit de preparación de muestras TruSeq™ y hoja de datos, Illumina, Inc., San Diego, California, 2010); y además en las siguientes referencias: patentes de e E.UU. N° 6.090.592; 6.300.070; 7.115.400; y EP0972081B1.

En un ejemplo, las moléculas individuales dispuestas y amplificadas sobre una superficie sólida forman agrupamientos en una densidad de al menos 105 agrupamientos por cm2; o en una densidad de al menos 5 x 105 por cm2; o en una densidad de al menos 106 agrupamientos por cm2. En un ejemplo, se emplean químicas de secuenciación que tienen tasas de error relativamente altas. En dichos ejemplos, las puntuaciones de calidad promedio producidas por dichas químicas son funciones decrecientes monótonas de longitudes de lecturas de secuencias. En un ejemplo, dicha disminución corresponde a que el 0,5 por ciento de las lecturas de secuencias tienen al menos un error en las posiciones 1-75; 1 por ciento de las lecturas de secuencias tiene al menos un error en las posiciones 76-100; y 2 por ciento de las lecturas de secuencias tienen al menos un error en las posiciones 101-125.

A n á lis is c o m p u ta c io n a l y p re d ic c ió n d e lo s e fe c to s d e lo s c r i te r io s d e d is e ñ o g e n é tic o e n to d o e l g e n o m a

En algunos ejemplos, la presente descripción enseña métodos para predecir los efectos de alteraciones genéticas particulares que se han incorporado en una cepa hospedante determinada. En otros ejemplos, la descripción proporciona métodos para generar alteraciones genéticas propuestas que deberían incorporarse en una cepa hospedante determinada, con el fin de que dicho hospedante posea un rasgo fenotípico particular o parámetro de cepa. En ejemplos dados, la descripción proporciona modelos predictivos que se pueden usar para diseñar nuevas cepas hospedantes.

En a lg u n o s e je m p lo s , la p re se n te d e sc rip c ió n e n se ñ a m é tod os pa ra a n a liz a r los resu ltad os de re n d im ie n to de cad a ron da de c rib a d o y m é tod os pa ra g e n e ra r nu eva s m o d ifica c io n e s de se cu e n c ia de to d o el g e n o m a p ro p u e s ta s que se p re vé q u e m e jo ren e l ren d im ie n to de la ce p a en la s ig u ie n te ron da de c r ib a d o .

En a lg u n o s e jem p los , la p re se n te d e sc rip c ió n e n se ñ a que e l s is te m a g e n e ra m o d ifica c io n e s de s e cu e n c ia p ro pu es tas p a ra las ce p a s h o sp e d a n te s b a sá n d o se en resu ltad os de c rib a d o p rev ios . En a lg u n o s e jem p los , las reco m e n d a c io n e s de l p re se n te s is te m a se basan en los resu ltad os de l c rib a d o in m e d ia ta m e n te an te rio r. En o tro s e jem p los , las re co m e n d a c io n e s de l p re se n te s is te m a se ba san en los resu ltad os a c u m u la d o s de uno o m ás de los c rib a d o s p re ced en te s .

En a lg u n o s e jem p los , las re co m e n d a c io n e s de l p re se n te s is te m a se ba san en b ib lio te ca s de d ise ñ o g e n é tico de HTP d e sa rro lla d a s p re v ia m e n te . P or e je m p lo , en a lg u n o s e jem p los , e l p re se n te s is te m a e s tá d ise ñ a d o pa ra g u a rd a r re su lta d o s de c rib a d o s p re v io s y a p lic a r eso s resu ltad os a un p ro ye c to d ife ren te , en el m ism o o rg a n ism o h o spe da n te o en uno d ife ren te .

En o tro s e jem p los , las re co m e n d a c io n e s de l p re se n te s is te m a se basan en c o n o c im ie n to s c ie n tífico s . P or e je m p lo , en a lg u n o s e jem p los , las re co m e n d a c io n e s se ba san en p ro p ie d a d e s co n o c id a s de g e n e s (de fu e n te s ta le s co m o bases de d a to s de ge ne s an o ta d o s y la b ib lio g ra fía re leva n te ), o p tim iza c ió n de cod on es , d e s liza m ie n to tra n sc rip c io n a l, uO R F u o tras o p tim iza c io n e s de s e cu e n c ia s y h o sp e d a n te s ba sad as en h ipó tes is .

En a lgu nos e je m p lo s , las m o d ifica c io n e s de s e cu e n c ia p ro p u e s ta s pa ra u n a c e p a ho sp e d a n te re co m e n d a d a s p o r el s is tem a , o el m od e lo p re d ic tivo , se llevan a cab o m ed ia n te el uso de uno o m ás de los co n ju n to s de h e rram ie n tas m o le cu la re s d e sc rito s que co m p re n d e n : (1) in te rca m b io s de p ro m o to re s , (2) in te rca m b io s de S N P , (3) In te rca m b io s de co d o n e s de in ic io /d e ten c ió n , (4) o p tim iza c ió n de secu en c ia , (5) in te rca m b io s de d e tenc ión , (6) in te rca m b io s de m a rca d o re s de so lub ilidad , (7) in te rca m b io s de m arca d o re s de d e g ra d a c ió n y (8) m ap eo de ep is tas is .

La p la ta fo rm a de in g e n ie ría g e n é tic a de H TP d e s c rita en e l p re se n te d o cu m e n to es a g n ó s tica con resp ec to a cu a lq u ie r rasg o fe n o típ ic o o m ic ro b io p a rtic u la r (p. e j., p ro du cc ión de un co m p u e s to pa rticu la r). Es de c ir, la p la ta fo rm a y las le cc io n e s e n se ñ a d a s en el p re se n te d o cu m e n to se pu eden u sa r con c u a lq u ie r cé lu la ho sp e d a n te pa ra m o d ifica r d ich a cé lu la ho sp e d a n te pa ra qu e te n g a cu a lq u ie r rasgo fe n o típ ico d e sea do . A de m ás , las le cc ion es a p re n d id a s de un p ro ce d im ie n to de in ge n ie ría g e n é tic a de H TP d a d o usa do pa ra c re a r u n a nu e va cé lu la ho spe da n te , se p u ed en ap lica r a c u a lq u ie r nú m ero de o tras cé lu la s h o spe da n tes , co m o resu lta d o de l a lm a ce n a m ie n to , ca ra c te r iza c ió n y an á lis is de un a g ran ca n tid a d de p a rá m e tro s de p ro ce d im ie n to que ocu rren d u ra n te los m é tod os en se ñ a d o s .

C o m o se m en c io nó en la secc ión de m ap eo e p is tá tico , es p o s ib le e s tim a r e l ren d im ie n to (tam b ién c o n o c id o com o p u n tu a c ió n ) de una ce p a h ipo té tica o b te n id a c o n s o lid a n d o u n a co le cc ió n de m u ta c io n e s de u n a b ib lio te ca de d iseñ o g e n é tic o de H TP en un co n te x to p a rtic u la r a tra vé s de a lgún m od e lo p re d ic tivo p re fe rid o . D ado d ich o m ode lo p re d ic tivo , es po s ib le p u n tu a r y c la s if ic a r to d a s las ce p a s h ipo té ticas a cce s ib le s a la b ib lio te ca de m u ta c io n e s a tra vé s de la co n so lid a c ió n co m b in a to ria .

La s ig u ie n te secc ión d e sc rib e los m od e los p a rticu la re s usa do s en la p re se n te p la ta fo rm a de HTP.

D is e ñ o p re d ic t iv o d e c e p a s

En el p re se n te d o cu m e n to se d e s c rib e un e n fo q u e p a ra e l d ise ñ o p re d ic tivo de cep as , q u e inc luye : m é tod os para d e s c rib ir los ca m b io s g e n é tico s y el ren d im ie n to de la cep a , p re d e c ir e l ren d im ie n to de la c e p a b a sad o en la co m p o s ic ió n de los ca m b io s en la cepa , re c o m e n d a r d ise ñ o s ca n d id a to s con un ren d im ie n to p re v is to a lto y f ilt ra r las p re d icc io n e s pa ra o p tim iz a r p o r c o n s id e ra c io n e s de se g u n d o o rd en , p. e j. s im ilitud con ce p a s e x is te n te s , e p is ta s is o c o n fia n z a en las p re d icc ion es .

E n tra d a s a l m o d e lo d e d is e ñ o d e c e p a s

En un e je m p lo , p a ra fa c ilita r la ilu s trac ió n , los d a to s de e n tra d a pu ed en c o m p re n d e r dos co m p o n e n te s : (1) co n ju n to s de c a m b io s g e n é tico s y (2) ren d im ie n to re la tivo de la cep a . Los e xp e rto s en la té c n ic a reco n o ce rá n qu e es te m ode lo se pu ede e x te n d e r fá c ilm e n te p a ra c o n s id e ra r un a am p lia v a rie d a d de e n tra da s , m ie n tras se t ie n e p re se n te la co n s id e ra c ió n c o m p e n s a to r ia de l sob re a ju s te . A d e m á s de los ca m b io s g e né ticos , a lg u n o s de los pa rá m e tro s de e n tra d a (va riab les in d e p e n d ie n te s ) que se pu eden a ju s ta r son los tip o s de cé lu la s (géne ro , esp ec ie , cepa , ca ra c te riza c ió n filo g e n é tica , e tc .) y los p a rá m e tro s de l p ro ce d im ie n to (p. e j., co n d ic io n e s am b ie n ta le s , e q u ip o de m a n ip u la c ión , té c n ic a s de m od ifica c ión , e tc .) con los cua le s se lleva a ca b o la fe rm e n ta c ió n con las cé lu las .

Los co n ju n to s de ca m b io s g e n é tico s pu ed en p ro v e n ir de las co le cc io n e s d iscu tid a s p re v ia m e n te de p e rtu rb a c io n e s g e n é tica s d e n o m in a d a s b ib lio te ca s de d ise ñ o g e n é tico H TP. El ren d im ie n to re la tivo de la ce p a se pu e d e e va lu a r b a sá n d o se en c u a lq u ie r p a rá m e tro o rasgo fe n o típ ic o de in te rés da do (p. e j., p ro d u cc ió n de un co m p u e s to , m o lécu la p e q u e ñ a o p ro d u c to de in te rés).

Los tip o s de cé lu la s se pu ed en e s p e c ific a r en c a te g o ría s g e n e ra le s co m o s is te m a s p ro ca rio ta s y e u ca rio ta s , géne ro , esp ec ie , cepa , cu ltivo s de te jid o s (fren te a cé lu la s d isp e rsa s ), e tc . Los p a rá m e tro s de l p ro ce d im ie n to q u e se pueden a ju s ta r in c luyen tem p e ra tu ra , p res ión , c o n fig u ra c ió n de l re a c to r y co m p o s ic ió n de l m ed io . Los e je m p lo s de configuración del reactor incluyen el volumen del reactor, si el procedimiento es discontinuo o continuo y, si es continuo, el caudal volumétrico, etc. También se puede especificar la estructura de soporte, si hay alguna, en la que residen las células. Los ejemplos de composición del medio incluyen las concentraciones de electrolitos, nutrientes, productos de desecho, ácidos, pH y similares.

Conjuntos de cambios genéticos de bibliotecas de diseño genético de HTP seleccionados para usar en el modelo de regresión lineal inicial que posteriormente se usa para crear el modelo de diseño de cepas predictivo

Se muestra a continuación un ejemplo, un conjunto de entradas de una tabla de cambios genéticos en Corynebacterium, en la Tabla 3. Cada fila indica un cambio genético en la cepa 7000051473, así como metadatos sobre el mecanismo de cambio, p. ej. intercambio de promotores o intercambio de SNP. aceE, zwf y pyc están todos relacionados con el ciclo del ácido cítrico.

En este caso, la cepa 7000051473 tiene un total de 7 cambios. "Último cambio" significa que el cambio en esta cepa representa la modificación más reciente en este linaje de cepas. Por lo tanto, la comparación del rendimiento de esta cepa con el rendimiento de la parental representa un punto de datos relativo al rendimiento de la mutación del "último cambio".

T a b la 3 - Tabla de entrada de diseño de cepas para la cepa 7000051473

Evaluación del rendimiento de la cepa construida

El objetivo del modelo enseñado es predecir el rendimiento de la cepa en función de la composición de los cambios genéticos introducidos en la cepa. Para construir una referencia para la comparación, el rendimiento de la cepa se calcula con respecto a una cepa de referencia común, calculando primero el rendimiento mediano por cepa, por placa de ensayo. Después se calcula el rendimiento relativo como la diferencia en el rendimiento medio entre una cepa diseñada y la cepa de referencia común dentro de la misma placa. La restricción de los cálculos a comparaciones dentro de la placa asegura que todas las muestras consideradas recibían las mismas condiciones experimentales.

La Figura 23 muestra la distribución de los rendimientos relativos de la cepa de Corynebacterium para los datos de entrada en consideración. Un rendimiento relativo de cero indica que la cepa diseñada funcionaba igual de bien que la cepa de "referencia" o base en placa. Es de interés la capacidad del modelo predictivo para identificar las cepas que es probable que funcionen significativamente por encima de cero. Además, y de manera más general, es de interés si alguna cepa determinada tiene mayor rendimiento que la progenitora por algún criterio. En la práctica, el criterio puede ser un título de producto que cumpla o supere algún umbral por encima del nivel parental, aunque también se podría usar en su lugar o además el tener una diferencia estadísticamente significativa con la progenitora en la dirección deseada. El papel de la cepa base o de "referencia" es simplemente servir como un factor de normalización añadido para hacer comparaciones dentro o entre placas.

Un concepto a tener en cuenta es el de las diferencias entre: cepa parental y cepa de referencia. La cepa parental es el contexto que se usó para una ronda actual de mutagénesis. La cepa de referencia es una cepa de control llevada en cada placa para facilitar las comparaciones, especialmente entre placas, y es típicamente la "cepa base" como se ha mencionado antes. Pero puesto que la cepa base (p. ej., la cepa de tipo natural o industrial que se usa para medir el rendimiento general) no es necesariamente una "base" en el sentido de ser un objetivo de mutagénesis en una ronda determinada de mejora de la cepa, un término más descriptivo es "cepa de referencia".

En resumen, una cepa base/de referencia se usa para medir el rendimiento de las cepas construidas, en general, mientras que la cepa parental se usa para medir el rendimiento de un cambio genético específico en el contexto genético relevante.

Clasificación del rendimiento de las cepas construidas con regresión lineal

El objetivo del modelo descrito es clasificar el rendimiento de las cepas construidas, describiendo el rendimiento relativo de la cepa, en función de la composición de los cambios genéticos introducidos en las cepas construidas. Como se ha discutido a lo largo de la descripción, las diversas bibliotecas de diseño genético de HTP proporcionan el repertorio de posibles cambios genéticos (p. ej., perturbaciones/alteraciones genéticas) que se introducen en las cepas transformadas. La regresión lineal es la base del modelo predictivo de ejemplo descrito actualmente.

La siguiente tabla (es decir, la Tabla 4) contiene entrada de ejemplo para la modelización basada en regresión. Los rendimientos de la cepa se clasifican en relación con una cepa de base común, en función de la composición de los cambios genéticos contenidos en la cepa.

Cada encabezado de columna representa un cambio genético, un "1" representa la presencia del cambio, mientras que un "0" representa la ausencia de un cambio. "DSS" se refiere a intercambios de SNP de una biblioteca particular (las primeras 3 columnas después de relativ _perf). Las 3 últimas columnas son intercambios de promotores, donde pcgXXXX indica el promotor particular y las 3 últimas letras representan el gen al que se está aplicando el promotor. Los genes están relacionados con el metabolismo central. Los promotores son de Corynebacterium glutamicum (de ahí la notación "cg"). Se puede encontrar más información sobre los promotores usados en la Tabla 1, que enumera los promotores P1-P8 y la lista de secuencias de la presente solicitud. Además, se puede encontrar información detallada sobre cada promotor P1-P8 en la solicitud provisional de EE.UU. N° 62/264.232, presentada el 7 de diciembre de 2015, y titulada "Promotores de Corynebacterium glutamicum". Para facilitar la referencia, en la siguiente tabla, pcg3121 = P8; pcg0755 = P4; y pcg1860 = P3.

T a b la 4 - Resumen de cambios genéticos y su efecto sobre el rendimiento relativo.

Regresión lineal para caracterizar cepas construidas

La regresión lineal es un método atractivo para la plataforma de ingeniería genómica HTP descrita, debido a la facilidad de implementación e interpretación. Los coeficientes de regresión resultantes se pueden interpretar como el aumento o disminución promedio en el rendimiento relativo de la cepa atribuible a la presencia de cada cambio genético.

Por ejemplo, como se ve en la Figura 24, esta técnica permite concluir que cambiar el promotor pgi a pcg3121 mejora el rendimiento relativo de la cepa en aproximadamente 5 unidades en promedio y, por lo tanto, es un cambio potencialmente muy deseable, en ausencia de cualquier interacción epistática negativa (nota: la entrada es un valor normalizado sin unidades).

Por lo tanto, el método enseñado usa modelos de regresión lineal para describir/caracterizar y clasificar cepas construidas, que tienen diversas perturbaciones genéticas introducidas en sus genomas a partir de las diversas bibliotecas enseñadas.

Modelización de diseño predictivo

El modelo de regresión lineal descrito antes, que usaba datos de cepas construidas, se puede usar para hacer predicciones de rendimiento para cepas que todavía no se han construido.

El procedimiento se puede resumir como sigue: se generan in silico todas las configuraciones posibles de cambios genéticos ^ se usa el modelo de regresión para predecir el rendimiento relativo de la cepa ^ se ordenan los diseños de cepas candidatas por rendimiento. Por lo tanto, usando el modelo de regresión para predecir el rendimiento de las cepas todavía no construidas, el método permite la producción de cepas de mayor rendimiento y, al mismo tiempo, llevar a cabo menos experimentos.

Generación de configuraciones

Cuando se construye un modelo para predecir el rendimiento de cepas todavía no construidas, la primera etapa es producir una secuencia de candidatos de diseño. Esto se hace fijando el número total de cambios genéticos en la cepa y después definiendo todas las posibles combinaciones de cambios genéticos. Por ejemplo, se puede establecer el número total de potenciales cambios/perturbaciones genéticas en 29 (p. ej., 29 posibles SNP, o 29 promotores diferentes, o cualquier combinación de los mismos siempre que el universo de perturbaciones genéticas sea 29) y luego decidir diseñar todos los posibles combinaciones de 3 miembros de los 29 cambios genéticos potenciales, que darán como resultado 3.654 diseños de cepas candidatas.

Para proporcionar el entorno a las 3.654 cepas candidatas mencionadas anteriormente, considere que se puede calcular el número de agrupaciones no redundantes de tamaño r a partir de n miembros posibles usando n! / ((n - r )! * r! ). Si r = 3, n = 29 da 3654. Por lo tanto, si se diseñan todas las combinaciones posibles de 3 miembros de 29 cambios potenciales, el resultado es 3.654 cepas candidatas. Los 29 cambios genéticos potenciales están presentes en el eje x de la Figura 25.

Predicción del rendimiento de los nuevos diseños de cepas

Usando la regresión lineal construida antes con las configuraciones combinatorias como entrada, se puede entonces predecir el rendimiento relativo esperado de cada diseño candidato. La Figura 25 resume la composición de los cambios para los 100 diseños superiores de cepas previstos para Corynebacterium. El eje x da el conjunto de potenciales cambios genéticos (29 cambios genéticos posibles) y el eje y muestra el orden jerárquico. Las celdas negras indican la presencia de un cambio particular en el diseño candidato, mientras que las celdas blancas indican la ausencia de ese cambio. En este ejemplo en particular, todos los 100 diseños superiores contienen los cambios pcg3121_pgi, pcg1860_pyc, dss_339 y pcg0007_39_lysa. Además, el diseño del candidato superior contiene los cambios dss_034, dss_009.

La precisión predictiva debería aumentar con el tiempo a medida que se usan nuevas observaciones para reentrenar y reajustar iterativamente el modelo. Los resultados de un estudio de los autores de la invención ilustran los métodos mediante los cuales el modelo predictivo se puede volver a entrenar y mejorar de forma iterativa. La Figura 46 compara las predicciones del modelo con los valores de medición observados. La calidad de las predicciones del modelo se puede evaluar a través de varios métodos, incluyendo un coeficiente de correlación que indica la fuerza de la asociación entre los valores predichos y observados, o el error cuadrático medio, que es una medición del error promedio del modelo. Usando un indicador elegido para la evaluación del modelo, el sistema puede definir reglas sobre cuándo debe ser reentrenado el modelo.

Un par de suposiciones no expuestas del modelo anterior incluyen: (1) no hay interacciones epistáticas; y (2) los cambios/perturbaciones genéticas utilizadas para construir el modelo predictivo (p. ej., a partir de datos de cepas construidas como se ilustra en la Figura 24, o cualquier conjunto de datos que se use como referencia para construir el modelo) se hicieron todos en el mismo contexto de Corynebacterium, como las combinaciones propuestas de cambios genéticos (p. ej., como se ilustra en la Figura 25).

Filtrado por características de segundo orden

El ejemplo ilustrativo anterior se centró en predicciones de regresión lineal basadas en el rendimiento previsto de la célula hospedante. En algunos ejemplos, los presentes métodos de regresión lineal también se pueden aplicar a factores que no son biomoléculas, tales como biomasa de saturación, resistencia u otras características medibles de la célula hospedante. Por lo tanto, los métodos de la presente descripción también enseñan a considerar otras características fuera del rendimiento previsto cuando se priorizan los candidatos a construir. Suponiendo que hay datos relevantes adicionales, los términos no lineales también se incluyen en el modelo de regresión.

Cercanía con las cepas existentes

Las cepas previstas que son similares a las que ya se han construido podrían dar como resultado ahorro de tiempo y coste a pesar de no ser un candidato previsto superior

Diversidad de cambios

Cuando se construyen los modelos mencionados antes, no se puede estar seguro de que los cambios genéticos sean realmente aditivos (como se asume por regresión lineal y se menciona como una suposición más arriba) debido a la presencia de interacciones epistáticas. Por lo tanto, el conocimiento de la disimilitud del cambio genético se puede usar para aumentar la probabilidad de aditividad positiva. Si se sabe, por ejemplo, que los cambios dss_034 y dss_009 (que son intercambios de SNP) de la cepa clasificada superior antes están en la misma ruta metabólica y tienen características de rendimiento similares, entonces esa información se podría usar para seleccionar otra cepa de clasificación superior con una composición diferente de cambios. Como se describe en la sección anterior en relación con el mapeo de la epistasis, los mejores cambios genéticos previstos se pueden filtrar para restringir la selección a mutaciones con perfiles de respuesta suficientemente diferentes. Alternativamente, la regresión lineal puede ser una regresión de mínimos cuadrados ponderados usando la matriz de similitud para ponderar las predicciones.

Diversidad del rendimiento previsto

F ina lm en te , se pued e o p ta r po r d is e ñ a r ce p a s con un re n d im ie n to p re v is to m ed io o pobre , con el fin de v a lid a r y p o s te rio rm e n te m e jo ra r los m od e los p re d ic tivos .

Optimización del diseño de cepas iterativo

C o m o se d e sc rib e en el e je m p lo an te rio r, to d o s los 100 d ise ñ o s s u p e rio re s de ce p a s co n tie n e n los cam b io s pcg 3121 _ p g i, pcg 1860 _ p yc , d ss_ 339 y p cg 0007 _ 39 _ lysa . A de m ás , e l d iseñ o de la c e p a c a n d id a ta s u p e rio r co n tie n e los c a m b io s dss_ 034 , dss_ 009.

En e jem p los , e l m o to r de co lo ca c ió n de pe d idos 208 po ne un p e d ido de fá b ric a a la fá b ric a 210 pa ra fa b r ic a r cep as m ic ro b ia n a s que in co rp o ran las m u tac ion es ca n d id a ta s sup e rio res . En fo rm a de buc le de re tro a lim e n ta c ió n , los resu ltad os pu ed en s e r a n a liza d o s p o r el e q u ip o de an á lis is 214 p a ra d e te rm in a r q u é m ic ro b io s p re sen ta n p ro p ie d a d e s fe n o típ ic a s d e se a d a s (314). D u ran te la fa se de an á lis is , se eva lú an los c u ltivo s de ce p a s m o d ifica d a s pa ra d e te rm in a r su ren d im ien to , es de c ir, su e xp re s ió n de las p ro p ie d a d e s fe n o típ ic a s d e se a d a s , q u e in c luyen la ca p a c id a d pa ra p ro d u c ir a e s c a la indu s tria l. P or e jem p lo , la fa se de a n á lis is usa , e n tre o tra s cosa s , d a to s de im á ge nes de p laca s pa ra m e d ir e l c re c im ie n to de co lo n ia s m ic ro b ia n a s co m o in d ica d o r de la sa lud de las co lo n ia s . El e q u ipo de an á lis is 214 se u sa pa ra co rre la c io n a r los c a m b io s g e n é tico s con e l ren d im ien to fe n o típ ic o y g u a rd a r los d a to s de co rre la c ió n g e n o tip o -fe n o tip o resu ltan te s en b ib lio teca s , que se p u ed en a lm a c e n a r en la b ib lio te ca 206, pa ra c o m u n ic a r la p ro du cc ión m ic ro b ia n a fu tu ra .

En pa rticu la r, los c a m b io s ca n d id a to s q u e rea lm en te dan co m o resu ltado un ren d im ie n to m ed id o su fic ie n te m e n te alto, se p u ed en a ñ a d ir co m o fila s en la ba se de d a to s a ta b la s com o la T a b la 4 an te rio r. De es ta m anera , las m u tac ion es de m e jo r ren d im ie n to se añ ad en al m ode lo de d ise ñ o de ce p a s p re d ic tivo en u n a fo rm a de a p re n d iza je a u tom á tico sup e rv isado .

L IM S ite ra e l c ic lo de d is e ñ o /c o n s tru c c ió n /e n s a y o /a n á lis is b a sad o en las c o rre la c io n e s d e sa rro lla d a s a p a rtir de los e xp e rim e n to s de fá b ric a a n te rio res . D u ran te un c ic lo su b s ig u ie n te , e l e q u ip o de an á lis is 214 so lo , o en co n ju n to con o p e ra d o re s hu m an os, pued e se le c c io n a r los m e jo res ca n d id a to s co m o ce p a s ba se pa ra la e n tra d a de nuevo en la in te rfaz de e n tra d a 202, u sa nd o los da tos de c o rre la c ió n pa ra a ju s ta r las m od ifica c io n e s g e n é tica s pa ra lo g ra r un m e jo r re n d im ie n to fe n o típ ic o con g ra n u la rid a d m ás fina . De e s ta m anera , e l s is te m a de g e s tión de la in fo rm ac ió n de l la bo ra to rio de e je m p lo s de la d e sc rip c ió n im p le m e n ta un buc le de re tro a lim e n ta c ió n de m e jo ra de la ca lidad .

En resum en , con re fe re nc ia al d ia g ra m a de flu jo de la F igu ra 33, e l flu jo de tra b a jo de d ise ñ o de ce p a s p re d ic tivo ite ra tivo se pued e d e s c rib ir de la s ig u ie n te m anera :

- S e g e n e ra un co n ju n to de e n tre n a m ie n to de va r ia b le s de e n tra d a y sa lida , p. e j., ca m b io s g e n é tico s com o e n tra d a s y ca ra c te rís tica s de re n d im ie n to com o sa lida s (3302 ). La ge n e ra c ió n se pued e re a liza r m ed ia n te el e q u ip o de an á lis is 214 b a sá n d o se en c a m b io s g e n é tico s p re v io s y el co rre sp o n d ie n te re n d im ie n to m ed id o de las ce p a s m ic ro b ia n a s q u e in co rp o ran eso s ca m b io s g e né ticos .

- S e d e s a rro lla un m ode lo in ic ia l (p. e j., m ode lo de reg res ión linea l) b a sad o en e l co n ju n to de e n tre n a m ie n to (3304 ). E sto pu ede s e r rea liza do p o r e l e q u ip o de an á lis is 214.

- S e ge n e ra n ce p a s c a n d id a ta s de l d ise ñ o (3306)

^oEn un e jem p lo , e l e q u ip o de an á lis is 214 pued e f ija r e l nú m ero de c a m b io s g e n é tico s q u e se va n a ha ce r en el co n te x to de u n a cepa , en fo rm a de co m b in a c io n e s de ca m b io s . P ara re p re s e n ta r e s to s cam b io s , el e q u ip o de an á lis is 214 pu ed e p ro p o rc io n a r al in té rp re te 204 una o m ás e x p re s io n e s de e sp e c ifica c ió n de A D N q u e rep rese n tan esa s c o m b in a c io n e s de cam b io s . (E stos c a m b io s g e n é tico s o las ce p a s m ic ro b ia n a s que in co rp o ran eso s c a m b io s se p u ed en d e n o m in a r "e n tra d a s de en sa yo "). El in té rp re te 204 in te rp re ta la u n a o m ás e s p e c ifica c io n e s de A D N , y e l m o to r de e je cu c ió n 207 e je cu ta las e s p e c ifica c io n e s de A D N pa ra c o m p le ta r la e sp e c ifica c ió n de A D N con sa lida s resu e lta s q u e rep rese n tan las ce p a s de d ise ñ o ca n d id a ta s in d iv id u a le s pa ra e so s cam b io s .

- B a sá n d o se en e l m ode lo , el e q u ip o de an á lis is 214 p re d ice el re n d im ie n to e sp e ra d o de c a d a c e p a de d iseñ o c a n d id a ta (3308).

- El e q u ipo de an á lis is 214 s e le cc io n a un nú m ero lim itado de d ise ñ o s ca n d ida to s , p. e j., 100, con e l ren d im ien to p re v is to m ás a lto (3310).

^oC o m o se d e sc rib e en o tra pa rte de l p re se n te d o cu m e n to con resp ec to al m ap eo de e p is tas is , e l e q u ipo de an á lis is 214 pu ed e te n e r en c u e n ta e fe c to s de se g u n d o o rd en ta le s co m o e p is tas is , p. e j., f iltra n d o d iseñ os s u p e rio re s pa ra e fe c to s ep is tá tico s o fa c to r iza n d o e p is ta s is en e l m ode lo p re d ic tivo .

- S e co n s tru ye n las ce p a s ca n d id a ta s filtra d a s (en la fá b ric a 210) según el pe d ido de fá b ric a g e n e ra d o p o r el m o to r de c o lo ca c ió n de p e d id o s 208 (3312).

- El e q u ip o de an á lis is 214 m ide el ren d im ie n to rea l de las ce p a s se le cc io n a d a s , s e le cc io n a un nú m ero lim itado de esa s ce p a s s e le cc io n a d a s b a sá n d o se en su ren d im ie n to rea l s u p e rio r (3314 ) y añad e los c a m b io s de d iseñ o y su ren d im ie n to resu ltan te pa ra m ode lo p re d ic tivo (3316). En el e je m p lo de reg res ión linea l, se añ ad en los co n ju n to s de ca m b io s de d iseñ o y su re n d im ie n to a so c ia d o co m o nu eva s fila s en la T a b la 4.

- El e q u ip o de an á lis is 214 d e sp u é s ite ra de nuevo a la ge n e ra c ió n de nu eva s ce p a s ca n d id a ta s de d ise ñ o (3306) y c o n tin ú a ite ra nd o ha s ta q u e se sa tis fa ce u n a c o n d ic ió n de pa rada . La con d ic ió n de p a rad a pu ed e com p ren de r, p o r e jem p lo , e l ren d im ie n to m ed ido de al m en os u n a c e p a m ic ro b ia n a q u e sa tis fa g a un in d ic a d o r de rend im ien to , ta l co m o ren d im ien to , v e lo c id a d de c re c im ie n to o títu lo .

En e l e je m p lo an te rio r, la o p tim iza c ió n ite ra tiva de l d iseñ o de ce p a s usa la re tro a lim e n ta c ió n y reg res ión linea l para im p le m e n ta r e l a p re n d iza je au to m á tico . En g e ne ra l, e l a p re n d iza je au to m á tico se pu ed e d e s c r ib ir com o la op tim iza c ió n de los c rite rio s de ren d im ien to , p. e j., pa rá m e tro s , té cn ica s u o tra s ca ra c te rís tica s , en el re n d im ie n to de una ta re a in fo rm a tiva (tal co m o c la s ifica c ió n o reg res ió n ) u sa nd o un n ú m ero lim itado de e je m p lo s de d a to s m arca do s , y luego re a liza n d o la m ism a ta re a en d a to s de sco n o c id o s . En e l a p re n d iza je a u to m á tico su p e rv isa d o , ta l co m o el de l e jem p lo de reg res ió n linea l an te rio r, la m á q u in a (p. e j., un d isp o s itivo in fo rm á tico ) ap rende , p o r e jem p lo , id en tificand o pa trones , ca te g o ría s , re lac io ne s e s ta d ís tica s u o tro s a trib u tos , p re se n ta d o s p o r los d a to s de en tre n a m ie n to . El resu ltad o del a p re n d iza je d e sp u é s se usa pa ra p re d e c ir si los nuevos d a to s p re se n ta rá n los m ism os pa tro ne s , ca te g o ría s , re lac iones e s ta d ís tica s u o tro s a tribu tos .

Los e je m p lo s de la d e sc rip c ió n p u ed en e m p le a r o tra s té c n ic a s de a p re n d iza je a u to m á tico su p e rv isa d o cu a n d o los d a to s de e n tre n a m ie n to es tá n d isp o n ib le s . En a u se n c ia de d a to s de en tre n a m ie n to , los e je m p lo s pu eden e m p le a r a p re n d iza je a u to m á tico sin sup e rv is ió n . A lte rn a tiva m e n te , los e je m p lo s p u ed en e m p le a r a p re n d iza je a u to m á tico sem isu p e rv isa d o , u sa nd o u n a p e q u e ñ a ca n tid a d de da tos m arca do s y una g ran ca n tid a d de d a to s no m arca do s . Los e je m p lo s ta m b ié n pu ed en e m p le a r u n a se lecc ió n de ca ra c te rís tica s pa ra s e le c c io n a r el su b co n ju n to de las ca ra c te rís tic a s m ás re leva n tes p a ra o p tim iz a r el re n d im ie n to de l m ode lo de a p re n d iza je au tom á tico . D e p e n d ie n d o del t ip o de e n fo q u e de a p re n d iza je a u to m á tico se le cc io n a d o , co m o a lte rn a tiva s o a d e m á s de la reg res ión linea l, los e je m p lo s pu ed en em p le a r, po r e je m p lo , reg res ió n lo g ís tica , redes ne u ro na les , m áq u inas de ve c to re s de sop orte (S V M ), á rb o les de de c is ió n , m o d e lo s de M arko v ocu ltos , redes ba yes iana s , G ram S chm id t, a p re n d iza je b a sad o en re fue rzo , a p re n d iza je b a sad o en a g ru p a m ie n to s que in c luye a g ru p a m ie n to je rá rq u ico , a lg o ritm o s g e n é tico s y cu a lq u ie r o tra m á q u in a de a p re n d iza je a d e cu a d a co n o c id a en la té cn ica . En pa rticu la r, los e je m p lo s p u ed en e m p le a r reg res ión lo g ís tica p a ra p ro p o rc io n a r p ro b a b ilid a d e s de c la s ifica c ió n (p. e j., c la s ifica c ió n de g e n e s en d ife re n te s g ru po s fu n c io n a le s ) ju n to con las p ro p ia s c la s ifica c io n e s . V éase , p. e j., "A s im p le and e ffic ie n t a lgo rithm fo r g e n e se lec tion us ing spa rse lo g is tic reg ress io n ", Bioinformatics, V o l. 19, No. 17 2003 , pp. 2246 -2253 , Leng, e t a l., "C la ss ifica tio n us ing fu n c tio n a l d a ta a n a lys is fo r te m p o ra l g e n e e xp re ss io n da ta ", Bioinformatics, V o l. 22, No. 1, O x fo rd U n ive rs ity P ress (2006 ), pág. 68 -76.

Los e je m p lo s pu ed en u s a r a rq u ite c tu ra s ace le ra d a s de un id ad de p ro ce sa m ie n to de g rá fico s (G P U ) q u e han e n co n tra d o u n a po pu la rid a d c re c ie n te en la rea liza c ió n de ta re a s de a p re n d iza je au tom á tico , en p a rtic u la r en la fo rm a co n o c id a co m o redes ne u ro n a le s p ro fu n d a s (D N N ). Los e je m p lo s de la d e sc rip c ió n pu eden e m p le a r e l ap re n d iza je a u to m á tico b a sad o en G P U , ta l co m o el que se d e sc rib e en "G P U -B a se d D eep Le arn ing In fe rence : A P e rfo rm a nce and P ow er A na lys is ", N V id ia W h ite p a p e r, N o v iem b re de 2015, Dahl, e t a l., "M u lti- ta sk N eura l N e tw o rks fo r Q S A R P red ic tio ns ", Dept. o f C o m p u te r S c ie nce , Univ. de T o ron to , Ju n io de 2014 (a rX iv :1406.1231 [s ta t.M L ]). T a m b ié n se p u ed en e n c o n tra r té c n ic a s de a p re n d iza je au to m á tico a p lica b le s a e je m p lo s de la d e sc rip c ió n en , e n tre o tras re fe re nc ias , L ibb rech t, e t a l., "M a ch in e le a rn ing a p p lica tio n s in g e n e tics and g e n o m ics ", Nature Reviews: Genetics, V ol. 16, Ju n io de 2015 , K ashyap , e t a l., "B ig D a ta A n a ly tic s in B io in fo rm a tics : A M ach in e Le a rn ing P e rsp ec tive ", Journal of Latex Class Files, V o l. 13, No. 9, S ep t. 2014 , P rom p ram o te , e t a l., "M a ch in e Le arn ing in B io in fo rm a tics ", C a p ítu lo 5 de B io in fo rm a tics T e ch n o lo g ie s , pág. 117 -153 , S p rin g e r B erlin H e ide lb e rg 2005.

D iseño de ce p a s ite ra tivo p re d ic tivo : E jem plo

A c o n tin u a c ió n se p ro p o rc io n a u n a ap lica c ió n de e je m p lo de l f lu jo de tra b a jo de l d ise ñ o de ce p a s p re d ic tivo ite ra tivo d e sc rito an tes.

S e p re pa ró un co n ju n to in ic ia l de va r ia b le s de e n tra d a y sa lid a de en tre n a m ie n to . Este co n ju n to c o m p re n d ía 1864 ce p a s tra n s fo rm a d a s ún ica s con una c o m p o s ic ió n g e n é tic a de fin id a . C a d a c e p a c o n te n ía e n tre 5 y 15 c a m b io s de in ge n ie ría . E staban p re se n te s un to ta l de 336 ca m b io s g e n é tico s ún ico s en el en tre n a m ie n to .

S e d e sa rro lló un m od e lo co m p u ta c io n a l p re d ic tivo in ic ia l. La im p le m e n ta c ió n u sa b a un m ode lo linea l g e n e ra liza d o (K e rn e l R idge R e g re ss ion con ke rn e l p o lin o m ia l de o rd en 4). La im p le m e n ta c ió n m o d e liza do s fe n o tip o s d is tin tos (rendimiento y productividad). E stos fe n o tip o s se c o m b in a ro n co m o su m a p o n d e ra d a pa ra o b te n e r una ún ica pu n tu a c ió n pa ra la c la s ifica c ió n , com o se m ue s tra a c o n tin u a c ió n . V a rios p a rá m e tro s de l m ode lo , p. ej. fa c to r de reg u la riza c ió n , se a jus ta ro n m ed ia n te una va lid a c ió n c ru za d a de k ite ra c io nes de los d a to s de e n tre n a m ie n to de s ig n a d o s .

La im p le m e n ta c ió n no in co rp o ra n ingún an á lis is e xp líc ito de los e fe c to s de in te racc ión co m o se d e sc rib e en la secc ión de M ap eo de e p is ta s is an te rio r. S in em b a rg o , co m o c o m p re n d e rá n los e xp e rto s en la té cn ica , el m ode lo linea l g e n e ra liz a d o im p le m e n ta d o pued e c a p tu ra r e fe c to s de in te racc ión im p líc ita m e n te a tra v é s de los té rm in o s de segundo , te rc e r y cu a rto o rd en de l núcleo.

El modelo se entrenó contra el conjunto de entrenamiento. El modelo ajustado tiene un valor de R2 (coeficiente de determinación) de 0,52 con respecto al rendimiento y un valor de R2 de 0,67 con respecto a la productividad. La Figura 46 demuestra un ajuste de calidad significativo del modelo de rendimiento a los datos de entrenamiento.

Se generaron cepas candidatas. Este ejemplo incluye una restricción de construcción en serie asociada con la introducción de nuevos cambios genéticos en una cepa parental (en este ejemplo, solo se diseñó una nueva mutación en una cepa a la vez). Aquí, los candidatos no se consideran simplemente como una función del número deseado de cambios. En cambio, el equipo de análisis 214 seleccionó, como punto de partida, una colección de cepas previamente diseñadas que se sabe que tienen indicadores de alto rendimiento ("cepas de semillas"). El equipo de análisis 214 aplicó cambios genéticos individualmente a cada una de las cepas de semillas. Los cambios genéticos introducidos no incluían los que ya estaban presentes en la cepa de semillas. Por diversas razones técnicas, biológicas o de otro tipo, se requerían explícitamente ciertas mutaciones, p. ej., opca_4, o se excluían explícitamente, p. ej., dss_422. Usando 166 cepas de semillas disponibles y los 336 cambios caracterizados por el modelo, se diseñaron 6239 nuevas cepas candidatas.

Basándose en el modelo, el equipo de análisis 214 predecía el rendimiento de los diseños de cepas candidatas. El equipo de análisis 214 clasificaba los candidatos de "mejor" a "peor" basándose en el rendimiento previsto con respecto a dos fenotipos de interés (rendimiento y productividad). Específicamente, el equipo de análisis 214 usó una suma ponderada para puntuar una cepa candidata:

Puntuación = 0,8 * rendimiento/máx(rendimientos) 0,2 * prod/máx(prods),

donde rendimiento representa el rendimiento previsto para la cepa candidata,

máx(rendimientos) representa el rendimiento máximo de todas las cepas candidatas,

prod representa la productividad de la cepa candidata, y

máx.(prods) representa el rendimiento máximo de todas las cepas candidatas.

El equipo de análisis 214 generó un conjunto final de recomendaciones a partir de la lista clasificada de candidatos imponiendo tanto restricciones de capacidad como restricciones operativas. En este ejemplo, el límite de capacidad se estableció en 48 cepas de diseño candidatas generadas por ordenador. Debido a restricciones operativas, en este ejemplo solo se usó una cepa de semillas por columna de una placa de 96 pocillos. Esto significa que después de que se eligiera una variedad de semillas, se podían generar hasta 8 cambios en esa cepa, pero solo se podían elegir 6 cepas de semillas en una semana dada.

El modelo entrenado (descrito antes) se usó para predecir el rendimiento esperado (para rendimiento y productividad) de cada cepa candidata. El equipo de análisis 214 clasificaba las cepas candidatas usando la función de puntuación dada antes. Se aplicaron restricciones de capacidad y operativas para proporcionar un conjunto filtrado de 48 cepas candidatas. Este conjunto de cepas candidatas filtradas se representa en la Figura 47.

Las cepas candidatas filtradas se construyeron (en la fábrica 210) basándose en un pedido de fábrica generado por el motor de colocación de pedidos 208 (3312). La orden se basaba en las especificaciones de ADN correspondientes a las cepas candidatas. En la práctica, el procedimiento de construcción tiene una tasa de fallos esperada por lo que no se construye un conjunto aleatorio de cepas. Para este ciclo de construcción, aproximadamente 20% de las cepas candidatas fallaron en la compilación, lo que resultó en 37 cepas construidas.

El equipo de análisis 214 se usó para medir el rendimiento real y el rendimiento de la productividad de las cepas seleccionadas. El equipo de análisis 214 evaluaba el modelo y recomendaba las cepas basándose en tres criterios: precisión del modelo; mejora en el rendimiento de la cepa; y equivalencia (o mejora) con diseños generados por expertos humanos.

Se midieron los fenotipos de rendimiento y productividad para las cepas recomendadas y se compararon con los valores previstos por el modelo. Como se muestra en la Figura 48, el modelo demuestra una utilidad predictiva útil. En particular, los valores de rendimiento previstos para las cepas recomendadas tienen un coeficiente de correlación de Pearson-r de 0,59 con las observaciones correspondientes.

A continuación, el equipo de análisis 214 calculaba el cambio de rendimiento en porcentaje de la cepa parental para cada una de las cepas recomendadas. Estos datos se muestran en la Figura 49 (en gris claro). Los autores de la invención encontraron que muchas de las cepas previstas de hecho presentaban las ganancias de rendimiento esperadas con respecto a sus progenitoras inmediatas. En particular, la cepa mejor prevista mostró una mejora de 6% en el rendimiento con respecto a su progenitora inmediata.

En paralelo al procedimiento de diseño de cepas basado en modelos descrito anteriormente, un experto humano diseñó de forma independiente una colección de 48 cepas. De estas cepas, 37 se construyeron y ensayaron con éxito. Estos datos demostraban que los diseños de cepas basados en modelos se comportaban de manera comparable a las cepas diseñadas por expertos humanos. Estos expertos son científicos altamente capacitados (p. ej., nivel de doctorado) empleados o contratados por el cesionario de la presente descripción, y están familiarizados con los ejemplos de esta descripción. Para comparar los dos métodos, los autores de la invención primero inspeccionaron las distribuciones de rendimiento de cada grupo (Figura 50). En este experimento, el rendimiento medio de las cepas basadas en modelos mostró un aumento de 1% con respecto a los diseños generados por expertos humanos.

Después los autores de la invención compararon cepas diseñadas por expertos humanos y diseñadas por modelos computacionales agrupadas por contextos, es decir, cepas nuevas con el mismo progenitor (Figura 51). De nuevo, los autores de la invención encontraron que los diseños generados por ordenador funcionan de manera comparable, y en algunos casos mejor que los diseños generados por expertos humanos, y además tienden a producir menos variabilidad. Finalmente, los autores de la invención compararon el cambio en porcentaje con respecto a las cepas parentales del experto humano y las cepas diseñadas por modelos (Figura 49). Una vez más, estas poblaciones mostraron ganancias comparables.

Véase la Tabla 4.1 para las estadísticas resumidas tabuladas.

T a b la 4.1. Estadísticas de rendimiento medidas para cepas diseñadas por el modelo predictivo y por una referencia humana experta.

Al final de cada ronda del ciclo de predicción ^ construcción ^ ensayo, los autores de la invención estaban interesados en evaluar la calidad de las predicciones del modelo e incorporar de forma iterativa nuevos datos en el modelo previo. Para la evaluación del modelo anterior, los autores de la invención se centraron en medir la precisión predictiva comparando las predicciones del modelo con las mediciones experimentales. La precisión predictiva se puede evaluar mediante varios métodos, que incluyen un coeficiente de correlación que indica la fuerza de la asociación entre los valores previstos y observados, o el error cuadrático medio, que es una medida del error promedio del modelo.

A lo largo de muchas rondas de experimentación, las predicciones del modelo pueden derivar y se pueden añadir nuevos cambios genéticos a las entradas de entrenamiento para mejorar la precisión predictiva. Para este ejemplo, se añadieron cambios de diseño y su rendimiento resultante al modelo predictivo (3316).

D is e ñ o e in g e n ie r ía g e n ó m ic a c o m o s e rv ic io

En ejemplos de la descripción, el software 3210 del sistema LIMS de la Figura 32 se puede implementar en un sistema informático en la nube 3202 de la Figura 32, para permitir que múltiples usuarios diseñen y construyan cepas microbianas de acuerdo con los ejemplos de la presente descripción. La figura 32 ilustra un entorno de computación en la nube 3204 de acuerdo con ejemplos de la presente descripción. Los ordenadores clientes 3206, tales como los ilu s trad os en la F igu ra 32, acce de n al s is te m a LIM S a tra v é s de una red 3208, ta l com o In te rne t. En e jem p los , el so ftw a re de ap lica c ió n de l s is te m a LIM S 3210 res ide en el s is te m a in fo rm á tico en la nube 3202. El s is te m a LIM S pu ede u s a r uno o m ás s is te m a s in fo rm á tico s q u e usan uno o m ás p ro ce sa d o re s , de l t ip o ilu s trad o en la F igu ra 32. El p rop io s is te m a in fo rm á tico en la nube in c luye un a in te rfaz de red 3212 pa ra in te rco n e c ta r las a p lica c io n e s de l s is te m a LIM S 3210 con los o rd e n a d o re s c lie n te s 3206 a tra v é s de la red 3208. La in te rfaz de red 3212 pu e d e in c lu ir u n a in te rfa z de p ro g ra m a c ió n de ap lica c io n e s (A P I) pa ra p e rm itir q u e las ap lica c io n e s c lie n te en los o rd e n a d o re s c lie n te 3206 accedan al so ftw a re de l s is te m a LIM S 3210. En pa rticu la r, a tra vé s de la A P I, los o rd e n a d o re s c lie n te s 3206 pu eden a c c e d e r a co m p o n e n te s de l s is te m a LIM S 200, in c luye nd o , sin lim itac ión , el so ftw a re q u e e je cu ta la in te rfa z de e n tra d a 202, el in té rp re te 204, el m o to r de e je cu c ió n 207, el m o to r de co lo ca c ió n de p e d id o s 208, la fá b ric a 210, a s í co m o el e q u ipo de e n sa yo 212 y e q u ip o de an á lis is 214. Un so ftw a re co m o m ódu lo de so ftw a re de se rv ic io (S aa S ) 3214 o fre ce el so ftw a re de l s is te m a LIM S 3210 co m o un se rv ic io a los o rd e n a d o re s c lie n te s 3206. Un m ód u lo de g e s tión de la nube 3216 g e s tio n a el acce so al s is te m a LIM S 3210 p o r los o rd e n a d o re s c lie n te s 3206. El m ódu lo de g e s tión de la nube 3216 pued e p e rm itir u n a a rq u ite c tu ra de nube qu e e m p le a a p lica c io n e s de m ú ltip le s usu a rios , v ir tu a liza c ió n u o tras a rq u ite c tu ra s co n o c id a s en la té c n ic a p a ra se rv ir a m ú ltip le s usuarios .

A u to m a t iz a c ió n g e n ó m ic a

La au to m a tiza c ió n de los m é to d o s de la p re se n te d e sc rip c ió n pe rm ite el c rib a d o fe n o típ ico de a lta ca p a c id a d y la id en tificac ió n de p ro d u c to s d ia n a de m ú ltip le s v a r ia n te s de ce p a s de e n sa yo s im u ltá n e a m e n te .

La p la ta fo rm a de m od e lizac ión p re d ic tiva de in g e n ie ría g e n ó m ic a an tes m e n c io n a d a se b a sa en el hecho de qu e se c o n s tru ye n c ie n to s y m iles de ce p a s m u tan tes de u n a m an e ra de a lta ca p a c id a d . Los s is te m a s rob ó tico s e in fo rm á tico s q u e se d e sc rib e n a co n tin u a c ió n son los m e ca n ism o s e s tru c tu ra le s m ed ia n te los cu a le s se pu e d e lle va r a c a b o d icho p ro ce d im ie n to de a lta ca p a c id a d .

En a lg u n o s e jem p los , la p re se n te d e sc rip c ió n e n se ñ a m é tod os p a ra m e jo ra r las p ro d u c tiv id a d e s de la cé lu la ho sp e d a n te o re h a b ilita r ce p a s in du s tria le s . C o m o pa rte de es te p ro ce d im ie n to , la p re se n te d e sc rip c ió n e n se ñ a m é tod os pa ra e n s a m b la r A D N , c o n s tru ir nuevas cep as , c r ib a r c u ltivo s en p laca s y c r ib a r cu ltivo s en m od e los pa ra fe rm e n ta c ió n en ta n q u e . En a lgu nos e jem p los , la p re se n te d e sc rip c ió n e n se ñ a qu e uno o m ás de los m é tod os an tes m e n c io n a d o s pa ra c re a r y e n s a y a r nuevas ce p a s h o sp e d a n te s es a s is tido p o r ro b ó tica a u tom a tiza da .

En a lgu nos e jem p los , la p re se n te d e sc rip c ió n e n se ñ a un a p la ta fo rm a de tra n s fo rm a c ió n de ce p a s de a lta ca p a c id a d co m o se m u e s tra en la F igu ra 6A -B o F igu ra 26.

Sistemas robóticos de HTP

En a lg u n o s e jem p los , los m é tod os a u to m a tiza d o s de la d e sc rip c ió n co m p re n d e n un s is te m a robó tico . Los s is tem a s d e sc rito s en el p re se n te d o cu m e n to se d ir ige n en g e n e ra l al uso de p laca s de m ic ro titu la c ió n de 96 o 384 poc illos , pe ro co m o a p re c ia rá n los e xp e rto s en la té cn ica , se pued e u s a r c u a lq u ie r nú m ero de p laca s o co n fig u ra c io n e s d ife re n te s . A d e m á s , c u a lq u ie ra o to d a s las e ta pas d e sc rita s en el p re se n te d o cu m e n to se pu ed en au to m a tiza r; p o r lo tan to , p o r e jem p lo , los s is te m a s pu ed en e s ta r to ta l o p a rc ia lm e n te au to m a tiza d o s .

En a lg u n o s e je m p lo s , los s is te m a s a u to m a tiza d o s de la p re se n te d e sc rip c ió n co m p re n d e n uno o m ás m ód u los de tra b a jo . P o r e je m p lo , en a lg u n o s e jem p los , e l s is te m a a u to m a tiza d o de la p re se n te d e sc rip c ió n co m p re n d e un m ódu lo de s ín tes is de A D N , un m ód u lo de c lo n a c ió n de ve c to re s , un m ódu lo de tra n s fo rm a c ió n de cep as , un m ódu lo de c rib ad o y un m ód u lo de se cu e n c ia c ió n (véa se la F igu ra 7).

C o m o a p rec ia rán los e xp e rto s en la té cn ica , un s is te m a a u to m a tiza d o pued e in c lu ir u n a a m p lia v a rie d a d de com p o n e n te s , q u e in c luyen , pe ro no se lim itan a: m a n ip u la d o re s de líqu id os ; uno o m ás b ra zos robó ticos; m a n ip u la d o re s de p laca s pa ra el p o s ic io n a m ie n to de las m ic ro p la cas ; se lla d o re s de p lacas, p e rfo ra d o re s de p lacas, m a n ip u la d o re s a u to m a tiza d o s de ta p a s pa ra q u ita r y re e m p la za r las ta p a s pa ra los po c illo s en p laca s sin c o n ta m in a c ió n c ru za d a ; c o n ju n to s de p u n tas d e se ch a b le s pa ra d is tr ib u c ió n de m u e s tra s con pu n tas d e se ch a b le s ; c o n ju n to s de pu n tas la vab les pa ra d is tr ib u c ió n de m ue s tra s ; b loq ues de c a rg a de 96 poc illo s ; te rm o c ic la d o re s in te g ra dos ; g ra d illa s de rea c tivos re fr ig e ra dos ; p o s ic io n e s de las p ipe ta s de la p la ca de m ic ro titu la c ió n (op c io na lm en te re fr ig e ra d a s ); to rre s de a p ila m ie n to de p laca s y p u n tas ; e s ta c io n e s de p ro ce sa m ie n to de pe rla s m a g n é tica s ; s is tem a s de filtra c ió n ; ag ita d o re s de p laca s ; le c to res y a p lica d o re s de có d ig o s de ba rras ; y s is te m a s in fo rm á tico s .

En a lg u n o s e jem p los , los s is te m a s rob ó tico s de la p re se n te d e sc rip c ió n in c luyen m a n ip u la d o re s a u to m a tiza d o s de líqu id os y p a rtícu la s q u e pe rm ite e l p ipe te o de a lta ca p a c id a d p a ra re a liza r to d o s las e ta pas en e l p ro ce d im ie n to de a p lica c io n e s de reco m b in a c ió n y d ire cc io n a m ie n to de ge ne s . E sto in c luye m a n ip u la c io n e s de líqu idos y p a rtícu la s ta le s co m o asp ira c ión , d isp e n sa c ió n , m ezc la , d iluc ión , lavado, tra n s fe re n c ia s v o lu m é tr ica s p re c isa s ; re cu p e ra r y d e s c a rta r p u n tas de p ipe ta ; y p ipe te o rep e titivo de vo lú m e n e s idén ticos p a ra m ú ltip le s s u m in is tro s a p a rtir de u n a ún ica asp ira c ión de m uestra . E stas m a n ip u la c io n e s son tra n s fe re n c ia s de líqu idos , p a rtícu las , cé lu la s y o rg a n ism o s e xe n ta s de c o n ta m in a c ió n c ruza da . Los in s tru m e n to s rea liza n la rep lica c ió n a u to m a tiz a d a de m u e s tra s de m ic ro p la ca s en filtros , m em b ra n a s y /o p laca s hija, tra n s fe re n c ia s de a lta d e ns idad , d ilu c io n e s en se rie de p la ca c o m p le ta y o p e ra c ió n de a lta ca p a c id a d .

En a lgu nos e jem p los , e l s is te m a de m an ip u la c ión de líqu id os a u to m a tiza d o p e rso n a liza d o de la d e sc rip c ió n es una m á q u in a T E C A N (p. e j., u n a T E C A N F reedom Evo p e rso n a liza d a ).

En a lgu nos e jem p los , los s is te m a s a u to m a tiza d o s de la p re se n te d e sc rip c ió n son c o m p a tib le s con p la ta fo rm a s pa ra p laca s de m ú ltip le s po c illos , p laca s de po c illo s p ro fu nd os , p laca s de po c illo s cu a d ra d o s , d e p ó s ito s de reac tivos , tub os de en sayo , m in itub os , tu b o s de m ic ro cen trífu ga , c rio v ia les , f iltros , ch ip s de m ic ro m a trice s , f ib ra s óp ticas , pe rlas , ge les de a g a ro sa y a c rila m id a y o tra s m a trice s o p la ta fo rm a s en fa se só lid a se a lo ja n en u n a p la ta fo rm a m o d u la r ac tu a lizab le . En a lg u n o s e je m p lo s , los s is te m a s a u to m a tiza d o s de la p re se n te d e sc rip c ió n co n tie n e n al m en os u n a p la ta fo rm a m o d u la r p a ra su p e rfic ie s de tra b a jo de m ú ltip le s p o s ic io n e s p a ra p o n e r m u e s tra s fu e n te y de sa lida , reac tivos , d iluc ión de m ue s tra s y reac tivos , p laca s de en sayo , d e p ó s ito s de m u e s tra s y reac tivos , p u n tas de p ip e ta y un e s ta c ió n de la vad o de pu n tas activa .

En a lg u n o s e jem p los , los s is te m a s a u to m a tiza d o s de la p re se n te d e sc rip c ió n in c luyen s is te m a s de e le c tro p o ra c ió n de a lta ca p a c id a d . En a lgu nos e jem p los , los s is te m a s de e le c tro p o ra c ió n de a lta ca p a c id a d son c a p a ce s de tra n s fo rm a r cé lu la s en p laca s de 96 o 384 po c illo s . En a lg u n o s e jem p los , los s is te m a s de e le c tro p o ra c ió n de a lta ca p a c id a d in c luye n los s is te m a s de e le c tro p o ra c ió n de a lta ca p a c id a d V W R ® , B TX ™ , B io -R a d ® G en e P u lse r M X ce ll™ u o tro s is te m a de e le c tro p o ra c ió n de m ú ltip le s poc illos .

En a lg u n o s e jem p los , el te rm o c ic la d o r in te g ra do y /o los reg u la d o re s té rm ic o s se usan pa ra e s ta b iliz a r la te m p e ra tu ra de in te rca m b ia d o re s de ca lo r, ta le s co m o b lo q u e s o p la ta fo rm a s co n tro la d o s , pa ra p ro p o rc io n a r con tro l de te m p e ra tu ra p re c iso de las m ue s tra s en in cub ac ió n de 0°C a 100°C .

En a lg u n o s e jem p los , los s is te m a s a u to m a tiza d o s de la p re se n te d e sc rip c ió n son co m p a tib le s con ca b e za le s de m á q u in a in te rca m b ia b le s (de uno o m ú ltip le s c a n a le s ) con un a o m ú ltip le s son da s m ag né ticas , son da s de a fin idad , re p lica d o re s o p ip e te a d o re s , c a p a ce s de m a n ip u la r de m a n e ra rob ó tica líqu idos, p a rtícu las , cé lu la s y o rg a n ism o s m u ltice lu la res . Las s e p a ra d o re s m a g n é tico s de m ú ltip le s p o c illo s o m ú ltip le s tu b o s y las e s ta c io n e s de filtrac ión m an ip u la n líqu idos, p a rtícu las , cé lu la s y o rg a n ism o s en fo rm a to s de m u e s tra in d iv id u a le s o m ú ltip les .

En a lg u n o s e jem p los , los s is te m a s a u to m a tiza d o s de la p re se n te d e sc rip c ió n son c o m p a tib le s con s is te m a s de v is ión p o r cá m a ra y /o esp e c tró m e tro . P o r lo tan to , en a lgu nos e jem p los , los s is te m a s a u to m a tiza d o s de la p re sen te d e sc rip c ió n son ca p a ce s de d e te c ta r y re g is tra r ca m b io s de c o lo r y a b so rc ión en cu ltivo s c e lu la re s en cu rso .

En a lg u n o s e jem p los , e l s is te m a a u to m a tiza d o de la p re se n te d e sc rip c ió n e s tá d ise ñ a d o pa ra s e r f le x ib le y ad ap ta b le con m ú ltip le s co m p le m e n to s de ha rdw are pa ra p e rm itir que e l s is te m a lleve a ca b o m ú ltip le s a p lica c io n e s . Los m ódu los de l p ro g ra m a de so ftw a re pe rm iten la c rea c ió n , m od ifica c ión y e je cu c ió n de m é todos . Los m ó d u lo s de d ia g n ó s tico de l s is te m a p e rm iten la co n fig u ra c ió n , a lin e a m ie n to de in s tru m e n to s y o p e ra c io n e s de l m o to r. Las h e rram ie n tas p e rso n a liza d a s , e l m a te ria l de la bo ra to rio y los p a tro n e s de tra n s fe re n c ia de líqu idos y pa rtícu las pe rm iten p ro g ra m a r y re a liza r d ife re n te s a p lica c io n e s . La ba se de d a to s pe rm ite el a lm a ce n a m ie n to de m é tod os y p a rám e tro s . Las in te rfa ce s rob ó tica s y de o rd e n a d o r pe rm iten la c o m u n ica c ió n e n tre in s tru m en to s .

P or lo ta n to , en a lg u n o s e jem p los , la p re se n te d e sc rip c ió n e n se ñ a un a p la ta fo rm a de tra n s fo rm a c ió n de ce p a s de a lta c a p a c id a d , co m o se m u e s tra en la F igu ra 26.

Las pe rso n a s con e x p e rie n c ia en la té c n ic a reco no ce rán las d ive rsa s p la ta fo rm a s rob ó tica s ca p a ce s de lle va r a cab o los m é tod os de in g e n ie ría de H TP de la p re se n te de sc rip c ió n . La T a b la 5 a co n tin u a c ió n p ro p o rc io n a u n a lis ta no e xc lu s iv a de e q u ipo c ie n tífico ca p a z de lle va r a ca b o c a d a e ta p a de las e ta p a s de in ge n ie ría de H TP de la p re sen te d e sc rip c ió n co m o se d e sc rib e en la F igu ra 26.

T a b la 5 - L is ta no e xc lu s iva de e q u ip o c ie n tífico c o m p a tib le con los m é tod os de in ge n ie ría de H TP de la p re sen te d e sc rip c ió n

Hardware del sistema informático

La F igu ra 34 ilu s tra un e je m p lo de un s is te m a in fo rm á tico 800 que se pu ede u s a r pa ra e je c u ta r c ó d ig o de p ro g ra m a a lm a ce n a d o en un m ed io leg ib le p o r o rd e n a d o r no tra n s ito r io (p. e j., m em o ria ) de acu e rd o con e je m p lo s de la d e sc rip c ió n . El s is te m a in fo rm á tico in c luye un s u b s is te m a de e n tra d a /s a lid a 802, qu e se pu e d e u s a r pa ra in te ra c tu a r con u su a rio s hu m a n o s y/u o tros s is te m a s in fo rm á tico s d e p e n d ie n d o de la ap lica c ió n . El su b s is te m a de E/S 802 puede inc lu ir, p. e j., un te c la d o , ratón, in te rfaz g rá fic a de usu ario , p a n ta lla tá c til u o tra s in te rfa ce s pa ra la e n tra d a y, p. e j., un LED u o tra p a n ta lla p lana , u o tras in te rfa ces p a ra la sa lida , in c luye nd o in te rfa ce s de p ro g ra m a s de a p lica c ió n (API). O tro s e le m e n to s de los e je m p lo s de la de sc rip c ió n , ta le s co m o los co m p o n e n te s de l s is te m a LIM S, se pueden im p le m e n ta r con un s is te m a in fo rm á tico ta l co m o el de l s is te m a in fo rm á tico 800.

El c ó d ig o de p ro g ra m a se pued e a lm a ce n a r en m ed io s no tra n s ito r io s ta le s co m o el a lm a ce n a m ie n to p e rs is te n te en la m e m o ria s e cu n d a ria 810 o en la m e m o ria p rinc ip a l 808 o en am bas. La m e m o ria p rinc ip a l 808 pued e in c lu ir m em o ria v o lá til ta l co m o m e m o ria de acce so a le a to rio (R A M ) o m e m o ria no vo lá til ta l co m o m e m o ria de so lo le c tu ra (R O M ), a s í co m o d ife re n te s n ive le s de m e m o ria ca ch é pa ra acce so m ás ráp ido a in s tru cc io n e s y da tos. La m e m o ria s e cu n d a ria pu e d e in c lu ir a lm a ce n a m ie n to p e rs is te n te ta le s co m o u n id a d e s de e s ta d o só lido , un id ade s de d isco du ro o d iscos óp ticos . U n o o m ás p ro ce sa d o re s 804 leen el cód ig o de p ro g ra m a de uno o m ás m ed ios no tra n s ito r io s y e je cu ta n el c ó d ig o pa ra p e rm itir que el s is te m a in fo rm á tico lleve a cab o los m é tod os rea liza do s po r los e je m p lo s de l p re sen te do cu m e n to . Los e xp e rto s en la té c n ic a c o m p re n d e rá n que e l o los p ro ce sa d o re s p u ed en a s im ila r el c ó d ig o fu e n te e in te rp re ta r o c o m p ila r e l c ó d ig o fu e n te en c ó d ig o de m áq u in a q u e se a c o m p re n s ib le en el n ive l de p u e rta de ha rdw are de l o de los p ro ce sa d o re s 804. El o los p ro ce sa d o re s 804 pu ed en in c lu ir u n id a d e s de p ro ce sa m ie n to de g rá fico s (G P U ) pa ra m a n e ja r ta re a s c o m p u ta c io n a lm e n te in tensas. En p a rtic u la r en el a p re n d iza je au tom á tico , un a o m ás C P U 804 pu ed en d e s c a rg a r e l p ro ce sa m ie n to de g ra n d e s ca n tid a d e s de d a to s a una o m ás G P U 804.

El o los p ro ce sa d o re s 804 se pu ed en co m u n ic a r con redes e x te rn a s a tra vé s de una o m ás in te rfa ces de c o m u n ica c ió n 807, ta l co m o un a ta r je ta de in te rfa z de red, un tra n s c e p to r W iF i, e tc . Un bus 805 a co p la c o m u n ica tiva m e n te el s u b s is te m a de E/S 802, e l o los p ro ce sa d o re s 804, los d isp o s itivo s p e rifé rico s 806, las in te rfa ce s de c o m u n ica c io n e s 807, la m e m o ria 808 y el a lm a ce n a m ie n to p e rs is te n te 810. Los e je m p lo s de la d e sc rip c ió n no se lim itan a es ta a rq u ite c tu ra rep re se n ta tiva . E je m p lo s a lte rn a tivo s pu ed en e m p le a r d ife re n te s d isp o s ic io n e s y tip o s de co m p on en te s , p. e j., bu ses se p a ra d o s p a ra co m p o n e n te s de e n tra d a -sa lid a y su b s is te m a s de m em oria .

Los e xp e rto s en la té c n ic a c o m p re n d e rá n que a lg u n o s o to d o s los e le m e n to s de los e je m p lo s de la d e sc rip c ió n , y las o p e ra c io n e s q u e los a co m pa ñan , p u ed en s e r im p le m e n ta d o s to ta l o p a rc ia lm e n te p o r uno o m ás s is te m a s in fo rm á tico s qu e in c luye n uno o m ás p ro ce sa d o re s y uno o m ás s is te m a s de m e m o ria co m o los de l s is te m a in fo rm á tico 800. En pa rticu la r, los e le m e n to s de l s is te m a LIM S 200 y c u a lq u ie r ro b ó tica y o tros s is te m a s o d isp o s itivo s au to m a tiza d o s d e sc rito s en el p re se n te d o cu m e n to se pu ed en im p le m e n ta r p o r o rd e n a d o r. A lg u n o s e le m e n to s y fu n c io n a lid a d e s se pu ed en im p le m e n ta r lo ca lm e n te y o tros se p u ed en im p le m e n ta r de una fo rm a d is tr ib u id a a lo la rgo de una red a tra vé s de d ife re n te s se rv ido re s , p. e j., en fo rm a c lie n te -se rv id o r, p o r e je m p lo . En pa rticu la r, se pu e d e h a ce r que las o p e ra c io n e s de l lado de l se rv id o r es té n d isp o n ib le s p a ra m ú ltip le s c lie n te s en un m odo de so ftw a re co m o se rv ic io (S aaS ), co m o se m ue s tra en la F igu ra 32.

El té rm in o c o m p o n e n te en es te co n te x to se re fie re a m p lia m e n te a un c o m p o n e n te de so ftw a re , ha rd w a re o f irm w a re (o c u a lq u ie r c o m b in a c ió n de los m ism os). Los co m p o n e n te s típ ic a m e n te son c o m p o n e n te s fu n c io n a le s q u e pueden g e n e ra r d a to s ú tiles u o tros resu ltad os u sa nd o la o las e n tra d a s esp e c ifica d a s . Un c o m p o n e n te pued e s e r a u tóno m o o no. Un p ro g ra m a de a p lica c ió n (tam b ién llam ado u n a "a p lica c ió n ") pued e in c lu ir uno o m ás com p o n e n te s , o un c o m p o n e n te pued e in c lu ir uno o m ás p ro g ra m a s de ap licac ión .

A lg u n o s e je m p lo s in c luyen a lgu nos , to d o s o n ing uno de los co m p o n e n te s ju n to con o tro s m ód u los o co m p o n e n te s de la a p lica c ió n . S in em b a rg o , va r io s e je m p lo s p u ed en in c o rp o ra r do s o m ás de es to s co m p o n e n te s en un so lo m ódu lo y /o a s o c ia r u n a pa rte de la fu n c io n a lid a d de uno o m ás de es to s c o m p o n e n te s con un c o m p o n e n te d ife ren te .

El té rm in o "m e m o ria " pued e s e r c u a lq u ie r d isp o s itivo o m e ca n ism o usa do pa ra a lm a ce n a r in fo rm ac ió n . De acu e rd o con a lgu nos e je m p lo s de la p re se n te d e sc rip c ió n , la m em o ria p re te n d e a b a rc a r c u a lq u ie r t ip o de , pe ro no se lim ita a: m e m o ria vo lá til, m e m o ria no v o lá til y m e m o ria d iná m ica . P o r e jem p lo , la m e m o ria pu ede s e r m e m o ria de acce so a lea to rio , d isp o s itivo s de a lm a ce n a m ie n to de m em oria , d isp o s itivo s de m e m o ria óp tica , m ed ios m ag né ticos , d isqu e tes , c in ta s m ag né ticas , d iscos du ros , S IM M , S D R A M , D IM M , R D R A M , D D R R AM , S O D IM M S , m em o ria s de so lo le c tu ra p ro g ra m a b le s y b o rra b le s (E P R O M ), m em o rias de so lo le c tu ra p ro g ra m a b le s y bo rrab les e lé c tr ica m e n te (E E P R O M ), d isco s co m p a c to s , D VD y /o s im ila re s . De acu e rd o con a lg u n o s e jem p los , la m e m o ria pued e in c lu ir un a o m ás un id ade s de d isco , un id ade s flash , ba ses de da tos , m em o rias ca ch é loca l, m em o ria s ca ch é de p ro cesa do r, b a se s de da tos re lac io na les , b a se s de d a to s p lanas, se rv ido re s , p la ta fo rm a s ba sa d a s en la nube y /o s im ila re s . A de m ás , los exp e rto s en la té c n ic a a p rec ia rán q u e se pu eden u s a r co m o m e m o ria m uch os d isp o s itivo s y té c n ic a s a d ic io n a le s pa ra a lm a c e n a r in fo rm ac ió n .

L a m e m o ria se pu ed e u sa r pa ra a lm a ce n a r in s tru cc io n e s pa ra e je c u ta r u n a o m ás a p lica c io n e s o m ód u los en un p ro ce sa d o r. P o r e jem p lo , la m e m o ria se p o d ría u s a r en a lg u n o s e je m p lo s p a ra a lb e rg a r to d a s o a lg u n a s de las in s tru cc io n e s n e ce sa ria s pa ra e je c u ta r la fu n c io n a lid a d de uno o m ás de los m ód u los y /o a p lica c io n e s q u e se de sc rib e n en e s ta so lic itud .

In g e n ie r ía d e c e p a s m ic ro b ia n a s d e H TP b a s a d a e n p re d ic c io n e s d e d is e ñ o g e n é tic o : u n f lu jo d e t ra b a jo d e e je m p lo

En a lg u n o s e jem p los , la p re se n te d e sc rip c ió n e n se ñ a la in g e n ie ría d ir ig id a de nuevos o rg a n ism o s h o sp e d a n te s b a sad a en las re c o m e n d a c io n e s de los s is te m a s de an á lis is c o m p u ta c io n a l de la p re se n te de sc rip c ió n .

En a lg u n o s e jem p los , la p re se n te de sc rip c ió n es c o m p a tib le con to d o s los m é tod os de c lo n a c ió n y de d ise ñ o gené tico . Es de c ir, en a lg u n o s e jem p los , la p re se n te d e sc rip c ió n e n s e ñ a e l uso de té c n ic a s de c lo n a c ió n tra d ic io n a le s ta le s co m o reacc ión en ca d e n a de la po lim e rasa , d ig e s tio n e s con e n z im a s de res tricc ión , ligac ión , reco m b in a c ió n hom ó loga , RT P C R y o tro s g e n e ra lm e n te c o n o c id o s en la té c n ic a y se d e sc rib e n , po r e je m p lo , en: S a m b ro o k e t al. (2001) M o le cu la r C lon ing : A L a b o ra to ry M anua l (3a ed ., C o ld S pring H a rb o r L a b o ra to ry P ress, P la inv iew , N u eva Y ork). En a lg u n o s e jem p los , las s e cu e n c ia s c lo n a d a s p u ed en in c lu ir p o s ib ilid a d e s de cu a lq u ie ra de las b ib lio te ca s de d iseño g e n é tico de H TP que se en se ñ a n en e l p re se n te do cu m e n to , p o r e je m p lo : p ro m o to re s de una b ib lio te ca de in te rcam b io de p ro m o to re s , S N P de u n a b ib lio te ca de in te rca m b io de S N P , co d o n e s de in ic io o p a ra d a de una b ib lio te ca de in te rca m b io de co d o n e s de in ic io /p a ra da , te rm in a d o re s de u n a b ib lio te ca de in te rca m b io de S TO P , m a rca d o re s de so lub ilidad de p ro te ínas de u n a b ib lio te ca de in te rca m b io M A R C A D O R E S DE S O L U B IL ID A D , m a rca d o re s de d e g ra d a c ió n de p ro te ín a s de una b ib lio te ca de in te rca m b io de M A R C A D O R E S DE D E G R A D A C IÓ N u o p tim iza c io n e s de se cu e n c ia de una b ib lio te ca de op tim iza c ió n de secu en c ias .

A d e m á s , las c o m b in a c io n e s de se cu e n c ia s e xa c ta s q u e de b e ría n in c lu irse en u n a co n s tru cc ió n p a rtic u la r pu ed en se r in s tru id as p o r la fu n c ió n de m apeo ep is tá tico .

En o tro s e jem p los , las s e cu e n c ia s c lo n a d a s ta m b ié n pu ed en in c lu ir s e cu e n c ia s ba sa d a s en un d iseñ o rac ion a l (basado en h ipó te s is ) y /o se cu e n c ia s ba sa d a s en o tra s fu e n te s , ta le s co m o p u b lica c io n e s c ie n tíficas .

En a lg u n o s e jem p los , la p re se n te d e sc rip c ió n e n se ñ a m é tod os de in g e n ie ría d irig ida , q u e in c luyen las e ta p a s de i) g e n e ra r A D N e sp e c ífico de S N P hecho a m ed ida , ii) e n s a m b la r p lá sm id o s e sp e c ífico s de S N P , iii) tra n s fo rm a r cé lu la s h o sp e d a n te s d ia n a con A D N e sp e c ífico de S N P , y iv) h a ce r un bu c le de sa lid a con los m a rca d o re s de se le cc ió n (véase la F igu ra 2).

La F igu ra 6A re p re se n ta el flu jo de tra b a jo g e n e ra l de los m é tod os de in g e n ie ría de ce p a s de la p re se n te de sc rip c ión , qu e inc luyen a d q u ir ir y e n s a m b la r A D N , e n s a m b la r vec to re s , tra n s fo rm a r cé lu la s h o sp e d a n te s y e lim in a r m a rca do res de se lecc ió n .

Construcción de oligonucleótidos de ADN específicos

En a lg u n o s e jem p los , la p re se n te d e sc rip c ió n e n se ñ a a in se rta r y /o re e m p la za r y /o a lte ra r y /o e lim in a r un seg m en to de A D N de l o rg a n ism o cé lu la ho spe da n te . En a lgu nos e jem p los , los m é tod os e n se ñ a d o s en el p re se n te do cu m e n to im p lica n la co n s tru cc ió n de un o lig o n u c le ó tid o de in te rés (es dec ir, un se g m e n to de A D N d ian a ), q u e se in co rp o ra rá al g e n o m a de un o rg a n ism o ho spe da n te . En a lg u n o s e jem p los , los s e g m e n to s de A D N d ia n a de la p re se n te d e sc rip c ió n se pu ed en o b te n e r p o r c u a lq u ie r m é tod o c o n o c id o en la técn ica , q u e inc luye : c o p ia r o c o rta r de un m o lde con oc ido , m u tac ión o s ín tes is de A D N . En a lg u n o s e jem p los , la p re se n te d e sc rip c ió n es c o m p a tib le con p ro du c to s de s ín tes is de g e n e s d isp o n ib le s en el m e rca do pa ra p ro d u c ir s e cu e n c ia s de A D N d ia n a (p. e j., G e n e A rt™ , G en eM ake r™ , G en S crip t™ , A n a g e n ™ , B lue H e ron™ , E n te lech on ™ , G eN O sys , Inc. o Q iag en ™ ).

En a lg u n o s e jem p los , e l s e g m e n to de A D N d ia n a se d ise ñ a p a ra in c o rp o ra r un S N P en u n a reg ión de A D N s e le cc io n a d a de l o rg a n ism o h o spe da n te (p. e j., a ñ a d ie n d o un S N P be ne fic ioso ). En o tro s e jem p los , el s e g m e n to de A D N se d is e ñ a pa ra e lim in a r un S N P de l A D N de los o rg a n ism o s h o sp e d a n te s (p. e j., e lim in a r un S N P pe rju d ic ia l o neu tro ).

En a lgu nos e jem p los , los o lig o n u c le ó tid o s u sa do s en los m é tod os de la in ven c ión se pu eden s in te tiz a r u sa nd o cu a lq u ie ra de los m é tod os de s ín te s is e n z im á tica o q u ím ic a co n o c id o s en la té cn ica . Los o lig o n u c le ó tid o s se pueden s in te tiz a r sob re so p o rte s só lido s ta le s co m o v id r io de po ro c o n tro la d o (C P G ), pe rla s de p o lie s tire n o o m em b ran as c o m p u e s ta s de p o lím e ro s te rm o p lá s tic o s q u e pu ed en co n te n e r C P G . Los o lig o n u c le ó tid o s ta m b ié n se pu ed en s in te tiz a r en m a trices , en u n a m ic ro e sca la p a ra le la u sa n d o m ic ro flu id o s (T ian e t al., Mol. BioSyst., 5, 714 -722 (2009)), o te c n o lo g ía s co n o c id a s qu e o frece n c o m b in a c io n e s de am b os (véase Jaco bse n e t al., so lic itud de p a ten te de E E .U U . n22011 /0172127 ).

La s ín tes is en m a trice s o m ed ia n te m ic ro flu id o s o fre ce u n a ve n ta ja sob re la s ín tes is de sop o rte só lido co n ve n c io n a l al re d u c ir cos te s p o r el m e n o r uso de reac tivos . La e s c a la req u e rid a pa ra la s ín tes is de ge ne s es ba ja , p o r lo q u e la e s c a la de l p ro d u c to o lig o n u c le ó tid o s in te tiza d o a p a rtir de m a trice s o m ed ia n te m ic ro flu id o s es ace p tab le . S in em b a rg o , los o lig o n u c le ó tid o s s in te tiza d o s son de m e n o r ca lida d que cu a n d o se usa la s ín te s is de sop o rte só lido (véa se T ian, m ás a d e lan te ; vé a se ta m b ié n S ta e h le r e t a l., so lic itud de p a ten te de E E .U U . n° 2010 /0216648 ).

S e ha lo g ra do un g ran nú m ero de ava n ce s en la q u ím ic a tra d ic io n a l de la fo s fo ra m id ita de cu a tro e ta p a s de sd e que se d e sc rib ió p o r p rim e ra v e z en la d é ca d a de 1980 (véase , p o r e jem p lo , S ie rzcha la , e t al. J. Am. Chem. Soc., 125, 13427-13441 (2003 ) u sa nd o d e sp ro te cc ió n de an io nes pe rox i; H a ya ka w a e t a l., p a ten te de E E .U U . n° 6.040.439 pa ra g ru p o s p ro te c to re s a lte rn a tivo s ; A z h a ye v e t a l., Tetrahedron 57, 4977 -4986 (2001 ) pa ra so p o rte s un ive rsa le s ; K oz lov e t a l., Nucleosides, Nucleotides, and Nucleic Acids, 24 (5-7 ), 1037-1041 (2005 ) pa ra u n a s ín tes is m e jo ra d a de o lig o n u c le ó tid o s m ás la rgos m ed ia n te e l uso de C P G de po ros g ra n d e s ; y D a m ha et a l., NAR, 18, 3813-3821 (1990) pa ra una d e riva tiza c ió n m e jo rada).

In d e p e n d ie n te m e n te de l t ip o de s ín tes is , los o lig o n u c le ó tid o s re su lta n te s p u ed en fo rm a r e n to n ce s b lo q u e s de co n s tru cc ió n m ás p e q u e ñ o s p a ra o lig o n u c le ó tid o s m ás la rgos. En a lgu nos e jem p los , se p u ed en u n ir e n tre sí o lig o n u c le ó tid o s m ás p e q u e ñ o s u sa n d o p ro to co lo s co n o c id o s en la técn ica , ta le s co m o el e n s a m b la je en ca d e n a de la p o lim e ra sa (P C A ), reacc ión en ca d e n a de la ligasa (LC R ) y la s ín te s is de d e n tro ha c ia fu e ra e q u ilib ra d a te rm o d in á m ic a m e n te (T B IO ) (véa se C za r e t al. Trends in Biotechnology, 27, 63-71 (2009 )). En e l PCA, los o lig o n u c le ó tid o s q u e ab a rca n to d a la long itud de l p ro d u c to m ás la rgo d e se a d o se rea soc ian y se e x tie n d e n en m ú ltip les c ic lo s (típ ica m e n te a p ro x im a d a m e n te 55 c ic los ) p a ra lo g ra r f in a lm e n te e l p ro d u c to de long itud com p le ta . La LC R usa la e n z im a ligasa pa ra u n ir dos o lig o n u c le ó tid o s q u e se rea soc ian con un te rc e r o lig o n u c le ó tid o . La s ín tes is T B IO e m p ie za en e l ce n tro de l p ro d u c to d e se a d o y se e x tie n d e p ro g re s iva m e n te en a m b a s d ire cc io n e s u sa nd o o lig o n u c le ó tid o s que se so lapan qu e son ho m ó lo g o s de la ca d e n a d ire c ta en el e x tre m o 5' de l gen y c o n tra la ca d e n a in ve rsa en el e x tre m o 3' de l gen.

O tro m é tod o pa ra s in te tiz a r un fra g m e n to de A D N b ica te n a rio m ás g ra n d e es c o m b in a r o lig o n u c le ó tid o s m ás p e qu eñ os p o r PC R de ca d e n a s u p e rio r (TS P ). En e s te m é todo , u n a p lu ra lid ad de o lig o n u c le ó tid o s se e x tie n d e en to d a la long itud de un p ro d u c to d e se a d o y co n tie n e reg io nes q u e se so lap an con el o los o lig o n u c le ó tid o s ad ya ce n te s . La am p lifica c ió n se pu ede re a liza r con c e b a d o re s d ire c to s e in ve rso s u n ive rsa le s y, m ed ia n te m ú ltip le s c ic lo s de a m p lif ica c ió n se fo rm a un p ro d u c to de A D N b ica te n a rio de long itud co m p le ta . Este p ro d u c to d e sp u é s se pued e s o m e te r a co rre cc ió n de e rro re s op c io n a l y am p lif ica c ió n a d ic io n a l q u e da co m o resu ltad o e l fra g m e n to de A D N b ica te n a rio d e se a d o p ro du c to fina l.

En un m é tod o de T S P , e l co n ju n to de o lig o n u c le ó tid o s m ás p e q u e ñ o s q u e se c o m b in a rá n p a ra fo rm a r el p ro du c to d e se a d o de lo ng itud co m p le ta t ie n e e n tre 40 -200 ba ses de la rgo y se so lap an e n tre s í en al m en os a p ro x im a d a m e n te 15 -20 bases. P ara fin e s p rá c ticos , la reg ión de s o la p a m ie n to d e b e s e r com o m ín im o lo su fic ie n te m e n te la rga pa ra a s e g u ra r la rea soc iac ió n e s p e c ífic a de los o lig o n u c le ó tid o s y te n e r una te m p e ra tu ra de fu s ió n (Tm) su fic ie n te m e n te a lta p a ra la rea soc iac ió n a la te m p e ra tu ra de reacc ión e m p le a d a . El s o la p a m ie n to se pu e d e e x te n d e r hasta el pun to d o n d e un o lig o n u c le ó tid o da do se so lap a co m p le ta m e n te con o lig o n u c le ó tid o s ad ya ce n te s . La ca n tid a d de s o la p a m ie n to no p a rece te n e r n ingún e fe c to sob re la ca lida d de l p ro d u c to fina l. El p r im e r y ú ltim o b loq ue de co n s tru cc ió n de o lig o n u c le ó tid o s en el e n sa m b la je de be n co n te n e r s itio s de un ió n pa ra c e b a d o re s de a m p lif ica c ió n d ire c to s e inve rsos . En un e je m p lo , la s e c u e n c ia de l e x tre m o te rm in a l de l p r im e r y ú ltim o o lig o n u c le ó tid o co n tie n e la m ism a se cu e n c ia de co m p le m e n ta rie d a d pa ra p e rm itir e l uso de ce b a d o re s un ive rsa le s .

Ensamblaje/clonación de plásmidos a medida

En a lg u n o s e jem p los , la p re se n te de sc rip c ió n e n se ñ a m é tod os pa ra c o n s tru ir ve c to re s c a p a ce s de in se rta r secc ion es de A D N d ia n a d e se a d a s (p. e j., q u e con tien en un S N P p a rticu la r) en el g e n o m a de los o rg a n ism o s h o spe da n tes . En a lg u n o s e jem p los , la p re se n te d e sc rip c ió n e n se ñ a m é tod os de c lo n a c ió n de ve c to re s que co m p re n d e n e l A D N d iana , b ra zos de h o m o lo g ía y al m en os un m a rca d o r de se lecc ió n (véase la F igu ra 3).

En algunos ejemplos, la presente descripción es compatible con cualquier vector adecuado para la transformación en el organismo hospedante. En algunos ejemplos, la presente descripción enseña el uso de vectores lanzadera compatibles con una célula hospedante. En un ejemplo, un vector lanzadera para usar en los métodos proporcionados en el presente documento es un vector lanzadera compatible con una célula hospedante de E. coli y/o Corynebacterium. Los vectores lanzadera para uso en los métodos proporcionados en el presente documento pueden comprender marcadores para selección y/o contraselección como se describe en el presente documento. Los marcadores pueden ser cualquier marcador conocido en la técnica y/o proporcionado en el presente documento. Los vectores lanzadera pueden comprender además cualquier secuencia o secuencias reguladoras y/o secuencias útiles en el ensamblaje de dichos vectores lanzadera como se conoce en la técnica. Los vectores lanzadera pueden comprender además cualquier origen de replicación que pueda ser necesario para la propagación en una célula hospedante como se proporciona en el presente documento, tal como, por ejemplo, E. coli o C. glutamicum. La secuencia reguladora puede ser cualquier secuencia reguladora conocida en la técnica o proporcionada en el presente documento tal como, por ejemplo, un promotor, inicio, parada, aislante, señal, secuencia de secreción y/o terminación usada por la maquinaria genética de la célula hospedante. En ciertos casos, el ADN diana se puede insertar en vectores, construcciones o plásmidos que se pueden obtener de cualquier repositorio o producto de catálogo, como un vector comercial (véase, p. ej., los vectores ADN2.0 a medida o GATEWAY®). En ciertos casos, el ADN diana se puede insertar en vectores, construcciones o plásmidos que se pueden obtener de cualquier repositorio o producto de catálogo, tal como un vector comercial (véase, por ejemplo, los vectores ADN2.0 a medida o GATEWAY®).

En algunos ejemplos, los métodos de ensamblaje/clonación de la presente descripción pueden emplear al menos una de las siguientes estrategias de ensamblaje: i) clonación convencional de tipo II, ii) clonación mediada por tipo IIS o "Golden Gate" (véase, p. ej., Engler, C., R. Kandzia y S. Marillonnet. "A one pot, one step, precision cloning method with high-throughput capability". PLos One 3:e3647; Kotera, I., y T. Nagai. 2008 "A high-throughput and single-tube recombination of crude PCR products using a DNA polymerase inhibitor and type IIS restriction enzyme." J Biotechnol 137:1-7.; Weber, E., R. Gruetzner, S. Werner, C. Engler, y S. Marillonnet. 2011 "Assembly of Designer TAL Effectors by Golden Gate Cloning". PloS One 6:e1722), iii) recombinación GATEWAY®, iv) clonación TOPO®, ensamblaje mediado por exonucleasa (Aslanidis y de Jong 1990. "Ligation-independent cloning of PCR products (LIC-PCR)." Nucleic Acids Research, Vol. 18, No. 206069), v) recombinación homóloga, vi) unión de extremos no homólogos, vii) ensamblaje de Gibson (Gibson et al., 2009 "Enzymatic assembly of DNA molecules up to several hundred kilobases" Nature Methods 6, 343-345) o una combinación de los mismos. Las estrategias de ensamblaje basadas en IIS tipo modular se describen en la publicación PCT WO 2011/154147.

En algunos ejemplos, la presente descripción enseña vectores de clonación con al menos un marcador de selección. Se conocen en la técnica varios genes marcadores de selección que a menudo codifican la función de resistencia a antibióticos para la selección en células procariotas (p. ej., contra ampicilina, kanamicina, tetraciclina, cloranfenicol, zeocina, espectinomicina/estreptomicina) o células eucariotas (p. ej., geneticina, neomicina, higromicina, puromicina, blasticidina, zeocina) bajo presión selectiva. Otros sistemas de marcadores permiten el cribado e identificación de células deseadas o no deseadas, tales como el conocido sistema de cribado azul/blanco usado en bacterias para seleccionar clones positivos en presencia de X-gal o indicadores fluorescentes tales como proteínas fluorescentes verdes o rojas expresadas en células hospedantes transducidas con éxito. Otra clase de marcadores de selección, la mayoría de los cuales solo son funcionales en sistemas procariotas, se refiere a genes de marcadores contraseleccionables a menudo denominados también "genes de muerte" que expresan productos génicos tóxicos que matan las células productoras. Los ejemplos de dichos genes incluyen sacB, rpsL (strA), tetAR, pheS, thyA, gata-1 o ccdB, cuya función se describe en (Reyrat et al. 1998 "Counterselectable Markers: Untapped Tools for Bacterial Genetics and Pathogenesis". Infect Immun. 66(9): 4011-4017).

Ensamblaje de vectores de ADN, amplificación y edición del genoma

En algunos ejemplos, la presente descripción enseña etapas de ingeniería genómica de HTP específicas para E. coli. Por lo tanto, en algunos ejemplos, la presente descripción enseña métodos de construcción y amplificación de construcciones en E. coli, así como métodos de transformación de E. coli.

En algunos ejemplos, los vectores de ADN de la presente descripción comprenden i) un ori de replicación condicional (R6K), ii) un gen de resistencia a antibióticos, iii) uno o más genes de contraselección (p. ej., sacb y/o PheS) y iv) un ori de replicación para S. cerevisiae.

En algunos ejemplos, la presente descripción enseña métodos para ensamblar construcciones de ADN en S. cerevisiae auxotrófica. Por lo tanto, en algunos ejemplos, los vectores de la presente descripción comprenden un origen de replicación para S. cerevisiae. Esto permite que el vector se replique en S. cerevisiae durante el ensamblaje.

En algunos ejemplos, la presente descripción enseña que los métodos de propagación de ADN ensamblado se producen en E. coli que contiene proteína pir. Por lo tanto, en algunos ejemplos, los vectores de la presente descripción comprenden un origen de replicación de R6K. En algunos ejemplos, el origen de replicación de R6K está condicionado a la presencia de la proteína pir. Es decir, en algunos ejemplos, los vectores descritos actualmente que comprenden el origen de replicación de R6K solo se amplificarán en células hospedantes que comprenden el gen de pir. Esto permite a los investigadores amplificar los vectores de la presente descripción durante las etapas de construcción y amplificación del vector, a la vez que se evita también la expresión cromosómica adicional de los vectores durante las etapas de transformación en la célula hospedante.

En algunos ejemplos, los vectores de la presente descripción comprenden un gen PheS. La fenilalanil-tRNA sintetasa (PheS) de Escherichia coli puede ser útil como un marcador de contraselección, ya que su variante A294G incorpora erróneamente 4-cloro-fenilalanina (4CP) en proteínas celulares durante la traducción, causando así la muerte celular. En algunos ejemplos, el gen PheS está diseñado para incorporarse temporalmente al genoma de la célula hospedante. En algunos ejemplos, la presente descripción enseña métodos de contraselección que comprenden cultivar las células hospedantes en medio mínimo con 4CP. Las células que todavía comprenden el vector incorporarán 4CP en proteínas y morirán. Las células que han sacado en un bucle la secuencia PheS sobreviven.

En algunos ejemplos, la presente descripción enseña métodos para construir, ensamblar e integrar vectores en células hospedantes. En algunos ejemplos, la presente descripción enseña que los brazos de homología (homL y homR) se amplifican por PCR. En algunos ejemplos, el cambio genético deseado (barra negra entre homL y homR) está presente en el cebador inverso de homL y el cebador directo de homR (véase la Figura 3). En algunos ejemplos, el cebador directo de homL y el cebador inverso de homR tienen homología de secuencia con el plásmido de la cadena principal. En la figura 45 se muestran más ilustraciones del procedimiento de entrada de bucle y salida de bucle.

En algunos ejemplos, los vectores de la presente descripción comprenden una o más secuencias de aislantes. La secuencia de aislante puede ser cualquier secuencia de aislante conocida en la técnica. En un ejemplo, la secuencia de ácido nucleico del aislante es la secuencia del aislante 1 (SEQ ID NO. 218), secuencia del aislante 2 (SEQ ID NO.

219) o las secuencias tanto del aislante 1 como 2 proporcionadas en el presente documento. En un ejemplo, los vectores de la presente descripción comprenden secuencias de aislantes que flanquean los brazos de homología (homL y homR). En un ejemplo, los vectores de la presente descripción comprenden secuencias de aislantes que flanquean los brazos de homología (homL y homR) y secuencia o secuencias de terminación. Las secuencias de aislantes se pueden generar para que estén exentas de secuencias de endonucleasas de restricción.

En algunos ejemplos, los vectores de la presente descripción comprenden una combinación de elementos proporcionados en el presente documento. En algunos casos, un vector para usar en los métodos proporcionados en el presente documento puede comprender un origen de replicación de R6K, un gen SacB, un gen PheS como marcador de contraselección y un marcador auxotrófico de levadura URA3 tal como, por ejemplo, el vector 1 (véase la Figura 55), que tiene la secuencia de ácido nucleico de SEQ ID NO. 214. En algunos casos, un vector para usar en los métodos proporcionados en el presente documento puede ser una versión alterada del vector 1, tal como, por ejemplo, el vector 2 (véase la Figura 56), que tiene la secuencia de ácido nucleico de SEQ ID NO.215. Además de los elementos previamente citados para el vector 1, el vector 2 puede comprender además los elementos que se encuentran en la Tabla 15. Los vectores adicionales para usar en los métodos proporcionados en el presente documento incluyen el vector 3 (ácido nucleico de SEQ ID NO. 216; Figura 57) y el vector 4 (ácido nucleico de SEQ ID NO. 217; Figura 58). Los vectores tanto 3 como 4 se construyeron a partir del contexto del vector 2. Sin embargo, en el vector 3, la secuencia de promotor de sacB se reemplazó con un promotor que contenía el promotor P2-MCD2 (véase Mutalik et al, Nat Methods. abril 2013; 10 (4): 354-60) y una versión optimizada de codones del gen pheS nativo que contiene las mutaciones T251A/A294G (véase Miyazaki, K. Biotechniques. 1 de febrero de 2015; 58 (2): 86-8), mientras que el vector 4 comprende el contexto del vector 3 con el marcador de selección URA3 reemplazado por el marcador TRP1.

T a b la 15. Elementos de secuencias de selección del vector 2

En la figura 35 se muestra un flujo de trabajo general asociado con el ensamblaje de ADN según un ejemplo de la presente descripción.

En algunos ejemplos, el ensamblaje de ADN entre la cadena principal y los insertos (homL y homR) se realiza en levadura a través de recombinación de reparación de huecos de levaduras. En algunos ejemplos, el marcador auxotrófico (TRP o URA) está presente en el plásmido de cadena principal para la selección de ADN ensamblado en medio mínimo. Los plásmidos ensamblados después se extraen del cultivo de levadura.

En algunos ejemplos, los plásmidos extraídos se transforman a continuación en una cepa de E. coli que contiene el gen pir para propagar los plásmidos deseados para la siguiente transformación de la cepa de interés. Los transformantes se seleccionan por su resistencia a los antibióticos dados. Los transformantes se seleccionarán para secuenciar para seleccionar el plásmido de interés ensamblado correctamente.

En algunas realizaciones, los plásmidos ensamblados correctamente se transforman en células hospedantes para la transformación del genoma por electroporación. Dado que las células hospedantes diana no contienen la proteína pir, se espera que las colonias formadas en el medio selectivo de antibióticos tengan integración del plásmido en el locus deseado en el genoma. La correcta integración del plásmido se puede verificar por PCR con el cebador fuera de homL y homR, respectivamente, y la unión del cebador dentro del plásmido.

En algunos ejemplos, la presente descripción enseña métodos de salida de bucles para eliminar la cadena principal del plásmido del genoma del hospedante. Por lo tanto, en algunos ejemplos, la presente descripción enseña que la selección posterior en medios contraselectivos (sacarosa) y/o 4CP se puede usar para aislar los clones que no contienen la parte de la cadena principal del plásmido. Por lo tanto, en algunos ejemplos, las células hospedantes aisladas que comprenden el integrante correcto se inoculan en medio LB y el cultivo se siembra en placa de agar LB que contiene sacarosa y 4-p-cloro-fenilalanina (LB+suc+4CP). Debido a la sensibilidad de las células que expresan el gen sacB a la sacarosa, y la sensibilidad de las células que expresan PheS a 4CP, se espera que las colonias formadas en una placa de agar LB+suc+4CP tengan el gen mutante o de tipo natural de interés. La amplificación por PCR del o de los nu c le ó tid o s d ia n a y la s e cu e n c ia c ió n de l p ro d u c to de P C R p e rm ite a is la r los nu evo s c lo n e s con la m od ifica c ión de l g e n o m a de sea da .

En a lgu nos e jem p los , los c lo ne s resu ltan te s se se cu e n c ia n p a ra e n c o n tra r los c lo ne s con el o los c a m b io s de nu c le ó tid o s d e se a d o s . En a lg u n o s e je m p lo s , to d o el p ro ce d im ie n to a n te r io r se pu ede re a liza r con el m a n ip u la d o r de líqu idos.

Transformación de células hospedantes

En a lgu nos e jem p los , los ve c to re s de la p re se n te de sc rip c ió n se pu ed en in tro d u c ir en las cé lu la s h o sp e d a n te s u sa nd o cu a lq u ie ra de u n a v a rie d a d de té cn ica s , q u e in c luye n tra n s fo rm a c ió n , tra n s fe cc ió n , tra n sd u cc ió n , in fe cc ió n v ira l, p is to la s de ge ne s o tra n s fe re n c ia de ge ne s m e d ia d a p o r Ti (véa se C h ris tie , P.J., y G o rdo n , J.E ., 2014 "The A g ro b a c te riu m Ti P la sm ids" Microbiol SPectr. 2014 ; 2 (6 ); 10.1128). Los m é tod os p a rticu la re s inc luyen tra n s fe cc ió n con fo s fa to cá lc ico , tra n s fe cc ió n m ed ia d a p o r D E A E -D ex tran o , lipo fe cc ión o e le c tro p o ra c ió n (D av is , L., D ibne r, M., B a ttey , I., 1986 "B a s ic M e tho ds in M o le cu la r B io logy"). O tros m é tod os de tra n s fo rm a c ió n inc luyen , p o r e jem p lo , tra n s fo rm a c ió n de a ce ta to de litio y e le c tro p o ra c ió n . V éa se , p o r e je m p lo , G ie tz e t a l., Nucleic Acids Res. 27 :69 -74 (1992 ); Ito e t a l., J. Bacterol. 153: 163 -168 (1983 ); y B e cke r y G u a re n te , Methods in Enzymology 194: 182 -187 (1991). En a lgu nos e jem p los , las cé lu la s h o sp e d a n te s tra n s fo rm a d a s se d e n o m in a n ce p a s h o spe da n tes reco m b in an te s .

En a lgu nos e jem p los , la p re se n te d e sc rip c ió n e n se ñ a la tra n s fo rm a c ió n de a lta ca p a c id a d de cé lu la s u sa nd o la p la ta fo rm a ro b ó tica de p laca s de 96 p o c illo s y las m áq u in a s de m an ip u la c ión de líqu id os de la p re se n te de sc rip c ió n .

En a lg u n o s e jem p los , la p re se n te d e sc rip c ió n e n s e ñ a el c rib a d o de cé lu la s tra n s fo rm a d a s con uno o m ás m arca do res de se le cc ió n co m o se ha d e sc rito an tes. En uno de d ich o s e je m p lo s , las cé lu la s tra n s fo rm a d a s con un v e c to r que co m p re n d e un m a rca d o r de re s is te n c ia a la ka n a m ic in a (K anR ) se s ie m bran en p laca s en m ed io s q u e con tien en ca n tid a d e s e fica ce s de l an tib ió tico kan a m ic in a . S e su p o n e que las un id ade s fo rm a d o ra s de c o lo n ia s v is ib le s en m ed ios con ad ic ió n de ka n a m ic in a han in co rp o ra d o e l ca se te de l v e c to r en su g e no m a . La in se rc ión de las secu en c ias d e se a d a s se pu e d e c o n firm a r p o r PCR , a n á lis is de e n z im a s de res tricc ión y /o se cu e n c ia c ió n de l s itio de inserc ión re levan te .

Salida de bucle de secuencias seleccionadas

En a lg u n o s e jem p los , la p re se n te d e sc rip c ió n e n se ñ a m é tod os p a ra la sa lid a de bu c le s de reg io nes s e le cc io n a d a s de A D N de los o rg a n ism o s h o spe da n tes . El m é tod o de sa lid a de bu c le pu ede s e r co m o se d e sc rib e en N a ka sh im a e t al.

2014 "B a c te ria l C e llu la r E ng in ee ring by G en o m e E diting and G en e S ile n c in g ." Int. J. M ol. S ci. 15(2), 2773 -2793. En a lg u n o s e jem p los , la p re se n te d e sc rip c ió n e n se ñ a la sa lid a de bu c le s de m a rca d o re s de se lecc ió n de tra n s fo rm a n te s p o s itivo s . Las té c n ic a s de e lim in a c ió n p o r sa lid a de bu c le son co n o c id a s en la té c n ic a y se de sc rib e n en (T e a r et al.

2014 "E xc is ion o f U n s ta b le A rtif ic ia l G e n e -S p e c ific inve rted R epea ts M ed ia te s S ca r-F re e G ene D e le tio ns in E sche rich ia co li." Appl. Biochem. Biotech 175 :1858 -1867 ). Los m é tod os de sa lid a de bu c le s u sa d o s en los m é tod os p ro p o rc io n a d o s en el p re se n te d o cu m e n to se pu ed en lle va r a ca b o u sa nd o reco m b in a c ió n h o m ó lo g a de c ru za m ie n to s im p le o re co m b in a c ió n h o m ó lo g a de c ru za m ie n to do b le . En un e je m p lo , la sa lid a de bu c le s de reg io nes s e le cc io n a d a s com o se d e sc rib e en el p re se n te d o cu m e n to pued e im p lica r e l uso de reco m b in a c ió n h o m ó lo g a de c ru za m ie n to s im p le com o se d e sc rib e en el p re se n te do cu m e n to .

P rim e ro , los v e c to re s de sa lid a de bu c le se in se rtan en reg io nes d ia n a se le cc io n a d a s d e n tro de l g e n o m a de l o rg an ism o h o sp e d a n te (p. e j., m ed ia n te re co m b in a c ió n hom ó loga , C R IS P R , reco m b in a c ió n m e d ia d a p o r la m bd a Red u o tra té c n ic a de ed ic ió n de genes). En un e je m p lo , la reco m b in a c ió n h o m ó lo g a de un so lo c ru za m ie n to se usa e n tre un p lá sm id o o v e c to r c irc u la r y el g e n o m a de la cé lu la ho sp e d a n te con el fin de in tro d u c ir un bu c le en e l p lá sm id o o v e c to r c irc u la r ta l co m o se m u e s tra en la F igu ra 3. El v e c to r in se rta d o se pu e d e d is e ñ a r con una se cu e n c ia qu e sea una rep e tic ión d ire c ta de una se cu e n c ia de ho sp e d a n te ce rca n a e x is te n te o in tro du c ida , de m od o q u e las rep e tic ione s d ire c ta s fla n q u e e n la reg ión de A D N p ro g ra m a d a pa ra buc le y e lim in a c ió n . U na vez in se rtad as , las cé lu la s que co n tie n e n el p lá sm id o o v e c to r de l bu c le de sa lid a se pu ed en c o n tra s e le c c io n a r pa ra la e lim in a c ió n de la reg ión de se lecc ió n (p. e j., vé a se la F igu ra 4; fa lta de re s is te n c ia al gen de se lecc ió n ). En la F igu ra 45 se m ue s tra n m ás ilu s tra c io n e s de l p ro ce d im ie n to de e n tra d a y sa lid a de bucle .

Los e xp e rto s en la té c n ic a reco n o ce rá n q u e la d e sc rip c ió n de l p ro ce d im ie n to de sa lid a de bu c le re p re se n ta so lo un m é tod o ilu s tra tivo pa ra e lim in a r reg io nes no d e se a d a s de un ge no m a . De hecho , los m é tod os de la p re sen te d e sc rip c ió n son c o m p a tib le s con c u a lq u ie r m é tod o pa ra d e le c io n e s de l ge n o m a , que inc luyen , pe ro no se lim itan a e d ic ió n de ge ne s m ed ia n te la m b d a Red, C R IS P R , T A LE N S , FO K u o tras e n d o n u c le a sa s . Los e xp e rto s en la té cn ica ta m b ié n reco n o ce rá n la ca p a c id a d de re e m p la za r reg io nes no d e se a d a s de l g e n o m a m ed ia n te té c n ic a s de re co m b in a c ió n hom ó loga .

Edición de genes mediada por Lambda RED

C o m o se p ro p o rc io n a en el p re se n te do cu m e n to , la ed ic ió n de ge ne s co m o se d e sc rib e en e l p re se n te d o cu m e n to se pu ed e re a liza r u sa nd o reco m b in a c ió n h o m ó lo g a m e d ia d a p o r La m b d a Red co m o se d e sc rib e p o r D a tsenko y W ann e r, PNAS USA 97: 6640 -6645 (2000).

El sistema lambda Red deriva del bacteriófago lambda Red y su uso como herramienta de ingeniería genética se puede denominar ingeniería recombinogénica, abreviatura de ingeniería genética mediada por recombinación homóloga. Se puede usar para realizar una variedad de modificaciones: inserción y eliminación de secuencias seleccionables y no seleccionables, mutaciones puntuales u otros cambios pequeños de pares de bases, y la adición de marcadores de proteínas. También tiene la flexibilidad de modificar el cromosoma de E. coli, el ADN plasmídico o el ADN BAC. Para usar el sistema recombinogénico de lambda red para modificar el ADN diana, se puede electroporar un sustrato de ADN donante lineal (ya sea ADNbc o ADNmc - véase más abajo) en E. coli que expresa las enzimas de lambda red. Después estas enzimas catalizan la recombinación homóloga del sustrato con la secuencia de ADN diana. Esto significa que la clonación ocurre in vivo, en comparación con la clonación con enzimas de restricción donde los cambios genéticos ocurren en un tubo de ensayo. El sustrato de ADN donante solo requiere ~50 nucleótidos de homología con el sitio diana para la recombinación.

El sistema de recombinación lambda Red tiene tres componentes: 1) Exo, 2) Beta y 3) Gam. Los tres son necesarios para la recombinación con un sustrato de ADNbc; sin embargo, solo se requiere Beta cuando se genera una modificación con un sustrato de ADNmc.

Gam: Gam evita que las nucleasas endógenas tanto RecBCD como SbcCD digieran el ADN lineal introducido en una célula hospedante de E. coli.

Exo: Exo es una exonucleasa dependiente de ADNbc 5 '^ 3'. Exo puede degradar el ADNbc lineal empezando en el extremo 5' y generar 2 productos posibles: 1) un dúplex de ADNbc parcialmente con extremos protuberantes 3' monocatenarios o 2) si el ADNbc era lo suficientemente corto, un ADNmc cuya cadena complementaria entera estaba degradada.

Beta: Beta puede proteger el ADNmc creado por Exo y promover su reasociación con un ADNmc complementario diana en la célula. Sólo se requiere la expresión de Beta para la recombinogénica con un sustrato oligo de ADNmc.

Para usar en el presente documento, un método de recombinogénica con lambda Red puede implicar diseñar y generar ADN sustrato; expresar los genes de recombinación de lambda Red; transformar (p. ej., electroporar) el ADN sustrato; desarrollar los transformantes; y seleccionar y confirmar clones recombinantes.

D is e ñ o y g e n e ra c ió n d e A D N s u s t r a to

El que se use un sustrato de ADNbc o ADNmc lineal puede depender del objetivo del experimento. El sustrato de ADNbc puede ser mejor para inserciones o deleciones mayores de aproximadamente 20 nucleótidos, mientras que el sustrato de ADNmc puede ser mejor para mutaciones puntuales o cambios de solo unos pocos pares de bases.

Sustrato de ADNbc

Las inserciones de ADNbc se pueden hacer por PCR usando cebadores que amplifican la secuencia de ADN de interés y la flanquean con 50 pares de bases de homología con el sitio de inserción diana. Los cebadores pueden ser de ~70 nucleótidos de longitud (20 nucleótidos que se reasocian con la secuencia de ADN de interés y 50 nucleótidos de homología con las regiones que flanquean el sitio diana). Los insertos de ADNbc pueden incluir: inserciones o deleciones grandes, que incluyen fragmentos de ADN seleccionables, tales como genes de resistencia a antibióticos, así como fragmentos de ADN no seleccionables, tales como reemplazos de genes y marcadores.

Sustrato de ADNmc

Los sustratos de ADNmc pueden ser oligonucleótidos sintéticos o productos de PCR cortos. De cualquier manera, el sustrato sería de ~70-100 nucleótidos de longitud con la o las alteraciones deseadas ubicadas en el centro de la secuencia. Dado que el lambda Red tiene una frecuencia de recombinación más alta cuando se dirige a la hebra retrasada de ADN, es mejor determinar la dirección de replicación a través de una región diana de interés y diseñar un oligo que sea complementario a la hebra retrasada. En algunos casos, se diseñan oligos que se dirigen a ambas cadenas. Uno de los dos oligos se recombinará con mayor eficacia que el otro, lo que puede ayudar a identificar la hebra retrasada.

El sustrato de ADNmc puede ser más eficiente que el ADNbc con una frecuencia de recombinación entre 0,1% y 1%, y se puede aumentar tanto como al 25-50% diseñando oligos que eviten activar el sistema de reparación de emparejamientos erróneos dirigido por metilo (MMR). El trabajo de la MMR es corregir los emparejamientos erróneos de ADN que ocurren durante la replicación del ADN. La activación de la MMR se puede evitar: 1) usando una cepa de bacterias que tiene proteínas de MMR claves inactivadas, o 2) oligos de ADNmc especialmente diseñados para evitar la MMR: 1) E. coli con MMR inactivada: el uso de E. coli con MMR inactiva es definitivamente la más fácil de las dos opciones, pero estas células son propensas a mutaciones y pueden tener más cambios accidentales en sus genomas.

2) Diseñando oligos de ADNmc que evitan la activación de MMR: en un ejemplo, se introduce un emparejamiento erróneo de C/C en o dentro de 6 pares de bases del sitio de edición. En otro ejemplo, el cambio deseado está flanqueado por 4-5 cambios silenciosos en los codones de balanceo, es decir, hace cambios en el tercer par de bases de los 4-5 codones adyacentes que alteran la secuencia de nucleótidos pero no la secuencia de aminoácidos de la proteína traducida. Estos cambios pueden ser 5' o 3' del cambio deseado.

E x p re s ió n d e g e n e s d e re c o m b in a c ió n c o n la m b d a Red

El sistema de recombinogénica del lambda Red se puede expresar en una célula hospedante por: 1) A partir de una bacteria con profago defectuoso integrado 2) de un plásmido, 3) de mini-A o 4) del propio fago lambda Red. El control de la expresión de las proteínas de Red es fundamental para minimizar los efectos tóxicos de la expresión de Gam y limitar las mutaciones espontáneas que se producen cuando Red se expresa de forma constitutiva. El sistema de recombinación que se use dependerá de qué tipo de ADN se quiere editar; sin embargo, el ADN de BAC se puede modificar con cualquiera de los enfoques descritos a continuación.

Cepa bacteriana con profago defectuoso integrado:

Existen una serie de cepas de E. coli que expresan de manera estable genes de ingeniería recombinogénica de lambda Red debido a la integración de un fago lambda Red defectuoso. Una de esas cepas es DY380, que deriva de la cepa DH10B de E. coli. Varias otras cepas bacterianas usadas habitualmente para la ingeniería recombinogénica se pueden encontrar en Thomason et al (Recombineering: Genetic Engineering in Bacteria Using Homologous Recombination. Current Protocols in Molecular Biology. 106:V:1.16:1.16.1-1.16.39) y Sharan et al (Recombineering: A Homologous Recombination-Based Method of Genetic Engineering. Nature protocols. 2009;4(2):206-223).

En algunas de estas cepas, la expresión de exo, beta y gam está estrechamente regulada por el promotor del fago endógeno pL y el represor CI. Para fines de ingeniería recombinogénica, se usa una versión sensible a la temperatura del gen represor, CI857. Este represor mutante evita la expresión de los genes de recombinación a bajas temperaturas (30-34°C). Cambiar las bacterias a 42°C durante 15 minutos inactiva rápidamente el represor y permite la expresión de los genes de recombinación. Después de esto, la disminución de la temperatura permite que el represor vuelva a la forma natural y reprima nuevamente la expresión de exo, beta y gam. Una ventaja principal de usar este método para la expresión del lambda Red es que no requiere selección de antibióticos para mantener la expresión del sistema recombinogénico. Esta configuración también se puede usar para modificar genes cromosómicos. Después del suceso de edición inicial, el profago defectuoso se puede eliminar del cromosoma de E. coli hospedante mediante un segundo suceso de recombinación con lambda Red. Alternativamente, si el alelo modificado es seleccionable, se puede transferir a un contexto genético diferente mediante la transducción P1.

Plásmido:

La expresión de genes de lambda Red a partir de un plásmido permite un sistema recombinogénico móvil, pero se requiere una regulación estricta de la expresión para un experimento con éxito. Los promotores habitualmente usados para controlar la expresión de Red incluyen el promotor lac inducible por IPTG, el promotor pBAD inducible por arabinosa y el promotor pL del fago endógeno. Los plásmidos que también expresan los represores asociados con estos promotores (lacl, araC, cI857) se pueden usar en algunos casos con el fin de limitar la expresión con fugas del sistema Red. El uso de un plásmido para expresar el sistema recombinogénico lambda se puede usar para editar el ADN cromosómico bacteriano porque es fácil eliminar el sistema recombinogénico una vez que se han generado los clones recombinantes. Una forma sencilla de hacer esto es expresar los genes de lambda Red a partir de un plásmido con un origen de replicación sensible al calor. Una vez que el sistema recombinogénico ya no es necesario, las bacterias se pueden "curar" cultivándolas a 42°C.

Mini-A:

Un híbrido entre el uso de un plásmido y la integración estable de un profago defectuoso es usar mini-A, un trozo circular de ADN de fago defectuoso que no se replica, que cuando se introduce en las bacterias, se integra en el genoma. Mini-A usa el promotor de Red endógeno pL y el represor cI857 para regular la expresión. Se puede usar un antibiótico para seleccionar clones positivos pero, debido a que mini-A se integra de manera estable, no se requiere la selección con fármacos para el mantenimiento. Un cambio de temperatura a 42°C no solo permite la activación de los genes de Red necesarios para la recombinación, sino que también conduce a la expresión de los genes int y xis que son responsables de la escisión de mini-A del cromosoma del hospedante. Después de esto, mini-A se puede purificar fácilmente de las bacterias igual que un plásmido.

Fago:

Otra opción para expresar el sistema Red puede ser usar un fago lambda Red, ATetR, que lleva el gen de resistencia a la tetraciclina y el represor de lambda Red cI857. Una vez introducido, el profago es estable y ya no requiere la selección con fármacos. Un inconveniente de este enfoque es que requiere la generación de bacteriófagos, que no es una técnica común de biología molecular. Sin embargo, una ventaja de este método es que se puede integrar de manera estable el sistema Red en una cepa de interés yoa y podría usarse la transducción P1 para mover la modificación a un contexto diferente, si es necesario. Este enfoque es el más adecuado para modificar plásmidos o BAC porque da como resultado una integración estable del fago en el genoma de E. coli.

S e le c c ió n y c o n f irm a c ió n d e c lo n e s re c o m b in a n te s

Si se ha insertado un gen de resistencia a antibióticos, los recombinantes se pueden seleccionar primero mediante la resistencia a los antibióticos, pero todos los clones deben someterse a ensayos adicionales para confirmar la presencia de la m od ifica c ió n d e sea da . La P C R de c o lo n ia s se pued e u sa r pa ra c r ib a r c lo ne s po s itivo s en la m a yo ría de los casos, y la d ig e s tió n con e n z im a s de res tricc ión se pued e u sa r pa ra c r ib a r los p lá sm id o s con m u ta c io n e s ad e cu a d a s . Las m u ta c io n e s p u n tu a le s y o tros ca m b io s su tile s se pu ed en c o n firm a r p o r se cu e n c ia c ió n , q u e ta m b ié n se pued e u sa r p a ra la c o n firm a c ió n de to d o s los c lones , in d e p e n d ie n te m e n te de l t ip o de A D N q u e sea e l o b je tivo de m od ifica c ión : el c ro m o s o m a de E. coli, un p lá sm id o o un BAC.

Edición de genes mediada por CRISPR

En un e je m p lo p ro p o rc io n a d o en e l p re se n te do cu m e n to , el g e n o m a de un a cé lu la ho sp e d a n te se pu ede m o d ifica r po r C R IS P R . En los E je m p lo s 18 y 19 se pu e d e e n c o n tra r un e je m p lo ilu s tra tivo pa ra u sa r e l s is te m a C R IS P R /C a s9 pa ra la ed ic ió n de ge ne s en E. coli.

El s is te m a C R IS P R /C a s es un s is te m a in m u n ita rio p ro ca rio ta q u e co n fie re re s is te n c ia a e le m e n to s g e n é tico s ex trañ os , ta le s co m o los p re se n te s en p lá sm id o s y fag os , y q u e p ro p o rc io n a un a fo rm a de in m un ida d ad qu ir id a . C R IS P R s ig n ifica re p e tic io n e s p a lin d ró m ica s co rta s ag ru p a d a s y reg u la rm en te in te re sp a c ia d a s (po r sus s ig la s en ing lés : Clustered Regularly Interspaced Short Palindromic Repeat), y cas s ig n ifica s is te m a aso c ia d o a C R IS P R , y se re fie re a los ge ne s cas p e q u e ñ o s a so c ia d o s con e l c o m p le jo de C R IS P R .

Los s is te m a s C R IS P R -C a s se ca ra c te riza n m ás a m p lia m e n te co m o s is te m a s de c la se 1 o c la se 2. La p rinc ip a l ca ra c te rís tic a d is tin tiv a e n tre e s to s do s s is te m a s es la na tu ra le za de l m ódu lo e fe c to r de C as. Los s is te m a s de c la se 1 req u ie ren el e n sa m b la je de m ú ltip le s p ro te ínas C as en un c o m p le jo (d e n o m in a d o "co m p le jo en ca sca d a ") pa ra m ed ia r la in te rfe ren c ia , m ie n tra s q u e los s is te m a s de c la se 2 usan un a so la e n z im a C as g ra n d e pa ra m e d ia r la in te rfe ren c ia . C a d a uno de los s is te m a s de c la se 1 y c la se 2 se d iv id e ad em á s en m ú ltip le s tip o s de C R IS P R -C a s b a sa d o s en la p re se n c ia de un a p ro te ín a C as e sp ec ífica . P or e jem p lo , e l s is te m a de c la se 1 se d iv id e en los s ig u ie n te s tre s tipo s : s is te m a s de t ip o I, que con tie n e n la p ro te ín a C as3; s is te m a s de tipo III, q u e co n tie n e n la p ro te ín a C a s10 ; y los s is tem a s p u ta tivo s de t ip o IV, q u e co n tie n e n la p ro te ín a C s f1 , una p ro te ín a s im ila r a C as8. Los s is te m a s de c la se 2 en g e ne ra l son m en os co m u n e s qu e los s is te m a s de c la se 1 y se d iv ide n a d e m á s en los tres tip o s s ig u ie n te s : s is te m a s de t ip o II, q u e co n tie n e n la p ro te ín a C as9; s is te m a s de tipo V, que co n tie n e n p ro te ín a C a s12 a (a n te rio rm e n te co n o c id a com o C p f1 , y d e n o m in a d a Cpf1 en e l p re se n te d o cu m e n to ), C a s12 b (a n te rio rm e n te co n o c id a co m o C 2c1), C a s12 c (a n te rio rm e n te co n o c id a co m o C 2 c3 ), C a s12d (a n te rio rm e n te co n o c id a co m o C asY ) y C a s12 e (a n te rio rm e n te co n o c id o co m o C a sX ); y s is te m a s t ip o VI, q u e co n tie n e n C a s13 a (a n te rio rm e n te co n o c id a co m o C 2c2), C a s13 b y C a s13 c . P yzoch a e t a l., ACS Chemical Biology, vo l. 13 (2), págs. 347 -356. En un e jem p lo , e l s is te m a C R IS P R -C a s p a ra u s a r en los m é to d o s p ro p o rc io n a d o s en e l p re se n te d o cu m e n to es un s is te m a de c la se 2. En un e jem p lo , el s is te m a C R IS P R -C a s pa ra u s a r en los m é tod os p ro p o rc io n a d o s en el p re se n te d o cu m e n to es un s is te m a de c la se 2 de tipo II, t ipo V o t ip o V I. En un e je m p lo , el s is te m a C R IS P R -C a s p a ra u s a r en los m é tod os p ro p o rc io n a d o s en el p re se n te d o cu m e n to se se le c c io n a de C as9, C as12a , C as12b , C as12c , C as12d , C as12e , C as13a , C as13b , C a s13 c u h o m ó logo s , o rtó lo g o s o p a rá lo g o s de los m ism os.

Los s is te m a s C R IS P R u sa do s en los m é tod os d e sc rito s en e l p re se n te d o cu m e n to co m p re n d e n un m ód u lo e fe c to r de C as q u e c o m p re n d e u n a o m ás nu c le asas a so c ia d a s a C R IS P R (C as) g u ia d a s p o r á c id o s n u c le icos , d e n o m in a d a s en el p re se n te d o cu m e n to p ro te ínas e fe c to ra s C as. En a lgu nos e jem p los , las p ro te ín a s C as pu ed en c o m p re n d e r uno o va r io s d o m in io s de nuc leasa . U na p ro te ín a e fe c to ra C as se pu e d e d ir ig ir a m o lécu las de ác ido nu c le ico m o n o ca te n a ria s o b ica te n a ria s (p. ej. ác ido s nuc le icos de A D N o A R N ) y pu ed e g e n e ra r ro tu ras de ca d e n a do b le o s im p le . En a lgu nos e je m p lo s , las p ro te ín a s e fe c to ra s C as son p ro te ínas C as de t ip o na tu ra l o que se e n cu e n tra n de fo rm a na tu ra l. En a lg u n o s e jem p los , las p ro te ínas e fe c to ra s C as son p ro te ín a s C as m u tan tes , en do n d e se hacen u n a o m ás m u tac ion es , in se rc io n e s o d e le c io n e s en u n a p ro te ín a C as de o rige n que se e n c u e n tra de fo rm a na tu ra l o W T (p. e j., una p ro te ína C as pa re n ta l) p a ra p ro d u c ir una p ro te ín a C as con u n a o m ás ca ra c te rís tica s a lte ra d a s en c o m p a ra c ió n con la p ro te ína C as pa ren ta l.

En a lg u n o s caso s , la p ro te ín a C as es un a nu c le a sa de tipo na tu ra l (W T). Los e je m p lo s no lim itan te s de p ro te ín a s Cas a d e cu a d a s p a ra u sa r en la p re se n te d e sc rip c ió n in c luyen C 2cl, C 2c2 , C 2c3 , C as1 , C as1B , C as2, C as3, C as4 , C as5 , C as6 , C as7 , C as8 , C a s9 (a lso know n as Csn1 y C sx12), C as10 , C pf1 , C sy1 , C sy2 , C sy3 , C se1, C se2, C scl, C sc2 , C sa5, C sn2, C sm 1 , C sm 2 , C sm 3 , C sm 4, C sm 5 , C sm 6 , C m r1 , C m r3 , C m r4 , C m r5 , C m r6 , C sb1, C sb2, C sb3, C sx17, C sx14, C sx100 , C sx16, C saX , C sx3 , C sxl, C sx15 , C sf1 , C sf2 , C sf3 , C s f4 , M A D 1-20 , S m C sm 1 , ho m ó lo g o s de las m ism as, o rtó lo g o s de las m ism as, va r ia n te s de las m ism as, m u ta n te s de las m ism a s o v e rs io n e s m o d ifica d a s de las m ism as. Las nu c le asas g u ia d a s p o r ác ido nu c le ico ad e cu a d a s (p. e j., C as 9) pu eden s e r de un o rg a n ism o de un g é ne ro , que inc luye , pe ro no se lim ita a: Thiomicrospira, Succinivibrio, Candidatus, Porphyromonas, Acidomonococcus, Prevotella, Smithella, Moraxella, Synergistes, Francisella, Leptospira, Catenibacterium, Kandleria, Clostridium, Dorea, Coprococcus, Enterococcus, Fructobacillus, Weissella, Pediococcus, Corynebacter, Sutterella, Legionella, Treponema, Roseburia, Filifactor, Eubacterium, Streptococcus, Lactobacillus, Mycoplasma, Bacteroides, Flaviivola, Flavobacterium, Sphaerochaeta, Azospirillum, Gluconacetobacter, Neisseria, Roseburia, Parvibaculum, Staphylococcus, Nitratifractor, Mycoplasma, Alicyclobacillus, Brevibacilus, Bacillus, Bacteroidetes, Brevibacilus, Carnobacterium, Clostridiaridium, Clostridium, Desulfonatronum, Desulfovibrio, Helcococcus, Leptotrichia, Listeria, Methanomethyophilus, Methylobacterium, Opitutaceae, Paludibacter, Rhodobacter, Sphaerochaeta, Tuberibacillus, y Campylobacter. Las e sp e c ie s de o rg a n ism o s de d icho g é n e ro pu ed en s e r p o r lo d e m á s co m o se d e sc rib e en el p re se n te do cu m e n to .

Las nucleasas guiadas por ácido nucleico adecuadas (p. ej., Cas9) pueden ser de un organismo de un filo, que incluye, pero no se limita a: Firmicutes, Actinobacterias, Bacteroidetes, Proteobacterias, Espiroquetas y Tenericutes. Las nucleasas guiadas por ácido nucleico adecuadas pueden ser de un organismo de una clase, que incluye, pero no se limita a: Erysipelotrichia, Clostridia, Bacilli, Actinobacteria, Bacteroidetes, Flavobacteria, Alphaproteobacteria, Betaproteobacteria, Gammaproteobacteria, Deltaproteobacteria, Epsilonproteobacteria, Spirochaetes y Mollicutes. Las nucleasas guiadas por ácido nucleico adecuadas pueden ser de un organismo de un orden, que incluye, pero no se limita a: Clostridiales, Lactobacillales, Actinomycetales, Bacteroidales, Flavobacteriales, Rhizobiales, Rhodospirillales, Burkholderiales, Neisseriales, Legionellales, Nautiliales, Campylobacterales, Mycoplasmachaetales, y Thiotrichales. Las nucleasas guiadas por ácido nucleico adecuadas pueden ser de un organismo de dentro de una familia, que incluye, pero no se limita a: Lachnospiraceae, Enterococcaceae, Leuconostocaceae, Lactobacillaceae, Streptococcaceae, Peptostreptococcaceae, Staphylococcaceae, Eubacteriaceae, Corynebacterineae, Bacteroidaceae, Flavobacterium, Cryomoorphaceae, Rhodobiaceae, Rhodospirillaceae, Acetobacteraceae, Sutterellaceae, Neisseriaceae, Legionellaceae, Nautiliaceae, Campylobacteraceae, Spirochaetaceae, Mycoplasmataceae, y Francisellaceae.

Otras nucleasas guiadas por ácido nucleico (p. ej., Cas9) adecuadas para usar en los métodos, sistemas y composiciones de la presente descripción incluyen las derivadas de un organismo tal como, pero no limitado a: Thiomicrospira sp. XS5, Eubacterium rectale, Succinivibrio dextrinosolvens, Candidatus Methanoplasma termitum, Candidatus Methanomethylophilus alvus, Porphyromonas crevioricanis, Flavobacterium branchiophilum, Acidomonococcus sp., Lachnospiraceae bacterium COE1, Prevotella brevis ATCC 19188, Smithella sp. SCADC, Moraxella bovoculi, Synergistes jonesii, Bacteroidetes oral taxón 274, Francisella tularensis, Leptospira inadai serovar Lyme str. 10, Acidomonococcus sp. estructura cristalina (5B43) S. mutans, S. agalactiae, S. equisimilis, S. sanguinis, S. pneumonía; C. jejuni, C. coli; N. salsuginis, N. tergarcus; S. auricularis, S. carnosus; N. meningitides, N. gonorrhoeae; L. monocytogenes, L. ivanovii; C. botulinum, C. difficile, C. tetani, C. sordellii; Francisella tularensis l, Prevotella albensis, Lachnospiraceae bacterium MC2017 1, Butyrivibrio proteoclasticus, Peregrinibacteria bacterium GW2011_GWA2_33_10, Parcubacteria bacterium GW2011_GWC2_ 44_17, Smithella sp. SCADC, Microgenomates, Acidaminococcus sp. BV3L6, Lachnospiraceae bacterium MA2020, Candidatus Methanoplasma termitum, Eubacterium eligens, Moraxella bovoculi 237, Leptospira inadai, Lachnospiraceae bacterium ND2006, Porphyromonas crevioricanis 3, Prevotella disiens, Porphyromonas macacae, Catenibacterium sp. CAG:290, Kandleria vitulina, Clostridiales bacterium KA00274, Lachnospiraceae bacterium 3-2, Dorea longicatena, Coprococcus catus GD/7, Enterococcus columbae DSM 7374, Fructobacillus sp. EFB-N1, Weissella halotolerans, Pediococcus acidilactici, Lactobacillus curvatus, Streptococcus pyogenes, Lactobacillus versmoldensis, y Filifactor alocis ATCC 35896. Véanse, las patentes de EE.UU. n28.697.359; 8.771.945; 8.795.965; 8.865.406; 8.871.445; 8.889.356; 8.895.308; 8.906.616; 8.932.814; 8.945.839; 8.993.233; 8.999.641; 9.822.372; 9.840.713; solicitud de patente de EE.UU. n213/842.859 (US 2014/0068797 A1); 9.260.723; 9.023.649; 9.834.791; 9.637.739; solicitud de patente de EE.UU. n214/683.443 (US 2015/0240261 A1); solicitud de patente de EE.UU. n214/743.764 (US 2015/0291961 A1); 9.790.490; 9.688.972; 9.580.701; 9.745.562; 9.816.081; 9.677.090; 9.738.687; solicitud de EE.UU. n215/632.222 (US 2017/0369879 A1); solicitud de EE.UU. n° 15/631.989; solicitud de EE.UU. n° 15/632.001; y patente de EE.UU. n° 9.896.696.

En algunos ejemplos, una proteína efectora Cas comprende una o más de las siguientes actividades:

una actividad de nickasa, es decir, la capacidad de escindir una sola cadena de una molécula de ácido nucleico;

una actividad nucleasa bicatenaria, es decir, la capacidad de escindir ambas cadenas de un ácido nucleico bicatenario y crear una rotura bicatenaria;

una actividad de endonucleasa;

una actividad de exonucleasa; y/o

una actividad helicasa, es decir, la capacidad de desenrollar la estructura helicoidal de un ácido nucleico bicatenario.

En los ejemplos de la descripción, la expresión "ácido nucleico guía" se refiere a un polinucleótido que comprende 1) una secuencia guía capaz de hibridar con una secuencia diana (denominada en el presente documento como "segmento de direccionamiento") y 2) una secuencia de armazón capaz de interaccionar con (ya sea sola o en combinación con una molécula de ARNtracr) una nucleasa guiada por ácido nucleico como se describe en el presente documento (denominada en el presente documento "segmento de armazón"). Un ácido nucleico guía puede ser ADN. Un ácido nucleico guía puede ser ARN. Un ácido nucleico guía puede comprender tanto ADN como ARN. Un ácido nucleico guía puede comprender nucleótidos modificados que no se encuentran de forma natural. En los casos en donde el ácido nucleico guía comprende ARN, el ácido nucleico guía de ARN puede estar codificado por una secuencia de ADN en una molécula de polinucleótido tal como un plásmido, construcción lineal o casete de edición como se describe en el presente documento.

En algunos ejemplos, los ácidos nucleicos guía descritos en el presente documento son ácidos nucleicos guía de ARN ("ARN guías" o "ARNg") y comprenden un segmento de direccionamiento y un segmento de armazón. En algunos e je m p lo s , e l se g m e n to de a rm a zón de un A R N g e s tá co m p re n d id o en una m o lé cu la de A R N y e l s e g m e n to de d ire cc io n a m ie n to e s tá co m p re n d id o en o tra m o lé cu la de A R N sep a ra da . D ichos e je m p lo s se d e n o m in a n en el p re sen te d o cu m e n to "A R N g de do b le m o lécu la " o "A R N g de do s m o lécu las " o "A R N g d u a les ". En a lg u n o s e jem p los , e l A R N g es u n a so la m o lé cu la de A R N y se d e n o m in a en e l p re se n te d o cu m e n to "A R N de g u ía ún ica " o "A R N gu ". El té rm in o "A R N gu ía " o "A R N g " es in c lus ivo y se re fie re ta n to a A R N g u ía de dos m o lécu las co m o a A R N gu .

El se g m e n to de d ire cc io n a m ie n to al A D N de un A R N g co m p re n d e u n a s e cu e n c ia de nu c le ó tid o s q u e es co m p le m e n ta r ia a u n a se cu e n c ia en u n a s e cu e n c ia de ác ido nu c le ico d ian a . A s í pues, e l s e g m e n to de d ire cc io n a m ie n to de un A R N g in te ra cc io n a con un ác ido nu c le ico d ia n a de u n a m a n e ra e s p e c ífic a de se cu e n c ia a tra v é s de h ib rid ac ión (e s dec ir, e m p a re ja m ie n to de bases), y la s e cu e n c ia de nu c le ó tid o s de l se g m e n to de d ire cc io n a m ie n to d e te rm in a la ub ica c ió n d e n tro de l A D N d ia n a a la q u e se un irá el A R N g. El g ra d o de co m p le m e n ta r ie d a d e n tre u n a se cu e n c ia g u ía y su se cu e n c ia d ia n a co rre sp o n d ie n te , cu a n d o se a line an de m an era ó p tim a u sa nd o un a lg o ritm o de a lin e a m ie n to a d ecu ad o , es a p ro x im a d a m e n te de o m ás de a p ro x im a d a m e n te 50% , 60% , 75% , 80% , 85% , 90% , 95% , 97 ,5% , 99 % o m ás. El a lin e a m ie n to ó p tim o se pu e d e d e te rm in a r con el uso de c u a lq u ie r a lg o ritm o ad ecu ad o pa ra a lin e a r se cu e n c ia s . En a lgu nos e jem p los , un a se cu e n c ia de g u ía es de a p ro x im a d a m e n te o m ás de a p ro x im a d a m e n te 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40 , 45 , 50, 75, o m ás nu c le ó tido s de lo ng itud . En a lgu nos e je m p lo s , un a se cu e n c ia g u ía es de m en os de a p ro x im a d a m e n te 75, 50, 45, 40, 35, 30, 25, 20 nu c le ó tid o s de long itud . En e jem p los , la se cu e n c ia g u ía es de 10 -30 nu c le ó tid o s de long itud . La se cu e n c ia g u ía pued e s e r de 15 -20 nu c le ó tido s de lo ng itud . La s e cu e n c ia g u ía pu e d e s e r de 15 nu c le ó tid o s de long itud . La s e cu e n c ia g u ía pu e d e se r de 16 nu c le ó tido s de lo ng itud . La s e cu e n c ia g u ía pu e d e s e r de 17 nu c le ó tid o s de long itud . La s e cu e n c ia g u ía pu e d e se r de 18 nu c le ó tido s de lo ng itud . La s e cu e n c ia g u ía pu e d e s e r de 19 nu c le ó tid o s de long itud . La s e cu e n c ia g u ía pu e d e se r de 20 nu c le ó tido s de long itud .

El s e g m e n to de a rm a zón de un A R N g u ía in te ra cc io n a con una o m ás p ro te ín a s e fe c to ra s C as pa ra fo rm a r un co m p le jo de r ib o n u c le o p ro te ín a (d e n o m in a d o en e l p re se n te d o cu m e n to C R IS P R -R N P o c o m p le jo RN P). El A R N g u ía d ir ig e el p o lip é p tid o un id o a u n a s e cu e n c ia de nu c le ó tid o s e s p e c ífic a d e n tro de u n a s e cu e n c ia de ác ido nu c le ico d ia n a a través de l seg m e n to de d ire c c io n a m ie n to d e sc rito an tes. El s e g m e n to de a rm a zón de un A R N g u ía c o m p re n d e do s tram os de nu c le ó tid o s que son c o m p le m e n ta r io s en tre s í y qu e fo rm an un d ú p le x de A R N b ica ten a rio . U na s e cu e n c ia su fic ie n te d e n tro de la se cu e n c ia de a rm a zón p a ra p ro m o v e r la fo rm a c ió n de un c o m p le jo de n u c le a sa d ire cc io n a b le puede in c lu ir un g ra d o de co m p le m e n ta r ie d a d a lo la rgo de la long itud de do s reg io nes de se cu e n c ia d e n tro de la se cu e n c ia de a rm a zón , ta l co m o u n a o dos reg io nes de s e c u e n c ia im p lica da s en la fo rm a c ió n de una e s tru c tu ra secu nd a ria . En a lg u n o s caso s , la una o do s reg io nes de s e cu e n c ia es tá n c o m p re n d id a s o c o d ifica d a s en e l m ism o po lin u c le ó tid o . En a lg u n o s caso s , la u n a o do s reg io nes de s e cu e n c ia es tá n c o m p re n d id a s o c o d ifica d a s en p o lin u c le ó tid o s sep a ra dos . El a lin e a m ie n to ó p tim o se pued e d e te rm in a r p o r c u a lq u ie r a lg o ritm o de a lin e a m ie n to a d e cu a d o y pued e te n e r en c u e n ta ad e m á s las e s tru c tu ra s secu nd a ria s , ta le s com o la a u to co m p le m e n ta r ie d a d de n tro de una o dos reg iones de se cu e n c ia . En a lgu nos e jem p los , el g ra d o de co m p le m e n ta r ie d a d e n tre la una o do s reg io nes de se cu e n c ia a lo la rgo de la long itud de la m ás c o rta de las do s cu a n d o es tá n a line ad as de m an e ra ó p tim a es de a p ro x im a d a m e n te o m ás de a p ro x im a d a m e n te 25% , 30% , 40% , 50% , 60% , 70% , 80% , 90% , 95% , 97 ,5% , 99 % o m ayor. En a lg u n o s e jem p los , al m en os u n a de las do s reg io nes de se cu e n c ia es de a p ro x im a d a m e n te o m ás de a p ro x im a d a m e n te 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 40, 50 o m ás nu c le ó tid o s de long itud .

U na s e cu e n c ia de a rm a zón de un A R N g ob je to pued e c o m p re n d e r una e s tru c tu ra secu n d a ria . U na e s tru c tu ra se cu n d a ria pued e co m p re n d e r un a reg ión de p se u d o n u d o o u n a e s tru c tu ra de ta llo -b u c le . En a lg u n o s e jem p los , la co m p a tib ilid a d de un ác ido nu c le ico g u ía y un a nu c le a sa g u ia d a p o r ác ido nu c le ico e s tá d e te rm in a d a al m enos p a rc ia lm e n te p o r la se cu e n c ia d e n tro o a d ya ce n te a la reg ión de e s tru c tu ra se cu n d a ria de l A R N gu ía . En a lgu nos caso s , la c in é tica de un ión de un ác ido nu c le ico g u ía a un a nu c le a sa g u ia d a p o r ác ido nu c le ico e s tá d e te rm in a d a en pa rte p o r e s tru c tu ra s s e cu n d a ria s de n tro de la s e cu e n c ia de a rm a zón . En a lgu nos caso s , la c in é tica de un ión de un ác ido nu c le ico g u ía a una nu c le a sa g u ia d a p o r ác ido nu c le ico se d e te rm in a en pa rte p o r la s e cu e n c ia de ác ido nuc le ico con la se cu e n c ia de a rm azón .

S e pu ed e e n c o n tra r una se cu e n c ia de a rm a zón c o m p a tib le p a ra u n a c o m b in a c ió n de A R N g -p ro te ín a e fe c to ra Cas e sca n e a n d o se cu e n c ia s a d ya ce n te s a locus de una nu c le a sa C as na tiva . En o tra s pa la b ras , las nu c le asas C as na tivas p u ed en s e r c o d ifica d a s en un g e n o m a en las p ro x im id a d e s de un ác ido nu c le ico g u ía c o m p a tib le co rre sp o n d ie n te o un a s e c u e n c ia de a rm azón .

Las nu c le asas g u ia d a s p o r ác ido nu c le ico pu ed en s e r co m p a tib le s con ác ido s nu c le ico s g u ía que no se e n cue n tran d e n tro de las nu c le asas e n d ó g e n a s de l ho spe da n te . D ichos ác ido s nuc le icos g u ía o rto g o n a le s se p u ed en d e te rm in a r p o r e n sa yo s e m p írico s . Los ác ido s n u c le icos g u ía o rto g o n a le s pu ed en p ro v e n ir de d ife re n te s e sp e c ie s b a c te ria n a s o s e r s in té tico s o tra n s fo rm a d o s de o tro m odo p a ra q u e no sean de o rig e n na tu ra l. Los ác ido s nu c le ico s g u ía o rto g o n a le s q u e son c o m p a tib le s con una nu c le a sa g u ia d a p o r ác ido nu c le ico com ú n p u ed en c o m p re n d e r una o m ás ca ra c te rís tic a s co m u n e s . Las ca ra c te rís tic a s co m u n e s pu eden in c lu ir u n a s e cu e n c ia fu e ra de un a reg ión de pse u d o n u d o . Las ca ra c te rís tica s co m u n e s pu eden in c lu ir u n a reg ión de pse u d o n u d o . Las ca ra c te rís tica s co m u n e s p u ed en in c lu ir una s e c u e n c ia p r im a ria o e s tru c tu ra se cu n d a ria

S e pu e d e tra n s fo rm a r un ác ido nu c le ico g u ía p a ra que d ir ija a un a s e cu e n c ia d ia n a d e se a d a a lte ra n d o la secu en c ia g u ía de m odo q u e la se cu e n c ia g u ía sea c o m p le m e n ta r ia a la s e cu e n c ia d ian a , pe rm itie n d o a s í la h ib rid ac ión en tre la s e c u e n c ia gu ía y la se cu e n c ia d ian a . Un ác ido nu c le ico g u ía con u n a s e c u e n c ia gu ía tra n s fo rm a d a se pu ed e d e n o m in a r ác ido nu c le ico g u ía tra n s fo rm a d o . Los ác ido s nu c le ico s g u ía tra n s fo rm a d o s a m en ud o no son na tu ra le s y no se e n cu e n tra n en la na tu ra leza .

En a lgu nos e jem p los , la p re se n te d e sc rip c ió n p ro p o rc io n a un p o lin u c le ó tid o q u e c o d ifica un A R N g. En a lgu nos e je m p lo s , un ác ido nu c le ico que co d ific a e l A R N g e s tá co m p re n d id o en un v e c to r de e xp re s ió n , p. e j., un v e c to r de e xp re s ió n re co m b in an te . En a lg u n o s e jem p los , la p re se n te d e sc rip c ió n p ro p o rc io n a un p o lin u c le ó tid o que c o d ifica un p o lip é p tid o m o d ific a d o r d ir ig id o al s itio . En a lgu nos e jem p los , e l p o lin u c le ó tid o q u e c o d ifica un p o lip é p tid o m o d ifica d o r d ir ig id o al s itio e s tá co m p re n d id o en un v e c to r de e xp res ión , p. e j., un v e c to r de e xp re s ió n reco m b in an te .

E J E M P L O S

Los e je m p lo s 1-9 son d e m o s tra c io n e s de la p la ta fo rm a de in g e n ie ría g e n ó m ic a de H TP en Coynebacterium. Sin e m b a rg o , se han a d a p ta d o p ro ce d im ie n to s s im ila re s p a ra E. coli y los a u to res de la inven c ión los están llevan do a ca b o con éx ito .

A co n tin u a c ió n se p ro p o rc io n a un b re ve índ ice con e l ún ico fin de a y u d a r al lecto r. N a da en es te índ ice p re te n d e lim ita r e l a lcan ce de los e je m p lo s o la d e sc rip c ió n de la so lic itud .

T a b la 5.1 - Ín d ic e p a ra la s e c c ió n d e e je m p lo s

^{E je m p lo 1: T ra n s fo rm a c ió n d e H TP d e} Corynebacterium ^{y d e m o s t ra c ió n d e la c re a c ió n d e b ib l io te c a s d e S N P}

Este e je m p lo ilu s tra e je m p lo s de los m é tod os de in g e n ie ría g e n é tic a de H TP de la p re se n te de sc rip c ió n . Las cé lu la s h o sp e d a n te s se tra n s fo rm a n con u n a v a rie d a d de se cu e n c ia s de S N P de d ife re n te s ta m a ñ o s , to d a s d ir ig id a s a d ife re n te s zo n a s de l g e no m a . Los resu ltad os d e m u e s tra n q u e los m é tod os de la p re se n te d e sc rip c ió n pu ed en g e n e ra r c a m b io s g e n é tico s ráp idos de c u a lq u ie r tipo , en to d o el g e n o m a de u n a cé lu la ho spe da n te .

A. Clonación de vectores de transformación

S e e lig ie ro n al a za r un a v a rie d a d de S N P de Corynebacterium glutamicum (A T C C 21300 ) y se c lo n a ro n en ve c to re s de c lo n a c ió n de Corynebacterium u sa nd o té c n ic a s de c lo n a c ió n de reco m b in a c ió n ho m ó lo g a de le vad u ras para e n s a m b la r un v e c to r en e l q u e c a d a S N P e s ta b a fla n q u e a d o p o r reg io nes de rep e tic ión d irec ta , co m o se d e sc rib e m ás a rr ib a en la secc ión "E n sa m b la je /C lo n a c ió n de p lá sm id o s a m ed ida", y co m o se ilu s tra en la F igu ra 3.

Los ca se te s de S N P pa ra este e je m p lo se d ise ñ a ro n pa ra in c lu ir un in te rva lo de lo ng itude s de b ra zo de repe tic ión d ire c ta de ho m o lo g ía q u e va ría n de 0 ,5 Kb, 1 Kb, 2 Kb y 5 Kb. A d e m á s , los ca se te s de S N P se d ise ñ a ro n pa ra la re co m b in a c ió n h o m ó loga d ir ig id a a va ria s reg io nes d is tin ta s de l g e no m a , co m o se de sc rib e con m ás d e ta lle a co n tin u a c ió n .

El g e n o m a de C. glutamicum t ie n e un ta m a ñ o de 3.282.708 pb (véa se la F igu ra 9). El g e n o m a se d iv id ió a rb itra ria m e n te en 24 reg io nes g e n é tica s de igua l ta m a ñ o y se d ise ñ a ro n ca se te s de S N P pa ra d ir ig irse a c a d a una de las 24 reg iones. P o r lo tan to , se c lo n ó un to ta l de 96 p lá sm id o s d is tin to s pa ra e s te E je m p lo (4 ta m a ñ o s de in se rto d ife re n te s x 24 re g io n e s g e n ó m ica s d is tin tas ).

C a d a inse rto de A D N se p ro d u jo p o r a m p lif ica c ió n p o r PC R de reg io nes h o m ó loga s u sa nd o o lig o s de o rigen co m e rc ia l y e l A D N g e n ó m ico de la ce p a h o sp e d a n te d e sc rito an tes co m o m o lde . El S N P a in tro d u c ir en e l g e n o m a se cod ificó en las co la s de o ligo s . Los fra g m e n to s de P C R se e n sa m b la ro n en la ca d e n a p rin c ip a l de l v e c to r u sa nd o reco m b in ac ión h o m ó lo g a en levaduras .

La c lo n a c ió n de c a d a S N P y b ra zo de ho m o lo g ía en el v e c to r se llevó a ca b o de a cu e rd o con e l f lu jo de tra b a jo de in g e n ie ría de H TP d e sc rito en la F igu ra 6A -B , F igu ra 3 y T a b la 5.

^{B .} Transformación de clones ensamblados en E. coli

Los ve c to re s se tra n s fo rm a ro n in ic ia lm e n te en E. coli u sa nd o té c n ic a s e s tá n d a r de tra n s fo rm a c ió n p o r ch o q u e té rm ico con e l fin de id e n tifica r c lo n e s e n sa m b la d o s c o rre c ta m e n te y pa ra a m p lif ic a r e l A D N de l v e c to r pa ra la tra n s fo rm a c ió n de Corynebacterium.

P or e jem p lo , se an a lizó en ba c te ria s de E. coli tra n s fo rm a d a s e l éx ito de l en sa m b la je . S e cu ltiva ro n cu a tro co lo n ia s de c a d a p la ca de tra n s fo rm a c ió n de E. coli y se an a lizó e l e n sa m b la je co rre c to p o r PCR . Este p ro ce d im ie n to se rep itió pa ra c a d a u n a de las 24 u b ica c io n e s de tra n s fo rm a c ió n y pa ra c a d a uno de los 4 ta m a ñ o s de in se rto d ife re n te s (es dec ir, pa ra los 96 tra n s fo rm a n te s de es te e jem p lo ). Los resu ltad os de e s te e xp e rim e n to se re p rese n ta ron co m o el nú m ero de co lo n ia s co rre c ta s id e n tifica d a s de las cu a tro c o lo n ia s que se a n a liza ro n pa ra c a d a tra ta m ie n to (tam año de l inse rto y ub ica c ió n ge n ó m ica ) (véase la F igu ra 12). Los in se rtos m ás la rgo s de 5 kb m ostrab an u n a d ism inu c ió n en la e fic ie n c ia de l e n sa m b la je en c o m p a ra c ió n con los h o m ó logo s m ás co rto s (n = 96).

^{C .} Transformación de clones ensamblados en Corynebacterium

Los c lo n e s va lid a d o s se tra n s fo rm a ro n en cé lu la s h o sp e d a n te s de Corynebacterium glutamicum m ed ian te e le c tro p o ra c ió n . P ara ca d a tra n s fo rm a c ió n , se d e te rm in ó e l nú m ero de U n ida de s F o rm ad o ra s de C o lo n ia s (U FC ) po r gg de A D N en fu n c ió n de l ta m a ñ o de l in se rto (véa se la F igu ra 13). La in te g ra c ión de l g e n o m a de Coryne ta m b ié n se an a lizó en fu n c ió n de la lo ng itud de los b ra zos de hom o log ía , y los resu ltad os m ostra ro n q u e los b ra zos m ás co rtos te n ía n u n a m e n o r e fic ie n c ia (véa se la F igu ra 13).

La e fic ie n c ia de la in te g ra c ión g e n ó m ica ta m b ié n se an a lizó con resp ec to a la ub ica c ió n de l g e n o m a d ia n a en tra n s fo rm a n te s de C. glutamicum. Las p o s ic io n e s g e n ó m ica s 1 y 2 p re se n ta b a n un a e fic ie n c ia de in teg rac ión lig e ra m e n te m e n o r en c o m p a ra c ió n con e l resto de l g e n o m a (véa se la F igu ra 10).

^D. Salida de bucles de marcadores de selección de

Los c u ltivo s de Corynebacterium id e n tifica d o s po r te n e r in te g ra c io n e s s a tis fa c to ria s de l ca se te de in se rto se cu ltiva ro n en m ed io q u e c o n te n ía s a ca ro sa al 5% pa ra la co n tra se le cc ió n pa ra bu c le s de sa lid a de l gen de se lecc ió n sacb. La fre c u e n c ia de re s is te n c ia a la s a ca ro sa pa ra va r io s b ra zos d e repe tic ión d ire c ta de ho m o lo g ía no va ria b a s ig n ifica tiva m e n te con la long itud de los b ra zos (véa se la F igu ra 14). E stos resu ltad os sug e rían que las e fic ie n c ia s de sa lid a de buc le p e rm a n e c ía n e s ta b le s en las lo ng itude s de los b ra zos de ho m o lo g ía de 0 ,5 kb a 5 kb.

C on el fin de v a lid a r a d ic io n a lm e n te los su ce so s de sa lid a de buc le , se cu ltiva ro n y a n a liza ro n p o r se cu e n c ia c ió n las c o lo n ia s q u e p re se n ta b a n re s is te n c ia a la saca rosa .

Los resu ltad os de la se cu e n c ia c ió n de las reg io nes g e n ó m ica s de l in se rto se resu m en en la T a b la 6 a co n tin u a c ió n .

T a b la 6 - F recue nc ia de v a lid a c ió n de sa lid a de bucle

Los resultados de la secuenciación mostraban una eficiencia de 10- 20% en las salidas de bucles. La salida de bucle real probablemente depende en cierta medida de la secuencia del inserto. Sin embargo, la selección de 10-20 colonias resistentes a la sacarosa conduce a altas tasas de éxito.

^E. Resumen

La Tabla 7 a continuación proporciona una evaluación cuantitativa de las eficiencias de los métodos de ingeniería genómica de HTP de la presente descripción. Las tasas de ensamblaje de construcciones para las metodologías de homología de levaduras proporcionaban construcciones de ADN esperadas en casi 9 de cada 10 colonias analizadas. Las transformaciones de Coryne de construcciones de SNP con brazos de homología de 2 kb proporcionaban un promedio de 51 unidades formadoras de colonias por microgramo de ADN (UFC/pg), presentando 98% de dichas colonias inserciones de SNP correctamente integradas (eficacia de direccionamiento). Las eficiencias de salida de bucles se mantuvieron en el 0,2% de las células que se volvieron resistentes cuando se exponían a la sacarosa, y el 13% de estas presentaban secuencias de salida de bucle correctas.

T a b la 7- Resumen de resultados para la ingeniería de cepas de Corynebacterium glutamicum

E je m p lo 2 : In g e n ie r ía g e n ó m ic a d e H TP - im p le m e n ta c ió n d e u n a b ib l io te c a d e S N P p a ra re h a b il i ta r /m e jo ra r u n a c e p a m ic ro b ia n a in d u s tr ia l

Este ejemplo ilustra varios ejemplos de las bibliotecas de intercambio de SNP de los programas de mejora de cepas de HTP de la presente descripción. Específicamente, el ejemplo ilustra varios enfoques previstos para rehabilitar cepas industriales actualmente existentes. Este ejemplo describe los enfoques de onda ascendente y descendente para explorar el espacio de soluciones fenotípicas creado por las múltiples diferencias genéticas que pueden estar presentes entre cepas "base", "intermedias" e industriales.

A . Id e n t if ic a c ió n d e S N P e n e l g ru p o d e d iv e rs id a d

Se llevó a cabo un programa de mejora de cepas de ejemplo usando los métodos de la presente descripción en una cepa microbiana de producción industrial, denominada en el presente documento "C". Las cepas del grupo de diversidad para este programa están representadas por A, B y C. La cepa A representaba la cepa hospedante de producción original, antes de cualquier mutagénesis. La cepa C representaba la cepa industrial actual, que ha experimentado muchos años de mutagénesis y selección a través de programas tradicionales de mejora de cepas. La cepa B representaba una cepa de "término medio", que había sufrido algunas mutagénesis y había sido la predecesora de la cepa C. (véase la Figura 17A).

Las cepas A, B y C se secuenciaron y se analizaron sus genomas para determinar las diferencias genéticas entre las cepas. Se identificaron un total de 332 SNP no sinónimos. De estos, 133 SNP eran exclusivos de C, 153 eran compartidos adicionalmente por B y C, y 46 eran exclusivos de la cepa B (véase la Figura 17B). Estos SNP se usarán como grupo de diversidad para los ciclos de mejora de cepas aguas abajo.

B . A n á l is is d e in te rc a m b io d e S N P

Los SNP identificados del grupo de diversidad en la Parte A del Ejemplo 2 se analizarán para determinar su efecto en el rendimiento de la células hospedantes. La ronda de "aprendizaje" inicial del rendimiento de las cepas se dividirá en seis etapas, como se describe a continuación, y se muestra en el diagrama en la Figura 18.

Primero, todos los SNP de C se clonarán de forma individual y/o combinatoria en la cepa base A. Esto representará un mínimo de 286 transformantes individuales. El propósito de estos transformantes será identificar los SNP beneficiosos.

Segundo, to d o s los S N P de C se e lim in a rá n de fo rm a ind iv idu a l y /o c o m b in a to r ia de la ce p a c o m e rc ia l C. Esto re p re se n ta rá un m ín im o de 286 tra n s fo rm a n te s in d iv idu a le s . El p ro pó s ito de e s to s tra n s fo rm a n te s se rá id e n tifica r los S N P ne u tros y pe rju d ic ia le s . Las e ta p a s o p c io n a le s ad ic io n a le s 3-6 ta m b ié n se de sc rib e n a c o n tin u a c ió n . La p r im e ra y s e g u n d a e ta p a de su m a r y re s ta r los S N P de do s p u n tos de t ie m p o g e n é tico s (cep a base A y cep a indu s tria l C) se d e n o m in a n en e l p re se n te d o cu m e n to "onda", q u e co m p re n d e u n a "o n d a a sce n d e n te " (ad ic ión de S N P a un a c e p a base , p rim e ra e ta pa ) y una "o n d a d e sce n d e n te " (e lim in ac ió n de S N P de la c e p a industria l, s e g u n d a e tapa). El c o n ce p to de o n d a se e x tie n d e a a d ic io n e s /su s tra cc io n e s a d ic io n a le s de S N P.

Tercero, to d o s los S N P de B se c lo n a rá n de fo rm a in d iv idu a l y /o co m b in a to r ia en la c e p a base A. Esto re p re se n ta rá un m ín im o de 199 tra n s fo rm a n te s in d iv idu a le s . El p ro pó s ito de e s to s tra n s fo rm a n te s se rá id e n tifica r S N P b e n e fic io so s . V a rios de los tra n s fo rm a n te s ta m b ié n se rv irán co m o d a to s de v a lid a c ió n pa ra los tra n s fo rm a n te s p ro d u c id o s en la p rim e ra e tapa .

Cuarto, to d o s los S N P de B se e lim in a rá n de fo rm a ind iv idu a l y /o co m b in a to r ia de la c e p a co m e rc ia l B. Esto re p re se n ta rá un m ín im o de 199 tra n s fo rm a n te s in d iv idu a le s . El p ro pó s ito de e s to s tra n s fo rm a n te s se rá id e n tifica r los S N P n e u tros y p e rju d ic ia le s . V a rio s de los tra n s fo rm a n te s ta m b ié n se rv irán co m o d a to s de va lid a c ió n pa ra los tra n s fo rm a n te s p ro d u c id o s en la s e g u n d a e tapa .

Quinto, to d o s los S N P exclusivos de C (es dec ir, no es tá n ta m b ié n p re se n te s en B) se c lo na rán de fo rm a in d iv idua l y /o co m b in a to r ia en la c e p a B co m e rc ia l. Esto re p re se n ta rá un m ín im o de 46 tra n s fo rm a n te s ind iv idu a le s . El p ro p ó s ito de es to s tra n s fo rm a n te s se rá id e n tifica r S N P b e ne fic ioso s . V a rios de los tra n s fo rm a n te s tam b ién se rv irán co m o da tos de va lid a c ió n pa ra los tra n s fo rm a n te s p ro d u c id o s en la p rim e ra y te rc e ra e tapas.

Sexto, to d o s los S N P exclusivos de C se e lim in a rá n de fo rm a in d iv id u a l y /o co m b in a to r ia de la ce p a c o m e rc ia l C. E sto re p re se n ta rá un m ín im o de 46 tra n s fo rm a n te s ind iv idu a le s . El p ro p ó s ito de e s to s tra n s fo rm a n te s será id e n tific a r los S N P neu tros y p e rju d ic ia le s . V a rio s de los tra n s fo rm a n te s ta m b ié n se rv irán co m o d a to s de v a lid a c ió n pa ra los tra n s fo rm a n te s p ro d u c id o s en las e ta p a s s e g u n d a y cua rta .

Los d a to s reco g idos de c a d a u n a de e s ta s e ta p a s se usan pa ra c la s ific a r c a d a S N P co m o be ne fic ioso , neu tro o p e rju d ic ia l a p rim e ra v is ta .

C. U s o d e m a p e o e p is tá t ic o p a ra d e te rm in a r c o m b in a c io n e s b e n e f ic io s a s d e S N P

Los S N P b e n e fic io so s id e n tifica d o s en la P arte B de l E je m p lo 2 se a n a liza rá n p o r m é tod os de m ap eo de e p is ta s is de la p re se n te de sc rip c ió n , con el fin de id e n tifica r los S N P q u e es p ro b a b le q u e m e jo ren el re n d im ie n to d e l ho spe da n te cu a n d o se co m b in an .

S e c rea rán nu eva s v a r ia n te s de ce p a s tra n s fo rm a d a s u sa nd o los m é tod os de in g e n ie ría de l E je m p lo 1 pa ra e n s a y a r las co m b in a c io n e s de S N P de a cu e rd o con las p re d icc io n e s de l m ap eo de e p is tas is . La c o n so lid a c ió n de S N P puede te n e r lu g a r se cu e n c ia lm e n te , o pu ed e te n e r lu g a r a lte rn a tiva m e n te a tra vé s de m ú ltip le s ram as, de m odo qu e puede e x is tir m ás de un a ce p a m e jo rad a con un su b co n ju n to de S N P b e n e fic io so s . La co n so lid a c ió n de S N P c o n tin u a rá d u ra n te m ú ltip le s ron da s de m e jo ra de las cep as , h a s ta q u e se p ro d u zca u n a ce p a fina l que c o n te n g a la co m b in a c ió n ó p tim a de S N P b e n e fic io so s , sin n ing uno de los b a g a je s de S N P n e u tros o p e rju d ic ia le s .

E je m p lo 3 : In g e n ie r ía g e n ó m ic a d e H TP - im p le m e n ta c ió n d e u n a b ib l io te c a d e in te rc a m b io d e S N P p a ra ^{m e jo ra r e l r e n d im ie n to d e la c e p a e n la p ro d u c c ió n d e lis in a e n} Corynebacterium

E ste e je m p lo p ro p o rc io n a una im p le m e n ta c ió n ilu s tra tiva de un a pa rte de l p ro g ra m a de m e jo ra de ce p a s de d ise ñ o de H TP de in te rca m b io de S N P de l E jem p lo 2 con e l o b je tivo de p ro d u c ir m e jo ras en el re n d im ie n to y la p ro d u c tiv id a d de la p ro d u cc ió n de lis ina en Corynebacterium.

La secc ión B de e s te e je m p lo ilu s tra a d e m á s las e ta p a s de c o n so lid a c ió n de m u ta c io n e s de l p ro g ra m a d e m e jo ra de ce p a s de H TP de la p re se n te de sc rip c ió n . P or lo ta n to , e l e je m p lo p ro p o rc io n a resu ltad os e xp e rim e n ta le s pa ra una p rim era , s e g u n d a y te rce ra ron da de c o n so lid a c ió n de los m é tod os de m e jo ra de ce p a s de H TP de la p re se n te de sc rip c ión .

Las m u ta c io n e s pa ra las c o n so lid a c io n e s de la s e g u n d a y te rc e ra ron da de riva n de in te rcam b ios de b ib lio te ca s g e n é tica s in d e p e n d ie n te s . P or lo tan to , e s to s resu ltad os ta m b ié n ilus tran la ca p a c id a d de los p ro g ra m a s de ce p a s de H TP p a ra lle va rlos a ca b o en ru tas pa ra le la s de m ú ltip le s ram as, y la "m e m o ria " de las m u tac ion es b e n e fic io sa s que se pu ed en in se rta r en m e tad a tos a so c ia d o s con las d ive rsa s fo rm a s de b ib lio te ca s de d iseñ o g e n é tico de la p re sen te de sc rip c ión .

C o m o se ha d e sc rito an tes, se s e cu e n c ia ro n los g e n o m a s de u n a ce p a de re fe re nc ia ba se p ro p o rc io n a d a (cep a A ) y u n a s e g u n d a ce p a "tra n s fo rm a d a " (cepa C), y se id en tifica ron to d a s las d ife re n c ia s g e n é tica s . La ce p a base e ra una v a ria n te de Corynebacterium glutamicum que no hab ía su fr id o m u ta g é n e s is p o r UV. La c e p a tra n s fo rm a d a tam b ién e ra u n a ce p a de C. glutamicum q u e se ha b ía p ro d u c id o a p a rtir de la ce p a base d e sp u é s de va ria s rondas de p ro g ra m a s tra d ic io n a le s de m e jo ra p o r m u tac ion es . Este e je m p lo p ro p o rc io n a los resu ltad os de in te rcam b io de S N P p a ra 186 d ife re n c ia s de S N P no s in ó n im o s d is tin to s id e n tifica d a s e n tre las ce p a s A y C.

A. Ingeniería de HTP y cribado de alta capacidad

C a d a uno de los 186 S N P id en tificado s se v o lv ió a a ñ a d ir in d iv id u a lm e n te a la ce p a base , de acu e rd o con los m é todos de c lo n a c ió n y tra n s fo rm a c ió n de la p re se n te d e sc rip c ió n . S e an a lizó en c a d a c e p a rec ién c re a d a que co m p re n d e un so lo S N P el re n d im ie n to de lis ina en cu ltivo s a p e q u e ñ a e s c a la d ise ñ a d o s pa ra e v a lu a r el ren d im ie n to de l títu lo del p ro du c to . S e lleva ro n a ca b o cu ltivo s a p e q u e ñ a e s c a la u sa n d o m ed io s de cu ltivo s a e s c a la indus tria l. El títu lo del p ro d u c to se m id ió ó p tica m e n te tra s a g o ta m ie n to de l c a rb o n o (es dec ir, re p re se n ta tivo de l ren d im ie n to de un so lo lo te) con un e n sa yo co lo r im é tr ico e s tá nda r. B reve m en te , se p re pa ró u n a m ezc la de e n sa yo c o n c e n tra d a y se añ ad ió a las m u e s tra s de fe rm e n ta c ió n de m odo que las c o n ce n tra c io n e s f in a le s de los rea c tivos e ran ta m p ó n de fo s fa to de sod io 160 m M , A m p le x Red 0 ,2 m M , p e ro x id a sa de rábano p ican te 0 ,2 U /m l y 0 ,005 U /m l de lis ina ox ida sa . S e de jó que las re a cc io n e s ava nza ran ha s ta un pu n to fina l y se m id ió la de n s id a d ó p tica u sa n d o un e s p e c tro fo tó m e tro de p la ca Tecan M 1000 a una long itud de o n d a de 560 nm . Los resu ltad os de l e xp e rim e n to se resu m en en la T a b la 8 a co n tin u a c ió n y se rep rese n tan en la F igu ra 38.

Tabla 8 - R e su lta dos resu m ido s de la tra n s fo rm a c ió n de ce p a s de in te rca m b io de S N P pa ra la p ro d u cc ió n de lis ina

B. Ingeniería de HTP de segunda ronda y cribado de alta capacidad - Consolidación de la biblioteca de intercambio de SNP con aciertos de intercambios de PRO seleccionados

U na de las c u a lid a d e s de los m é tod os de H TP de la p re sen te d e sc rip c ió n es su ca p a c id a d p a ra a lm a c e n a r b ib lio te ca s de d ise ñ o g e n é tico de H TP ju n to con in fo rm ac ió n a so c ia d a con los e fe c to s de c a d a S N P /P ro m o to r/T e rm in a d o r/C o d ó n de in ic io en los fe n o tip o s de la cé lu la ho spe da n te . Los a u to res de la p re se n te in venc ión hab ían llevad o a cabo previamente un experimento de intercambio de promotores que había identificado varios intercambios de promotor zwf en C. glutamicum con efectos positivos en los rendimientos biosintéticos (véanse, p. ej., los resultados para la diana "N" en la Figura 22).

Los autores de la presente invención modificaron la cepa base A de este ejemplo para incluir también uno de los intercambios de promotor zwf previamente identificados del ejemplo 5. Los 176 SNP superiores identificados en el cribado inicial descrito antes en la Tabla 8 se reintrodujeron en esta nueva cepa base para crear una nueva biblioteca microbiana de diseño genético de intercambio de SNP. Al igual que en la etapa anterior, se analizó el rendimiento de lisina de cada cepa recién creada que comprende un único SNP. También se analizó en cepas mutantes de SNP seleccionadas una señal de productividad, midiendo la producción de lisina a las 24 horas usando el método colorimétrico descrito más arriba. Los resultados de esta etapa se resumen en la Tabla 9 a continuación y se muestran en la Figura 39.

T a b la 9 - Segunda ronda de cribado para ingeniería de cepas de intercambio de SNP para la producción de lisina

Los resultados de esta segunda ronda de intercambio de SNP identificaron varios SNP capaces de aumentar el rendimiento de la cepa base y la productividad de lisina en una cepa base que comprende la mutación de intercambio del promotor zwf (véase, p. ej., SNP 084 y SNP 121 en la esquina superior derecha de la Figura 39).

C. V a l id a c ió n d e l c u l t iv o e n ta n q u e

Las cepas que contienen los SNP superiores identificados durante las etapas de HTP anteriores se cultivaron en tanques de fermentación de ensayo de tamaño mediano. Brevemente, se cultivaron pequeños cultivos de 100 ml de cada cepa durante la noche, y después se usaron para inocular cultivos de 5 litros en los tanques de fermentación de ensayo con cantidades iguales de inoculado. El inoculado se normalizó para contener la misma densidad celular después de una medición de DO600.

Se dejó que los cultivos en tanque resultantes procedieran durante 3 días antes de la recolección. Las mediciones de rendimiento y productividad se calcularon a partir de los títulos de sustrato y producto en muestras tomadas del tanque en varios puntos durante la fermentación. Las muestras se analizaron para concentraciones particulares de moléculas pequeñas por cromatografía líquida de alta presión usando las referencias adecuadas. Los resultados de este experimento se resumen en la Tabla 10 a continuación y se muestran en la Figura 40.

T a b la 10 - Validación en tanque de microbios de intercambio de SNP

Como se predijo por los cultivos de alta capacidad a pequeña escala, los cultivos en tanque más grandes para cepas que comprenden el intercambio de promotor zwf combinado y SNP 121, presentaban aumentos significativos en el rendimiento y la productividad frente a la cepa de referencia base. La productividad de esta cepa, por ejemplo, saltó a 4,5 g/l/h en comparación con la productividad de 3,29 g/l/h de la cepa base (un aumento de 37,0% en la productividad en solo 2 rondas de intercambio de SNP).

E je m p lo 4 : In g e n ie r ía g e n ó m ic a d e H TP - im p le m e n ta c ió n d e u n a b ib l io te c a d e in te rc a m b io d e p ro m o to re s p a ra m e jo ra r u n a c e p a m ic ro b ia n a in d u s tr ia l

Los e je m p lo s p re v io s han d e m o s tra d o el p o d e r de los p ro g ra m a s de m e jo ra de ce p a s de H TP de la p re sen te d e sc rip c ió n pa ra re h a b ilita r ce p a s in du s tria le s . Los e je m p lo s 2 y 3 d e sc rib ía n la im p le m e n ta c ió n de té c n ic a s y b ib lio te ca s de in te rca m b io de S N P q u e exp lo ra n la d ive rs id a d g e n é tic a e x is te n te d e n tro de va ria s ce p a s base, in te rm e d ia s e indus tria les .

Este e je m p lo ilus tra e je m p lo s de los p ro g ra m a s de m e jo ra de ce p a s de H TP q u e usan las té c n ic a s de in te rca m b io de P R O de la p re se n te de sc rip c ió n . A d ife re n c ia de l e je m p lo 3, es te e je m p lo e n se ñ a m é tod os pa ra la g e n e ra c ió n de novo de m u ta c io n e s m ed ia n te la g e n e ra c ió n de b ib lio te ca s de in te rca m b io de PRO .

A . Id e n t if ic a c ió n d e u n a d ia n a p a ra e l in te rc a m b io d e p ro m o to re s

C o m o se ha m e n c io n a d o an tes, e l in te rca m b io de p ro m o to re s es un p ro ce d im ie n to de m ú ltip le s e ta p a s q u e co m p re n d e u n a e ta p a de : S e le c c io n a r un c o n ju n to de "n" ge ne s a los que d irig irse .

En e s te e jem p lo , los a u to res de la inven c ión han id e n tifica d o un g ru p o de 23 ge ne s de ru tas p o te n c ia le s pa ra m o d u la r m ed ia n te los m é to d o s de e s c a le ra de p ro m o to re s de la p re sen te d e sc rip c ió n (19 ge ne s pa ra so b re e x p re s a r y 4+ genes de d e sv ío pa ra re g u la r p o r d ism in u c ió n , en u n a ru ta m e ta b ó lica de e je m p lo q u e p ro du ce la m o lé cu la lis ina ). (V éa se la F igu ra 19).

B . C re a c ió n d e la e s c a le ra d e p ro m o to re s

O tra e ta p a en la im p le m e n ta c ió n de un p ro ce d im ie n to de in te rca m b io de p ro m o to re s es la se lecc ió n de un co n ju n to de "x" p ro m o to re s pa ra qu e actúen co m o u n a "e sca le ra ". Idea lm en te , se ha d e m o s tra d o que e s to s p ro m o to re s con du cen a u n a e xp re s ió n m uy va ria b le en m ú ltip le s locus ge n ó m ico s , pe ro el ún ico req u is ito es que pe rtu rbe n la exp res ión g é n ic a de a lg u n a m anera .

E stas e sca le ra s de p ro m o to re s , en e je m p lo s pa rticu la re s , se crea n : id e n tifica n d o p ro m o to re s na tu ra les , na tivos o de t ip o na tu ra l aso c ia d o s con el gen d ia n a de in te rés y lu eg o m u tan do d icho p ro m o to r pa ra o b te n e r m ú ltip le s secu en c ias de p ro m o to r m u tadas . En ca d a uno de e s to s p ro m o to re s m u tad os se a n a liza e l e fe c to en la e xp re s ió n de l gen d iana . En a lg u n o s e jem p los , se a n a liza en los p ro m o to re s e d ita d o s la ac tiv ida d de e xp re s ió n a tra vé s de un a v a rie d a d de co n d ic io n e s , de m odo q u e la ac tiv ida d de c a d a va ria n te de l p ro m o to r se d o c u m e n te /c a ra c te r ic e /a n o te y se a lm ace ne en una base de da tos . Las va r ia n te s de p ro m o to r e d ita d a s resu ltan te s se o rg a n iza n p o s te r io rm e n te en "e sca le ras " d isp u e s ta s en fu n c ió n de la fu e rz a de su e xp re s ió n (p. e j., con v a ria n te s de e xp re s ió n a lta ce rca de la pa rte s u p e rio r y e xp re s ió n a te n u a d a ce rca de la pa rte in fe rio r, co n d u c ie n d o a s í al té rm in o "e sca le ra ").

En e l p re se n te e je m p lo ilus tra tivo , los au to re s de la in ven c ión han c re a d o co m b in a c io n e s de e sca le ra de p ro m o to re s :O R F pa ra c a d a uno de los g e n e s d ia n a id e n tifica d o s en la F igu ra 19.

C . A s o c ia c ió n d e p ro m o to re s d e la e s c a le ra c o n g e n e s d ia n a

O tra e ta p a en la im p le m e n ta c ió n de un p ro ce d im ie n to de in te rca m b io de p ro m o to re s es la in ge n ie ría de H TP de va ria s ce p a s que co m p re n d e n un p ro m o to r da do de la e sca le ra de p ro m o to re s aso c ia d o con un gen d ia n a pa rticu la r.

Si e x is te un p ro m o to r na tivo d e la n te de l gen d ia n a n y se co n o ce su secu en c ia , e n to n ce s se pu ed e lle va r a ca b o el ree m p la zo de l p ro m o to r na tivo con ca d a uno de los p ro m o to re s x en la esca le ra . C u a n d o e l p ro m o to r na tivo no ex is te o se d e sco n o ce su secu en c ia , e n to n ce s se pu e d e lle va r a ca b o la in se rc ión de ca d a uno de los p ro m o to re s x en la e sca le ra d e la n te de l gen n. De e s ta m anera , se co n s tru ye u n a b ib lio te ca de cep as , en do n d e ca d a m ie m bro de la b ib lio te ca es u n a c a so de un p ro m o to r x o p e ra tiva m e n te un ido a la d ia n a n, en un co n te x to g e n é tico p o r lo de m ás id én tico (véase , p o r e jem p lo , la F igu ra 20).

D . C r ib a d o d e H TP d e la s c e p a s

U n a e ta p a fin a l en el p ro ce d im ie n to de in te rca m b io de p ro m o to re s es e l c rib a d o de H TP de las ce p a s en la b ib lio te ca an tes m en c io nad a . C a d a u n a de las ce p a s d e riva d a s re p re se n ta un ca so de p ro m o to r x un id o a d ia n a n, en un con tex to g e n é tico p o r lo de m ás idén tico .

A l im p le m e n ta r un c rib a d o de H TP de ca d a cep a , en un e sce n a rio en el q u e se ca ra c te r iza su re n d im ie n to fre n te a uno o m ás in d ica do res , los a u to res de la in ven c ión pu ed en d e te rm in a r qué a so c ia c ión de p ro m o to r/g e n d ia n a es m ás b e n e fic io sa pa ra un in d ica d o r d e te rm in a d o (p. e j., op tim iza c ió n de la p ro du cc ión de u n a m o lé cu la de in te rés). V éa se la F igu ra 20 (e fec to de los p ro m o to re s P 1-P 8 en e l gen de in te rés). En el e je m p lo ilu s tra tivo ilu s trad o en las F igu ras 19-22 , los a u to re s de la inven c ión han usa d o e l p ro ce d im ie n to de in te rca m b io de p ro m o to re s pa ra o p tim iz a r la p ro d u cc ió n de lis ina . U n a a p lica c ió n de los m é tod os de in te rcam b io de Pro d e sc rito s an tes se d e sc rib e en e l e jem p lo 5, a co n tin u a c ió n .

E je m p lo 5 : In g e n ie r ía g e n ó m ic a d e H TP - im p le m e n ta c ió n d e u n a b ib l io te c a d e in te rc a m b io d e P R O p a ra m e jo ra r e l r e n d im ie n to d e c e p a s p a ra la p ro d u c c ió n d e lis in a .

La s ig u ie n te secc ión p ro p o rc io n a u n a im p le m e n ta c ió n ilu s tra tiva de las h e rra m ie n ta s de l p ro g ra m a de m e jo ra de cep as de d iseñ o de H TP de in te rca m b io de P R O de la p re se n te de sc rip c ió n , co m o se d e sc rib e en el E jem p lo 4. En este ejemplo, una cepa de Corynebacterium se sometió a los métodos de intercambio de PRO de la presente descripción con el fin de aumentar el rendimiento de lisina de la célula hospedante.

A. Intercambio de promotores

Los intercambios de promotores se realizaron como se describe en el Ejemplo 4. Los genes seleccionados de la ruta biosintética de la lisina en la Figura 19 fueron la diana para intercambios de promotores usando los promotores P1-P8.

B. Ingeniería de HTP y cribado de alta capacidad

La ingeniería de HTP de los intercambios de promotores se realizó como se describe en los Ejemplos 1 y 3. El cribado de HTP de las cepas de intercambio de promotores resultantes se llevó a cabo como se describe en el Ejemplo 3. En total se realizaron 145 intercambios de PRO. Los resultados del experimento se resumen en la Tabla 11 a continuación y se muestran en la Figura 41.

Tabla 11 - Cribado de HTP de bibliotecas de intercambio de PRO de lisina

C u a n d o se v isu a liza n , los resu ltad os de l c rib a d o de la b ib lio te ca de in te rca m b io de p ro m o to re s s irven pa ra id e n tifica r g e n e s d ia n a s que es tá n m ás e s tre c h a m e n te co rre la c io n a d o s con el in d ica d o r de re n d im ie n to q u e se e s tá m id iendo . En es te caso , los ge ne s d ia n a pgi, zw f, ppc, pck, fb p y ddh se id e n tifica ro n co m o ge ne s p a ra los cua le s los in te rcam b ios de p ro m o to re s p ro du cen g ra n d e s g a n a n c ia s en re n d im ie n to fre n te a las ce p a s base.

Las ce p a s s e le cc io n a d a s de la T a b la 11 se v o lv ie ro n a c u ltiv a r en p laca s p e qu eñ as y se an a lizó el re n d im ie n to de lis ina co m o se ha d e sc rito an tes. Los resu ltad os de e s te c rib a d o s e cu n d a rio se m uestran en la F igu ra 22.

Ejemplo 6: Mapeo de epistasis - una herramienta algorítm ica para predecir consolidaciones de mutaciones beneficiosas

Este e je m p lo d e sc rib e un e je m p lo de las té c n ic a s de m od e liza c ió n p re d ic tiva usa da s co m o pa rte de l p ro g ra m a de m e jo ra de ce p a s de H TP de la p re se n te de sc rip c ió n . D e spu és de u n a id en tificac ió n in ic ia l de m u tac ion es p o te n c ia lm e n te b e n e fic io sa s (m e d ia n te e l uso de b ib lio te ca s de d iseñ o g e n é tico co m o se ha d e sc rito an tes), la p re se n te d e sc rip c ió n e n se ñ a m é to d o s p a ra c o n s o lid a r m u ta c io n e s b e n e fic io sa s en la seg un da , te rce ra , cu a rta rondas y p o s te rio re s a d ic io n a le s de m e jo ra de ce p a s de H TP. En a lg u n o s e jem p los , la p re se n te d e sc rip c ió n e n s e ñ a q u e las c o n so lid a c io n e s de m u ta c io n e s se p u ed en b a s a r en e l ren d im ien to ind iv idu a l de c a d a u n a de d icha s m u tac ion es . En o tro s e jem p los , la p re se n te d e sc rip c ió n e n s e ñ a m é tod os pa ra p re d e c ir la p ro b a b ilid a d de q u e dos o m ás m u tac ion es p re sen te n e fe c to s ad itivo s o s in é rg ico s si se c o n so lid a n en u n a ú n ica cé lu la ho spe da n te . El s ig u ie n te e je m p lo ilus tra un e je m p lo de las h e rra m ie n ta s de p re d icc ión de la p re se n te de sc rip c ión .

S e a n a liza ro n m u ta c io n e s s e le cc io n a d a s de las b ib lio te ca s de in te rca m b io de S N P y de in te rca m b io de p ro m o to re s ( in te rca m b io de PRO ) de los E jem p los 3 y 5 pa ra id e n tifica r las c o m b in a c io n e s de in te rca m b io s de S N P /P R O que co n d u c iría n m ás p ro b a b le m e n te a m e jo ras en e l ren d im ie n to de la ce p a de l ho spe da n te .

Las s e cu e n c ia s de la b ib lio te ca de in te rca m b io de S N P se co m p a ra ro n e n tre s í u sa nd o u n a m a triz de s im ilitud de cose no , co m o se d e sc rib e en la secc ión "M a peo de ep is ta s is " de la p re se n te d e sc rip c ió n . Los resu ltad os de l an á lis is p ro p o rc io n a ro n p u n tu a c io n e s de s im ilitud fu n c io n a l pa ra c a d a c o m b in a c ió n de in te rca m b io de S N P /P R O . U na rep re se n ta c ió n v isu a l de las s im ilitu d e s fu n c io n a le s en tre to d o s los in te rca m b io s de S N P /P R O se m ue s tra en un m apa de calor en la Figura 15. Las puntuaciones de similitud funcional resultantes también se usaron para desarrollar un dendrograma que representa la distancia de similitud entre cada uno de los intercambios de SNP/PRO (Figura 16A).

Las mutaciones del mismo grupo funcional o similar (es decir, intercambios de SNP/PRO con alta similitud funcional) tienen más probabilidades de operar por el mismo mecanismo y, por lo tanto, es más probable que presenten epistasis negativa o neutra en el rendimiento general del hospedante cuando se combinan. Por el contrario, es más probable que las mutaciones de diferentes grupos funcionales operen por mecanismos independientes y, por lo tanto, es más probable que produzcan efectos aditivos o combinatorios beneficiosos en el rendimiento del hospedante.

Con el fin de ilustrar los efectos de las rutas biológicas en la epistasis, se combinaron y ensayaron intercambios de SNP y de PRO que presentaban diversas similitudes funcionales en cepas hospedantes. Se diseñaron tres combinaciones de intercambio de SNP/PRO en el genoma de Corynebacterium glutamicum como se describe en el Ejemplo 1: i) Pcg0007::zwf intercambio de PRO Pcg1860::pyc intercambio de PRO, ii) Pcg0007::zwf intercambio de PRO SNP 309, y iv) Pcg0007::zwf intercambio de PRO Pcg0007::lysA intercambio de PRO (véase la Figura 15 y 16A para las relaciones de similitud funcional).

El rendimiento de cada una de las células hospedantes que contienen las combinaciones de intercambios de SNP/PRO se ensayó como se describe en el Ejemplo 3, y se comparó con el de una célula hospedante de control que contenía solo intercambio de PRO zwf. Las Tablas 12 y 13 a continuación resumen los resultados del rendimiento de células hospedantes (mediciones de 96 h) y la productividad (mediciones de 24 h) de cada una de las cepas.

Tabla 12- Acumulación de lisina para el experimento de mapeo de epistasis a las 24 horas.

Tabla 13- Acumulación de lisina para el experimento de mapeo de epistasis a las 96 horas.

Los resultados de rendimientos para el rendimiento del hospedante para cada combinación de intercambios SNP/PRO también se muestran en la Figura 16B. Las cepas hospedantes que combinaban intercambios de SNP/PRO que presentaban menor similitud funcional superaron a las cepas en las que los SNP combinados habían presentado una mayor similitud funcional en las mediciones tanto a las 24 como a las 96 horas.

Por lo tanto, el procedimiento de mapeo epistático es útil para predecir/programar/informar consolidaciones efectivas y/o positivas de cambios genéticos diseñados. El conocimiento analítico del procedimiento de mapeo epistático permite la creación de conjuntos de reglas predictivas que pueden guiar las rondas posteriores de desarrollo de cepas microbianas. El conocimiento predictivo obtenido de la biblioteca epistática se puede usar en tipos microbianos y tipos de moléculas diana.

Ejemplo 7: Ingeniería genómica de HTP - consolidación de mutaciones de intercambio de Pro y ensayos combinatorios multifactoriales

Los ejemplos anteriores han ilustrado métodos para consolidar un pequeño número de mutaciones de intercambio de PRO preseleccionadas con bibliotecas de intercambio de SNP (Ejemplo 3). Otros ejemplos han ilustrado los métodos epistáticos para seleccionar consolidaciones de mutaciones que es más probable que proporcionen propiedades beneficiosas aditivas o sinérgicas de la célula hospedante (Ejemplo 6). Este ejemplo ilustra la capacidad de los métodos de HTP de la presente descripción para explorar eficazmente el gran espacio de soluciones creado por la consolidación combinatoria de múltiples combinaciones de genes/biblioteca de diseño genético (p. ej., biblioteca de intercambio de PRO x biblioteca de SNP o combinaciones dentro de una biblioteca de intercambio de PRO).

En e s ta ap lica c ió n ilu s tra tiva de los m é to d o s de m e jo ra de ce p a s de H TP de la p re se n te de sc rip c ió n , los in te rcam b ios de p ro m o to re s id e n tifica d o s p o r te n e r un e fe c to po s itivo en el re n d im ie n to de l ho sp e d a n te en e l E je m p lo 5 se c o n so lid a n en c o m b in a c io n e s de se g u n d o o rd en con la b ib lio te ca de in te rca m b io de P R O o rig in a l. L a d e c is ió n de c o n s o lid a r las m u ta c io n e s de in te rca m b io de P R O se b a sa b a en e l e fe c to g e n e ra l de ca d a m u tac ión en el ren d im ien to o la p ro d u c tiv id a d , y la p ro b a b ilid a d de q u e la co m b in a c ió n de las do s m u ta c io n e s p ro d u je ra un e fe c to ad itivo o s in é rg ico .

P or e je m p lo , los au to res de la inven c ión se re fie ren a su e le cc ió n de c o m b in a r P cg0007 ::zw f y P cg0007 :: lysA , b a sá n d o se en los resu ltad os de l m ap eo de e p is ta s is de l E je m p lo 6.

A. Ronda de consolidación para ingeniería de cepas por intercambio de PRO

Las ce p a s se tra n s fo rm a ro n co m o se d e sc rib e en e l E jem p lo 1 an te rio r. B reve m en te , las ce p a s q u e ya co n te n ía n una m u tac ión de in te rca m b io de P R O d e se a d a se tra n s fo rm a ro n u n a v e z m ás con la s e g u n d a m u tac ión de in te rcam b io de P R O de sea da . En to ta l, los 145 in te rca m b io s de P R O e n sa ya d o s de l E jem p lo 5 se c o n so lid a ro n en 53 ce p a s de co n so lid a c ió n de se g u n d a ronda, c o m p re n d ie n d o ca d a una do s m u ta c io n e s de in te rca m b io de P R O qu e se e sp e ra q u e p re sen te n e fe c to s ad itivo s o s in é rg ico s b e ne fic ioso s .

Las ce p a s de la s e g u n d a ronda re su lta n te s se c rib a ro n una v e z m ás co m o se d e sc rib e en e l E je m p lo 3. Los resu ltad os de es te e x p e rim e n to se resu m en en la T a b la 14 a co n tin u a c ió n y se m uestran en la F igu ra 11.

Tabla 14 - C ribad o de H TP de b ib lio te ca s de in te rca m b io de P R O p a ra lis ina co n so lid a d a s de la s e g u n d a ronda

C o m o p re d e c ía e l m od e lo de e p is tas is , la ce p a de in te rca m b io de P R O de la s e g u n d a ro n d a qu e c o m p re n d e las m u ta c io n e s P cg0007 ::zw f y P cg 0007 ::ly sA p re se n ta b a u n a de las m e jo ras de re n d im ie n to m ás a ltas , con u n a m e jo ra de ce rca de l 30 % en e l ren d im ie n to fre n te a P cg 0007 ::ly sA so lo , y 35 ,5 % de m e jo ra fre n te a la c e p a base (véase los d a to s en un c írcu lo en la F igu ra 11).

Los m é tod os de H TP pa ra e x p lo ra r e l e sp a c io de so lu c io n e s de m u ta c io n e s co n so lid a d a s s im p le s y d o b le s tam b ién se pu eden a p lic a r a la te rce ra , cu a rta y p o s te rio re s c o n s o lid a c io n e s de m u tac ion es . T a m b ié n se llam a la a tenc ión , po r e je m p lo , sob re la c e p a de co n so lid a c ió n de 3 c a m b io s d e s c rita que co rre sp o n d e n a zw f, pyc y lysa q u e se h izo en tre los ac ie rtos p rin c ip a le s de id en tificado s en las c o n s o lid a c io n e s de 2 c a m b io s co m o se m ue s tra en la T a b la 14 an te rio r, y co m o se id e n tifica p o r los m é tod os ep is tá tico s de la p re se n te d e sc rip c ió n . E sta ce p a de co n so lid a c ió n de 3 ca m b io s se va lid ó a d ic io n a lm e n te en ta n q u e s co m o m e jo ra d a s ig n ifica tiva m e n te en c o m p a ra c ió n con la p ro g e n ito ra o p ro g e n ito ra zw f (véa se la T a b la 10 m ás a rrib a y F igu ra 40).

E je m p lo 8 : In g e n ie r ía g e n ó m ic a d e H TP - im p le m e n ta c ió n d e u n a b ib l io te c a d e te rm in a d o re s p a ra m e jo ra r u n a c e p a h o s p e d a n te in d u s tr ia l

El p re se n te e je m p lo a p lica los m é tod os de H TP de la p re se n te d e sc rip c ió n a b ib lio te ca s de d ise ñ o g e n é tico de HTP ad ic io na le s , q u e inc luyen in te rca m b io de S T O P . El e je m p lo ilu s tra ad em á s la ca p a c id a d de la p re se n te d e sc rip c ió n p a ra c o m b in a r e le m e n to s de b ib lio te ca s de d ise ñ o g e n é tico bá s ico (p. e j., in te rca m b io de PRO , in te rca m b io de SN P , in te rca m b io de S T O P , e tc .) pa ra c re a r b ib lio te ca s de d iseñ o g e n é tic o m ás co m p le ja s (p. e j., b ib lio te ca s de in te rcam b io de P R O -S T O P , q u e in co rp o ran ta n to un p ro m o to r co m o un te rm in a d o r). En a lg u n o s e jem p los , la p re se n te de sc rip c ión e n s e ñ a to d a s y ca d a una de las po s ib les b ib lio te ca s de d iseñ o ge n é tico , in c luye nd o las d e riva d a s de c o m b in a r de cu a lq u ie ra de las b ib lio te ca s de d ise ñ o g e n é tico d e sc rita s p re v ia m e n te .

En e s te e jem p lo , se llevó a cab o un e xp e rim e n to a p e q u e ñ a e s c a la pa ra d e m o s tra r e l e fe c to de los m é tod os de in te rca m b io de S T O P de la p re se n te de sc rip c ió n en la e xp res ión g é n ica . Los te rm in a d o re s T 1 -T 8 de la p re sen te d e sc rip c ió n se e m p a re ja ro n con uno de do s p ro m o to re s na tivos de Corynebacterium glutamicum co m o se d e sc rib e a c o n tin u a c ió n , y se an a liza ro n p a ra d e te rm in a r su ca p a c id a d pa ra in flu ir en la e xp re s ió n de u n a p ro te ín a flu o re sce n te .

A. Ensamblaje de construcciones de ADN

Los te rm in a d o re s T 1 -T 8 se e m p a re ja ro n con uno de do s p ro m o to re s na tivos de Corynebacterium glutamicum (p. e j., P cg0007 o P cg0047 ) qu e e xp re sa b a n una p ro te ín a de flu o re s c e n c ia a m a rilla (Y FP ). P ara fa c il ita r la a m p lif ica c ió n y el e n s a m b la je de l A D N , la s e cu e n c ia fin a l de l p ro m o to r-Y F P -te rm in a d o r se s in te tizó en dos pa rtes ; la p rim e ra pa rte co d ific a b a (de 5' a 3') i) e l b razo de h o m o lo g ía de l vec to r, ii) e l p ro m o to r se le cc io n a d o , i i i) y 2 /3 de l gen de Y F P . La s e g u n d a pa rte c o d ific a b a (de 5' a 3') iv ) los s ig u ie n te s 2 /3 de l gen de Y FP , v ) e l te rm in a d o r se le cc io n a d o , y v i) el s e g u n d o b ra zo de h o m o lo g ía de l vec to r. C a da pa rte se a m p lificó u sa n d o o lig o n u c le ó tid o s s in té tico s y se p u rif icó en ge l. Los a m p lico n e s p u rif ica d o s en ge l se e n sa m b la ro n con u n a ca d e n a p rin c ip a l de l v e c to r u sa nd o reco m b in ac ión h o m ó lo g a de levaduras .

B. Transformación de clones ensamblados en E. coli

Los v e c to re s que co n te n ía n las s e cu e n c ia s de l p ro m o to r-Y F P -te rm in a d o r se tra n s fo rm ó c a d a una in d iv id u a lm e n te en E. coli con e l fin de id e n tifica r c lo n e s e n sa m b la d o s c o rre c ta m e n te y p a ra a m p lif ic a r e l A D N de l v e c to r p a ra la tra n s fo rm a c ió n de Corynebacterium. Los ve c to re s e n sa m b la d o s c o rre c ta m e n te se co n firm a ro n p o r d ig e s tió n con e n z im a s de res tricc ión y se cu e n c ia c ió n de S ange r. Los c lo n e s po s itivo s se a lm a ce n a ro n a -20°C p a ra uso fu tu ro .

C. Transformación de clones ensamblados en Corynebacterium

Los c lo ne s de v e c to r ve r ifica d o s se tra n s fo rm a ro n in d iv id u a lm e n te en cé lu la s h o spe da n tes de Corynebacterium glutamicum p o r e le c tro p o ra c ió n . C a d a v e c to r se d ise ñ ó pa ra in te g ra rse en un s itio de in te g ra c ión ne u tro d e n tro del g e n o m a de Corynebacterium glutamicum qu e se d e te rm in ó e m p ír ic a m e n te q u e p e rm itía la e xp re s ió n de la p ro te ína de flu o re s c e n c ia a m a rilla h e te ró lo g a pe ro no e ra p e rju d ic ia l pa ra la cé lu la ho spe da n te . P ara fa c il ita r la in te g ra c ión , el v e c to r de e xp res ión c o m p re n d ía ad em á s a p ro x im a d a m e n te 2 kpb de s e c u e n c ia h o m ó lo g a (es dec ir, b ra zo de ho m o lo g ía ) al s itio de in te g ra c ión de sea do , p o r lo q u e c a d a ca se te g é n ico d e sc rito an tes se in se rtó se cu e n c ia aba jo de l b ra zo de h o m o log ía . La in te g ra c ión en el g e n o m a se p ro du jo p o r in te g ra c ión de un so lo c ruce . A co n tin u a c ió n , se an a lizó la co rre c ta in te g ra c ión de Corynebacterium tra n s fo rm a d a s p o r PCR . Este p ro ce d im ie n to se rep itió pa ra cad a un a de las tra n s fo rm a c io n e s rea liza da s p a ra ca d a co n s tru cc ió n gén ica .

D. Evaluación de construcciones de terminadores individuales en Corynebacterium

El fe n o tip o de ca d a tra n s fo rm a n te de Corynebacterium q u e c o n te n ía c o n s tru c c io n e s de p ro m o to r-Y F P -te rm in a d o r d e s p u é s se e n sa yó en do s tip o s de m ed ios (m ed ios de e n sayo de in fus ión de c e re b ro -co ra zó n -B H I y H TP ) en dos p u n tos de t ie m p o con el fin de e v a lu a r la e xp res ión . B reve m en te , se e lig ie ro n e n tre cu a tro y se is tra n s fo rm a n te s c o n firm a d o s p o r P C R y se cu ltiva ro n en m ed io se le c tivo en un fo rm a to de 96 po c illos . D espués, los cu ltivo s in ic ia les se d iv id ie ro n en m ed io BHI se le c tivo o m ed io de s ie m b ra se lec tivo s . A las 48 ho ras, los cu ltivo s en m ed io de s ie m bra se in ocu la ro n en m ed io de e n sa yo se le c tivo de H TP o m ed io BHI y se a n a liza ro n en do s p u n tos de t ie m p o que rep re se n ta n d ife re n te s pa rte s de la cu rv a de c re c im ie n to . Los p u n tos de t ie m p o pa ra los c u ltivo s en m ed io de en sayo H TP e ra n 48 y 96 ho ras de sp u é s de la in ocu lac ión . Los cu ltivo s en el m ed io BHI se le c tivo se a n a liza ro n a las 48 y 72 ho ras d e sp u é s de la inocu lac ión .

El análisis de los cultivos se llevó a cabo usando un citómetro de flujo de sobremesa. Brevemente, los cultivos se diluyeron 1:100 en 200 gl de solución salina tamponada con fosfato (PBS). Para cada cultivo, se analizaron entre 3000 y 5000 sucesos individuales (es decir, células) para determinar la fluorescencia amarilla. El citómetro de flujo de sobremesa traza un histograma de fluorescencia amarilla de cada "suceso" y calcula la fluorescencia mediana dentro de cada pocillo. La Figura 36 representa la media de la fluorescencia mediana para cada construcción (en las 4-6 repeticiones biológicas). Las barras de error indican el intervalo de confianza del 95% de cada punto de datos. Las condiciones A-D se refieren cada una a un solo medio y a un solo punto de tiempo. Por lo tanto, las condiciones A y B representan los dos puntos de tiempo para el medio BHI, mientras que los puntos C y D representan los dos puntos de tiempo para el medio de ensayo HTP. Obsérvese que las unidades arbitrarias (p. ej., AU) representan la fluorescencia mediana registrada por el citómetro de flujo de sobremesa.

Los resultados muestran que los terminadores 1-8 de la biblioteca de diseño genético de intercambio de STOP dan como resultado un intervalo continuo de expresión de YFP. Por lo tanto, estos terminadores forman una escalera de terminadores que se puede implementar en futuras bibliotecas de diseño genético, de acuerdo con los métodos de HTP de la presente descripción.

E je m p lo 9 : C o m p a ra c ió n d e c o n ju n to s d e h e r ra m ie n ta s d e H TP f r e n te a m u ta c io n e s p o r U V t ra d ic io n a le s .

Este ejemplo demuestra los beneficios de las bibliotecas de diseño genético de HTP de la presente descripción en los programas tradicionales de mejora de cepas mutacionales. Los experimentos en esta parte de la memoria descriptiva cuantifican la magnitud y la velocidad mejoradas de las mejoras fenotípicas logradas a través de los métodos de HTP de la presente descripción frente a la mutagénesis por UV tradicional.

La presente descripción enseña nuevos métodos para acelerar los programas de mejora de cepas de las células hospedantes. En algunos ejemplos, el programa de mejora de cepas de HTP de la presente descripción se basa en la capacidad de los conjuntos de herramientas de HTP para generar e identificar perturbaciones genéticas. Los autores de la presente invención intentaron cuantificar los beneficios de los conjuntos de herramientas de HTP llevando a cabo un pequeño programa de mejora de cepas de ruta paralela comparando las técnicas de intercambio de promotores de la presente descripción con los enfoques tradicionales de mutaciones por UV.

Se eligió una cepa de referencia base que produjera un metabolito bioquímico de interés como punto de partida para las perturbaciones genéticas tanto de intercambio de promotores como por UV.

A. Mutaciones por UV

Los cultivos de la cepa base se cultivaron en medio BHI en cultivos que se normalizaron respecto a la DO a la DO600 de 10. Este cultivo se dividió en alícuotas en una placa de Petri estéril y se agitó usando una pequeña barra agitadora magnética. A continuación, un transiluminador UV a una longitud de onda de 254 nm se invirtió sobre el cultivo y se tomaron partes alícuotas a los 5 y 9 minutos de exposición al UV. Estas muestras se diluyeron de forma seriada 10 veces y cada dilución se sembró en bandejas Q de medio BHI. De estas bandejas Q, se recogieron aproximadamente 2500 colonias de cada punto de exposición a UV usando un aparato de selección de colonias automatizado y se evaluó el rendimiento como se indica a continuación.

B. Intercambio de promotores

Se generaron construcciones de intercambio de PRO en la cepa base para 15 dianas de genes usando todos o un subconjunto de promotores seleccionados de P1, P3, P4 y P8 descritos en la Tabla 1. La etapa final en la biosíntesis del producto de interés es catalizada por una enzima O-metiltransferasa que usa el cofactor potencialmente limitante de velocidad S-adenosilmetionina. Por lo tanto, las dianas genéticas para los intercambios de PRO se seleccionaron basándose en que están directamente implicadas en la biosíntesis de este cofactor o metabolitos secuencia arriba.

C. Evaluación de la biblioteca de intercambio de promotores y UV

Se analizó en el fenotipo de cada cepa de Corynebacterium desarrollada para este ejemplo, su capacidad para producir una biomolécula seleccionada. Brevemente, se eligieron entre cuatro y seis colonias de secuencia confirmada de cada cepa de intercambio de PRO, y se eligieron colonias individuales para cada cepa de UV y se propagaron en medio selectivos en un formato de 96 pocillos en medio líquido de producción.

Después de la propagación de la biomasa en placas de micropocillos de 96 pocillos, la masa celular se añadió al medio de fermentación que contenía sustrato en placas de micropocillos de 96 pocillos y se dejó que la bioconversión prosiguiera durante 24 horas. Los títulos de producto se determinaron para cada cepa usando cromatografía líquida de alta resolución a partir de muestras tomadas a las 24 horas. Se analizaron los resultados de los títulos para cada perturbación genética (UV e intercambio de PRO). Los resultados de cada repetición se promediaron y se asignaron para representar el rendimiento general de dicha cepa. A continuación, las cepas se agruparon en categorías basadas en el efecto de cada mutación en el rendimiento medido expresado como una relación frente al rendimiento de la cepa base.

La F igu ra 37 resu m e los resu ltad os de es te exp e rim e n to , q u e se p re sen ta n co m o el nú m ero de ce p a s pa ra ca d a té c n ic a de m e jo ra de ce p a s que p ro p o rc io n a b a : i) n ingún ca m b io en el ren d im ien to , ii) u n a m e jo ra de 1,2 a 1,4 vece s de l ren d im ien to , iii) una m e jo ra de 1,4 a 1,6 ve ce s de l ren d im ien to , iv) u n a m e jo ra de 1,6 a 1,8 ve ce s de l ren d im ien to , o, v ) u n a m e jo ra de 1,8 a 2 v e c e s de l ren d im ien to .

Los resu ltad os son ilu s tra tivo s de los b e n e fic io s de los co n ju n to s de h e rra m ie n ta s de H TP de la p re se n te de sc rip c ión fre n te a los e n fo q u e s tra d ic io n a le s de m u ta g é n e s is p o r UV. P or e jem p lo , los resu ltad os de la F igu ra 37 de m u e s tra n q u e las ce p a s de in te rca m b io de P R O p re se n ta b a n u n a m ayo r ta s a de ca m b io s po s itivo s en el re n d im ie n to y, p o r lo tan to , te n ía n m ás p ro b a b ilid a d e s de p ro p o rc io n a r m u tac ion es que p o d rían m e jo ra r s ig n ifica tiva m e n te la cep a . Lo m ás s o rp re n d e n te e ra la a lta in c id e n c ia de ce p a s de m e jo ra a lta qu e m ostrab an a u m en to s de 1,6, 1,8 y 2 ve ce s en la b ib lio te ca de in te rca m b io de PRO , con po ca o n ing una m e jo ra id e n tifica d a en la b ib lio te ca de UV.

Los resu ltad os ta m b ié n son im p o rta n te s po rqu e de s ta ca n la ta s a a ce le ra d a de m e jo ra de los m é tod os de in te rcam b io de P R O de la p re se n te de sc rip c ió n . De hecho , los resu ltad os de la b ib lio te ca de in te rcam b io de P R O se ba sa ron en m en os de 100 p e rtu rb a c io n e s p ro m o to r::g e n , m ie n tras que los resu ltad os de las m u ta c io n e s po r U V inc luye ron el c rib a d o de m ás de 4.000 ce p a s m u tan tes d is tin tas . P o r lo ta n to , los m é tod os de la p re se n te d e sc rip c ió n reducen d rá s tica m e n te el n ú m ero de m u tan tes q u e se debe n s e le c c io n a r an tes de id e n tifica r p e rtu rb a c io n e s g e n é tica s ca p a ce s de c o n fe r ir ce p a s con a ltas g a n a n c ia s en e l ren d im ien to .

E je m p lo 10 - In g e n ie r ía g e n ó m ic a d e H TP - Im p le m e n ta c ió n d e u n a b ib l io te c a d e m u ta g é n e s is d e t ra n s p o s o n e s p a ra m e jo ra r e l r e n d im ie n to d e c e p a s d e E s c h e r ic h ia c o l i

Los e je m p lo s p re v io s ilus tran ap lica c io n e s de los p ro g ra m a s de m e jo ra de ce p a s de H TP en Corynebacterium. Este e je m p lo d e m u e s tra la a p lica b ilid a d de las m ism a s té c n ic a s a las cé lu la s de E. coli.

Este e je m p lo d e sc rib e la a p lica c ió n de m u ta g é n e s is de tra n s p o s o n e s pa ra g e n e ra r b ib lio te ca s de ce p a s a le a to ria s de Escherichia coli con el fin de m e jo ra r las cep as . Estas b ib lio te ca s de ce p a s se pu ed en c r ib a r fre n te a un fe n o tip o d e sea do , ta l com o el re n d im ie n to de trip tó fa n o , p a ra id e n tifica r va r ia n te s con ren d im ie n to m e jo rado .

La p re se n te d e sc rip c ió n d e sc rib e un m é tod o pa ra g e n e ra r un a b ib lio te ca de m u tan tes m ed ia n te la ap lica c ió n del s is te m a de tra n sp o so n e s E Z -Tn5 (E p ice n te r B io) en Escherichia coli. La tra n s p o s a s a E Z -Tn5 se in cub a con A D N de c a rg a útil f la n q u e a d o p o r s e cu e n c ia s de e le m e n to s de m osa ico . T ras la in cub ac ió n , la tra n s p o s a s a E z-Tn5 fo rm a c o m p le jo con e l A D N pa ra fo rm a r un tra n sp o so m a . El c o m p le jo de A D N /tra n s p o s o m a de p ro te ín a d e sp u é s se tra n s fo rm a en Escherichia coli p o r e le c tro p o ra c ió n . La tra n s p o s a s a E Z -Tn5 c a ta liza la in te g ra c ión a le a to ria de l A D N de ca rg a ú til en e l g e n o m a de Escherichia coli da nd o lu g a r a s í a u n a b ib lio te ca a le a to ria de v a r ia n te s de cepas. La s e cu e n c ia e s p e c ífic a de l A D N de c a rg a útil se pued e v a r ia r a d e m á s pa ra s e s g a r ha c ia los e fe c to s de p é rd id a de fu n c ió n (LoF) o g a n a n c ia de fu n c ió n (G oF ) de la in se rc ión de l tra n sp o só n en e l g e n o m a d iana .

La LoF se pued e lo g ra r m ed ia n te la in c lus ión de un m a rca d o r de se lecc ió n de a n tib ió tico s en la ca rg a útil de l A D N . El m a rca d o r de an tib ió tico pe rm ite la se lecc ió n de c é lu la s con u n a in se rc ió n de tra n sp o só n p ro du c tivo . La in se rc ión de ca rg a útil de l A D N pued e a lte ra r la fu n c ió n de l A D N en e l que se ha in se rtad o de d ive rsa s fo rm a s , in c luye nd o , pe ro no lim itado a la a lte ra c ió n de un m arco de le c tu ra ab ie rto q u e e v ita la tra d u cc ió n de l gen a lte rado .

La G oF se pued e lo g ra r m ed ia n te la in c lus ión de un m a rca d o r de an tib ió tico y un p ro m o to r fu e rte en la ca rg a útil de A D N . El m a rca d o r de an tib ió tico pe rm ite la se le cc ió n de cé lu la s con u n a in se rc ió n de tra n sp o só n p ro du c tivo . La in se rc ión de ca rg a útil de l A D N pu ed e a u m e n ta r la e xp re s ió n en ge ne s p ró x im o s al s itio de in se rc ión a tra vé s de la acc ión de l p ro m o to r fue rte .

C u a lq u ie ra de las c a rg a s ú tiles de A D N de LoF o de G oF pu ed en c o n te n e r a d e m á s un m a rca d o r de co n tra se le cc ió n a d e m á s de un m a rca d o r de se lecc ió n pa ra p e rm itir e l rec ic la je de l m a rc a d o r y, p o r lo ta n to , m ás rondas de tra n s fo rm a c ió n .

La b ib lio te ca de va r ia n te s de ce p a s g e n e ra d a s m ed ia n te el m é tod o de m u ta g é n e s is de tra n s p o s o n e s d e sc rito an tes se pu ed e c r ib a r fre n te a un fe n o tip o de sea do . Las ce p a s se p u ed en c u ltiv a r y e n s a y a r en a lta ca p a c id a d pa ra id en tifica r ce p a s con un fe n o tip o d e se a d o m e jo rad o en re lac ió n con la c e p a pa ren ta l.

Las va r ia n te s de ce p a s m e jo rad as se pu eden s o m e te r a ron da s a d ic io n a le s de tra n s fo rm a c ió n c íc lica pa ra m e jo ra r aún m ás e l fe n o tip o d e sea do , ta l co m o el re n d im ie n to de trip tó fa n o . Las rondas a d ic io n a le s de tra n s fo rm a c ió n pueden s e r co m p a tib le s con m u ta g é n e s is de tra n s p o s o n e s u o tros tip o s de b ib lio te ca s ta le s co m o S N P S W P , P R O S W P o m u ta g é n e s is a lea to ria . Las ce p a s m e jo rad as ta m b ié n se pu eden c o n s o lid a r con o tra s v a r ia n te s de ce p a s que p re se n ta n un fe n o tip o m e jo ra d o pa ra p ro d u c ir un a c e p a m e jo rad a ad ic io na l a tra vé s de l e fe c to ad itivo de d is tin tas m u ta c io n e s bene fic iosa s .

Los m é tod os d e sc rito s en e l p re se n te d o cu m e n to reducen e l co s te de co n s tru cc ió n de b ib lio te ca s de a lta ca lida d para c rib a d o en in g e n ie ría c íc lica . La ap lica c ió n de m u ta g é n e s is de tra n sp o so n e s a Escherichia coli pe rm ite la p ro du cc ión de m iles de m u ta n te s de LoF o G oF en to d o e l g e n o m a en una so la reacc ión . Un m étod o a lte rn a tivo es c o n s tru ir m iles de p lá sm id o s a s ig n a d o s pa ra tra n s fo rm a r ce p a s m ed ia n te reco m b in a c ió n h o m ó lo g a de c ru za m ie n to s im p le (S C H R ).

Otro método alternativo es construir miles de fragmentos lineales asignados para transformar cepas por recombinogénica con lambda Red. Ambos métodos son costosos porque requieren generar fragmentos de ADN únicos para cada mutante que contiene el ADN de carga útil previsto y la homología de secuencia que dirige la recombinación a una ubicación específica en el genoma diana. La mutagénesis de transposones usa una carga útil de ADN única y la diversidad se genera mediante la integración aleatoria en el genoma diana.

E je m p lo 11- In g e n ie r ía g e n ó m ic a d e H TP - G e n e ra c ió n d e c a d e n a s p r in c ip a le s d e v e c to re s p a ra u s a r en ^{in g e n ie r ía g e n ó m ic a d e H TP e n} Escherichia coli

Este ejemplo describe la generación de vectores para usar en la ingeniería genómica de HTP para la ingeniería recombinogénica en Escherichia coli de manera que dichos vectores confieren transformación e integración de plásmidos eficientes.

Se generó el vector 1 (ácido nucleico de SEQ ID NO. 214) y comprende un origen de replicación R6K, un gen SacB, un gen PheS como marcador de contraselección y un marcador auxotrófico de levadura URA3. Con el fin de mejorar la eficiencia y la recombinación homóloga de cruzamiento simple, se modificó la cadena principal del vector 1 para que contuviera los elementos de la Tabla 15, lo que dio como resultado el vector 2 (ácido nucleico de SEQ ID NO.

215). El mapa del plásmido que se muestra en la Figura 55 muestra los componentes generales del vector 1. En el vector 2, se añadieron secuencias de aislantes aleatorias Aislante1 (SEQ ID No .218) y Aislante2 (SEQ ID NO. 219) flanqueando los brazos de homología, y las secuencias de terminadores T1 (ácido nucleico de SEQ ID NO. 220; véase Orosz et al., Eur J Biochem. 1 de noviembre de 1991 ;201 (3): 653-9) y B0015 (ácido nucleico de SEQ ID NO. 221) se añadieron para eliminar la lectura transcripcional en el sitio de inserción genómica. El mapa del plásmido que se muestra en la Figura 56 muestra los componentes generales del vector 2.

La utilidad de los vectores o plásmidos se ensayó en experimentos de inactivación. En resumen, se inoculó E. coli en caldo LB y se cultivó durante 8 horas a 37°C con agitación. Posteriormente, se usó entonces una parte alícuota del cultivo de la noche para inocular un volumen mayor de caldo LB y se cultivó durante 16 horas a 18°C con agitación. Para las transformaciones, se añadieron 100-400 ng de plásmido de ensayo a células competentes y la transformación se llevó a cabo mediante electroporación. Las células se recuperaron en medio SOC con incubación a 37°C durante 3 horas antes de sembrar en placa en LB-agar con kanamicina. La placa se incubó a 37°C para desarrollar las colonias con el plásmido de ensayo.

El gen diana que se inactivó era el gen aroA de E. coli. Así pues, los plásmidos de ensayo de "aroA-KO en la versión 1" (es decir, vector 1) y "aroA-KO en la versión 2" (es decir, vector 2) se construyeron por la inserción de brazos de homología en el gen aroA de E. coli. en las cadenas principales del vector 1 (versión 1) y del vector 2 (versión 2), respectivamente, de modo que los brazos de homología flanquearan un gen de resistencia a la kanamicina para permitir la recombinación de homología de cruzamiento simple en la célula hospedante de E. coli. La transformación de estos plásmidos de ensayo y la selección en kanamicina verificó que "aroA-KO en la versión 2" mostraba una eficiencia mejorada de transformación e integración del plásmido (Figura 53).

La modificación adicional de la cadena principal del vector 1 en el vector 2 permitió una contraselección eficaz en medios que contenían sacarosa y 4-clorofenilalanina añadiendo la secuencia PheS (Tabla 15). Cabe señalar que la secuencia del promotor PheS en el vector 2 consiste en el promotor PL del fago A identificado por Kincade y deHaseth (véase Kinacade y deHaseth Gene. 2 de enero de 1991; 97(1): 7-12) seguida inmediatamente por una secuencia RBS llamada B0032 que procedía de iGEM. Además, en el vector 2, la secuencia promotora del gen sacB se reemplazó con un promotor que contenía el promotor P5-MCD2 (Mutalik et al, Nat Methods. Abril 2013; 10 (4): 354-60) y un ATG adicional. Esta modificación permitió una contraselección eficiente en sacarosa con cepas integradas con la cadena principal de la versión 2. Para generar el vector 3, la secuencia de promotor y el CDS del gen pheS* de C. glutamicum en la cadena principal del vector 1 se reemplazaron con una nueva secuencia de promotor y CDS, específicamente una versión de codón optimizado de la pheS de E. coli nativa que contiene las mutaciones requeridas (T251A/A294G, véase Miyazaki, K. Biotechniques. 1 de febrero de 2015; 58 (2): 86-8) (Tabla 15). Esta modificación permitía una contraselección mejorada en 4 clorofenilalanina con cepas integradas con la cadena principal del vector 3. El mapa de plásmido que se muestra en la Figura 57 muestra los componentes generales del vector 3.

La cadena principal usada para la ingeniería genómica de HTP puede contener varios marcadores de selección de levaduras para usar en el ensamblaje de plásmidos. En la presente descripción, la modificación de la cadena principal del vector 3 reemplazó el marcador de selección de levadura URA3 con un marcador TRP1 para dar el vector 4. El mapa de plásmido mostrado en la Figura 58 muestra los componentes generales del vector 4.

E je m p lo 12 - In g e n ie r ía g e n ó m ic a d e H TP - G e n e ra c ió n y e n s a y o d e u n a b ib l io te c a d e in te rc a m b io d e p ro m o to re s a d ic io n a l p a ra s u u s o en la m e jo ra d e u n a c e p a m ic ro b ia n a in d u s tr ia l

Este ejemplo describe la generación de una biblioteca de PROSWP adicional para su uso posterior en los métodos de ingeniería genómica de HTP proporcionados en el presente documento para transformar genéticamente células hospedantes microbianas (p. ej., Escherichia coli) en un esfuerzo por mejorar el rendimiento de cepas industriales.

En este ejemplo, se compiló una serie de promotores de E. coli nativos y promotores sintéticos para generar la biblioteca de intercambio de promotores que se encuentra en la Tabla 1.4. Para los promotores nativos, se seleccionó un conjunto de secuencias de promotores de 60-90 pb de longitud del genoma de una cepa de E. coli K-12 (es decir, E. coli W3110). En particular, se seleccionaron promotores que mostraban una variación mínima en la expresión del gen asociado, de acuerdo con los datos de expresión basados en micromatrices en múltiples condiciones de crecimiento (Lewis et al., Mol Syst Biol. 2010; 6: 390). Las secuencias de promotores nativos consistían en 50 pb delante de los sitios de inicio de la transcripción putativos, así como la secuencia hasta, pero sin incluir, el codón de inicio putativo (véase Tabla 1.4). Además, se creó un conjunto de secuencias de promotores sintéticas quiméricas que consisten en porciones de los promotores conocidos del fago lambda pl y pr, el promotor delante del gen acs de E. coli y secuencias variables de 6 pb que constituyen las regiones -35 y -10 (Figura 54, Tabla 1.5). Cada uno de los promotores sintéticos tenía una longitud de 60 a 90 pb.

Con el fin de ensayar la capacidad de cada uno de los promotores que se encuentran en la Tabla 1.4 para dirigir la expresión de un gen operativamente unido al mismo, se construyó un conjunto de plásmidos de replicación de bajo número de copias, cada uno de los cuales contiene el gen RFP dirigido por uno de los promotores dados en la Tabla 1.4. El plásmido de replicación de bajo número de copias de elección fue un plásmido llamado Ori_Plsmd27, que tiene la secuencia nucleica de SEQ ID NO. 213. El vector se eligió porque se deseaba un plásmido de replicación con el fin de construir y evaluar la biblioteca de promotores lo más rápidamente posible y un plásmido de bajo número de copias tal como Ori_Plsmd27 se aproximaría más al escenario en el que solo se integra una sola copia en el genoma. Ori_Plsmd27 es de bajo número de copias porque posee el origen de replicación p15A de E. coli. El origen de replicación p15A típicamente da como resultado aproximadamente 10 copias del plásmido en cada célula. Esto es de "bajo número de copias" en comparación con otros plásmidos comunes que pueden mantener >20 o incluso varios cientos de copias de plásmido por célula.

Los plásmidos se construyeron usando técnicas convencionales de biología molecular. Específicamente, se adquirieron cebadores de PCR directos que consistían en una secuencia para reasociación con el gen RFP; la secuencia de promotor a introducir; y una secuencia que se solapaba con Ori_Plsmd27. Se obtuvo un solo cebador de PCR inversa que consistía en una secuencia para reasociarse con el terminador ECK120033737 (un terminador nativo de E. coli) y una secuencia que se solapaba con Ori_Plsmd27. El gen RFP se amplificó por PCR con los cebadores directos y el cebador inverso para generar un conjunto de amplicones de PCR, cada uno de los cuales contiene el gen RFP y uno de los promotores dados en la Tabla 1.4. Los plásmidos se construyeron digiriendo Ori_Plsmd27 con la enzima de restricción Xhol e insertando el amplicón de PCR correspondiente usando una mezcla de enzimas de ensamblaje de ADN comercial. Como control negativo, se generó una construcción que comprendía el terminador Tsod de C. glutamicum (ácido nucleico de SEQ ID NO. 224 en la Tabla 16) situado secuencia arriba del gen RFP.

Los plásmidos se transformaron mediante electroporación en E. coli W3110. Para cada promotor a evaluar, se seleccionaron cuatro colonias y se inocularon en 1 ml de caldo LB que contenía 25 pg/ml de kanamicina en una placa de cultivo de 96 pocillos. Los cultivos se desarrollaron a 37°C durante la noche con agitación a 1000 rpm. Se usaron 10 pl de cultivo para inocular 1 ml de Medio 1 (un medio rico que contiene glucosa, extracto de levadura, sal y tampón de fosfato) que contiene 25 pg/ml de kanamicina en una placa de cultivo de 96 pocillos. Los cultivos se desarrollaron a 37°C durante 24 horas con agitación a 1000 rpm. Los cultivos se diluyeron en agua en una placa de 96 pocillos de fondo transparente y pared negra y se tomaron dos medidas en un espectrofotómetro: DO⁶⁰⁰(densidad óptica a 600 nm) y fluorescencia (excitación a 554 nm, emisión a 590 nm). Se usaron 10 pl de los cultivos en el Medio 1 para inocular 1 ml del Medio 2 (un medio rico que contiene más glucosa que el Medio 1 pero solo una pequeña cantidad de extracto de levadura, que en su lugar contenía sulfato de amonio como fuente de nitrógeno junto con oligoelementos) que contenía 25 pg/ml de kanamicina en una placa de cultivo de 96 pocillos. Los cultivos en el Medio 2 también se desarrollaron a 37°C durante la noche y se midieron después de 24 horas.

Las mediciones de DO⁶⁰⁰se corrigieron restando el valor de los pocillos en blanco (pocillos que contenían solo medio). La Tabla 16 muestra las medidas de fluorescencia normalizadas para la DO⁶⁰⁰corregida. Como puede verse en la Tabla 16, las cepas resultantes se cultivaron eficazmente en dos medios diferentes y permitieron la expresión de proteínas fluorescentes en un intervalo de ~5000 veces.

T a b la 16. Niveles de expresión de RFP para construcciones de promotor-RFP en medios diferentes (2).

E je m p lo 13 - In g e n ie r ía g e n ó m ic a d e H TP - E n s a y o d e in te g ra c ió n d e la b ib l io te c a d e in te rc a m b io d e ^{p ro m o to re s d e la T a b la 1.4 e n e l g e n o m a d e} E. coli ^{u s a n d o la c a d e n a p r in c ip a l d e l v e c to r 2}

Este ejemplo describe una prueba de concepto del uso de la cadena principal del vector 2 del Ejemplo 11 en combinación con un subconjunto de promotores que forman la biblioteca de promotores de la Tabla 1.4 para dirigir la integración de una sola copia de una construcción heteróloga de promotor-gen en el genoma de E. coli.

Para este ejemplo, se construirá un conjunto de plásmidos para insertar genes fluorescentes RFP y GFP en dos locus (nupG y asl) en E. coli con un subconjunto de 14 promotores del conjunto de la Tabla 1.4. Esto permitirá que esos promotores se evalúen como una única copia integrada en el genoma, en lugar de en plásmidos de replicación de bajo número de copias (véase el Ejemplo 12).

Los plásmidos comprenderán brazos de homología que flanquean los genes RFP o GFP con el fin de facilitar la integración en el genoma de E. coli mediante "entrada de bucle" como se proporciona a lo largo de esta descripción. Se analizará en las cepas resultantes la fluorescencia, lo que demostrará que este subconjunto de 14 promotores de la Tabla 1.4 se ha ensayado usando una cadena principal de vector descrita en el Ejemplo 11 y se puede usar para insertar un gen heterólogo en el genoma de E. coli usando el métodos descritos en esta descripción.

E je m p lo 14 - In g e n ie r ía g e n ó m ic a d e H TP - Im p le m e n ta c ió n d e m é to d o s d e P R O S W P u s a n d o u n a b ib l io te c a d e p ro m o to re s d e r iv a d a d e la T a b la 1.4.

La siguiente sección proporciona una implementación ilustrativa de las herramientas del programa de mejora de cepas de diseño de HTP de intercambio de PRO de la presente descripción, como se describe en los Ejemplos 4 y 5. En este ejemplo, una cepa de E. coli se sometió a los métodos de intercambio de PRO de la presente descripción con el fin de modular la expresión de genes en el genoma de E. coli. Este ejemplo se basa en los resultados de los Ejemplos 12 y 13 en cuanto que este ejemplo ilustra el uso de una biblioteca de promotores que comprende los promotores de la Tabla 1.4 en los métodos PROSWP de la presente descripción.

A . In te rc a m b io d e p ro m o to re s

Los intercambios de promotores se llevarán a cabo como se describe en el Ejemplo 4. Los genes del genoma de E. coli se someterán a intercambios de promotores usando la biblioteca de promotores descrita en el Ejemplo 13, que comprende un subconjunto de 14 promotores de la Tabla 1.4. El subconjunto de 14 promotores que se usará en este ejemplo se seleccionará basándose en su efecto en la expresión génica según se determina en los ejemplos 12 y 13.

B. In g e n ie r ía d e H TP y c r ib a d o d e a lta c a p a c id a d

La ingeniería de HTP de los intercambios de promotores se llevará a cabo como se describe en los Ejemplos 1 y 3. El cribado de HTP de las cepas de intercambio de promotores resultantes se llevará a cabo como se describe en el Ejemplo 3. En total, se llevarán a cabo 14 intercambios de PRO. Finalmente, se analizará el impacto de estas modificaciones en la producción de productos de interés.

E je m p lo 15 - In g e n ie r ía g e n ó m ic a d e H T P : im p le m e n ta c ió n d e u n a b ib l io te c a d e in te rc a m b io d e T E R M IN A D O R E S p a ra m e jo ra r e l re n d im ie n to d e c e p a s p a ra la p ro d u c c ió n d e l ic o p e n o

La siguiente sección proporciona una implementación ilustrativa de las herramientas del programa de mejora de cepas de diseño de HTP de intercambio de TERMINADORES de la presente descripción. En este ejemplo, una cepa de E. coli se sometió a los métodos de intercambio de TERMINADORES de la presente descripción con el fin de afectar al rendimiento de licopeno de la célula hospedante.

Los intercambios de terminadores que se dirigen a genes en la ruta biosintética del licopeno que se muestra en la Figura 59 se llevaron a cabo usando los métodos de intercambio de terminadores presentes a lo largo de esta descripción. Las construcciones se diseñaron como se describe a continuación y la recombinación fue mediada con el sistema CRISPR/Cas9. Los terminadores usados para los intercambios de terminadores en este ejemplo eran los terminadores que se encuentran en la Tabla 19.

T a b la 19 - Terminadores usados en este ejemplo para dirigir genes en la ruta biosintética del licopeno

C o n s t ru c c ió n d e l d is e ñ o

Se identificó un ARN guía de 20 bases cerca de la secuencia de inserción de la diana y adyacente a una secuencia NGG PAM para cortar el genoma en la posición deseada. La secuencia que se pretendía insertar en el genoma estaba flanqueada en ambos extremos por 90 bases de homología, de modo que la homología dirigiría la secuencia nativa para ser eliminada o retenida según se desee. Debe indicarse que aunque la recombinación se facilitó por el sistema CRISPR/Cas9 en este Ejemplo, todas las cepas también pueden construirse por métodos tradicionales de recombinación homóloga de cruzamiento simple y doble así como el sistema Lambda Red como se describe a lo largo de la presente descripción. Así pues, cada uno de los tipos de bibliotecas de intercambio de terminadores es independiente del método de construcción/recombinación.

In o c u la c ió n d e l c u l t iv o d e s e m il la s

Se seleccionó una colonia de cepa base de edición (W3110 pKD46-cas9 pLYC4) de una placa de Petri y se inoculó en un volumen mayor de LB clin100 cmp25 y se cultivó a 30°C con agitación durante ~16 horas.

P re p a ra c ió n d e c é lu la s c o m p e te n te s y t r a n s fo rm a c ió n

Se preparó una dilución 1:10 del cultivo de una noche y se midió la DO600. Se inoculó LB clin100 cmp25 a una DO600 de 0,05 y se cultivó a 30°C con agitación durante ~2 horas.

Después de 2 horas, se midió periódicamente la DO600 hasta que se alcanzó la DO objetivo de inducción y, una vez alcanzada la DO objetivo, se añadió 20% de arabinosa hasta una concentración final de 0,2%.

Se centrifuga el cultivo durante 5 minutos a 5.000 x G a 4°C. Se vierte el líquido sobrenadante y se resuspende hasta un volumen final equivalente al volumen de cultivo original.

Se repite la etapa 7 para lavar las células por tercera vez.

Después de 3 lavados, las células se sedimentaron y se resuspendieron en glicerol al 10% hasta ~1/250 del volumen de cultivo original. Se prepara una dilución 1:500 de las células resuspendidas, se prepararon y se resuspendieron a una DO600 deseada con un volumen adecuado para 40 ul de células por transformación.

En una placa de PCR Framestar (o tubos de microcentrífuga) se mezclaron 40 ul de células con 100 ng de plásmido de ARN guía y ~4 ul de molde de reparación de producto de PCR purificado. Si se usan oligos para el molde de reparación, los oligos se añadieron en una concentración final de 2 uM.

Las células se electroporaron y se resuspendieron inmediatamente en LB y se recuperaron en una placa de pocillos profundos durante 1 hora a 30°C con agitación.

Las células recuperadas se diluyeron y se sembraron en placas de LB agar clin100 kan50 cmp25 y a 30°C de 24 a 36 horas. Las colonias se cribaron por PCR de colonias, se secuenciaron o se cribaron por fenotipos. El plásmido pKD46-cas9 se puede curar por crecimiento a 37°C o más, y pCRISPR2 se puede curar por crecimiento en sacarosa al 10%.

In g e n ie r ía d e H TP y c r ib a d o d e a lta c a p a c id a d

La ingeniería de HTP de las combinaciones de intercambios se llevó a cabo como se describe en los Ejemplos 1 y 3, con la excepción de que se usó CRISPR/Cas 9 para facilitar la recombinación homóloga de construcciones en el genoma de E. coli. El cribado de HTP de las cepas de intercambio de promotores/intercambio de terminadores, cepas de intercambio de promotores/intercambio de marcadores de degradación, cepas de intercambio de promotores/intercambio de marcadores de solubilidad y cepas intercambio de promotores/intercambio de terminadores/intercambio de marcadores de degradación/intercambio de marcadores de solubilidad resultantes se llevó a cabo como se describe en el Ejemplo 3. Los resultados de los experimentos se muestran en las Figuras 60 y 61.

Como se muestra en la Figura 60, los intercambios de terminadores en las dianas de la ruta del licopeno idi y ymgA usando el terminador TyjbE demostraban un rendimiento de las cepas reducido con respecto al control, lo que destaca la utilidad de estos tipos de bibliotecas para identificar las dianas de rutas críticas. Esta conclusión estaba respaldada además por los resultados que se muestran en la Figura 61, donde se realizaron intercambios de terminadores en múltiples dianas de la ruta del licopeno.

E je m p lo 16 - In g e n ie r ía g e n ó m ic a d e H TP - im p le m e n ta c ió n d e u n a b ib l io te c a d e in te rc a m b io d e T E R M IN A D O R E S o u n a b ib l io te c a d e in te rc a m b io d e P R O e n c o m b in a c ió n c o n u n a b ib l io te c a d e in te rc a m b io d e M A R C A D O R E S d e S O L U B IL ID A D o b ib l io te c a d e in te rc a m b io d e m a rc a d o re s d e D E G R A D A C IÓ N p a ra m e jo ra r e l r e n d im ie n to d e la s c e p a s p a ra la p ro d u c c ió n d e l ic o p e n o

La siguiente sección proporciona una implementación ilustrativa de las herramientas del programa de mejora de cepas de diseño de HTP intercambio de MARCADORES DE SOLUBILIDAD e intercambio de TERMINADORES de la presente descripción, así como las herramientas del programa de mejora de cepas de diseño de intercambio de PRO e intercambio de MARCADORES DE DEGRADACIÓN de la presente descripción. En este ejemplo, una cepa de E. coli se sometió al intercambio de PRO en combinación con métodos de intercambio de MARCADORES DE DEGRADACIÓN de la presente descripción, así como los métodos de intercambio de MARCADORES DE SOLUBILIDAD y TERMINADORES de la presente descripción con el fin de afectar al rendimiento de licopeno de la célula hospedante.

In te rc a m b io d e p ro m o to re s / In te rc a m b io d e te rm in a d o re s / In te rc a m b io d e m a rc a d o re s d e s o lu b il id a d / In te r c a m b io d e m a rc a d o re s d e d e g ra d a c ió n

El intercambio de terminadores se llevó a cabo como se describe en el ejemplo 15, mientras que el intercambio de marcador de solubilidad y el intercambio de promotores en combinación con los intercambios de marcadores de degradación se llevaron a cabo esencialmente como se describe en los ejemplos 4 y 5. Las construcciones se diseñaron como se describe a continuación y la recombinación fue mediada por el sistema CRISPR/Cas9. Los promotores bicistrónicos usados para los intercambios de promotores en este ejemplo eran de Mutalik et al., Nat Methods. Abril 2013; 10(4):354-60 y se puede encontrar en la Tabla 20. Debe indicarse que cualquiera de los promotores proporcionados en el presente documento podría usarse en los métodos descritos a continuación.

T a b la 20 - Promotores usados para combinaciones de intercambios de promotores en este ejemplo.

C o n s t ru c c ió n d e l d is e ñ o

Se identificó un ARN guía de 20 bases cerca de la secuencia de inserción de la diana y adyacente a una secuencia NGG PAM para cortar el genoma en la posición deseada. La secuencia que se pretendía insertar en el genoma estaba flanqueada en ambos extremos por 90 bases de homología, de modo que la homología dirigiría la secuencia nativa para ser eliminada o retenida según se desee. Debe indicarse que aunque la recombinación se facilitó por el sistema CRISPR/Cas9 en este Ejemplo, todas las cepas también pueden construirse por métodos tradicionales de recombinación homóloga de cruzamiento simple y doble así como el sistema Lambda Red como se describe a lo largo de la presente descripción. Así pues, cada uno de los tipos de bibliotecas (intercambio de promotores, intercambio de marcadores de solubilidad de proteínas, intercambio de marcadores de degradación de proteínas e intercambio de terminadores) solos o en combinación son independientes del método de construcción/recombinación.

In o c u la c ió n d e l c u l t iv o d e s e m il la s

Después de 2 horas, se midió periódicamente la DO600 hasta que se alcanzó la DO objetivo de inducción y, una vez alcanzado el objetivo, se añadió 20% de arabinosa hasta una concentración final de 0,2%.

Se repite la etapa 7 para lavar las células por tercera vez.

In g e n ie r ía d e H TP y c r ib a d o d e a lta c a p a c id a d

La ingeniería de HTP de las combinaciones de intercambios se llevó a cabo como se describe en los Ejemplos 1 y 3, con la excepción de que se usó CRISPR/Cas 9 para facilitar la recombinación homóloga de construcciones en el genoma de E. coli. El cribado de HTP de las cepas de intercambio de promotores/intercambio de terminadores, cepas de intercambio de promotores/intercambio de marcadores de degradación, cepas de intercambio de promotores/intercambio de marcadores de solubilidad y cepas intercambio de promotores/intercambio de terminadores/intercambio de marcadores de degradación/intercambio de marcadores de solubilidad resultantes se llevó a cabo como se describe en el Ejemplo 3.

Debe indicarse que el promotor P3_BCD1 se usó en todas las cepas en las que se estaba estudiando la modificación en el locus dxs, a menos que se indique lo contrario, tal como P4_BCD22. En cualquier locus distinto de dxs, se usó la secuencia de promotor nativo a menos que se indique lo contrario. Esto significa que una cepa descrita como ssrA_LAA en el locus dxs, por ejemplo, también contenía P3_BCD1, pero una cepa descrita como ssrA_LAA en el locus gdhA usaba la secuencia de promotor nativo. El contenido completo de las cepas ensayadas en la Tabla 21 a continuación.

T a b la 21 - C o n te n id o de las ce p a s g e n e ra d a s en el E je m p lo 16.

Los resu ltad os de los e xp e rim e n to se resu m en y se m ue s tra n en las F igu ras 62 y 63.

C o m o se m u e s tra en la F igu ra 62, e l m a rca d o r de d e g ra d a c ió n ss rA _ L A A d e m u e s tra un re n d im ie n to de cep as m e jo ra d o en re lac ión con el con tro l. Esto es in e sp e ra d o ya q u e e s ta c e p a es u n a co m b in a c ió n de un P R O S W P con u n a m a rca d o r de d e g ra d a c ió n en un a ú n ica d ia n a de la ruta. S e e s p e ra qu e e l P R O S W P in ic ia l au m e n te la a b u n d a n c ia de p ro te ínas , y se e s p e ra que el m a rca d o r de d e g ra d a c ió n d is m in u y a la a b u n d a n c ia de p ro te ínas , d e m o s tra n d o as í la u tilida d de las c o m b in a c io n e s de tip o s de b ib lio te ca s pa ra a ju s ta r e l ren d im ie n to ó p tim o de las cep as . C o m o se m ue stra en la F igu ra 63, el m a rca d o r de so lub ilidad FH 8 d e m u e s tra un re n d im ie n to de ce p a s m e jo rad o en re lac ión con el con tro l, pe ro e l m a rca d o r de so lu b ilid a d GB1 no lo hace, d e m o s tra n d o a s í la neces idad de e v a lu a r b ib lio te ca s de cad a t ip o de m od ifica c ión .

En ge n e ra l, lo q u e d e m u e s tra es te e je m p lo es que, a u n q u e los c o m p o n e n te s de la p re se n te d e sc rip c ió n p u ed en se r ú tile s in d iv id u a lm e n te pa ra la m e jo ra s is te m á tica d e cep as , ta m b ié n se pu ed en u s a r s in é rg ica m e n te con o tros e n foqu es . P o r e je m p lo , d e sp u é s de m e jo ra r la e s ta b ilid a d de l A R N m p o r m od ifica c ión de l te rm in a d o r, se pu e d e in se rta r un p ro m o to r fu e rte pa ra a u m e n ta r m ás la p ro d u cc ió n de p ro te ín a s m ás a llá de l n ive l de c u a lq u ie ra de los e n fo q u e s po r s í so lo . A s im ism o , es te nuevo n ive l e le va d o de p ro du cc ión de p ro te ín a s se pued e m e jo ra r m ás m ed ia n te un a m a rca d o r de so lu b ilid a d de p ro te ín a s ju n to con o tras m od ifica c io n e s . C u a n d o se em p le a n ju n to s y con e n fo q u e s p rev ios , los co m p o n e n te s de la p re se n te d e sc rip c ió n pu ed en p e rm itir un a m e jo ra de la c e p a m ás rob us ta y e fica z pa ra la p ro d u cc ió n de u n a m o lé cu la d iana.

S E C U E N C IA S DE L A D E S C R IP C IÓ N C O N ID E N T IF IC A D O R E S S E Q ID NO

Claims

R E IV IN D IC A C IO N E S

1. Un método para generar una biblioteca de cepas de E. co lide intercambio de promotores, que comprende las etapas de:

a. proporcionar una pluralidad de genes diana endógenos para una cepa base de E. coli, y una escalera de promotores, en donde dicha escalera de promotores comprende una pluralidad de promotores que presentan diferentes perfiles de expresión en la cepa base de E. coli, en donde al menos uno de la pluralidad de promotores es un promotor quimérico sintético, en donde el promotor quimérico sintético es de 60-90 nucleótidos de longitud y consiste en una parte distal del promotor pr del fago lambda, regiones variables -35 y -10 de los promotores p¡_ y pr del fago lambda que son cada uno de seis nucleótidos de longitud, partes centrales de los promotores pl y Pr del fago lambda y una parte 5' UTR/sitio de unión al ribosoma (RBS) que es la parte 5' UTR/RBS del promotor Pr del fago lambda o la parte 5' UTR/sitio de unión al ribosoma (RBS) del promotor del gen acs de E. coli; y

2. El método para generar una biblioteca de cepas de E. coli de intercambio de promotores según la reivindicación 1, en donde al menos uno de la pluralidad de promotores comprende una secuencia reguladora de diseño bicistrónico (BCD).

3. Un método para mejorar el rendimiento fenotípico de una cepa de E. coli de producción, que comprende las etapas de:

a. proporcionar una pluralidad de genes diana endógenos para una cepa base de E. coli, y una escalera de promotores, en donde dicha escalera de promotores comprende una pluralidad de promotores que presentan diferentes perfiles de expresión en la cepa base de E. coli, en donde al menos uno de la pluralidad de promotores es un promotor quimérico sintético, en donde el promotor quimérico sintético es de 60-90 nucleótidos de longitud y consiste en una parte distal del promotor pr del fago lambda, regiones variables -35 y -10 de los promotores pl y pr del fago lambda que son cada uno de seis nucleótidos de longitud, partes centrales de los promotores pl y Pr del fago lambda y una parte 5' UTR/sitio de unión al ribosoma (RBS) que es la parte 5' UTR/RBS del promotor Pr del fago lambda o la parte 5' UTR/sitio de unión al ribosoma (RBS) del promotor del gen acs de E. coli;

b. transformar el genoma de la cepa base de E. coli, para crear así una biblioteca de cepas de E. coli de intercambio de promotores inicial que comprende una pluralidad de cepas de E. coli individuales con variaciones genéticas únicas encontradas dentro de cada cepa de dicha pluralidad de cepas de E. coli individuales, en donde cada una de dichas variaciones genéticas únicas comprende uno o más de los promotores de la escalera de promotores operativamente unidos a uno de los genes diana endógenos para la cepa base de E. coli;

c. cribar y seleccionar cepas de E. coli individuales de la biblioteca de cepas de E. coli de intercambio de promotores inicial según las mejoras del rendimiento fenotípico frente a una cepa de E. coli de referencia, identificando así variaciones genéticas únicas que confieren mejoras del rendimiento fenotípico;

d. proporcionar una pluralidad subsiguiente de microbios de E. coli que comprenden cada uno una combinación de variaciones genéticas únicas de las variaciones genéticas presentes en al menos dos cepas de E. coli individuales cribadas en la etapa precedente, para crear así una biblioteca de cepas de E. coli de intercambio de promotores subsiguiente;

e. cribar y seleccionar cepas de E. coli individuales de la biblioteca de cepas de E. coli de intercambio de promotores subsiguiente según las mejoras del rendimiento fenotípico frente la cepa de E. coli de referencia, identificando así combinaciones únicas de variación genética que confieren mejoras de rendimiento fenotípico adicionales; y

f. repetir las etapas d)-e) una o más veces, de forma lineal o no lineal, hasta que una cepa de E. coli presente un nivel deseado de rendimiento fenotípico mejorado en comparación con el rendimiento fenotípico de la cepa de E. coli de producción, en donde cada iteración subsiguiente crea una nueva biblioteca de cepas microbianas de E. coli de intercambio de promotores, donde cada cepa de la nueva biblioteca comprende variaciones genéticas que son una combinación de variaciones genéticas seleccionadas entre al menos dos cepas de E. coli individuales de una biblioteca precedente.

4. El método para mejorar el rendimiento fenotípico de una cepa de E. coli de producción según la reivindicación 3, en donde la biblioteca de cepas de E. coli de intercambio de promotores subsiguiente es una biblioteca combinatoria completa de la biblioteca de cepas de E. coli de intercambio de promotores inicial.

5. El método para mejorar el rendimiento fenotípico de una cepa de E. co lide producción según la reivindicación 3, en donde la biblioteca de cepas de E. coli de intercambio de promotores subsiguiente es un subconjunto de una biblioteca combinatoria completa de la biblioteca de cepas de E. coli de intercambio de promotores inicial.

6. El método para mejorar el rendimiento fenotípico de una cepa de E. coli de producción según la reivindicación 3, en donde la biblioteca de cepas de E. coli de intercambio de promotores subsiguiente es una biblioteca combinatoria completa de una biblioteca de cepas de E. coli de intercambio de promotores precedente.

7. El método para mejorar el rendimiento fenotípico de una cepa de E. coli de producción según la reivindicación 3, en donde la biblioteca de cepas de E. coli de intercambio de promotores subsiguiente es un subconjunto de una biblioteca combinatoria completa de una biblioteca de cepas de E. coli de intercambio de promotores precedente.

8. El método para mejorar el rendimiento fenotípico de una cepa de E. coli de producción según una cualquiera de las reivindicaciones 3-7, en donde las etapas d)-e) se repiten hasta que el rendimiento fenotípico de una cepa de E. coli de una biblioteca de cepas de E. coli de intercambio de promotores subsiguiente presenta al menos un 10% de aumento en una variable fenotípica medida en comparación con el rendimiento fenotípico de la cepa de E. coli de producción.

9. El método para mejorar el rendimiento fenotípico de una cepa de E. coli de producción según una cualquiera de las reivindicaciones 3-7, en donde las etapas d)-e) se repiten hasta que el rendimiento fenotípico de una cepa de E. coli de una biblioteca de cepas de E. coli de intercambio de promotores subsiguiente presenta al menos un aumento de una vez en una variable fenotípica medida en comparación con el rendimiento fenotípico de la cepa de E. coli de producción.

10. El método para mejorar el rendimiento fenotípico de una cepa de E. coli de producción según la reivindicación 3, en donde el rendimiento fenotípico mejorado de la etapa f) se selecciona del grupo que consiste en: productividad volumétrica de un producto de interés, productividad específica de un producto de interés, rendimiento de un producto de interés, título de un producto de interés y combinaciones de los mismos.

11. El método para mejorar el rendimiento fenotípico de una cepa de E. coli de producción según la reivindicación 3, en donde el rendimiento fenotípico mejorado de la etapa f) es: producción mayor o más eficiente de un producto de interés, dicho producto de interés seleccionado del grupo que consiste en: una molécula pequeña, enzima, péptido, aminoácido, ácido orgánico, compuesto sintético, combustible, alcohol, metabolito extracelular primario, metabolito extracelular secundario, molécula de componente intracelular y combinaciones de los mismos.

12. El método de la reivindicación 1 o 3, en donde la parte 5' UTR/sitio de unión al ribosoma (RBS) es la parte 5' UTR/sitio de unión al ribosoma (RBS) del promotor pn del fago lambda y las secuencias de ácido nucleico de la parte distal del promotor pn del fago lambda, las regiones variables -35 y -10 de los promotores pl y pn del fago lambda, las partes centrales de los promotores pl y pn del fago lambda y la parte 5' UTR/sitio de unión al ribosoma (RBS) del promotor pn del fago lambda se seleccionan de las secuencias de ácido nucleico que se encuentran en la Tabla 1.5.

13. El método de la reivindicación 1 o 3, en donde la parte 5' UTR/sitio de unión al ribosoma (RBS) es la parte 5' UTR/sitio de unión al ribosoma (RBS) del promotor del gen acs de E. coli y las secuencias de ácido nucleico de la parte distal del promotor pn del fago lambda, las regiones variables -35 y -10 de los promotores pl y pn del fago lambda, las partes centrales de los promotores pl y pn del fago lambda y la parte 5' UTR/sitio de unión al ribosoma (RBS) del promotor del gen acs de E. coli se seleccionan de las secuencias de ácido nucleico que se encuentran en la Tabla 1.5.