ES2928728T3 - Mejora de cepas microbianas mediante una plataforma de ingeniería genómica HTP - Google Patents

Mejora de cepas microbianas mediante una plataforma de ingeniería genómica HTP Download PDF

Info

Publication number
ES2928728T3
ES2928728T3 ES21161430T ES21161430T ES2928728T3 ES 2928728 T3 ES2928728 T3 ES 2928728T3 ES 21161430 T ES21161430 T ES 21161430T ES 21161430 T ES21161430 T ES 21161430T ES 2928728 T3 ES2928728 T3 ES 2928728T3
Authority
ES
Spain
Prior art keywords
host cell
strain
genetic
strains
promoter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES21161430T
Other languages
English (en)
Inventor
Zachariah Serber
Erik Jedediah Dean
Shawn Manchester
Katherine Gora
Michael Flashman
Erin Shellman
Aaron Kimball
Shawn Szyjka
Thomas Treynor
Kenneth S Bruno
Barbara Frewen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zymergen Inc
Original Assignee
Zymergen Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US15/140,296 external-priority patent/US11151497B2/en
Application filed by Zymergen Inc filed Critical Zymergen Inc
Application granted granted Critical
Publication of ES2928728T3 publication Critical patent/ES2928728T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1079Screening libraries by altering the phenotype or phenotypic trait of the host
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/20Heterogeneous data integration
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1058Directional evolution of libraries, e.g. evolution of libraries is achieved by mutagenesis and screening or selection of mixed population of organisms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Genetics & Genomics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Wood Science & Technology (AREA)
  • Biomedical Technology (AREA)
  • Organic Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Plant Pathology (AREA)
  • Microbiology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Ecology (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)

Abstract

La presente divulgación proporciona una plataforma de ingeniería genómica microbiana HTP que está impulsada computacionalmente e integra biología molecular, automatización y protocolos avanzados de aprendizaje automático. Esta plataforma integradora utiliza un conjunto de conjuntos de herramientas moleculares HTP para crear bibliotecas de diseño genético HTP, que se derivan, entre otras cosas, de conocimientos científicos y reconocimiento de patrones iterativos. La plataforma de ingeniería genómica HTP descrita en este documento es independiente del huésped de la cepa microbiana y, por lo tanto, se puede implementar en todos los taxones. Además, la plataforma divulgada se puede implementar para modular o mejorar cualquier parámetro de interés del huésped microbiano. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Mejora de cepas microbianas mediante una plataforma de ingeniería genómica HTP
CAMPO
La presente descripción se refiere a ingeniería genómica microbiana de alto rendimiento (HTP). La plataforma de ingeniería genómica HTP dada a conocer se acciona computacionalmente, e integra biología molecular, automatización y protocolos de aprendizaje automático avanzados. Esta plataforma integradora utiliza una serie de conjuntos de herramientas moleculares HTP para crear bibliotecas de diseños genéticos HTP, que derivan de, entre otros, el conocimiento científico y el reconocimiento de patrones iterativos.
ANTECEDENTES
Los seres humanos han estado aprovechando el poder de las rutas biosintéticas celulares microbianas durante milenios para producir productos de interés, cuyos ejemplos más antiguos incluyen alcohol, vinagre, queso y yogur. Estos productos presentan todavía hoy en día una gran demanda y también han ido acompañados de un repertorio sin duda creciente de productos que pueden producirse por microbios. La aparición de la tecnología de ingeniería genética ha posibilitado a los científicos diseñar y programar nuevas rutas biosintéticas en una variedad de organismos para producir un amplio intervalo de productos industriales, médicos, y de consumo. De hecho, ahora se usan cultivos celulares microbianos para producir productos que van desde moléculas pequeñas, antibióticos, vacunas, insecticidas, enzimas, combustibles, y productos químicos industriales.
Dado el gran número de productos producidos por los microbios industriales modernos, no es inesperado que los ingenieros estén bajo una presión tremenda para mejorar la velocidad y la eficiencia mediante las que un microorganismo dado es capaz de producir un producto diana.
Se ha usado una variedad de enfoques para mejorar la economía de los procedimientos industriales de base biológica “mejorando” el microorganismo implicado. Por ejemplo, muchas industrias farmacéuticas y químicas se basan en programas de mejora de cepas microbianas en los que las cepas parentales de un cultivo microbiano se mutan de manera continua a través de la exposición a productos químicos o radiación UV y se examinan posteriormente en busca de aumentos de rendimiento, tales como en la productividad, producción y título. Este proceso de mutagénesis se repite de manera extensa hasta que una cepa demuestra un aumento adecuado en el rendimiento de producto. La cepa “mejorada” posterior se utiliza entonces en la producción comercial.
Alper Hal et al.: “Construction of lycopene-overproducing E. coli strains by combining systematic and combinatorial gene knockout targets”, Nature Biotechnology, vol. 23, n° 5, 1 mayo de 2005, páginas 612-616, y los documentos WO 00/04190 A1 y WO96/34112 A1 describen métodos para seleccionar cepas microbianas con fenotipos mejorados como resultado de los SNPs.
J. Buchholz et al.: “Platform engineering of Corynebacterium glutamicum with reduced pyruvate dehydrogenase complex activity for improved production of L-lysine, L-valine and 2-ketoisovalerate”, vol. 79, n° 18, 8 julio de 2013, páginas 5566-5575, describen mutantes de intercambio de promotores para mejorar los fenotipos de las cepas. Sin embargo, no enseñan el uso de una escalera de promotor.
Tal como se ha aludido a ello anteriormente, la identificación de cepas microbianas industriales mejoradas a través de mutagénesis requiere mucho tiempo y es ineficiente. El proceso, por su misma naturaleza, es al azar, y se basa en tropezarse con una mutación que tiene un desenlace deseable sobre el resultado del producto.
No solo son ineficientes los programas de mejora de cepas microbianas tradicionales, sino que el proceso también puede conducir a cepas industriales con un alto grado de carga mutagénica perjudicial. La acumulación de mutaciones en cepas industriales sometidas a estos tipos de programas puede volverse significativa, y puede conducir a un eventual estancamiento en la tasa de mejora del rendimiento.
Por lo tanto, existe una gran necesidad en la técnica de nuevos métodos de obtención mediante ingeniería de microbios industriales, que no sufran los inconvenientes mencionados anteriormente inherentes a los programas de mejora de cepas tradicionales, y que aceleren enormemente el proceso de descubrimiento y de consolidación de mutaciones beneficiosas.
Además, existe una necesidad urgente de un método mediante el que se “rehabiliten” cepas industriales que se han desarrollado mediante los procesos anticuados y dañinos empleados actualmente en el campo de la mejora de cepas microbianas.
SUMARIO DE LA DESCRIPCIÓN
En un primer aspecto de la invención, se proporciona un método de intercambio de promotores de ingeniería genómica para desarrollar un microbio para adquirir un fenotipo deseado, comprendiendo dicho método las etapas de: a) proporcionar una pluralidad de genes diana endógenos a una cepa microbiana de base, y una escalera de promotores, en el que dicha escalera de promotores comprende una pluralidad de promotores que presentan diferentes perfiles de expresión en la cepa microbiana de base; b) modificar mediante ingeniería el genoma de la cepa microbiana de base, para crear de ese modo una biblioteca de cepas microbianas de intercambio de promotores inicial que comprende una pluralidad de cepas microbianas individuales con variaciones genéticas únicas encontradas dentro de cada cepa de dicha pluralidad de cepas microbianas individuales, en el que cada una de dichas variaciones genéticas únicas comprende uno de los promotores de la escalera de promotores ligado operativamente a uno de los genes diana endógenos con respecto a la cepa microbiana de base; c) examinar y seleccionar para el fenotipo deseado cepas microbianas individuales de la biblioteca de cepas microbianas de intercambio de promotores inicial; d) proporcionar una pluralidad posterior de microbios que comprenden cada uno una combinación única de variación genética, dicha variación genética seleccionada de la variación genética presente en al menos dos cepas microbianas individuales examinadas en la etapa anterior, para crear de ese modo una biblioteca de cepas microbianas de intercambio de promotores posterior; e) examinar y seleccionar para el fenotipo deseado cepas microbianas individuales de la biblioteca de cepas microbianas de intercambio de promotores posterior; f) repetir las etapas d)-e) una o más veces, de forma lineal o no lineal, hasta que un microbio haya adquirido el fenotipo deseado, en el que cada iteración subsiguiente crea una nueva biblioteca de cepas microbianas de intercambio de promotores que comprende cepas microbianas individuales que albergan variaciones genéticas que son una combinación de variaciones genéticas seleccionadas de entre al menos dos cepas microbianas individuales de una biblioteca de cepas microbianas de intercambio de promotores anterior.
En un segundo aspecto de la invención, se proporciona un sistema de ingeniería genómica para desarrollar una célula hospedante a través del intercambio de promotores para adquirir un fenotipo deseado, comprendiendo el sistema:
uno o más procesadores; y
una o más memorias acopladas operativamente a al menos uno del uno o más procesadores y que tienen instrucciones almacenadas en las mismas que, cuando se ejecutan por al menos uno del uno o más procesadores, hacen que el sistema:
a. proporcione una pluralidad de genes diana endógenos a una célula hospedante de base y una escalera de promotores, en el que dicha escalera de promotores comprende una pluralidad de promotores que exhiben diferentes perfiles de expresión en la célula hospedante de base;
b. diseñe el genoma de la célula hospedante de base, para crear una biblioteca de células hospedantes de intercambio de promotores inicial que comprende una pluralidad de células hospedantes individuales con una variación genética que se encuentra dentro de cada célula hospedante de dicha pluralidad de células hospedantes, en el que cada variación genética comprende uno o más de los promotores de la escalera de promotores unidos operativamente a un gen diana endógeno a la célula hospedante;
c. examine y seleccione para el fenotipo deseado células hospedantes individuales de la biblioteca de células hospedantes de intercambio de promotores inicial;
d. proporcione una pluralidad posterior de células hospedantes que comprenden cada una una combinación de variación genética, dicha variación genética seleccionada de la variación genética presente en al menos dos células hospedantes individuales examinadas en una etapa anterior, para crear así una biblioteca de células hospedantes posterior;
e. examine y seleccione para el fenotipo deseado células hospedantes individuales de la biblioteca de células hospedantes posterior; y
f. repita las etapas d)-e) una o más veces, hasta que una célula hospedante resultante haya adquirido el fenotipo deseado.
Realizaciones preferidas de la invención en cualquiera de sus diversos aspectos son tal como se describen más adelante o tal como se definen en las reivindicaciones dependientes.
BREVE DESCRIPCIÓN DE LAS FIGURAS
La FIGURA 1 representa un método de recombinación de ADN de la presente descripción para aumentar la variación en conjuntos de diversidad. Secciones de ADN, tales como regiones de genoma de especies relacionadas, pueden cortarse a través de medios físicos o enzimáticos/químicos. Las regiones de ADN cortadas se fusionan y se permite que vuelvan a hibridarse, de modo que regiones genéticas solapantes ceben reacciones de extensión de polimerasa. Se llevan a cabo reacciones de fusión/extensión posterior hasta que los productos vuelven a ensamblarse para dar ADN quimérico, que comprende elementos de una o más secuencias de partida. La FIGURA 2 esboza métodos de la presente descripción para generar nuevos organismos hospedantes con modificaciones de secuencia seleccionadas (por ejemplo, 100 SNP a intercambiar). Brevemente, el método comprende (1) se diseñan y generan insertos de a Dn deseados combinando uno o más oligos sintetizados en una reacción de ensamblaje, (2) se clonan insertos de ADN en plásmidos de transformación, (3) se transfieren los plásmidos completados a cepas de producción deseadas, en donde se integran en el genoma de la cepa hospedante, y (4) se eliminan en bucle marcadores de selección y otros elementos de ADN no deseados de la cepa hospedante. Cada etapa de ensamblaje de ADN puede implicar etapas de control de calidad (QC, quality control) adicionales, tales como clonar plásmidos en bacterias E. colipara amplificación y secuenciación.
La FIGURA 3 representa el ensamblaje de plásmidos de transformación de la presente descripción, y su integración en organismos hospedante. El ADN de inserto se genera combinando uno o más oligos sintetizados en una reacción de ensamblaje. Insertos de ADN que contienen la secuencia deseada están flanqueados por regiones de ADN homólogas a la región seleccionada como diana del genoma. Estas regiones homólogas facilitan la integración genómica y, una vez integradas, forman regiones de repetición directa diseñadas para eliminar en bucle ADN de estructura principal de vector en etapas posteriores. Los plásmidos ensamblados contienen el ADN de inserto y, opcionalmente, uno o más marcadores de selección.
La FIGURA 4 representa un procedimiento para eliminar en bucle regiones seleccionadas de ADN de cepas hospedante. Regiones de repetición directa del ADN insertado y el genoma hospedante pueden “eliminarse en bucle” en un evento de recombinación. Las células seleccionadas de manera contraria para el marcador de selección contienen deleciones del ADN de bucle flanqueado por las regiones de repetición directa.
La FIGURA 5 representa una realización del proceso de mejora de cepas de la presente descripción. Secuencias de cepa hospedante que contienen modificaciones genéticas (diseño genético) se someten a prueba para mejoras del rendimiento de cepas en diversos fondos de cepa (construcción de cepas). Se analizan cepas que presentan mutaciones beneficiosas (ID y análisis de resultados positivos) y se almacenan los datos en bibliotecas para un análisis adicional (por ejemplo, bibliotecas de intercambio SNP, bibliotecas de intercambio PRO, y combinaciones de las mismas, entre otras). Las reglas de selección de la presente descripción generan nuevas secuencias de cepa hospedante propuestas basándose en el efecto predicho de combinar elementos de una o más bibliotecas para un análisis iterativo adicional.
La FIGURA 6 representa las etapas de ensamblaje de ADN, transformación y examen de cepas de una de las realizaciones de la presente descripción. La FIGURA 6A representa las etapas para construir fragmentos de ADN, clonar dichos fragmentos de ADN en vectores, transformar dichos vectores en cepas hospedantes y eliminar en bucle secuencias de selección a través de selección contraria. La FIGURA 6B representa las etapas para el cultivo, examen y evaluación de alto rendimiento de cepas hospedantes seleccionadas. Esta figura también representa las etapas opcionales de cultivar, examinar y evaluar cepas seleccionadas en tanques de cultivo.
La FIGURA 7 representa una realización del sistema automatizado de la presente descripción. La presente descripción enseña el uso de sistemas robóticos automatizados con diversos módulos capaces de clonar, transformar, cultivar, examinar y/o secuenciar organismos hospedante.
La FIGURA 8 representa una visión general de una realización del programa de mejora de cepas hospedantes de la presente descripción.
La FIGURA 9 es una representación del genoma de Corynebacterium glutamicum, que comprende alrededor de 3,2 millones de pares de bases.
La FIGURA 10 representa los resultados de un experimento de transformación de la presente descripción. Insertos de ADN que oscilan entre 0,5 kb y 5,0 kb se seleccionaron como diana para la inserción en diversas regiones (mostradas como posiciones relativas 1-24) del genoma de Corynebacterium glutamicum. El color claro indica una integración exitosa, mientras que el color más oscuro indica un fallo de inserción.
La FIGURA 11 representa los resultados de un programa de intercambio PRO de ingeniería HTP de segunda ronda. Las combinaciones de promotor::gen superiores identificadas durante la primera ronda de intercambio PRO se analizaron según los métodos de la presente descripción para identificar combinaciones de dichas mutaciones que presentarían probablemente efectos beneficiosos aditivos o combinatorios sobre el rendimiento del hospedante. Por tanto, los mutantes de intercambio PRO de segunda ronda comprendían combinaciones de pares de diversas mutaciones de promotor::gen. Los mutantes de segunda ronda resultantes se examinaron para diferencias en la producción de células hospedantes de una biomolécula seleccionada. Un par de combinación de mutaciones que se había predicho que presentaría efectos beneficiosos se resalta con un círculo.
La FIGURA 12 representa los resultados de un experimento que somete a prueba el ensamblaje de plásmidos exitoso para plásmidos transformados en E. coli. Coger cuatro colonias es suficiente para conseguir una tasa de fallo del 13% para plásmidos que contienen secuencias de inserción de 1 y 2 kb. Inserciones más grandes pueden requerir un examen de colonia adicional para conseguir resultados consistentes.
La FIGURA 13 representa resultados de un experimento que somete a prueba la transformación exitosa de Corynebacterium glutamicum con vectores de inserción. Los tamaños de inserto de ADN de 2 y 5 kb presentaban tasas de transformación altas con tasas de fallo de ensamblaje bajas.
La FIGURA 14 representa resultados de selecciones de eliminación en bucle en Corynebacterium glutamicum. La resistencia a la sacarosa de las bacterias transformadas indica la eliminación en bucle del marcador de selección sacB. El tamaño del inserto de ADN no parece afectar a la eficiencia de eliminación en bucle.
La FIGURA 15 es una matriz de similitud calculada usando la medida de correlación. La matriz es una representación de la similitud funcional entre variantes SNP. Se espera que la consolidación de SNP con una similitud funcional baja tenga una mayor probabilidad de mejorar el rendimiento de cepas, en oposición a la consolidación de SNP con una similitud funcional mayor.
La FIGURA 16A-B representa los resultados de un experimento de cartografiado epistático. La combinación de intercambios SNP y PRO con similitudes funcionales bajas produce un rendimiento de cepas mejorado. La FIGURA 16A representa un dendrograma agrupado por similitud funcional de todos los intercambios SNP/PRO. La FIGURA 16B representa el rendimiento de cepas hospedantes de SNP consolidados medido mediante la producción de producto. Una distancia de agrupamiento mayor se correlaciona con un rendimiento de consolidación mejorado de la cepa hospedante.
La FIGURA 17A-B representa diferencias de SNP entre variantes de cepa en el conjunto de diversidad. La FIGURA 17A representa la relación entre las cepas de este experimento. La cepa A es la cepa hospedante de tipo silvestre. La cepa B es una cepa modificada mediante ingeniería intermedia. La cepa C es la cepa de producción industrial. La FIGURA 17B es un gráfico que identifica el número de SNP únicos y compartidos en cada cepa.
La FIGURA 18 representa un experimento de intercambio SNP de primera ronda según los métodos de la presente descripción. (1) Todos los SNP de C se clonarán individualmente y/o de manera combinatoria en la cepa A de base (“elevar” A a C). (2) Todos los SNP de C se eliminarán individualmente y/o de manera combinatoria de la cepa comercial C (“disminuir” C a A). (3) Todos los SNP de B se clonarán individualmente y/o de manera combinatoria en la cepa A de base (elevar A a B). (4) Todos los SNP de B se eliminarán individualmente y/o de manera combinatoria de la cepa comercial B (disminuir B a A). (5) Todos los SNP únicos con respecto a C se clonarán individualmente y/o de manera combinatoria en la cepa B comercial (elevar B a C). (6) Todos los SNP únicos con respecto a C se eliminarán individualmente y/o de manera combinatoria de la cepa comercial C (disminuir C a B).
La FIGURA 19 ilustra dianas génicas de ejemplo que deben utilizarse en un proceso de intercambio de promotor. La FIGURA 20 ilustra una biblioteca de promotores a modo de ejemplo que está utilizándose para llevar a cabo un proceso de intercambio de promotor para las dianas génicas identificadas. Los promotores utilizados en el proceso de intercambio PRO (es decir, intercambio de promotores) son P1-P8, cuyas secuencias e identidad pueden encontrarse en la Tabla 1.
La FIGURA 21 ilustra que los desenlaces genéticos de intercambio de promotor dependen del gen particular que esté seleccionándose como diana.
La FIGURA 22 representa datos de intercambio de promotor HTP a modo de ejemplo que muestran modificaciones que afectan significativamente al rendimiento sobre la producción de lisina. El eje X representa diferentes cepas dentro de la biblioteca de cepas microbianas de diseños genéticos de intercambio de promotor y el eje Y incluye valores de producción de lisina relativos para cada cepa. Cada letra en el gráfico representa un gen diana de intercambio PRO. Cada punto de dato representa una réplica. Los datos demuestran que una herramienta molecular adaptada para aplicaciones HTP, tal como se describe aquí (es decir, intercambio PRO), es capaz de crear y optimizar de manera eficiente un rendimiento de cepa microbiana para la producción de un compuesto o molécula de interés. En este caso, el compuesto de interés era lisina; sin embargo, la herramienta molecular de intercambio PRO ensañada puede utilizarse para optimizar y/o aumentar la producción de cualquier compuesto de interés. Un experto en la técnica entendería cómo elegir genes diana, codificando para la producción de un compuesto deseado, y entonces utilizar el procedimiento de intercambio PRO enseñado. Un experto en la técnica apreciaría fácilmente que los datos demostrados que ejemplifican aumentos de producción de lisina enseñados aquí, junto con la descripción detallada presentada en la solicitud, posibilitan que la herramienta molecular de intercambio PRO sea un avance ampliamente aplicable en ingeniería genómica HTP. La FIGURA 23 ilustra la distribución de rendimientos de cepas relativos para los datos de entrada en consideración. Un rendimiento relativo de cero indica que la cepa modificada mediante ingeniería tuvo un rendimiento igual de bueno con respecto a la cepa de base en placa. Los procesos descritos aquí están diseñados para identificar las cepas que es probable que tengan un rendimiento significativamente por encima de cero.
La FIGURA 24 ilustra los valores de coeficiente de regresión lineal, que representan el cambio promedio (aumento o disminución) en el rendimiento de cepa relativo asociado con cada cambio genético incorporado a las cepas representadas.
La FIGURA 25 ilustra la composición de cambios para los 100 diseños de cepa predichos superiores. El eje x lista el conjunto de cambios genéticos potenciales (las mutaciones dss son intercambios SNP y las mutaciones Pcg son intercambios PRO), y el eje y muestra el orden de intervalo. Las celdas negras indican la presencia de un cambio particular en el diseño candidato, mientras que las celdas blancas indican la ausencia de ese cambio. En este ejemplo particular, todos los 100 diseños superiores contienen los cambios pcg3121_pgi, pcg1860_pyc, dss_339, y pcg0007_39_lysa. Adicionalmente, el diseño candidato superior contiene los cambios dss_034, dss_009.
La FIGURA 26 representa las etapas de ensamblaje de ADN y transformación de uno de las realizaciones de la presente descripción. El diagrama de flujo representa las etapas para construir fragmentos de ADN, clonar dichos fragmentos de ADN en vectores, transformar dichos vectores en cepas hospedantes y eliminar en bucle secuencias de selección a través de selección contraria.
La FIGURA 27 representa las etapas para el cultivo, examen y evaluación de alto rendimiento de cepas hospedantes seleccionadas. Esta figura también representa las etapas opcionales de cultivar, examinar y evaluar cepas seleccionadas en tanques de cultivo.
La FIGURA 28 representa perfiles de expresión de promotores ilustrativos que presentan un intervalo de expresión reguladora, según las escaleras de promotores de la presente descripción. La expresión del promotor A alcanza un pico en la fase lag de cultivos bacterianos, mientras que el promotor B y C alcanzan un pico en la fase exponencial y estacionaria, respectivamente.
La FIGURA 29 representa perfiles de expresión de promotores ilustrativos que presentan un intervalo de expresión reguladora, según las escaleras de promotores de la presente descripción. La expresión del promotor A alcanza un pico inmediatamente tras la adición de un sustrato seleccionado, pero vuelve rápidamente a niveles indetectables a medida que se reduce la concentración del sustrato. La expresión del promotor B alcanza un pico inmediatamente tras la adición del sustrato seleccionado y disminuye lentamente de vuelta hasta niveles indetectables junto con la reducción correspondiente de sustrato. La expresión del promotor C alcanza un pico tras la adición del sustrato seleccionado y permanece altamente expresada por todo el cultivo, incluso después de haberse disipado el sustrato.
La FIGURA 30 representa perfiles de expresión de promotores ilustrativos que presentan un intervalo de niveles de expresión constitutivos, según las escaleras de promotores de la presente descripción. El promotor A presenta la expresión más baja, seguido de niveles de expresión crecientes del promotor B y C, respectivamente. La FIGURA 31 muestra un diagrama de una realización de sistema LIMS de la presente descripción para la mejora de cepas.
La FIGURA 32 muestra un diagrama de una implementación de cálculo en nube de realizaciones del sistema LIMS de la presente descripción.
La FIGURA 33 representa una realización del flujo de trabajo de diseño de cepas predictivo iterativo de la presente descripción.
La FIGURA 34 muestra un diagrama de una realización de un sistema informático, según realizaciones de la presente descripción.
La FIGURA 35 representa el flujo de trabajo asociado con el ensamblaje de ADN según una realización de la presente descripción. Este proceso se divide en 4 fases: generación de partes, ensamblaje de plásmido, QC de plásmido y preparación de plásmido para la transformación. Durante la generación de partes, se piden oligos diseñados por el Laboratory Information Management System (LIMS) de un vendedor de secuenciación de oligos y se usan para amplificar las secuencias diana del organismo hospedante por medio de PCR. Estas partes de PCR se limpian para eliminar contaminantes y se evalúan para el éxito mediante análisis de fragmentos, comparación de control de calidad in silico de tamaños de fragmento observados con respecto a teóricos y cuantificación de ADN. Las partes se transforman en levadura junto con un vector de ensamblaje y se ensamblan en plásmidos por medio de recombinación homóloga. Los plásmidos ensamblados se aíslan de la levadura y se transforman en E. coli para el control de calidad de ensamblaje y la amplificación posterior. Durante el control de calidad de ensamblaje de plásmido, varios duplicados de cada plásmido se aíslan, se amplifican usando amplificación por círculo rodante (RCA, Rolling Circle Amplification) y se evalúan para el ensamblaje correcto mediante digestión enzimática y análisis de fragmentos. Los plásmidos ensamblados correctamente identificados durante el proceso de QC se cogen como resultados positivos para generar reservas permanentes y el ADN de plásmido se extrae y se cuantifica antes de la transformación en el organismo hospedante diana.
La FIGURA 36 representa los resultados de un experimento que caracteriza los efectos de los terminadores T1-T8 en dos medios a lo largo de dos puntos de tiempo. Las condiciones A y C representan los dos puntos de tiempo para los medios BHI, mientras que los puntos B y D representan los dos puntos de tiempo para los medios de prueba HTP.
La FIGURA 37 representa los resultados de un experimento que compara la eficacia de enfoques de mejora de cepas tradicionales tal como mutagénesis UV frente a las metodologías de ingeniería HTP de la presente descripción. La amplia mayoría de mutaciones UV no produjeron ningún aumento apreciable en el rendimiento de célula hospedante. Por el contrario, las metodologías de intercambio PRO de la presente descripción produjeron una alta proporción de mutantes que presentan aumentos de 1,2 a 2 veces en el rendimiento de célula hospedante.
La FIGURA 38 representa los resultados de un programa de intercambio SNP de ingeniería HTP de primera ronda. Se identificaron 186 mutaciones SNP individuales y se clonaron individualmente en una cepa de base. Los mutantes resultantes se examinaron para diferencias en el rendimiento de célula hospedante de una biomolécula seleccionada.
La FIGURA 39 representa los resultados de un programa de intercambio SNP de ingeniería HTP de segunda ronda. Se clonaron individualmente 176 mutaciones SNP individuales de un programa de intercambio SNP de primera ronda en una cepa de células hospedantes de segunda ronda que contenía un SNP beneficioso identificado durante un programa de SNP de primera ronda. Por tanto, los mutantes resultantes representan el efecto de dos pares de combinación de mutación. Se muestran los resultados de examen para diferencias en la producción de célula hospedante (eje Y) y la productividad (eje X) para la biomolécula seleccionada.
La FIGURA 40 representa los resultados de un experimento de validación de fermentación en tanque. Los pares de mutación superiores de la segunda ronda de intercambio SNP HTP se cultivaron en tanques de fermentación. Se muestran los resultados para la producción y productividad de célula hospedante para la biomolécula seleccionada (es decir, lisina). Como puede verse, en una ronda de ingeniería genómica los inventores utilizaron el procedimiento de intercambio PRO para determinar que un mutante de intercambio PRO particular (zwf) presentaba una producción aumentada de una biomolécula seleccionada en comparación con la cepa de base (es decir, compara la cepa de base con la cepa de base zwf). Entonces, los inventores realizaron otra ronda de ingeniería genómica, en la que se usó un procedimiento de intercambio SNP para determinar mutaciones SNP beneficiosas que podrían afectar a la producción de la biomolécula, cuando se combinaba con dicho mutante de intercambio PRO. La combinación del procedimiento de intercambio PRO y del procedimiento de intercambio SNP creó mutantes con producciones incluso mayores que los mutantes de intercambio PRO solo previos (es decir, compara la cepa de base zwf SNP121 con la cepa de base discutida previamente zwf). Esta figura ilustra las mejoras drásticas en la producción que pueden conseguirse combinando los procedimientos de intercambio PRO y de intercambio SNP de la descripción. En aspectos, la combinación de una campaña de ingeniería genómica de intercambio PRO con una campaña de ingeniería genómica de intercambio SNP puede conducir a una producción y/o productividad aumentada de una biomolécula/producto de interés en un factor del 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9% 10%, 15%, 20%, 25%, 30%, 40%, 45%, 50%, o más, en relación con una cepa de base.
La FIGURA 41 representa los resultados de un programa de intercambio PRO de ingeniería HTP de primera ronda. Se combinaron genes seleccionados que se creía que están asociados con el rendimiento de hospedante con una escalera de promotores para crear una biblioteca de intercambio PRO de primera ronda, según los métodos de la presente descripción. Los mutantes resultantes se examinaron para diferencias en la producción de célula hospedante de una biomolécula seleccionada (es decir, lisina).
La FIGURA 42 es un diagrama de flujo que ilustra la consideración de efectos epistáticos en la selección de mutaciones para el diseño de una cepa microbiana, según realizaciones de la descripción.
La FIGURA 43A-B representa los resultados de la transformación y validación de A. nigersegún los métodos de la presente descripción. La FIGURA 43A - es una imagen de una placa de medio de 96 pocillos de transformantes de A. niger. Los cultivos transformados comprenden una mutación en aygA, que hace que las células aparezcan en amarillo más claro en lugar de negro (los pocillos transformados están rodeados con un círculo blanco). La FIGURA 43B - representa los resultados de la secuenciación de siguiente generación de mutantes de A. niger transformados. El eje X representa la identidad de secuencia del ADN diana con la cepa parental no transformada. El eje Y representa la identidad de secuencia del ADN diana con la mutación esperada. Los puntos de datos hacia la parte inferior derecha del diagrama presentan una alta similitud con la cepa parental y una baja similitud con las secuencias transformadas esperadas. Los puntos de datos hacia la parte superior izquierda del diagrama presentan una alta similitud con secuencias transformadas esperadas y una baja identidad con la cepa parental. Los puntos de datos en el centro representan probablemente heterocariontes con múltiples núcleos.
La FIGURA 44A-B ilustra una implementación de intercambio SNP en A. niger. La FIGURA 44A - ilustra las ediciones genéticas diseñadas para cada SNP del intercambio SNP. La figura ilustra además la transformación conjunta en la que el gen pyrG se introduce en el locus para el gen de tipo silvestre aygA. La FIGURA 44B - son dos imágenes de las placas de medios de 96 pocillos para examinar los transformantes de A. niger. Las colonias amarillo claro representan transformantes en los que se ha alterado satisfactoriamente el gen aygA.
La FIGURA 45 representa un gráfico de control de calidad (QC) que identifica transformantes mutantes de A. niger exitosos (caja superior) basándose en resultados de secuenciación de siguiente generación. En global, el 29,2% de las colonias amarillas seleccionadas de las placas de cultivo presentan el cambio genético SNP esperado.
La FIGURA 46 representa los resultados de secuenciación de siguiente generación de mutantes de A. niger transformados. El eje X representa la identidad de secuencia del ADN diana con la cepa parental no transformada. El eje Y representa la identidad de secuencia del ADN diana con la mutación esperada. Los puntos de datos hacia la parte inferior derecha del gráfico presentan una alta similitud con la cepa parental y una baja similitud con las secuencias transformadas esperadas. Los puntos de datos hacia la parte superior izquierda del gráfico presentan una alta similitud con secuencias transformadas esperadas y una baja identidad con la cepa parental. Los puntos de datos en el centro representan probablemente heterocariontes con múltiples núcleos.
La FIGURA 47 es un gráfico de puntos for el rendimiento predicho frente al rendimiento medido de datos de entrenamiento para un modelo de producción de la presente descripción. El modelo subyacente es un modelo de regresión de crestas de núcleo (con núcleo polinómico de 4° orden). El modelo se entrena con 1864 constructos genéticos únicos y el rendimiento fenotípico asociado. El modelo ajustado tiene un valor r2 de 0,52.
La FIGURA 48 representa la constitución genética de diseños candidatos generados mediante los algoritmos de predicción de la presente descripción. Estos diseños candidatos se entregaron para la construcción HTP y el análisis. En este caso, el diseño candidato se define como la combinación de la id de cepa parental y la(s) mutación/mutaciones introducidas.
La FIGURA 49 es un gráfico de puntos del rendimiento predicho frente al rendimiento medido de diseños candidatos generados mediante los algoritmos de predicción de la presente descripción, y construidos según los métodos de construcción HTP de la presente descripción. Esta figura demuestra que el modelo puede predecir el rendimiento de cepas candidatas dentro de un grado de precisión aceptable.
La FIGURA 50 es un gráfico de cajas y bigotes que representa el cambio porcentual de producción de cepas candidatas con respecto a cepas parentales. En el eje y, un valor de 0,01 corresponde al 1%. Esta figura demuestra que cepas diseñadas mediante un modelo informático (gris claro) consiguen una mejora medible con respecto a sus cepas parentales correspondientes. Adicionalmente, la figura demuestra que estas mejoras de cepa de base de modelo son comparables en magnitud a las mejoras conseguidas mediante cepas diseñadas por expertos humanos.
La FIGURA 51 ilustra la distribución de rendimiento de producción para cepas diseñadas mediante el modelo informático (gris oscuro) y por un experto humano (gris claro). Las cepas diseñadas por ordenador presentaron distribuciones más estrechas con medianas de ganancia más altas.
La FIGURA 52 es un gráfico de cajas y bigotes que representa la producción absoluta de cepas candidatas generadas mediante el ordenador (gris claro) o por un experto humano (gris oscuro). Los resultados se agregan por cepa parental.
DESCRIPCIÓN DETALLADA
Definiciones
Aunque se cree que un experto habitual en la técnica entiende bien los siguientes términos, las siguientes definiciones se exponen para facilitar una explicación de la materia dada a conocer aquí.
El término “un” o “una” se refiere a uno/a o más de esa entidad, es decir, puede hacer referencia a una referencia en plural. Como tal, los términos “un” o “una”, “uno/a o más” y “al menos un(a)” se usan de manera intercambiable aquí. Además, la referencia a “un elemento” mediante el artículo indefinido “un” o “una” no excluye la posibilidad de que más de uno de los elementos esté presente, a menos que el contexto requiera claramente que haya uno y solo uno de los elementos.
Tal como se usa aquí, las expresiones “organismo celular”, “microorganismo” o “microbio” deben tomarse ampliamente. Estos términos se usan de manera intercambiable e incluyen, pero no se limitan a, los dos dominios procariotas, Bacteria y Archaea, así como ciertos protistas y hongos eucariotas. En algunas realizaciones, la descripción se refiere a los “microorganismos” u “organismos celulares” o “microbios” de listas/tablas y figuras presentes en la descripción. Esta caracterización puede hacer referencia a no solo los géneros taxonómicos identificados de las tablas y figuras, sino también a las especies taxonómicas identificadas, así como las diversas cepas diseñadas o identificadas recientemente y novedosas de cualquier organismo en dichas tablas o figuras. La misma caracterización es válida para la recitación de estos términos en otras partes de la memoria descriptiva, tal como en los ejemplos.
El término “procariotas” se reconoce en la técnica y se refiere a células que no contienen ningún núcleo u otros orgánulos celulares. Los procariotas se clasifican generalmente en uno de dos dominios, el Bacteria y el Archaea. La diferencia definitiva entre los organismos de los dominios Archaea y Bacteria se basa en diferencias fundamentales en la secuencia de bases de nucleótidos en el ARN ribosómico 16S.
El término “Archaea” se refiere a una categorización de organismos de la división Mendosicutes, encontrados normalmente en entornos inusuales y que se distinguen del resto de los procariotas por varios criterios, incluyendo el número de proteínas ribosómicas y la falta de ácido murámico en las paredes celulares. Basándose en un análisis de ARNr de subunidad menor, Archaea consiste en dos grupos filogenéticamente distintos: Crenarchaeota y Euryarchaeota. Basándose en su fisiología, Archaea puede organizarse en tres tipos: metanógenos (procariotas que producen metano); halófilos extremos (procariotas que viven a concentraciones muy altas de sal (NaCl); y termófilos extremos (hipertermófilos) (procariotas que viven a temperaturas muy altas). Además de las características de Archaea unificadoras que los distinguen de Bacteria (es decir, sin mureína en la pared celular, lípidos de membrana ligados por éster, etc.), estos procariotas presentan atributos estructurales o bioquímicos únicos que los adaptan a sus hábitats particulares. Crenarchaeota consiste principalmente en procariotas dependientes de azufre hipertermófilos y Euryarchaeota contiene los metanógenos y halófilos extremos.
“Bacteria” o “eubacteria” se refiere a un dominio de organismos procariotas. Bacteria incluye al menos 11 grupos distintos tal como sigue: (1) bacterias gram-positivas (gram+), de las que hay dos subdivisiones principales: (1) el grupo G+C superior (Actinomycetes, Mycobacteria, Micrococcus, otros) (2) el grupo G+C inferior (Bacillus, Clostridia, Lactobacillus, Staphylococci, Streptococci, Mycoplasmas); (2) Proteobacteria, por ejemplo, bacterias gram-negativas fotosintéticas+no fotosintéticas púrpuras (incluye la mayoría de las bacterias gram-negativas “comunes”); (3) Cyanobacteria, por ejemplo, fotótrofos oxigénicos; (4) Spirochetes y especies relacionadas; (5) Planctomyces; (6) Bacteroides, Flavobacteria; (7) Chlamydia; (8) bacterias verdes del azufre; (9) bacterias verdes no del azufre (también fotótrofos anaerobios); (10) micrococos radiorresistentes y relativos; (11) Thermotoga y Thermosipho thermophiles.
Un “eucariota” es cualquier organismo cuyas células contienen un núcleo y otros orgánulos encerrados dentro de membranas. Los eucariotas pertenecen al taxón Eukarya o Eukaryota. La característica definitoria que diferencia las células eucariotas de las células procariotas (Bacteria y Archaea mencionados anteriormente) es que tienen orgánulos unidos a membrana, especialmente el núcleo, que contiene el material genético, y está envuelto por la envuelta nuclear.
Las expresiones “célula hospedante modificada genéticamente”, “célula hospedante recombinante” y “cepa recombinante” se usan de manera intercambiable aquí y hacen referencia a células hospedantes que se han modificado genéticamente mediante los métodos de clonación y de transformación de la presente descripción. Por tanto, los términos incluyen una célula hospedante (por ejemplo, bacterias, célula de levadura, célula fúngica, CHO, célula human, etc.) que se ha alterado, modificado o modificado mediante ingeniería genética, de modo que presenta un genotipo y/o fenotipo alterado, modificado o diferente (por ejemplo, cuando la modificación genética afecta a secuencias codificantes de ácido nucleico del microorganismo), en comparación con el organismo que se produce de manera natural del que se derivó. Se entiende que, en algunas realizaciones, las expresiones hacen referencia no solo a la célula hospedante recombinante particular en cuestión, sino también a la progenie o progenie potencial de una célula hospedante de este tipo.
Las expresiones “microorganismo de tipo silvestre” o “célula hospedante de tipo silvestre” describen una célula que aparece en la naturaleza, es decir, una célula que no se ha modificado genéticamente.
La expresión “modificado mediante ingeniería genética” puede hacer referencia a cualquier manipulación del genoma de una célula hospedante (por ejemplo, mediante inserción, deleción, mutación o sustitución de ácidos nucleicos).
El término “control” o “célula hospedante control” se refiere a una célula hospedante comparadora apropiada para determinar el efecto de una modificación genética o tratamiento experimental. En algunas realizaciones, la célula hospedante control es una célula de tipo silvestre. En otras realizaciones, una célula hospedante control es genéticamente idéntica a la célula hospedante modificada genéticamente, excepto por la(s) modificación/modificaciones genética(s) que diferencian la célula hospedante de tratamiento. En algunas realizaciones, la presente descripción enseña el uso de cepas parentales como células hospedantes control (por ejemplo, la cepa Si que se usó como base para el programa de mejora de cepas). En otras realizaciones, una célula hospedante puede ser una célula genéticamente idéntica que carece de un promotor o SNP específico que está sometiéndose a prueba en la célula hospedante de tratamiento.
Tal como se usa aquí, el término “alelo(s)” significa cualquiera de una o más formas alternativas de un gen, todos de cuyos alelos hacen referencia a al menos un rasgo o característica. En una célula diploide, los dos alelos de un gen dado ocupan loci correspondientes en un par de cromosomas homólogos.
Tal como se usa aquí, el término “locus” (plural loci) significa un lugar o lugares específico(s) o un sitio en un cromosoma en el que, por ejemplo, se encuentra un gen o marcador genético.
Tal como se usa aquí, la expresión “ligado genéticamente” se refiere a dos o más rasgos que se heredan conjuntamente a una tasa alta durante el cultivo de modo que son difíciles de separar a través de cruce.
Una “recombinación” o “evento de recombinación” tal como se usa aquí se refiere a un cruce cromosómico o un surtido independiente.
Tal como se usa aquí, el término “fenotipo” se refiere a las características observables de una célula individual, cultivo celular, organismo o grupo de organismos que resulta de la interacción entre esa constitución genética del individuo (es decir, genotipo) y el entorno.
Tal como se usa aquí, el término “quimérica” o “recombinante” cuando se describe una secuencia de ácido nucleico o una secuencia de proteína se refiere a una secuencia de ácido nucleico, o de proteína, que enlaza al menos dos polinucleótidos heterólogos, o dos polipéptidos heterólogos, en una única macromolécula, o que reordena uno o más elementos de al menos una secuencia de ácido nucleico o de proteína natural. Por ejemplo, el término “recombinante” puede hacer referencia a una combinación artificial de dos segmentos de secuencia separados de otro modo, por ejemplo, mediante síntesis química o mediante la manipulación de segmentos aislados de ácidos nucleicos mediante técnicas de ingeniería genética.
Tal como se usa aquí, una “secuencia de nucleótidos sintética” o “secuencia de polinucleótidos sintética” es una secuencia de nucleótidos que no se conoce que aparezca en la naturaleza o que no se produce de manera natural. Generalmente, una secuencia de nucleótidos sintética de este tipo comprenderá al menos una diferencia de nucleótido en comparación con cualquier otra secuencia de nucleótidos que se produce de manera natural.
Tal como se usa aquí, la expresión “ácido nucleico” se refiere a una forma polimérica de nucleótidos de cualquier longitud, ya sean ribonucleótidos o desoxirribonucleótidos, o análogos de los mismos. Este término se refiere a la estructura primaria de la molécula, y por tanto incluye ADN bi- y monocatenario, así como ARN bi- y monocatenario. También incluye ácidos nucleicos modificados tales como ácidos nucleicos metilados y/u ocupados, ácidos nucleicos que contienen bases modificadas, modificaciones de estructura principal, y similares. Los términos “ácido nucleico” y “secuencia de nucleótidos” se usan de manera intercambiable.
Tal como se usa aquí, el término “gen” se refiere a cualquier segmento de ADN asociado con una función biológica. Por tanto, los genes incluyen, pero no se limitan a, secuencias codificantes y/o las secuencias reguladoras requeridas para su expresión. Los genes también pueden incluir segmentos de ADN no expresados que, por ejemplo, forman secuencias de reconocimiento para otras proteínas. Los genes pueden obtenerse de una variedad de fuentes, incluyendo la clonación a partir de una fuente de interés o la síntesis a partir de información de secuencia conocida o predicha, y pueden incluir secuencias diseñadas para tener parámetros deseados.
Tal como se usa aquí, el término “homóloga” u “homólogo” u “ortólogo/a” se conoce en la técnica y se refiere a secuencias relacionadas que comparten un miembro de familia o ancestro común y se determinan basándose en el grado de identidad de secuencia. Los términos “homología”, “homólogo”, “sustancialmente similar” y “sustancialmente correspondiente” se usan de manera intercambiable aquí. Hacen referencia a fragmentos de ácido nucleico en los que cambios en una o más base de nucleótido no afectan a la capacidad del fragmento de ácido nucleico para mediar en la expresión de genes o producir un cierto fenotipo. Estos términos también hacen referencia a modificaciones de los fragmentos de ácido nucleico de la presente descripción tal como la deleción o inserción de uno o más nucleótidos que no alteran sustancialmente las propiedades funcionales del fragmento de ácido nucleico resultante en relación con el fragmento inicial, no modificado. Por tanto, se entiende, como apreciarán los expertos en la técnica, que la descripción abarca más de las secuencias a modo de ejemplo específicas. Estos términos describen la relación entre un gen encontrado en una especie, subespecie, variedad, cultivar o cepa y el gen correspondiente o equivalente en otra especie, subespecie, variedad, cultivar o cepa. Para los propósitos de esta descripción se comparan secuencias homólogas. Se piensa, se cree o se sabe que “secuencias homólogas” u “homólogos” u “ortólogos” están relacionados funcionalmente. Una relación funcional puede indicarse de cualquier de varios modos, incluyendo, pero sin limitarse a: (a) grado de identidad de secuencia y/o (b) la misma o similar función biológica. Preferiblemente se indican tanto (a) como (b). La homología puede determinarse usando programas de software fácilmente disponibles en la técnica, tal como aquellos discutidos en Current Protocols in Molecular Biology (F.M. Ausubel et al., eds., 1987) suplemento 30, sección 7.718, Tabla 7.71. Algunos programas de alineación son MacVector (Oxford Molecular Ltd, Oxford, U.K.), ALIGN Plus (Scientific and Educational Software, Pensilvania) y AlignX (Vector NTI, Invitrogen, Carlsbad, CA). Otro programa de alineación es Sequencher (Gene Codes, Ann Arbor, Michigan), que usa parámetros por defecto.
Tal como se usa aquí, el término “endógeno” o “gen endógeno” se refiere al gen que se produce de manera natural, en la ubicación en la que se encuentra de manera natural dentro del genoma de la célula hospedante. En el contexto de la presente descripción, ligar operativamente un promotor heterólogo a un gen endógeno significa insertar genéticamente una secuencia promotora heteróloga delante de un gen existente, en la ubicación en la que ese gen está presente de manera natural. Un gen endógeno tal como se describe aquí puede incluir alelos de genes que se producen de manera natural que se han mutado según cualquier de los métodos de la presente descripción.
Tal como se usa aquí, el término “exógeno” se usa de manera intercambiable con el término “heterólogo”, y se refiere a una sustancia que procede de alguna fuente distinta de su fuente nativa. Por ejemplo, los términos “proteína exógena” o “gen exógeno” hacen referencia a una proteína o gen de una ubicación o fuente no nativa, y que se han suministrado artificialmente a un sistema biológico.
Tal como se usa aquí, la expresión “cambio de nucleótido” se refiere a, por ejemplo, una sustitución, deleción y/o inserción de nucleótido, tal como se entiende ampliamente en la técnica. Por ejemplo, las mutaciones contienen alteraciones que producen sustituciones, adiciones o deleciones silenciosas, pero no alteran las propiedades o actividades de la proteína codificada o cómo se elaboran las proteínas.
Tal como se usa aquí, la expresión “modificación de proteína” se refiere a, por ejemplo, una sustitución de aminoácido, modificación, deleción y/o inserción de aminoácido, tal como se entiende ampliamente en la técnica.
Tal como se usa aquí, la expresión “al menos una porción” o “fragmento” de un ácido nucleico o polipéptido significa una porción que tiene las características de tamaño mínimas de tales secuencias, o cualquier fragmento más grande de la molécula de longitud completa, hasta e incluyendo la molécula de longitud completa. Un fragmento de un polinucleótido de la descripción puede codificar para una porción biológicamente activa de un elemento regulador genético. Una porción biológicamente activa de un elemento regulador genético puede prepararse aislando una porción de uno de los polinucleótidos de la descripción que comprende el elemento regulador genético y evaluando la actividad tal como se describe aquí. De manera similar, una porción de un polipéptido puede ser 4 aminoácidos, 5 aminoácidos, 6 aminoácidos, 7 aminoácidos, etcétera, yendo hasta el polipéptido de longitud completa. La longitud de la porción que debe usarse dependerá de la aplicación particular. Una porción de un ácido nucleico útil como sonda de hibridación puede ser de tan solo 12 nucleótidos; en algunas realizaciones, es 20 nucleótidos. Una porción de un polipéptido útil como epítopo puede ser de tan solo 4 aminoácidos. Una porción de un polipéptido que realiza la función del polipéptido de longitud completa sería generalmente mayor de 4 aminoácidos.
Los polinucleótidos variantes también abarcan secuencias derivadas de un procedimiento mutagénico y recombinogénico tal como transposición de ADN. Estrategias para tal transposición de ADN se conocen en la técnica. Véase, por ejemplo, Stemmer (1994) PNAS 91:10747-10751; Stemmer (1994) Nature 370:389-391; Crameri et al. (1997) Nature Biotech. 15:436-438; Moore et al.(1997) J. Mol. Biol. 272:336-347; Zhang et al.(1997) PNAS 94:4504-4509; Crameri et al.(1998) Nature 391:288-291; y las patentes U.S. nos 5.605.793 y 5.837.458.
Para amplificaciones de PCR de los polinucleótidos dados a conocer aquí, pueden cebadores de oligonucleótidos para su uso en reacciones de PCR para amplificar secuencias de ADN correspondientes a partir de ADNc o ADN genómico extraído de cualquier organismo de interés. Métodos para diseñar cebadores de PCR y clonación de PCR se conocen en general en la técnica y se dan a conocer en Sambrook et al. (2001) Molecular Cloning: A Laboratory Manual (3a ed., Cold Spring Harbor Laboratory Press, Plainview, Nueva York). Véanse también Innis et al., eds. (1990) PCR Protocols: A Guide to Methods and Applications (Academic Press, Nueva York); Innis y Gelfand, eds. (1995) PCR Strategies (Academic Press, Nueva York); e Innis y Gelfand, eds. (1999) PCR Methods Manual (Academic Press, Nueva York). Los métodos de PCR conocidos incluyen, pero no se limitan a, métodos que usan cebadores emparejados, cebadores anidados, cebadores específicos individuales, cebadores degenerados, cebadores específicos de gen, cebadores específicos de vector, cebadores parcialmente apareados erróneamente, y similares.
El término “cebador” tal como se usa aquí se refiere a un oligonucleótido que es capaz de hibridarse a la diana de amplificación permitiendo que una ADN polimerasa se una, sirviendo de ese modo como punto de iniciación de la síntesis de ADN cuando se pone en condiciones en las que se induce la síntesis de producto de extensión de cebador, es decir, en presencia de nucleótidos y un agente para la polimerización tal como ADN polimerasa y a una temperatura y pH adecuados. El cebador (de amplificación) es preferiblemente monocatenario para una eficiencia máxima en la amplificación. Preferiblemente, el cebador es un oligodesoxirribonucleótido. El cebador tiene que ser suficientemente largo para cebar la síntesis de productos de extensión en presencia del agente para la polimerización. Las longitudes exactas de los cebadores dependerán de muchos factores, incluyendo temperatura y composición (contenido de A/T frente a G/C) del cebador. Un par de cebadores bidireccionales consiste en un cebador directo y uno inverso tal como se usa comúnmente en la técnica de amplificación de ADN, tal como en la amplificación de PCR.
Tal como se usa aquí, “promotor” se refiere a una secuencia de ADN capaz de controlar la expresión de una secuencia codificante o ARN funcional. En algunas realizaciones, la secuencia promotora consiste en elementos proximales y más distales secuencia arriba, denominándose los últimos elementos a menudo potenciadores. Por consiguiente, un “potenciador” es una secuencia de ADN que puede estimular la actividad del promotor, y puede ser un elemento innato del promotor o un elemento heterólogo insertado para potenciar el nivel o la especificidad de tejido de un promotor. Los promotores pueden derivarse en su totalidad de un gen nativo, o estar compuesto de diferentes elementos derivados de diferentes promotores encontrados en la naturaleza, o incluso comprender segmentos de ADN sintéticos. Los expertos en la técnica entienden que diferentes promotores pueden dirigir la expresión de un gen en diferentes tejidos o tipos de células, o en diferentes fases de desarrollo, o en respuesta a diferentes condiciones ambientales. Se reconoce adicionalmente que, dado que en la mayoría de los casos no se han definido completamente los límites exactos de las secuencias reguladoras, fragmentos de ADN de alguna variación pueden tener una actividad de promotor idéntica.
Tal como se usa aquí, las frases “constructo recombinante”, “constructo de expresión”, “constructo quimérico”, “constructo” y “constructo de ADN recombinante” se usan de manera intercambiable aquí. Un constructo recombinante comprende una combinación artificial de fragmentos de ácido nucleico, por ejemplo, secuencias reguladoras y codificantes que no se encuentran juntas en la naturaleza. Por ejemplo, un constructo quimérico puede comprender secuencias reguladoras y secuencias codificantes que se derivan de diferentes fuentes, o secuencias reguladoras y secuencias codificantes derivadas de la misma fuente, pero dispuestas de una manera diferente a la que encontrada en la naturaleza. Tal constructo puede usarse por sí mismo o puede usarse junto con un vector. Si se usa un vector, entonces la elección del vector depende del método que se usará para transformar células hospedantes tal como se conoce ampliamente por los expertos en la técnica. Por ejemplo, puede usarse un vector de plásmido. El experto en la técnica es ampliamente consciente de los elementos genéticos que tienen que estar presentes en el vector con el fin de transformar, seleccionar y propagar exitosamente células hospedantes que comprenden cualquier de los fragmentos de ácido nucleico aislados de la descripción. El experto en la técnica también reconocerá que diferentes eventos de transformación independientes darán como resultado diferentes niveles y patrones de expresión (Jones et al., (1985) EMBO J. 4:2411-2418; De Almeida et al., (1989) Mol. Gen. Genetics 218:78-86), y por tanto que tienen que examinarse múltiples eventos con el fin de obtener líneas que muestren el patrón y nivel de expresión deseados. Tal examen puede llevarse a cabo mediante análisis de Southern de ADN, análisis de Northern de expresión de ARNm, análisis de inmunotransferencia de expresión de proteína, o análisis fenotípico, entre otros. Los vectores pueden ser plásmidos, virus, bacteriófagos, provirus, fagémidos, transposones, cromosomas artificiales, y similares, que replican de manera autónoma o pueden integrarse en un cromosoma de una célula hospedante. Un vector también puede ser un polinucleótido de ARN desnudo, un polinucleótido de ADN desnudo, un polinucleótido compuesto de tanto ADN como ARN dentro de la misma hebra, un ADN o ARN conjugado con polilisina, un ADN o ARN conjugado con péptido, un ADN conjugado con liposoma, o similar, que no se replica de manera autónoma. Tal como se usa aquí, el término “expresión” se refiere a la producción de un producto final funcional, por ejemplo, un ARNm o una proteína (precursora o madura).
“Ligado operativamente” significa en este contexto la disposición secuencial del polinucleótido promotor según la descripción con un oligo- o polinucleótido adicional, dando como resultado la transcripción de dicho polinucleótido adicional.
La expresión “producto de interés” o “biomolécula” tal como se usa aquí se refiere a cualquier producto producido mediante microbios de materia prima. En algunos casos, el producto de interés puede ser una molécula pequeña, una enzima, un péptido, un aminoácido, un ácido orgánico, un compuesto sintético, un combustible, un alcohol, etc. Por ejemplo, el producto de interés o biomolécula puede ser cualquier metabolito extracelular primario o secundario. El metabolito primario puede ser, entre otros, etanol, ácido cítrico, ácido láctico, ácido glutámico, glutamato, lisina, treonina, triptófano y otros aminoácidos, vitaminas, polisacáridos, etc. El metabolito secundario puede ser, entre otros, un compuesto antibiótico como la penicilina, o un inmunosupresor como la ciclosporina A, una hormona vegetal como la giberelina, un fármaco de estatina como la lovastatina, un fungicida como la griseofulvina, etc. El producto de interés o biomolécula también puede ser cualquier componente intracelular producido por un microbio, tal como: una enzima microbiana, incluyendo: catalasa, amilasa, proteasa, pectinasa, glucosa isomerasa, celulasa, hemicelulasa, lipasa, lactasa, estreptocinasa y muchas otras. El componente intracelular también puede incluir proteínas recombinantes, tales como: insulina, vacuna contra la hepatitis B, interferón, factor estimulante de colonias de granulocitos, estreptocinasa y otras.
La expresión “fuente de carbono” se refiere en general a una sustancia adecuada para usarse como fuente de carbono para el crecimiento celular. Las fuentes de carbono incluyen, pero no se limitan a, hidrolizados de biomasa, almidón, sacarosa, celulosa, hemicelulosa, xilosa y lignina, así como componentes monoméricos de estos sustratos. Las fuentes de carbono pueden comprender diversos compuestos orgánicos en diversas formas, incluyendo, pero sin limitarse a, polímeros, carbohidratos, ácidos, alcoholes, aldehídos, cetonas, aminoácidos, péptidos, etc. Estos incluyen, por ejemplo, diversos monosacáridos tales como glucosa, dextrosa (D-glucosa), maltosa, oligosacáridos, polisacáridos, ácidos grasos saturados o insaturados, succinato, lactato, acetato, etanol, etc., o mezclas de los mismos. Los organismos fotosintéticos pueden producir adicionalmente una fuente de carbono como producto de fotosíntesis. En algunas realizacionesejemplos, las fuentes de carbono pueden seleccionarse de hidrolizados de biomasa y glucosa.
La expresión “materia prima” se define como un material de partida o una mezcla de materiales de partida suministrados a un microorganismo o proceso de fermentación a partir de los que pueden elaborarse otros productos. Por ejemplo, una fuente de carbono, tal como biomasa o los compuestos de carbono derivados de biomasa son una materia prima para un microorganismo que produce un producto de interés (por ejemplo, molécula pequeña, péptido, compuesto sintético, combustible, alcohol, etc.) en un proceso de fermentación. Sin embargo, una materia prima puede contener nutrientes distintos de una fuente de carbono.
La expresión “productividad volumétrica” o “tasa de producción” se define como la cantidad de producto formado por volumen de medio por unidad de tiempo. La productividad volumétrica puede notificarse en gramos por litro por hora (g/l/h).
La expresión “productividad específica” se define como la tasa de formación del producto. La productividad específica se define adicionalmente aquí como la productividad específica en gramos de producto por gramos de peso celular seco (CDW, cell dry weight) por hora (g/g CDW/h). Usando la relación de CDW con respecto a DO600 for el microorganismo dado, la productividad específica también puede expresarse como gramos de producto por litro de medio de cultivo por densidad óptica del caldo de cultivo a 600 nm (DO) por hora (g/l/h/DO).
El término “producción” se define como la cantidad de producto obtenido por peso unitario de material de partida y puede expresarse como g de producto por g de sustrato (g/g). La producción puede expresarse como porcentaje de la producción teórica. “Producción teórica” se define como la cantidad máxima de producto que puede generarse por una cantidad dada de sustrato tal como se dicta por la estequiometría de la ruta metabólica usada para elaborar el producto.
El término “título” se define como la concentración de una disolución o la concentración de una sustancia en disolución. Por ejemplo, el título de un producto de interés (por ejemplo, molécula pequeña, péptido, compuesto sintético, combustible, alcohol, etc.) en un caldo de fermentación se describe como g de producto de interés en disolución por litro de caldo de fermentación (g/l).
La expresión “título total” se define como la suma de todo el producto de interés producido en un proceso, incluyendo, pero sin limitarse a, el producto de interés en disolución, el producto de interés en fase gaseosa si es aplicable, y cualquier producto de interés eliminado del proceso y recuperado en relación con el volumen inicial en el proceso o el volumen operativo en el proceso.
Como se usa aquí, la expresión “biblioteca de diseños genéticos HTP” o “biblioteca” se refiere a colecciones de perturbaciones genéticas según la presente descripción. En algunas realizaciones, las bibliotecas de la presente invención pueden manifestarse como i) una colección de información de secuencia en una base de datos u otro archivo informático, ii) una colección de constructos genéticos que codifican para la serie mencionada anteriormente de elementos genéticos, o iii) cepas de células hospedantes que comprenden dichos elementos genéticos. En algunas realizaciones, las bibliotecas de la presente descripción pueden hacer referencia a colecciones de elementos individuales (por ejemplo, colecciones de promotores para bibliotecas de intercambio PRO, o colecciones de terminadores para bibliotecas de intercambio STOP). En otras realizaciones, las bibliotecas de la presente descripción también pueden hacer referencia a combinaciones de elementos genéticos, tales como combinaciones de promotor::genes, gen:terminador, o incluso promotor:gen:terminadores. En algunas realizaciones, las bibliotecas de la presente descripción comprenden además metadatos asociados con los efectos de aplicar cada miembro de la biblioteca en organismos hospedante. Por ejemplo, una biblioteca tal como se usa aquí puede incluir una colección de combinaciones de secuencias de promotor::gen, junto con el efecto resultante de aquellas combinaciones en uno o más fenotipos en una especie particular, mejorando así el valor predictivo futuro de usar dicha combinación en intercambios de promotores futuros.
Como se usa aquí, el término “SNP” se refiere a polimorfismo(s) nuclear(es) pequeño(s). En algunas realizaciones, los SNP de la presente descripción deben interpretarse de manera amplia, e incluir polimorfismos de nucleótido simple, inserciones, deleciones, inversiones de secuencia y otras sustituciones de secuencia. Tal como se usa aquí, el término “no sinónimo” o “SNP no sinónimos” se refiere a mutaciones que conducen a cambios codificantes en las proteínas de la célula hospedante
Un método de ingeniería genómica “de alto rendimiento (HTP)” puede implicar la utilización de al menos un equipo automatizado (por ejemplo, una máquina manipuladora de líquidos o manipuladora de placas) para llevar a cabo al menos una etapa de dicho método.
Métodos tradicionales de mejora de cepas
Los enfoques tradicionales para la mejora de cepas pueden categorizarse ampliamente en dos tipos de enfoques: ingeniería de cepas dirigida y mutagénesis aleatoria.
Los métodos de ingeniería dirigida de mejora de cepas implican la perturbación planificada de un puñado de elementos genéticos de un organismo específico. Estos enfoques se centran normalmente en modular programas de biosíntesis o de desarrollo específicos, y se basan en el conocimiento anterior de los factores genéticos y metabólicos que afectan a dichas rutas. En sus realizaciones más simples, la ingeniería dirigida implica la transferencia de un rasgo caracterizado (por ejemplo, gen, promotor u otro elemento genético capaz de producir un fenotipo medible) de un organismo a otro organismo de la misma especie o una especie diferente.
Los enfoques aleatorios para la ingeniería de cepas implican la mutagénesis aleatoria de cepas parentales, acoplada con un examen extenso diseñado para identificar mejoras del rendimiento. Los enfoques para generar estas mutaciones aleatorias incluyen la exposición a radiación ultravioleta, o productos químicos mutagénicos tales como metanosulfonato de etilo. Aunque es aleatorio y en gran medida impredecible, este enfoque tradicional a la mejora de cepas tenía varias ventajas en comparación con manipulaciones genéticas más dirigidas. En primer lugar, muchos organismos industriales estaban (y siguen estando) escasamente caracterizados en términos de sus repertorios genéticos y metabólicos, convirtiendo los enfoques de mejora dirigida alternativos en difíciles, si no imposibles.
En segundo lugar, incluso en sistemas relativamente bien caracterizados, los cambios genotípicos que dan como resultado mejoras del rendimiento industriales son difíciles de predecir, y en algunos casos solo se manifiestan como fenotipos epistáticos que requieren mutaciones acumulativas en muchos genes de función conocida y desconocida. Adicionalmente, durante muchos años, las herramientas genéticas requeridas para hacer mutaciones genómicas dirigidas en un organismo industrial dado no estaban disponibles, o eran muy lentas y/o difíciles de usar.
Sin embargo, la aplicación extendida de los programas de mejora de cepas tradicionales, produce ganancias reducidas progresivamente en un linaje de cepa dado, y en última instancia conduce a posibilidades agotadas para eficiencias de cepas adicionales. Las mutaciones aleatorias beneficiosas son eventos relativamente raros y requieren conjuntos de examen grandes y tasas de mutación altas. Esto da como resultado inevitablemente en la acumulación inadvertida de muchas mutaciones neutras y/o perjudiciales (o parcialmente perjudiciales) en cepas “mejoradas”, que en última instancia crean un freno en ganancias de eficiencia futuras.
Otra limitación de los enfoques de mejora acumulativa tradicionales es que se conoce de poca a ninguna información sobre cualquier efecto de la mutación particular sobre cualquier métrica de cepa. Esto limita fundamentalmente la capacidad de un investigador para combinar y consolidar mutaciones beneficiosas, o para eliminar un “equipaje” neutro o perjudicial.
Existen otros enfoques y tecnologías para recombinar de manera aleatoria mutaciones entre cepas dentro de un linaje mutagénico. Por ejemplo, algunos formatos y ejemplos para la recombinación de secuencias iterativa, denominada en algunos casos transposición de ADN, evolución o cultivo molecular, se han descrito en la solicitud de patente U.S. Ser. n° 08/198.431, presentada el 17 de febrero de 1994, con Serie n° PCT/US95/02126, presentada el 17 de febrero de 1995, Ser. n° 08/425.684, presentada el 18 de abril de 1995, Ser. n° 08/537.874, presentada el 30 de octubre de 1995, Ser. n° 08/564.955, presentada el 30 de noviembre de 1995, Ser. n° 08/621.859, presentada el 25 de marzo de 1996, Ser. n° 08/621.430, presentada el 25 de marzo de 1996, con Serie n° PCT/US96/05480, presentada el 18 de abril de 1996, Ser. n° 08/650.400, presentada el 20 de mayo de 1996, Ser. n° 08/675.502, presentada el 3 de julio 1996, Ser. n° 08/721.824, presentada el 27 de septiembre de 1996, y Ser. n° 08/722.660 presentada el 27 de septiembre de 1996; Stemmer, Science 270:1510 (1995); Stemmer et al., Gene 164:49-53 (1995); Stemmer, Bio/Technology 13:549-553 (1995); Stemmer, Proc. Natl. Acad. Sci. U.S.A. 91:10747-10751 (1994); Stemmer, Nature 370:389-391 (1994); Crameri et al., Nature Medicine 2(1):1-3 (1996); Crameri et al., Nature Biotechnology 14:315-319 (1996).
Estos incluyen técnicas tales como fusión de protoplastos y transposición de genoma completo que facilitan la recombinación genómica entre cepas mutadas. Para algunos microorganismos industriales tales como levadura y hongos filamentosos, también pueden aprovecharse ciclos de apareamiento naturales para recombinación genómica por pares. De este modo, pueden eliminarse mutaciones perjudiciales mediante mutantes “de retrocruce” con cepas parentales y mutaciones beneficiosas consolidadas. Además, pueden combinarse potencialmente mutaciones beneficiosas de dos linajes de cepas diferentes, lo que crea posibilidades de mejora adicionales con respecto a lo que podría estar disponible de la mutación de un linaje de cepa único por sí solo. Sin embargo, estos enfoques están sujetos a muchas limitaciones que se sortean usando los métodos de la presente descripción.
Por ejemplo, los enfoques recombinantes tradicionales descritos anteriormente son lentos y se basan en un número relativamente pequeño de eventos de entrecruzamiento de recombinación aleatorios para intercambiar mutaciones, y por tanto están limitados en el número de combinaciones que pueden intentarse en cualquier ciclo, o periodo de tiempo, dado. Además, aunque los eventos de recombinación naturales en la técnica anterior son esencialmente aleatorios, también están sujetos a sesgo posicional del genoma.
De la manera más importante, los enfoques tradicionales también proporcionan poca información sobre la influencia de mutaciones individuales y debido a la distribución aleatoria de mutaciones recombinadas no pueden generarse y evaluarse muchas combinaciones específicas.
Para superar muchos de los problemas mencionados anteriormente asociados con programas de mejora de cepas tradicionales, la presente descripción expone una plataforma de ingeniería genómica HTP única que se acciona computacionalmente e integra biología molecular, automatización, analítica de datos y protocolos de aprendizaje automático. Esta plataforma integradora utiliza una serie de conjuntos de herramientas moleculares HTP que se usan para construir bibliotecas de diseños genéticos HTP. Estas bibliotecas de diseños genéticos explicarán mejor más adelante.
La plataforma HTP enseñada y sus bibliotecas de diseños genéticos microbianos únicas desplazan fundamentalmente el paradigma del desarrollo y la evolución de cepas microbianas. Por ejemplo, los métodos a base de mutagénesis tradicionales de desarrollo de una cepa microbiana industrial conducirán eventualmente a microbios cargados con una carga mutagénica pesada que se ha acumulado a lo largo de años de mutagénesis aleatoria.
La capacidad para resolver esta cuestión (es decir, eliminar el equipaje genético acumulado por estos microbios) se les ha escapado a los investigadores de microbios durante décadas. Sin embargo, utilizando la plataforma HTP dada a conocer aquí, estas cepas industriales pueden “rehabilitarse”, y las mutaciones genéticas que son dañinas pueden identificarse y eliminarse. De manera congruente, las mutaciones genéticas que se identifican como beneficiosas pueden mantenerse y en algunos casos mejorarse adicionalmente. Las cepas microbianas resultantes demuestran rasgos fenotípicos superiores (por ejemplo, una producción mejorada de un compuesto de interés), en comparación con sus cepas parentales.
Además, la plataforma HTP enseñada aquí es capaz de identificar, caracterizar y cuantificar el efecto que mutaciones individuales tienen sobre el rendimiento de cepas microbianas. Esta información, es decir, qué efecto tiene un cambio genético dado x sobre el fenotipo de la célula hospedante y (por ejemplo, la producción de un compuesto o producto de interés), es capaz de generarse y entonces almacenarse en las bibliotecas de diseños genéticos HTP microbianas discutidas más adelante. Es decir, información de secuencia para cada permutación genética, y su efecto sobre el fenotipo de la célula hospedante se almacenan en una o más bases de datos, y están disponibles para un análisis posterior (por ejemplo, cartografiado epistático, tal como se discute más adelante). La presente descripción enseña también métodos de guardar/almacenar físicamente permutaciones genéticas valiosas en la forma de constructos de inserción genéticos, o en la forma de uno o más organismos de células hospedantes que contienen dicha permutación genética (por ejemplo, véanse las bibliotecas discutidas más adelante).
Cuando se acoplan estas bibliotecas de diseños genéticos HTP en un proceso iterativo que está integrado con un proceso de analítica de datos y aprendizaje automático sofisticado surge una metodología drásticamente diferente para mejorar células hospedantes. Por tanto, la plataforma enseñada es fundamentalmente diferente de los métodos tradicionales discutidos previamente de desarrollo de cepas de células hospedantes. La plataforma HTP enseñada no sufre muchos de los inconvenientes asociados con los métodos previos. Estas y otras ventajas resultarán evidentes con referencia a los conjuntos de herramientas moleculares HTP y las bibliotecas de diseños genéticos derivadas discutidos más adelante.
Diseño genético e ingeniería microbiana: Un enfoque combinatorio sistemático a la mejora de cepas utilizando una serie de herramientas moleculares HTP y bibliotecas de diseños genéticos HTP
Tal como se mencionó anteriormente, la presente descripción proporciona una plataforma HTP y una estrategia de diseño genético novedosas para modificar mediante ingeniería organismos microbianos a través de la introducción sistemática iterativa y la eliminación de cambios genéticos entre cepas. La plataforma está soportada por una serie de herramientas moleculares, que posibilitan la creación de bibliotecas de diseños genéticos HTP y permiten la implementación eficiente de alteraciones genéticas in una cepa hospedante dada.
Las bibliotecas de diseños genéticos HTP de la descripción sirven como fuentes de posibles alteraciones genéticas que pueden introducirse en un fondo de cepas microbianas particular. De este modo, las bibliotecas de diseños genéticos HTP son repositorios de diversidad genética, o colecciones de perturbaciones genéticas, que pueden aplicarse a la modificación mediante ingeniería inicial o adicional de una cepa microbiana dada. Técnicas para programar diseños genéticos para su implementación en cepas hospedantes se describen en la solicitud de patente U.S. en tramitación, con n° de serie 15/140.296, titulada “Microbial Strain Design System and Methods for Improved Large Scale Production of Engineered Nucleotide Sequences”.
Los conjuntos de herramientas moleculares HTP utilizados en esta plataforma pueden incluir, entre otros: (1) intercambios de promotor (intercambio PRO), (2) intercambios SNP, (3) intercambios de codón de iniciación/terminación, (4) intercambios STOP, y (5) optimización de secuencias. Los métodos HTP de la presente descripción también enseñan métodos para dirigir la consolidación/el uso combinatorio de conjuntos de herramientas HTP, incluyendo (6) protocolos de cartografiado epistático. Tal como se mencionó anteriormente, esta serie de herramientas moleculares, o bien de manera aislada o bien en combinación, posibilita la creación de bibliotecas de células hospedantes de diseños genéticos HTP.
Como se demostrará, la utilización de las bibliotecas de diseños genéticos HTP mencionadas anteriormente en el contexto de la plataforma ingeniería microbiana HTP enseñada posibilita la identificación y consolidación de secciones génicas o mutaciones “causantes” beneficiosas y también la identificación y eliminación de secciones génicas o mutaciones pasivas o perjudiciales. Este nuevo enfoque permite mejoras rápidas en el rendimiento de cepas que no podían conseguirse mediante la mutagénesis aleatoria o ingeniería genética dirigida tradicionales. La eliminación de la carga genética o la consolidación de cambios beneficiosos en una cepa sin carga genética también proporciona a nuevo punto de partida robusto para mutagénesis aleatoria adicional que puede posibilitar mejoras adicionales.
En algunas realizaciones, la presente descripción enseña que como se identifican cambios beneficiosos ortogonales entre diversas ramas diferenciadas de un linaje de cepa mutagénico, también pueden consolidarse rápidamente para dar cepas de mejor rendimiento. Estas mutaciones también pueden consolidarse en cepas que no forman parte de linajes mutagénicos, tales como cepas con mejoras obtenidas mediante ingeniería genética dirigida.
En algunas realizaciones, la presente descripción difiere de enfoques de mejora de cepas conocidos porque analiza el efecto combinatorio por todo el genoma de mutaciones entre múltiples regiones genómicas dispares, incluyendo elementos genéticos expresados y no expresados, y usa información recopilada (por ejemplo, resultados experimentales) para predecir combinaciones de mutaciones de las que se espera que produzcan mejoras de cepas.
En algunas realizaciones, la presente descripción enseña: i) microorganismos industriales, y otras células hospedantes susceptibles de mejora por medio de la invención descrita, ii) generar conjuntos de diversidad para su análisis más adelante, iii) métodos y hardware para el examen y la secuenciación de alto rendimiento de grandes conjuntos de variantes, iv) métodos y hardware para el análisis y la predicción computacionales de aprendizaje automático de efectos sinérgicos de mutaciones por todo el genoma, y v) métodos para la ingeniería de cepas de alto rendimiento.
Las siguientes herramientas moleculares y bibliotecas se discuten en términos de ejemplos microbianos ilustrativos. Los expertos en la técnica reconocerán que las herramientas moleculares HTP de la presente descripción son compatibles con cualquier célula hospedante, incluyen células eucariotas, y formas de vida superiores.
Ahora se discutirán cada uno de los conjuntos de herramientas moleculares HTP identificados que posibilitan la creación de las diversas bibliotecas de diseños genéticos HTP utilizadas en la plataforma de ingeniería microbiana.
1. Intercambios de promotores: Una herramienta molecular para la derivación de bibliotecas de cepas microbianas con intercambio de promotores
En algunas realizaciones, la presente descripción enseña métodos de selección de promotores con propiedades de expresión óptimas para producir efectos beneficiosos sobre el fenotipo de cepa hospedante global (por ejemplo, producción o productividad).
Por ejemplo, en algunas realizaciones, la presente descripción enseña métodos de identificación de uno o más promotores y/o de generación de variantes de uno o más promotores dentro de una célula hospedante, que presentan un intervalo de fuerzas de expresión (por ejemplo, las escaleras de promotores discutidas más adelante) o propiedades reguladoras superiores (por ejemplo, un control regulador más estrecho para genes seleccionados). Una combinación particular de estos promotores identificados y/o generados puede agruparse como una escalera de promotores, que se explica en más detalle más adelante.
La escalera de promotores en cuestión se asocia entonces con un gen de interés dado. Por tanto, si se tienen promotores P1-P8 (que representan ocho promotores que se han identificado y/o generado para presentar un intervalo de fuerzas de expresión) y se asocia la escalera de promotores con un único gen de interés en un microbio (es decir, se modifica mediante ingeniería genética un microbio con un promotor dado ligado operativamente a un gen diana dado), entonces el efecto de cada combinación de los ocho promotores puede establecerse caracterizando cada una de las cepas modificadas mediante ingeniería que resultan de cada esfuerzo combinatorio, dado que los microbios modificados mediante ingeniería tienen un fondo genético por lo demás idéntico excepto el/los promotor(es) particular(es) asociado(s) con el gen diana.
Los microbios resultantes que se modifican mediante ingeniería por medio de este proceso forman bibliotecas de diseños genéticos HTP.
La biblioteca de diseños genéticos HTP puede hacer referencia a la colección de cepas microbianas física real que se forma por medio de este proceso, siendo cada cepa miembro representativa de un promotor dado ligado operativamente a un gen diana particular, en un fondo genético por lo demás idéntico, denominándose dicha biblioteca “biblioteca de cepas microbianas con intercambio de promotores”.
Además, la biblioteca de diseños genéticos HTP puede hacer referencia a la colección de perturbaciones genéticas -en este caso un promotor dado x ligado operativamente a un gen dado y - denominándose dicha colección “biblioteca de intercambio de promotor”.
Además, puede utilizarse la misma escalera de promotores que comprende los promotores P1-P8 para modificar mediante ingeniería microbios, en la que cada uno de los 8 promotores está ligado operativamente a 10 dianas génicas diferentes. El resultado de este procedimiento serían 80 microbios que por lo demás se asume que son genéticamente idénticos, excepto por los promotores particulares ligados operativamente a un gen diana de interés. Estos 80 microbios podrían examinarse y caracterizarse de manera apropiada y dar lugar a otra biblioteca de diseños genéticos HTP. La caracterización de las cepas microbianas en la biblioteca de diseños genéticos HTP produce información y datos que pueden almacenarse en cualquier constructo de almacenamiento de datos, incluyendo una base de datos relacional, una base de datos orientada a objetos o una base de datos NoSQL altamente distribuida. Estos datos/información podrían ser, por ejemplo, el efecto de un promotor dado (por ejemplo, P1-P8) cuando está ligado operativamente a una diana génica dada. Estos datos/información también pueden ser el conjunto más amplio de efectos combinatorios que resultan de ligar operativamente dos o más de los promotores P1-P8 a una diana génica dada.
Los ejemplos mencionados anteriormente de ocho promotores y 10 genes diana son meramente ilustrativos, ya que el concepto puede aplicarse con cualquier número dado de promotores que se hayan agrupado basándose en presentar un intervalo de fuerzas de expresión y cualquier número dado de genes diana. Los expertos en la técnica también reconocerán la capacidad para ligar operativamente dos o más promotores delante de cualquier diana génica. Por tanto, en algunas realizaciones, la presente descripción enseña bibliotecas de intercambio de promotor en las que 1, 2, 3 o más promotores de una escalera de promotores están ligados operativamente a uno o más genes.
En resumen, utilizar diversos promotores para accionar la expresión de diversos genes en un organismo es una herramienta potente para optimizar un rasgo de interés. La herramienta molecular de intercambio de promotor, desarrollada por los inventores, usa una escalera de secuencias promotoras que se ha demostrado que varían la expresión de al menos un locus en al menos una condición. Esta escalera se aplica entonces sistemáticamente a un grupo de genes en el organismo usando ingeniería genómica de alto rendimiento. Se determina que este grupo de genes tiene una alta probabilidad de afectar al rasgo de interés basándose en uno cualquiera de un número de métodos. Estos podrían incluir la selección basada en una función conocida, o el impacto sobre el rasgo de interés, o la selección algorítmica basada en la diversidad genética beneficiosa determinada anteriormente. En algunas realizaciones, la selección de genes puede incluir todos los genes en un hospedante dado. En otras realizaciones, la selección de genes puede ser un subconjunto de todos los genes en un hospedante dado, elegido aleatoriamente.
La biblioteca de cepas microbianas de diseños genéticos HTP resultante de organismos que contienen una secuencia promotora ligada a un gen se evalúa entonces para el rendimiento en un modelo de examen de alto rendimiento, y se determinan ligamientos promotor-gen que conducen a un rendimiento aumentado y se almacena la información en una base de datos. La colección de perturbaciones genéticas (es decir, promotor dado x ligado operativamente a un gen dado y) forma una “biblioteca de intercambio de promotores”, que puede utilizarse como fuente de alteraciones genéticas potenciales para su utilización en un procesamiento de ingeniería microbiana. A lo largo del tiempo, como se implementa un conjunto mayor de perturbaciones genéticas frente a una mayor diversidad de fondos de células hospedantes, cada biblioteca se vuelve más potente como cuerpo de datos confirmados experimentalmente que puede usarse para diseñar de manera más precisa y predecible cambios seleccionados como diana frente a cualquier fondo de interés.
Los niveles de transcripción de genes en un organismo son un punto clave de control para afectar al comportamiento del organismo. La transcripción está acoplada estrechamiento a la traducción (expresión de proteínas), y qué proteínas se expresan en qué cantidades determina el comportamiento del organismo. Las células expresan miles de tipos diferentes de proteínas, y estas proteínas interaccionan en numerosos modos complejos para crear una función. Variando los niveles de expresión de un conjunto de proteínas sistemáticamente puede alterarse la función de modos que, debido a la complejidad, son difíciles de predecir. Algunas alteraciones pueden aumentar el rendimiento y, así, acopladas a un mecanismo para evaluar el rendimiento, esta técnica permite la generación de organismos con función mejorada.
En el contexto de una ruta de síntesis de moléculas pequeñas, las enzimas interaccionan a través de sus productos y sustratos de moléculas pequeñas en una cadena lineal o ramificada, empezando con un sustrato y terminando con una molécula pequeña de interés. Dado que estas interacciones están ligadas secuencialmente, este sistema presenta un control distribuido, y el aumento de la expresión de una enzima solo puede aumentar el flujo de ruta hasta que otra enzima pasa a ser limitante de la tasa.
El análisis de control metabólico (MCA) es un método para determinar, a partir de datos experimentales y primeros principios, qué enzima o enzimas son limitantes de la tasa. Sin embargo, el MCA está limitado porque requiere experimentación extensiva después de cada cambio de nivel de expresión para determinar la nueva enzima limitante de la tasa. El intercambio de promotor es ventajoso en este contexto, porque a través de la aplicación de una escalera de promotores a cada enzima en una ruta, se encuentra la enzima limitante, y lo mismo puede hacerse en rondas posteriores para encontrar nuevas enzimas que pasan a ser limitantes de la tasa. Además, dado que la función que debe leerse es una mejor producción de la molécula pequeña de interés, el experimento para determinar qué enzima es limitante es el mismo que la modificación mediante ingeniería para aumentar la producción, acortando así el tiempo de desarrollo. En algunas realizaciones, la presente descripción enseña la aplicación de intercambio PRO a genes que codifican para subunidades individuales de enzimas de múltiples unidades. En aún otras realizaciones, la presente descripción enseña métodos de aplicación de técnicas de intercambio PRO a genes responsables de regular enzimas individuales, o rutas de biosíntesis completas.
En algunas realizaciones, la herramienta de intercambio de promotores de la presente descripción puede usarse para identificar la expresión óptima de una diana génica seleccionada. En algunas realizaciones, el objetivo del intercambio de promotor puede ser aumentar la expresión de un gen diana para reducir cuellos de botella en una ruta metabólica o genética. En otras realizaciones, el objetivo del intercambio de promotor puede ser reducir la expresión del gen diana para evitar gastos de energía innecesarios en la célula hospedante, cuando no se requiere la expresión de dicho gen diana.
En el contexto de otros sistemas celulares como transcripción, transporte o señalización, pueden usarse diversos métodos racionales para intentar y encontrar, a priori, qué proteínas son dianas para el cambio de expresión y cuál debería ser ese cambio. Estos métodos racionales reducen el número de perturbaciones que tienen que someterse a prueba para encontrar una que mejora el rendimiento, pero lo hacen a un coste significativo. Estudios de deleción de genes identifican proteínas cuya presencia es crítica para una función particular, y entonces pueden sobreexpresarse genes importantes. Debido a la complejidad de las interacciones de proteínas, este es a menudo ineficaz a la hora de aumentar el rendimiento. Se han desarrollado diferentes tipos de modelos que intentan describir, desde los primeros principios, el comportamiento de transcripción o señalización en función de los niveles de proteínas en la célula. Estos modelos sugieren a menudo dianas en las que cambios de expresión pueden conducir a una función diferente o mejorada. Las suposiciones en las que se basan estos modelos son simplistas y los parámetros difíciles de medir, así que las predicciones que hacen son a menudo incorrectas, especialmente para organismos no de modelo. Tanto con la deleción como con el modelado de genes, los experimentos requeridos para determinar cómo afectar a un cierto gen son diferentes del trabajo posterior para hacer el cambio que mejora el rendimiento. El intercambio de promotor evita estos retos, porque la cepa construida que destaca la importancia de una perturbación particular es también, ya, la cepa mejorada.
Por tanto, en realizaciones particulares, el intercambio de promotores es un proceso de múltiples etapas que comprende:
1. Seleccionar un conjunto de “x” promotores para que actúen como “escalera”. De manera ideal se ha mostrado que estos promotores conducen a una expresión altamente variable entre múltiples loci genómicos, pero el único requisito es que perturben la expresión génica de algún modo.
2. Seleccionar un conjunto de “n” genes a seleccionar como diana. Este conjunto puede ser cada marco de lectura abierto (ORF) en un genoma, o un subconjunto de ORF. El subconjunto puede elegirse usando anotaciones sobre ORF relacionados con la función, mediante la relación con perturbaciones beneficiosas demostradas anteriormente (intercambios de promotor anteriores o intercambios SNP anteriores), mediante selección algorítmica basada en interacciones epistáticas entre perturbaciones generadas anteriormente, otros criterios de selección basados en hipótesis relativas a ORF beneficiosos para seleccionar como diana, o a través de selección aleatoria. En otras realizaciones, los “n” genes seleccionados como diana pueden comprender genes que no codifican para proteínas, incluyendo ARN no codificantes.
3. Modificar mediante ingeniería de cepas de alto rendimiento para rápidamente - y en algunas realizaciones, en paralelo - llevar a cabo las siguientes modificaciones genéticas: Cuando un promotor nativo existe delante del gen diana n y se conoce su secuencia, sustituir el promotor nativo por cada uno de los x promotores en la escalera. Cuando no existe el promotor nativo, o su secuencia es desconocida, insertar cada uno de los x promotores en la escalera delante del gen n (véase, por ejemplo, la Figura 21). De este modo se construye una “biblioteca” (también denominada biblioteca de diseños genéticos HTP) de cepas, en la que cada miembro de la biblioteca es un caso de x promotor ligado operativamente a n diana, en un contexto genético por lo demás idéntico. Tal como se describió anteriormente pueden insertarse combinaciones de promotores, extendiendo el intervalo de posibilidades combinatorias sobre las que se construye la biblioteca.
4. Examinar con alto rendimiento la biblioteca de cepas en un contexto en el que su rendimiento frente a una o más métricas es indicativo del rendimiento que está optimizándose.
Este proceso fundacional puede extenderse para proporcionar mejoras adicionales en el rendimiento de cepas, entre otros; (1) consolidando múltiples perturbaciones beneficiosas en un único fondo de cepa, ya sea una cada vez en un proceso interactivo, o como múltiples cambios en una única etapa. Múltiples perturbaciones pueden ser o bien un conjunto específico de cambios definidos o bien una biblioteca combinatoria, parcialmente aleatorizada, de cambios. Por ejemplo, si el conjunto de dianas es cada gen en una ruta, entonces la regeneración secuencial de la biblioteca de perturbaciones en un miembro o miembros mejorados de la biblioteca de cepas anterior puede optimizar el nivel de expresión de cada gen en una ruta independientemente de qué genes sean limitativos de la tasa en cualquier iteración dada; (2) alimentando los datos de rendimiento que resultan de la generación individual y combinatoria de la biblioteca a un algoritmo que usa esos datos para predecir un conjunto óptimo de perturbaciones basándose en la interacción de cada perturbación; y (3) implementando una combinación de los dos enfoques anteriores (véase la Figura 20).
La herramienta molecular, o técnica, discutida anteriormente se caracteriza como intercambio de promotor, pero no está limitada a promotores y puede incluir otros cambios de secuencia que varíen sistemáticamente el nivel de expresión de un conjunto de dianas. Otros métodos para variar el nivel de expresión de un conjunto de genes podrían incluir: a) una escalera de sitios de unión a ribosoma (o secuencias Kozak en eucariotas); b) sustituir el codón de iniciación de cada diana por cada uno de los otros codones de iniciación (es decir, los intercambios de codón de iniciación/terminación discutidos anteriormente); c) la unión de diversas secuencias que estabilizan o desestabilizan el ARNm al extremo 5' o 3', o en cualquier otra ubicación, de un transcrito, d) la unión de diversas secuencias que estabilizan o desestabilizan proteínas en cualquier ubicación en la proteína.
El enfoque se ejemplifica en la presente descripción con microorganismos industriales, pero es aplicable a cualquier organismo en el que pueden identificarse rasgos deseados en una población de mutantes genéticos. Por ejemplo, esto podría usarse para mejorar el rendimiento de células CHO, levadura, células de insecto, algas, así como organismos multicelulares, tales como plantas.
2. Intercambios SNP: Una herramienta molecular para la derivación de bibliotecas de cepas microbianas con intercambio SNP
En ciertas realizaciones no cubiertas por la invención reivindicada, el intercambio SNP no es un enfoque mutagénico aleatorio para mejorar una cepa microbiana, sino que implica más bien la introducción o eliminación sistemática de individual mutaciones de nucleótidos de polimorfismo nuclear pequeño (es decir, SNP) (de ahí el nombre “intercambio SNP”) entre cepas.
Los microbios resultantes que se han modificado mediante ingeniería por medio de este proceso forman bibliotecas de diseños genéticos HTP.
La biblioteca de diseños genéticos HTP pueden hacer referencia a la colección de cepas microbianas física real que se forma por medio de este proceso, siendo cada cepa miembro representativa de la presencia o ausencia de un SNP dado, en un fondo genético por lo demás idéntico, denominándose dicha biblioteca “biblioteca de cepas microbianas con intercambio SNP.”
Además, la biblioteca de diseños genéticos HTP puede hacer referencia a la colección de perturbaciones genéticas -en este caso un SNP dado que está presente o un SNP dado que está ausente - denominándose dicha colección “biblioteca de intercambio SNP.”
En algunas realizaciones, el intercambio SNP implica la reconstrucción de organismos hospedantes con combinaciones óptimas de “bloques constructivos” de SNP diana con efectos de rendimiento beneficiosos identificados. Por tanto, en algunas realizaciones, el intercambio SNP implica consolidar múltiples mutaciones beneficiosas en un único fondo de cepa, ya se una cada vez en un proceso iterativo, o como múltiples cambios en una única etapa. Múltiples cambios pueden ser o bien un conjunto específico de cambios definidos o bien una biblioteca combinatoria, parcialmente aleatorizada, de mutaciones.
En otras realizaciones, el intercambio SNP también implica eliminar múltiples mutaciones identificadas como perjudiciales de una cepa, ya sea una cada vez en un proceso iterativo, o como múltiples cambios en una única etapa. Múltiples cambios pueden ser o bien un conjunto específico de cambios definidos o bien una biblioteca combinatoria, parcialmente aleatorizada, de mutaciones. En algunas realizaciones, los métodos de intercambio SNP de la presente descripción incluyen tanto la adición de SNP beneficiosos como la eliminación de mutaciones perjudiciales y/o neutras.
El intercambio SNP es una herramienta potente para identificar y aprovechar mutaciones tanto beneficiosas como perjudiciales en un linaje de cepas sujetas a mutagénesis y selección para un rasgo de interés mejorado. El intercambio SNP utiliza técnicas de ingeniería genómica de alto rendimiento para determinar sistemáticamente la influencia de mutaciones individuales en un linaje mutagénico. Se determinan secuencias genómicas para cepas entre una o más generaciones de un linaje mutagénico con mejoras del rendimiento conocidas. La ingeniería genómica de alto rendimiento se usa entonces sistemáticamente para recapitular las mutaciones de cepas mejoradas en cepas de linaje anteriores, y/o revertir mutaciones en cepas posteriores para dar secuencias de cepas anteriores. Entonces se evalúa el rendimiento de estas cepas y puede determinarse la contribución de cada mutación individual sobre el fenotipo de interés mejorado. Tal como se mencionó anteriormente, las cepas microbianas que resultan de este proceso se analizan/caracterizan y forman la base para las bibliotecas de diseños genéticos con intercambio SNP que pueden informar de una mejora de cepas microbianas entre cepas hospedante. La eliminación de mutaciones perjudiciales puede proporcionar mejoras del rendimiento inmediatas, y la consolidación de mutaciones beneficiosas en un fondo de cepa no sujeto a carga mutagénica puede mejorar rápida y enormemente el rendimiento de la cepa. Las diversas cepas microbianas producidas por medio del proceso de intercambio SNP forman las bibliotecas de intercambio SNP de diseños genéticos HTP, que son cepas microbianas que comprenden los diversos SNP añadidos/delecionados/o consolidados, pero con fondos genéticos por lo demás idénticos.
Como se ha discutido anteriormente, la mutagénesis aleatoria y el examen posterior para mejoras del rendimiento es una técnica usada comúnmente para la mejora de cepas industriales, y muchas cepas usadas actualmente para la fabricación a gran escala se han desarrollado usando este proceso de manera iterativa a lo largo de un periodo de muchos años, en algunos casos décadas. Los enfoques aleatorios para generar mutaciones genómicas tales como exposición a radiación UV o mutágenos químicos tales como metanosulfonato de etilo eran un método preferido para mejoras de cepas industriales porque: 1) los organismos industriales pueden caracterizarse escasamente de manera genética o metabólica, convirtiendo la selección de dianas para enfoques de mejora dirigida en difícil o imposible; 2) incluso en sistemas relativamente bien caracterizados, los cambios que dan como resultado mejoras del rendimiento industriales son difíciles de predecir y pueden requerir la perturbación de genes que no tienen una función conocida, y 3) las herramientas genéticas para hacer mutaciones genómicas dirigidas en un organismo industrial dado pueden no estar disponibles o ser muy lentas y/o difíciles de usar.
Sin embargo, a pesar de los beneficios mencionados anteriormente de este proceso, también hay un número de desventajas conocidas. Las mutaciones beneficiosas son eventos relativamente raros y, con el fin de encontrar estas mutaciones con una capacidad de examen fijada, las tasas de mutaciones tienen que ser suficientemente altas. Esto a menudo da como resultado que se incorporen mutaciones neutras y parcialmente perjudiciales no deseadas en cepas junto con cambios beneficiosos. A lo largo del tiempo esta “carga mutagénica” se acumula, dando como resultado cepas con deficiencias en la robustez global y rasgos clave tales como las tasas de crecimiento. Eventualmente, la “carga mutagénica” hace que mejoras adicionales en rendimiento a través de mutagénesis aleatoria sean cada vez más difíciles o imposibles de obtener. Sin herramientas adecuadas, es imposible consolidar mutaciones beneficiosas encontradas en ramas diferenciadas y paralelas de linajes de cepa.
El intercambio SNP es un enfoque para superar estas limitaciones recapitulando o revirtiendo sistemáticamente algunas de o todas las mutaciones observadas cuando se comparan cepas dentro de un linaje mutagénico. De este modo, tanto pueden identificarse y consolidarse mutaciones beneficiosas (“causantes”) como identificarse y eliminarse mutaciones perjudiciales. Esto permite mejoras rápidas en el rendimiento de cepas que no podrían conseguirse mediante mutagénesis aleatoria o ingeniería genética dirigida adicional.
La eliminación de carga genética o la consolidación de cambios beneficiosos en una cepa sin carga genética proporciona también un nuevo punto de partida robusto para mutagénesis aleatoria adicional que puede posibilitar mejoras adicionales.
Además, como se identifican cambios beneficiosos ortogonales entre diversas ramas diferenciadas de un linaje de cepa mutagénico, pueden consolidarse rápidamente para dar cepas de mejor rendimiento. Estas mutaciones también pueden consolidarse en cepas que no forman parte de linajes mutagénicos, tales como cepas con mejoras obtenidas mediante ingeniería genética dirigida.
Existen otros enfoques y tecnologías para recombinar aleatoriamente mutaciones entre cepas dentro de un linaje mutagénico. Estos incluyen técnicas tales como fusión de protoplastos y transposición de genoma completo que facilitan la recombinación genómica entre cepas mutadas. Para algunos microorganismos industriales tales como levadura y hongos filamentosos, también pueden aprovecharse ciclos de apareamiento naturales para recombinación genómica por pares. De este modo pueden eliminarse mutaciones perjudiciales mediante mutantes “de retrocruce” con cepas parentales y mutaciones beneficiosas consolidadas. Sin embargo, estos enfoques están sujetos a muchas limitaciones que se evitan usando los métodos de intercambio SNP de la presente descripción. Por ejemplo, como estos enfoques se basan en un número relativamente pequeño de eventos de entrecruzamiento de recombinación aleatoria para intercambiar mutaciones, puede tardarse muchos ciclos de recombinación y examen en optimizar el rendimiento de la cepa. Además, aunque los eventos de recombinación naturales son esencialmente aleatorios, también están sujetos a sesgo posicional del genoma y algunas mutaciones pueden ser difíciles de abordar. Estos enfoques también proporcionan poca información sobre la influencia de mutaciones individuales sin secuenciación y análisis de genoma adicionales. El intercambio SNP supera estas limitaciones fundamentales ya que no es un enfoque aleatorio, sino más bien la introducción o eliminación sistemática de individual mutaciones entre cepas.
En algunas realizaciones, la presente descripción enseña métodos para identificar la diversidad de secuencias SNP presente entre los organismos de un conjunto de diversidad. Un conjunto de diversidad puede ser un número dado n de microbios utilizados para el análisis, representando dichos genomas de los microbios el “conjunto de diversidad”. En aspectos particulares, un conjunto de diversidad puede ser una cepa parental original (Si) con una secuencia genética “inicial” o “de referencia” en un punto de tiempo particular (SiGeni) y entonces cualquier número de cepas de descendencia posteriores (S2-n) que se derivaron/desarrollaron a partir de dicha cepa Si y que tienen un genoma diferente (S2-nGen2-n), en relación con el genoma inicial de Si.
Por ejemplo, en algunas realizaciones, la presente descripción enseña secuenciar los genomas microbianos en un conjunto de diversidad para identificar los SNP presentes en cada cepa. En una realización, las cepas del conjunto de diversidad son cepas de producción microbianas históricas. Por tanto, un conjunto de diversidad de la presente descripción puede incluir, por ejemplo, una cepa de referencia industrial, y una o más cepas mutadas industriales producidas por medio de programas de mejora de cepas tradicionales.
En algunas realizaciones, los SNP dentro de un conjunto de diversidad se determinan con referencia a una “cepa de referencia”. En algunas realizaciones, la cepa de referencia es una cepa de tipo silvestre. En otras realizaciones, la cepa de referencia es una cepa industrial original antes de someterse a cualquier mutagénesis. La cepa de referencia puede definirse por el profesional y no tiene que ser una cepa de tipo silvestre original o cepa industrial original. La cepa de base es meramente representativa de lo que se considerará el fondo genético “de base”, “de referencia” u original, con el que deben compararse cepas posteriores que se derivaron, o se desarrollaron a partir de dicha cepa de referencia.
Una vez que se han identificado todos los SNP en el conjunto de diversidad, la presente descripción enseña métodos de intercambio SNP y métodos de examen para definir (es decir, cuantificar y caracterizar) los efectos (por ejemplo, la creación de un fenotipo de interés) de SNP individualmente y/o en grupos.
En algunas realizaciones, los métodos de intercambio SNP de la presente descripción comprenden la etapa de introducir uno o más SNP identificados en una cepa mutada (por ejemplo, una cepa de entre S2-nGen2-n) en una cepa de referencia (SiGeni) o cepa de tipo silvestre (“elevación”).
En otras realizaciones, los métodos de intercambio SNP de la presente descripción comprenden la etapa de eliminar uno o más SNP identificados en una cepa mutada (por ejemplo, una cepa de entre S2-nGen2-n) (“disminución”).
En algunas realizaciones, cada cepa generada que comprende uno o más cambios de SNP (o bien introducción o bien eliminación) se cultiva y analiza bajo uno o más criterios de la presente descripción (por ejemplo, la producción de un producto químico o producto de interés). Los datos de cada una de las cepas hospedantes analizadas se asocian, o se correlacionan, con el SNP particular, o grupo de SNP presentes en la cepa hospedante, y se registra para su uso futuro. Por tanto, la presente descripción posibilita la creación de bibliotecas de cepas microbianas de diseños genéticos HTP grandes y altamente anotadas que son capaces de identificar el efecto de un SNP dado sobre cualquier número de rasgos genéticos o fenotípicos microbianos de interés. La información almacenada en estas bibliotecas de diseños genéticos HTP informa a los algoritmos de aprendizaje automático de la plataforma de ingeniería genómica HTP y dirige futuras iteraciones del proceso, lo que en última instancia conduce a organismos microbianos desarrollados que presentan propiedades/rasgos altamente deseables.
3. Intercambios de codones de iniciación/terminación: Una herramienta molecular para la derivación de bibliotecas de cepas microbianas con codones de iniciación/terminación
En algunas realizaciones no cubiertas por la invención reivindicada, la presente descripción enseña métodos de intercambio de variantes de codones de iniciación y de terminación. Por ejemplo, codones de terminación típicos para S. cerevisiae y mamíferos son TAA (UAA) y TGA (UGA), respectivamente. El codón de terminación típico para plantas monocotiledóneas es TGA (UGA), mientras que los insectos y E. coli usan comúnmente TAA (UAA) como codón de terminación (Dalphin et al. (1996) Nucl. Acids Res. 24: 216-218). En otras realizaciones, la presente descripción enseña el uso de los codones de terminación TAG (UAG).
La presente descripción enseña de manera similar el intercambio de codones de iniciación. En algunas realizaciones, la presente descripción enseña el uso del codón de iniciación ATG (AUG) utilizado por la mayoría de los organismos (especialmente eucariotas). En algunas realizaciones, la presente descripción enseña que los procariotas usan ATG (AUG) lo más, seguido de GTG (GUG) y TTG (UUG).
En otras realizaciones, la presente descripción enseña la sustitución de codones de iniciación ATG por TTG. En algunas realizaciones, la presente descripción enseña la sustitución de codones de iniciación ATG por GTG. En algunas realizaciones, la presente
Figure imgf000021_0002
descripción enseña
Figure imgf000021_0001
la sustitución de codones de iniciación GTG por ATG. En algunas realizaciones, la presente descripción enseña
Figure imgf000021_0003
la sustitución de codones de iniciación GTG por TTG. En algunas realizaciones, la presente descripción enseña la sustitución de codones de iniciación TTG por ATG. En algunas realizaciones, la presente descripción enseña la sustitución de codones de iniciación TTG por GTG.
En otras realizaciones, la presente descripción enseña la sustitución de codones de terminación TAA por TAG. En algunas realizaciones, la presente descripción enseña la sustitución de codones de terminación TAA por TGA. En algunas realizaciones, la presente descripción enseña la sustitución de codones de terminación TGA por TAA. En algunas realizaciones, la presente descripción enseña la sustitución de codones de terminación TGA por TAG. En algunas realizaciones, la presente descripción enseña la sustitución de codones de terminación TAG por TAA. En algunas realizaciones, la presente descripción enseña la sustitución de codones de terminación TAG por TGA.
4. Intercambio Stop: Una herramienta molecular para la derivación de bibliotecas de cepas microbianas de secuencias optimizadas
En algunas realizaciones no cubiertas por la invención reivindicada, la presente descripción enseña métodos de mejora de la productividad de células hospedantes a través de la optimización de la transcripción génica celular. La transcripción génica es el resultado de varios fenómenos biológicos distintos, incluyendo la iniciación transcripcional (reclutamiento de ARNp y formación de complejos transcripcionales), elongación (síntesis/extensión de cadena) y terminación transcripcional (desprendimiento de ARNp y terminación). Aunque se ha prestado mucha atención al control de la expresión génica a través de la modulación transcripcional de genes (por ejemplo, cambiando promotores, o induciendo factores de transcripción reguladores), se han hecho comparativamente pocos esfuerzos hacia la modulación de transcripción por medio de la modulación de secuencias terminadoras génicas.
El modo más obvio en el que la transcripción afecta a los niveles de expresión génica es a través de la tasa de iniciación de Pol II, que puede modularse mediante combinaciones de fuerza de promotor o potenciador y factores transactivadores (Kadonaga, JT. 2004 “Regulation of RNA polymerase II transcription by sequence-specific DNA binding factors” Cell. 23 de enero de 2004; 116(2):247-57). En eucariotas, la tasa de elongación también puede determinar patrones de expresión génica influyendo en corte y empalme alternativo (Cramer P. et al., 1997 “Functional association between promoter structure and transcript alternative splicing.” Proc Natl Acad Sci USA. 14 de octubre de 1997; 94(21 ):11456-60). La terminación fallida en un gen puede alterar la expresión de genes secuencia abajo reduciendo la accesibilidad del promotor a Pol II (Greger IH. et al., 2000 “Balancing transcriptional interference and initiation on the GAL7 promoter of Saccharomyces cerevisiae." Proc Natl Acad Sci U S A. 18 de julio de 2000; 97(15):8415-20). Este proceso, conocido como interferencia transcripcional, es particularmente relevante en eucariotas inferiores, ya que a menudo tienen genes poco separados.
Las secuencias de terminación también pueden afectar a la expresión de los genes a los que pertenecen las secuencias. Por ejemplo, estudios muestran que una terminación transcripcional ineficiente en eucariotas da como resultado una acumulación de pre-ARNm no cortado ni empalmado (véase West, S., y Proudfoot, N.J., 2009 “Transcriptional Termination Enhances Protein Expression in Human Cells” Mol Cell. 13 de febrero de 2009; 33(3-9); 354-364). Otros estudios han mostrado también que el procesamiento de extremo 3' puede verse retardado por una terminación ineficiente (West, S et al., 2008 “Molecular dissection of mammalian RNA polymerase II transcriptional termination.” Mol Cell. 14 de marzo de 2008; 29(5):600-10.). La terminación transcripcional también puede afectar a la estabilidad del ARNm liberando transcritos de sitios de síntesis.
Terminación de mecanismo de transcripción en eucariotas
La terminación transcripcional en eucariotas funciona a través de señales terminadoras que se reconocen por factores proteicos asociados con la ARN polimerasa II. En algunas realizaciones no cubiertas por la invención reivindicada, el factor de especificidad de escisión y poliadenilación (CPSF) y el factor de estimulación por escisión (CstF) transfieren del dominio de carboxilo terminal de la ARN polimerasa II a la señal de poli-A. En algunas realizaciones, los factores CPSF y CstF también reclutan otras proteínas para el sitio de terminación, que entonces escinde el transcrito y libera el ARNm del complejo de transcripción. La terminación también desencadena la poliadenilación de transcritos de ARNm. Ejemplos ilustrativos de factores de terminación eucariotas validados, y sus estructuras conservadas, se discuten en partes posteriores de este documento.
Terminación de transcripción en procariotas
En procariotas, dos mecanismos principales, denominados terminación independiente de Rho y dependiente de Rho, median en la terminación transcripcional. Las señales de terminación independientes de Rho requieren un factor de terminación de transcripción extrínseco, ya que la formación de una estructura de tallo-bucle en el ARN transcrito a partir de estas secuencias junto con una serie de residuos uridina (U) promueve la liberación de la cadena de ARN del complejo de transcripción. La terminación dependiente de Rho, por otro lado, requiere un factor de terminación de transcripción denominado Rho y elementos de acción cis en el ARNm. El sitio de unión inicial para Rho, el sitio de utilización de Rho (rut), es una región monocatenaria extendida (~70 nucleótidos, en algunos casos 80-100 nucleótidos) caracterizada por un contenido en citidina alto/en guanosina bajo y por sintetizarse una estructura secundaria relativamente pequeña en el ARN, secuencia arriba de la secuencia terminadora real. Cuando se encuentra un sitio de pausa de polimerasa, se produce la terminación y se libera el transcrito mediante la actividad helicasa de Rho. Realización no cubierta por la invención reivindicada.
Intercambio de terminador (intercambio STOP)
En algunas realizaciones no cubiertas por la invención reivindicada, la presente descripción enseña métodos de selección de terminación secuencias (“terminadores”) con propiedades de expresión óptimas para producir efectos beneficiosos sobre la productividad de la cepa hospedante global.
Por ejemplo, en algunas realizaciones, la presente descripción enseña métodos de identificación de uno o más terminadores y/o de generación de variantes de uno o más terminadores dentro de una célula hospedante, que presentan un intervalo de fuerzas de expresión (por ejemplo, las escaleras de terminadores discutidas más adelante). Una combinación particular de estos terminadores identificados y/o generados pueden agruparse como una escalera de terminadores, que se explica en más detalle más adelante.
La escalera de terminadores en cuestión se asocia entonces con un gen de interés dado. Por tanto, si se tienen los terminadores T1-T8 (que representan ocho terminadores que se han identificado y/o generado para presentar un intervalo de fuerzas de expresión cuando se combinen con uno o más promotores) y se asocia la escalera de terminadores con un único gene de interés en una célula hospedante (es decir, modificar mediante ingeniería genética una célula hospedante con un terminador dado ligado operativamente al extremo 3' de un gen diana dado), entonces el efecto de cada combinación de los terminadores puede establecerse caracterizando cada una de las cepas modificadas mediante ingeniería que resultan de cada esfuerzo combinatorio, dado que las células hospedantes modificadas mediante ingeniería tienen un fondo genético por lo demás idéntico excepto por el/los promotor(es) particular(es) asociado(s) con el gen diana. Las células hospedantes resultantes que se modifican mediante ingeniería por medio de este proceso forman bibliotecas de diseños genéticos HTP.
La biblioteca de diseños genéticos HTP puede hacer referencia a la colección de cepas microbianas física real que se forma por medio de este proceso, siendo cada cepa miembro representativa de un terminador dado ligado operativamente a un gen diana particular, en un fondo genético por lo demás idéntico, denominándose dicha biblioteca “biblioteca de cepas microbianas con intercambio de terminador” o “biblioteca de cepas microbianas con intercambio STOP”.
Además, la biblioteca de diseños genéticos HTP puede hacer referencia a la colección de perturbaciones genéticas -en este caso un terminador dado x ligado operativamente a un gen dado y - denominándose dicha colección “biblioteca de intercambio de terminador” o “biblioteca de intercambio STOP”.
Además, puede utilizarse la misma escalera de terminadores que comprende los promotores Ti-Ts para modificar mediante ingeniería microbios, estando cada uno de los ocho terminadores ligado operativamente a 10 dianas génicas diferentes. El resultado de este procedimiento serían 80 cepas de células hospedantes de las que se asume que por lo demás son genéticamente idénticas, excepto por los terminadores particulares ligados operativamente a un gen diana de interés. Estas 80 cepas de células hospedantes podrían examinarse y caracterizarse de manera apropiada y dar lugar a otra biblioteca de diseños genéticos HTP. La caracterización de las cepas microbianas en la biblioteca de diseños genéticos HTP produce información y datos que pueden almacenarse en cualquier base de datos, incluyendo sin limitación, una base de datos relacional, una base de datos orientada a objetos o una base de datos NoSQL altamente distribuida. Estos datos/información podrían incluir, por ejemplo, un efecto de terminadores dados (por ejemplo, Ti-Ts) cuando se ligan operativamente a una diana génica dada. Estos datos/información también pueden ser el conjunto más amplio de efectos combinatorios que resultan de ligar operativamente dos o más de los promotores Ti-Ts a una diana génica dada.
Los ejemplos mencionados anteriormente de ocho terminadores y 10 genes diana son meramente ilustrativos, ya que el concepto puede aplicarse con cualquier número dado de promotores que se hayan agrupado basándose en presentar un intervalo de fuerzas de expresión y cualquier número dado de genes diana.
En resumen, utilizar diversos terminadores para modular la expresión de diversos genes en un organismo es una herramienta potente para optimizar un rasgo de interés. La herramienta molecular de intercambio de terminador, desarrollada por los inventores, usa una escalera de secuencias terminadoras que se ha demostrado que varían la expresión de al menos un locus en al menos una condición. Esta escalera se aplica entonces sistemáticamente a un grupo de genes en el organismo usando ingeniería genómica de alto rendimiento. Se determina que este grupo de genes tiene una alta probabilidad de afectar al rasgo de interés basándose en uno cualquiera de un número de métodos. Estos podrían incluir la selección basada en una función conocida, o el impacto sobre el rasgo de interés, o la selección algorítmica basada en diversidad genética beneficiosa determinada anteriormente.
La biblioteca microbiana de diseños genéticos HTP resultante de organismos que contienen una secuencia terminadora ligada a un gen se evalúa entonces para el rendimiento en un modelo de examen de alto rendimiento, y se determinan ligamientos promotor-gen que conducen a un rendimiento aumentado y se almacena la información en una base de datos. La colección de perturbaciones genéticas (es decir, terminador dado x ligado a un gen dado y) forma una “biblioteca de intercambio de terminador”, que puede utilizarse como fuente de alteraciones genéticas potenciales para su utilización en un procesamiento de ingeniería microbiana. A lo largo del tiempo, como se implementa un conjunto mayor de perturbaciones genéticas frente a una mayor diversidad de fondos microbianos, cada biblioteca se vuelve más potente como cuerpo de datos confirmados experimentalmente que puede usarse para diseñar de manera más precisa y predecible cambios seleccionados como diana frente a cualquier fondo de interés. Es decir, en algunas realizaciones, la presente descripción enseña la introducción de uno o más cambios genéticos en una célula hospedante basándose en resultados experimentales previos incrustados dentro de los metadatos asociados con cualquiera de las bibliotecas de diseños genéticos de la invención.
Por tanto, en realizaciones particulares, el intercambio de terminador es un proceso de múltiples etapas que comprende:
1. Seleccionar un conjunto de “x” terminadores para que actúen como “escalera”. De manera ideal se ha demostrado que estos terminadores conducen a una expresión altamente variable entre múltiples loci genómicos, pero el único requisito es que perturben la expresión génica de algún modo.
2. Seleccionar un conjunto de “n” genes a seleccionar como diana. Este conjunto puede ser cada ORF en un genoma, o un subconjunto de ORF. El subconjunto puede elegirse usando anotaciones sobre ORF relacionados con la función, mediante la relación con perturbaciones beneficiosas demostradas anteriormente (intercambios de promotor anteriores, intercambios STOP o intercambios SNP), mediante selección algorítmica basada en interacciones epistáticas entre perturbaciones generadas anteriormente, otros criterios de selección basados en hipótesis relativas a ORF beneficiosos para seleccionar como diana, o a través de selección aleatoria. En otras realizaciones, los “n” genes seleccionados como diana pueden comprender genes que no codifican para proteínas, incluyendo ARN no codificantes.
3. Modificar mediante ingeniería cepas de alto rendimiento para llevar a cabo rápidamente y en paralelo las siguientes modificaciones genéticas: Cuando existe un terminador nativo en el extremo 3' del gen diana n y se conoce su secuencia, sustituir el terminador nativo por cada uno de los x terminadores en la escalera. Cuando no existe el terminador nativo, o su secuencia es desconocida, insertar cada uno de los x terminadores en la escalera después del codón de terminación génico.
De este modo se construye una “biblioteca” (denominada también biblioteca de diseños genéticos HTP) de cepas, en la que cada miembro de la biblioteca es un caso de x terminador ligado a n diana, en un contexto genético por lo demás idéntico. Tal como se describió anteriormente, pueden insertarse combinaciones de terminadores, extendiendo el intervalo de posibilidades combinatorias con las que se construye la biblioteca.
4. Examinar con alto rendimiento la biblioteca de cepas en un contexto en el que su rendimiento frente a una o más métricas es indicativo del rendimiento que está optimizándose.
Este proceso fundacional puede extenderse para proporcionar mejoras adicionales en el rendimiento de cepas, entre otros; (1) consolidando múltiples perturbaciones beneficiosas en un único fondo de cepa, ya sea una cada vez en un proceso interactivo, o como múltiples cambios en una única etapa. Múltiples perturbaciones pueden ser o bien un conjunto específico de cambios definidos o bien una biblioteca combinatoria, parcialmente aleatorizada, de cambios. Por ejemplo, si el conjunto de dianas es cada gen en una ruta, entonces la regeneración secuencial de la biblioteca de perturbaciones en un miembro o miembros mejorados de la biblioteca de cepas anterior puede optimizar el nivel de expresión de cada gen en una ruta independientemente de qué genes sean limitantes de la tasa en cualquier iteración dada; (2) alimentando los datos de rendimiento que resultan de la generación individual y combinatoria de la biblioteca a un algoritmo que usa esos datos para predecir un conjunto óptimo de perturbaciones basándose en la interacción de cada perturbación; y (3) implementando una combinación de los dos enfoques anteriores.
El enfoque se ejemplifica en la presente descripción con microorganismos industriales, pero es aplicable a cualquier organismo en el que puedan identificarse rasgos deseados en una población de mutantes genéticos. Por ejemplo, esto podría usarse para mejorar el rendimiento de células CHO, levadura, células de insecto, algas, así como organismos multicelulares, tales como plantas.
5. Optimización de secuencias: Una herramienta molecular para la derivación de bibliotecas de cepas microbianas de secuencias optimizadas
En una realización no cubierta por la invención reivindicada, los métodos de la descripción proporcionada comprenden la optimización de codones de uno o más genes expresados por el organismo hospedante. Métodos para optimizar codones para mejorar la expresión en diversos hospedantes se conocen en la técnica y se describen en la bibliografía (véase la publicación de solicitud de patente U.S. n° 2007/0292918). Pueden prepararse secuencias codificantes optimizadas que contienen codones preferidos por un hospedante procariota o eucariota particular (véase también, Murray et al. (1989) Nucl. Acids Res. 17:477-508), por ejemplo, para aumentar la tasa de traducción o para producir transcritos de ARN recombinante que tengan propiedades deseables, tal como una semivida más larga, en comparación con transcritos producidos a partir de una secuencia no optimizada.
La expresión de proteínas está regida por una multitud de factores que incluyen aquellos que afectan a la transcripción, el procesamiento de ARNm, y la estabilidad e iniciación de la traducción. Por tanto, la optimización puede abordar cualquiera de un número de características de secuencia de cualquier gen particular. Como ejemplo específico, una pausa traduccional inducida por un codón raro puede dar como resultado una expresión de proteínas reducida. Una pausa traduccional inducida por un codón raro incluye la presencia de codones en el polinucleótido de interés que se usan rara vez en el organismo hospedante y pueden tener un efecto negativo sobre la traducción de proteínas debido a su escasez en el conjunto de ARNt disponible.
Una iniciación traduccional alterna también puede dar como resultado una expresión de proteínas heterólogas reducida. La iniciación traduccional alterna puede incluir una secuencia de polinucleótidos sintética que contiene de manera inadvertida motivos capaces de funcionar como sitio de unión a ribosoma (RBS). Estos sitios pueden dar como resultado la iniciación de la traducción de una proteína truncada a partir de un sitio interno del gen. Un método de reducción de la posibilidad de producir una proteína truncada, que puede ser difícil de eliminar durante la purificación, incluye eliminar secuencias RBS internas putativas de una secuencia de polinucleótidos optimizada. El deslizamiento de la polimerasa inducido por repetición puede dar como resultado una expresión de proteínas heterólogas reducida. El deslizamiento de la polimerasa inducido por repetición implica repeticiones de secuencias de nucleótidos que han mostrado que provocan el deslizamiento o la intermitencia de la ADN polimerasa, lo que puede dar como resultado mutaciones de desplazamiento de marco. Tales repeticiones también pueden provocar el deslizamiento de la ARN polimerasa. En un organismo con un alto sesgo de contenido de G+C, puede haber un mayor grado de repeticiones compuestas por repeticiones de nucleótidos G o C. Por tanto, un método de reducción de la posibilidad de inducir deslizamiento de la ARN polimerasa incluye alterar repeticiones extendidas de nucleótidos G o C.
Estructuras secundarias interferentes también pueden dar como resultado una expresión de proteínas heterólogas reducida. Las estructuras secundarias pueden secuestrar la secuencia RBS o el codón de iniciación y se han correlacionado con una reducción en la expresión de proteínas. Estructuras de tallo-bucle también pueden estar implicadas en la pausa y atenuación transcripcional. Una secuencia de polinucleótidos optimizada puede contener estructuras secundarias mínimas en las regiones codificantes genes y RBS de la secuencia de nucleótidos para permitir una transcripción y traducción mejoradas.
Por ejemplo, el proceso de optimización puede comenzar identificando la secuencia deseada de aminoácidos que debe expresarse por el hospedante. A partir de la secuencia de aminoácidos puede diseñarse una secuencia de ADN o polinucleótidos candidata. Durante el diseño de la secuencia de ADN sintética, la frecuencia de uso de codones puede compararse con el uso de codones del organismo de expresión hospedante y pueden eliminarse codones hospedantes raros de la secuencia sintética. Adicionalmente, la secuencia de ADN candidata sintética puede modificarse con el fin de eliminar sitios de restricción de enzimas no deseables y añadir o eliminar cualquier secuencia señal, ligador o región no traducida deseada/o. La secuencia de ADN sintética puede analizarse para la presencia de estructuras secundarias que pueden interferir con el proceso de traducción, tales como repeticiones G/C y estructuras de tallo-bucle.
6. Cartografiado epistático - Una herramienta analítica predictiva que posibilita consolidaciones genéticas beneficiosas
En algunas realizaciones no cubiertas por la invención reivindicada, la presente descripción enseña métodos de cartografiado epistático para predecir y combinar alteraciones genéticas beneficiosas en una célula hospedante. Las alteraciones genéticas pueden crearse mediante cualquiera de los conjuntos de herramientas moleculares HTP mencionados anteriormente (por ejemplo, intercambios de promotor, intercambios SNP, intercambios de codones de iniciación/terminación, optimización de secuencia) y el efecto de esas alteraciones genéticas se conocería a partir de la caracterización de las bibliotecas de cepas microbianas de diseños genéticos HTP derivadas. Por tanto, tal como se usa aquí, el término cartografiado epistático incluye métodos de identificación de combinaciones de alteraciones genéticas (por ejemplo, SNP beneficiosos o asociaciones de promotor/gen diana beneficiosas) que son probables que produzcan aumentos de producción en el rendimiento del hospedante.
En realizaciones, los métodos de cartografiado epistático de la presente descripción se basan en la idea de que la combinación de mutaciones beneficiosas de dos grupos funcionales diferentes es más probable que mejore el rendimiento del hospedante, en comparación con una combinación de mutaciones del mismo grupo funcional. Véase, por ejemplo, Costanzo, The Genetic Landscape of a Cell, Science, vol. 327, número 5964, 22 de enero de 2010, págs. 425-431.
Las mutaciones del mismo grupo funcional son más probables que funcionen mediante el mismo mecanismo, y por tanto es más probable que presenten epistasis negativa o neutra sobre el rendimiento del hospedante global. Por el contrario, las mutaciones de grupos funcionales diferentes son más probables que funcionen mediante mecanismos independientes, lo que puede conducir a un rendimiento de hospedante mejorado y en algunos casos a efectos sinérgicos. Por ejemplo, haciendo referencia a la Figura 19, lysA y zwf son genes que funcionan en diferentes rutas para conseguir la producción de lisina. Basándose en la disimilitud en el rendimiento individual de esos genes, los cambios genéticos que usan esos genes deberían dar como resultado efectos de consolidación aditivos. Esto se confirmó en la medición real de los efectos consolidados de la combinación de lysA y zwf, tal como se muestra en las Figuras 16B y los ejemplos 6.
Por tanto, en algunas realizaciones, la presente descripción enseña métodos de análisis de mutaciones SNP para identificar SNP de los que se predice que pertenecen a grupos funcionales diferentes. En algunas realizaciones, la similitud de grupos funcionales SNP se determina calculando la similitud coseno de perfiles de interacción de mutaciones (similar a un coeficiente de correlación, véase la Figura 16A). La presente descripción también ilustra la comparación de SNP por medio de una matriz de similitud de mutaciones (véase la Figura 15) o un dendrograma (véase la Figura 16A).
Por tanto, el procedimiento de cartografiado epistático proporciona un método para agrupar y/o clasificar una diversidad de mutaciones genéticas aplicadas en uno o más fondos genéticos para los propósitos de consolidaciones eficientes y efectivas de dichas mutaciones en uno o más fondos genéticos.
En aspectos, la consolidación se realiza con el objetivo de crear cepas novedosas que estén optimizadas para la producción de biomoléculas diana. A través del procedimiento de cartografiado epistático enseñado, es posible identificar agrupamientos funcionales de mutaciones, y tales agrupamientos funcionales posibilitan una estrategia de consolidación que minimiza efectos epistáticos no deseables.
Tal como se ha explicado anteriormente, la optimización de microbios para su uso en fermentación industrial es un problema importante y difícil, con amplias implicaciones para la economía, la sociedad y el mundo natural. Tradicionalmente, la ingeniería microbiana se ha realizado a través de un proceso lento e incierto de mutagénesis aleatoria. Tales enfoques hacen uso de la capacidad evolutiva natural de las células para adaptarse a una presión de selección impuesta artificialmente. Tales enfoques están también limitados por la rareza de mutaciones beneficiosas, la robustez del paisaje adaptativo subyacente, y más en general infrautilizan el estado de la técnica en biología celular y molecular.
Los enfoques modernos hacen uso del nuevo entendimiento de la función celular a nivel mecanístico y nuevas herramientas de biología molecular para realizar manipulaciones genéticas seleccionadas como diana en extremos fenotípicos específicos. En la práctica, tales enfoques racionales se ven frustrados por la complejidad subyacente de la biología. Los mecanismos causales se entienden escasamente, particularmente cuando se intenta combinar dos o más cambios, que tienen cada uno un efecto beneficioso observado. En ocasiones tales consolidaciones de cambios genéticos producen desenlaces positivos (medidos mediante aumentos en la actividad fenotípica deseada), aunque el desenlace positivo neto puede ser menor de lo esperado y en algunos casos mayor de lo esperado. En otros casos, tales combinaciones producen o bien un efecto neutro neto o bien un efecto negativo neto. Este fenómeno se denomina epistasis, y es uno de los retos fundamentales para la ingeniería microbiana (y la ingeniería genética en general).
Como se mencionó anteriormente, la presente plataforma de ingeniería genómica HTP soluciona muchos de los problemas asociados con los enfoques de ingeniería microbiana tradicionales. La presente plataforma HTP usa tecnologías de automatización para realizar cientos o miles de mutaciones genéticas de una vez. En aspectos particulares, a diferencia de los enfoques racionales descritos anteriormente, la plataforma HTP dada a conocer posibilita la construcción paralela de miles de mutantes para explorar de manera más efectiva grandes subconjuntos del espacio genómico relevante, tal como se da a conocer en la solicitud U.S. n° 15/140.296, titulada Microbial Strain Design System And Methods For Improved Large-Scale Production Of Engineered Nucleotide Sequences. Al intentarlo “todo”, la presente plataforma HTP evita las dificultades inducidas por nuestro entendimiento biológico limitado.
Sin embargo, al mismo tiempo, la presente plataforma HTP se enfrenta al problema de estar limitada fundamentalmente por el tamaño explosivo combinatorio del espacio genómico, y la eficacia de las técnicas computacionales para interpretar los conjuntos de datos generados dada la complejidad de las interacciones genéticas. Se necesitan técnicas para explorar subconjuntos de vastos espacios combinatorios de modos que maximicen la selección no aleatoria de combinaciones que produzcan desenlaces deseados.
Enfoques HTP algo similares han demostrado ser efectivos en el caso de la optimización de enzima. En este problema especializado, una secuencia genómica de interés (del orden de 1000 bases), codifica una cadena de proteína con una configuración física algo complicada. La configuración precisa se determina mediante las interacciones electromagnéticas colectivas entre sus componentes atómicos constituyentes. Esta combinación de secuencia genómica corta y problema de plegado restringido físicamente se presta específicamente a estrategias de optimización ambiciosas. Es decir, es posible mutar individualmente la secuencia en cada residuo y transponer los mutantes resultantes para mostrar de manera efectiva el espacio de secuencia local a una resolución compatible con el modelado de respuesta de actividad de secuencia.
Sin embargo, para optimizaciones genómicas completas para biomoléculas, tales enfoques centrados en los residuos son insuficientes por algunos motivos importantes. En primer lugar, debido al aumento exponencial en el espacio de secuencia relevante asociado con optimizaciones genómicas para biomoléculas. En segundo lugar, debido a la complejidad añadida de regulación, expresión, e interacciones metabólicas en la síntesis de biomoléculas. Los presentes inventores han solucionado estos problemas por medio del cartografiado epistático enseñado.
El método enseñado para modelar interacciones epistáticas, entre una colección de mutaciones para los propósitos de una consolidación más eficiente y efectiva de dichas mutaciones en uno o más fondos genéticos, es revolucionario y altamente necesario en la técnica.
Cuando se describe el procedimiento de cartografiado epistático, los términos “más eficiente” y “más efectivo” se refieren a evitar interacciones epistáticas no deseables entre cepas de consolidación con respecto a dianas fenotípicas particulares.
Como el proceso se ha explicado de manera general anteriormente, ahora se describirá un ejemplo de flujo de trabajo más específico.
En primer lugar, se empieza con una biblioteca de M mutaciones y uno o más fondos genéticos (por ejemplo, cepas bacterianas parentales). Ni la elección de biblioteca ni la elección de fondos genéticos es específica del método descrito en este caso. Pero en una implementación particular, una biblioteca de mutaciones puede incluir de manera exclusiva, o en combinación: bibliotecas de intercambio SNP, bibliotecas de intercambio de promotor o cualquier otra biblioteca de mutaciones descrita aquí.
En una implementación, solo se proporciona un único fondo genético. En este caso, en primer lugar, se generará una colección de distintos fondos genéticos (mutantes microbianos) a partir de este único fondo. Esto puede conseguirse aplicando la biblioteca de mutaciones primaria (o algún subconjunto de la misma) al fondo dado, por ejemplo, aplicación de una biblioteca de diseños genéticos HTP de SNP particulares o una biblioteca de diseños genéticos HTP de promotores particulares al fondo genético dado, para crear una población (quizá de cientos o miles) de mutantes microbianos con un fondo genético idéntico excepto por la alteración genética particular de la biblioteca de diseños genéticos HTP dada incorporada en la misma. Como se detalla más adelante, esta realización puede conducir a una biblioteca combinatoria o biblioteca por pares.
En otra implementación, una colección de distintos fondos genéticos conocidos puede venir simplemente dada. Como se detalla más adelante, esta realización puede conducir a un subconjunto de una biblioteca combinatoria. En una implementación particular, se determinan el número de fondos genéticos y la diversidad genética entre estos fondos (medida en número de mutaciones o distancia de edición de secuencia o similares) para maximizar la eficacia de este método.
Un fondo genético puede ser una cepa natural, nativa o de tipo silvestre o una cepa modificada mediante ingeniería, mutada. N cepas de fondo distintas pueden representarse mediante un vector b. En un ejemplo, el fondo b puede representar fondos modificados mediante ingeniería formado aplicando N mutaciones primarias mo = (mi, m2, ... mN) a una cepa de fondo de tipo silvestre bo para formar las N cepas de fondo mutadas b = mo bo = (mibo, m2b0, ... mN bo), donde mib0 representa la aplicación de la mutación mi a la cepa de fondo bo.
En cualquier caso (es decir, un único fondo genético proporcionado o una colección de fondos genéticos), el resultado es una colección de N fondos genéticamente distintos. Se miden fenotipos relevantes para cada fondo.
En segundo lugar, cada mutación en una colección de M mutaciones mi se aplica a cada fondo dentro de la colección de N cepas de fondo b para formar una colección de M x N mutantes. En la implementación en la que se obtuvieron los propios N fondos aplicando el conjunto primario de mutaciones mo (tal como se describió anteriormente), el conjunto resultante de mutantes se denominará en algunos casos biblioteca combinatoria o biblioteca por pares. En otra implementación, en la que se ha proporcionado explícitamente una colección de fondos conocidos, el conjunto resultante de mutantes puede denominarse subconjunto de una biblioteca combinatoria. De manera similar a la generación de vectores de fondo modificados mediante ingeniería, en realizaciones, la interfaz de entrada 202 recibe el vector de mutación mi y el vector de fondo b, y una operación especificada tal como producto cruzado.
Continuando con el ejemplo de fondo modificado mediante ingeniería anterior, la formación de la biblioteca combinatoria MxN puede representarse mediante la matriz formada por m 1 x m 0 bü, el producto cruzado de mi aplicado a los N fondos de b = m 0 b 0, en el que cada mutación en mi se aplica a cada cepa de fondo dentro de b. Cada fila i de la matriz MxN resultante representa la aplicación de la mutación i dentro de mi a todas las cepas dentro de la colección de fondos b. En una realización, m 1 = m 0, y la matriz representa la aplicación por pares de las mismas mutaciones a la cepa de partida bo. En ese caso, la matriz es simétrica con respecto a su diagonal (M=N), y la diagonal puede ignorarse en cualquier análisis, dado que representa la aplicación de la misma mutación dos veces.
En realizaciones, la formación de la matriz MxN puede conseguirse introduciendo en la interfaz de entrada 202 la expresión compuesta mi x m 0 b 0. Los vectores de componente de la expresión pueden introducirse directamente con sus elementos especificados explícitamente, por medio de una o más especificaciones de ADN, o como consultas a la biblioteca 206 para posibilitar la recuperación de los vectores durante la interpretación por parte del interpretador 204. Tal como se describe en la solicitud de patente U.S., con Serie n° 15/140.296, titulada “Microbial Strain Design System and Methods for Improved Large Scale Production of Engineered Nucleotide Sequences,” por medio del interpretador 204, el motor de ejecución 207, el motor de realización de pedidos 208 y la fábrica 210, el sistema LIMS 200 genera las cepas microbianas especificadas por la expresión de entrada.
En tercer lugar, con referencia a la Figura 42, el equipo de análisis 214 mide respuestas fenotípicas para cada mutante dentro de la matriz de biblioteca combinatoria MxN (4202). Como tal, la colección de respuestas puede interpretarse como una matriz de respuestas M x N R. Cada elemento de R puede representarse como rij = y(mi, mj), donde y representa la respuesta (rendimiento) de la cepa de fondo bj dentro de la colección modificada mediante ingeniería b como mutada mediante la mutación mi. Por motivos de simplicidad y de practicabilidad, asumimos mutaciones por pares donde m 1 = m 0. Cuando, como en este caso, el conjunto de mutaciones representa una biblioteca de mutaciones por pares, la matriz resultante también puede denominarse matriz de interacción de genes o, más particularmente, matriz de interacción de mutaciones.
Los expertos en la técnica reconocerán que, en algunas realizaciones, las operaciones relacionadas con efectos epistáticos y el diseño de cepas predictivo pueden realizarse completamente a través de medios automatizados del sistema LIMS 200, por ejemplo, mediante el equipo de análisis 214, o mediante implementación humana, o a través de una combinación de medios automatizados y manuales. Cuando una operación no está totalmente automatizada, los elementos del sistema LIMS 200, por ejemplo, el equipo de análisis 214, pueden, por ejemplo, recibir los resultados del rendimiento humano de las operaciones en vez de generar resultados a través de sus propias capacidades operacionales. Como se describe en otro punto aquí, los componentes del sistema LIMS 200, tal como el equipo de análisis 214, pueden implementarse completa o parcialmente mediante uno o más sistemas informáticos. En algunas realizaciones, en particular cuando se realizan operaciones relacionadas con el diseño de cepas predictivo mediante una combinación de medios automatizados y manuales, el equipo de análisis 214 puede incluir no solo hardware, software o firmware informáticos (o una combinación de los mismos), sino también un equipo operador por un operario humano, tal como el listado en la Tabla 5 más adelante, por ejemplo, el equipo listado en la categoría de “Evaluar rendimiento”.
En cuarto lugar, el equipo de análisis 212 normaliza la matriz de respuestas. La normalización consiste en un proceso manual y/o, en esta realización, procesos automatizados de ajuste de valores de respuesta medidos con el propósito de eliminar el sesgo y/o aislar las porciones relevantes del efecto específico para este método. Con respecto a la Figura 42, la primera etapa 4202 puede incluir la obtención de datos medidos normalizados. En general, en las reivindicaciones dirigidas al diseño de cepas predictivo y cartografiado epistático, los términos “medida de rendimiento” o “rendimiento medido” o similares pueden usarse para describir una métrica que refleja datos medidos, ya sean brutos o procesados de alguna manera, por ejemplo, datos normalizados. En una implementación particular, la normalización puede realizarse restando una respuesta de fondo medida previamente del valor de respuesta medido. En esa implementación, los elementos de respuesta resultantes pueden formarse como rij = y(mi, mj) - y(mj), donde y(mj) es la respuesta de la cepa de fondo modificada mediante ingeniería bj dentro de la colección modificada mediante ingeniería b provocada por la aplicación de la mutación primaria mj a la cepa parental b 0. Obsérvese que cada fila de la matriz de respuestas normalizada se trata como un perfil de respuesta para su mutación correspondiente. Es decir, la fila i describe el efecto relativo de la mutación correspondiente mi aplicada a todas las cepas de fondo bj para j= de 1 a N.
Con respecto al ejemplo de mutaciones por pares, el rendimiento/respuesta combinado de cepas que resultan de dos mutaciones puede ser mayor que, menor que o igual que el rendimiento/respuesta de la cepa con respecto a cada una de las mutaciones individualmente. Este efecto se conoce como “epistasis” y puede, en algunas realizaciones, representarse como eij = y(mi, mj) -(y(mi) y(mj)). Variaciones de esta representación matemática son posibles y pueden depender de, por ejemplo, cómo interaccionan biológicamente los cambios individuales. Tal como se ha indicado anteriormente, las mutaciones del mismo grupo funcional son más probables de que funcionen mediante el mismo mecanismo, y por tanto son más probables de que presenten epistasis negativa o neutra sobre el rendimiento del hospedante global. Por el contrario, las mutaciones de grupos funcionales diferentes son más probables de que funcionen mediante mecanismos independientes, lo que puede conducir a rendimiento del hospedante mejorado reduciendo efectos mutativos redundantes, por ejemplo. Por tanto, mutaciones que producen respuestas disímiles son más probables de que se combinen de una manera aditiva que las mutaciones que producen respuestas similares. Esto conduce al cálculo de similitud en la etapa siguiente.
En quinto lugar, el equipo de análisis 214 mide la similitud entre las respuestas - en el ejemplo de mutación por pares, la similitud entre los efectos de la mutación i y la mutación j (por ejemplo, primaria) dentro de la matriz de respuestas (4204). Recuérdese que la fila i de R representa los efectos de rendimiento de la mutación i mi sobre las N cepas de fondo, cada una de las cuales puede ser en sí misma el resultado de mutaciones modificadas mediante ingeniería tal como se describió anteriormente. Por tanto, la similitud entre los efectos de las mutaciones i y j puede representarse mediante la similitud sij entre las filas i y j, pi y pj, respectivamente, para formar una matriz de similitud S, un ejemplo de lo cual se ilustra en la Figura 15. La similitud puede medirse usando muchas técnicas conocidas, tales como la correlación cruzada o la similitud coseno absoluta, por ejemplo, sij = abs(cos(pi, pj)).
Como alternativa o suplemento a una métrica como la similitud coseno, pueden agruparse perfiles de respuesta para determinar el grado de similitud. El agrupamiento puede realizarse mediante el uso de algoritmos de agrupamiento basados en una distancia (por ejemplo, k-media, aglomerativo jerárquico, etc.) junto con medición de distancia adecuada (por ejemplo, euclídea, de Hamming, etc.). Alternativamente, el agrupamiento puede realizarse usando algoritmos de agrupamiento basados en la similitud (por ejemplo, espectral, corte mínimo, etc.) con una medida de similitud adecuada (por ejemplo, coseno, correlación, etc.). Naturalmente, las medidas de distancia pueden mapearse para dar medidas de similitud y viceversa por medio de cualquier número de operaciones funcionales estándar (por ejemplo, la función exponencial). En una implementación, el agrupamiento aglomerativo jerárquico puede usarse junto con similitud coseno absoluta (véase la Figura 16A).
Como ejemplo de agrupamiento, C puede ser un agrupamiento de mutaciones mi en k grupos distintos. C puede ser la matriz de miembros de grupo, donde cij es el grado en el que la mutación i pertenece al grupo j, un valor de entre 0 y 1. La similitud basada en grupos entre las mutaciones i y j se facilita entonces mediante CixCj (el producto escalar de las filas i y j de C). En general, la matriz de similitud basada en grupos se facilita mediante CCT (es decir, C veces la trasposición C). En el caso de agrupamiento duro (una mutación pertenece a exactamente un grupo), la similitud entre dos mutaciones es 1 si pertenecen al mismo y 0 si no.
Como se describe en Costanzo, The Genetic Landscape of a Cell, Science, vol. 327, número 5964, 22 de enero de 2010, págs. 425-431, un agrupamiento de este tipo de perfiles de respuesta de mutación se refiere a un cartografiado aproximado de una organización funcional subyacente de la célula. Es decir, las mutaciones que se agrupan conjuntamente tienden a estar relacionadas mediante un proceso biológico o ruta metabólica subyacente. Tales mutaciones se denominan aquí “grupo funcional”. La observación clave de este método es que, si dos mutaciones funcionan mediante la misma ruta o proceso biológico, entonces los efectos observados (y de manera notable los beneficios observados) pueden ser redundantes. A la inversa, si dos mutaciones funcionan mediante un mecanismos distante, entonces es menos probable que los efectos beneficiosos sean redundantes.
En sexto lugar, basándose en el efecto epistático, el equipo de análisis 214 selecciona pares de mutaciones que conducen a respuestas disímiles, por ejemplo, su métrica de similitud coseno se encuentra por debajo de un umbral de similitud, o sus respuestas pertenecen a grupos suficientemente separados (por ejemplo, en la Figura 15 y la Figura 16A), tal como se muestra en la Figura 42 (4206). Basándose en su disimilitud, los pares seleccionados de mutaciones deberían consolidarse en cepas de fondo mejor que pares similares.
Basándose en los pares seleccionados de mutaciones que conducen a respuestas suficientemente disímiles, el sistema LIMS (por ejemplo, todas o alguna combinación de interpretador 204, motor de ejecución 207, realizador de pedidos 208 y fábrica 210) puede usarse para diseñar cepas microbianas que tienen aquellas mutaciones seleccionadas (4208). En realizaciones, como se describe más adelante y en otro punto aquí, los efectos epistáticos pueden incluirse, o usarse junto con el modelo predictivo, para ponderar o filtrar la selección de cepas.
Se asume es posible estimar el rendimiento (también conocido como puntuación) de una cepa hipotética obtenida consolidando una colección de mutaciones de la biblioteca en un fondo particular por medio de algún modelo predictivo preferido. Un modelo predictivo representativo utilizado en los métodos enseñados se proporciona en la sección más adelante titulada “Diseño de cepas predictivo”, que se encuentra en la sección más grande de: “Análisis computacional y predicción de efectos de criterios de diseño genético por todo el genoma”.
Cuando se emplea una técnica de diseño de cepas predictivo tal como regresión lineal, el equipo de análisis 214 puede restringir el modelo a mutaciones que tienen medidas de similitud bajas, por ejemplo, filtrando los resultados de regresión para mantener solo mutaciones suficientemente disímiles. Alternativamente, el modelo predictivo puede ponderarse con la matriz de similitud. Por ejemplo, algunas realizaciones pueden emplear una regresión de mínimos cuadrados ponderada usando la matriz de similitud para caracterizar las interdependencias de las mutaciones propuestas. Como ejemplo, la ponderación puede realizarse aplicando el truco “del núcleo” al modelo de regresión (en la medida de que el “truco del núcleo” es general para muchos enfoques de modelado de aprendizaje automático, esta estrategia de nueva ponderación no está restringida a la regresión lineal.)
Un experto en la técnica conoce tales métodos. En realizaciones, el núcleo es una matriz que tiene elementos 1 - w * sij, en la que 1 es un elemento de la matriz de identidad, y w es un valor real entre 0 y 1. Cuando w = 0, esto se reduce a un modelo de regresión estándar. En la práctica, el valor de w estará ligado a la precisión (valor r2 o raíz del error cuadrático medio (RMSE)) del modelo predictivo cuando se evalúa frente a los constructos combinatorios por pares y sus efectos asociados y(mi, mj). En una implementación simple, w se define como w = 1- r2. En este caso, cuando el modelo es completamente predictivo, w=1-r2=0 y la consolidación se basa solamente en el modelo predictivo y el procedimiento de cartografiado epistático no desempeña ningún papel. Por otro lado, cuando el modelo predictivo no es predictivo en absoluto, w=1-r2=1 y la consolidación se basa solamente en el procedimiento de cartografiado epistático. Durante cada iteración, la precisión puede evaluarse para determinar si el rendimiento del modelo está mejorando.
Debe quedar claro que el procedimiento de cartografiado epistático descrito aquí no depende de qué modelo se usa por el equipo de análisis 214. Dado un modelo predictivo de este tipo, es posible puntuar y clasificar todas las cepas hipotéticas accesibles para la biblioteca de mutaciones por medio de consolidación combinatoria.
En algunas realizaciones, para tener en cuenta los efectos epistáticos, los perfiles de respuesta de mutación disímiles pueden usarse por el equipo de análisis 214 para aumentar la puntuación y clasificación asociada con cada cepa hipotética del modelo predictivo. Este procedimiento puede concebirse ampliamente como una nueva ponderación de puntuaciones, para favorecer cepas candidatas con perfiles de respuesta disímiles (por ejemplo, cepas extraídas de una diversidad de grupos). En una implementación simple, una cepa puede tener su puntuación reducida por el número de mutaciones constituyentes que no cumplen el umbral de disimilitud o que se extraen del mismo grupo (con ponderación adecuada). En una implementación particular, la estimación de rendimiento de una cepa hipotética puede reducirse por la suma de términos en la matriz de similitud asociada con todos los pares de mutaciones constituyentes asociadas con la cepa hipotética (de nuevo con ponderación adecuada). Las cepas hipotéticas pueden volver a clasificarse usando estas puntuaciones aumentadas. En la práctica, tales cálculos de nueva ponderación pueden realizarse junto con la estimación de puntuación inicial.
El resultado es una colección de cepas hipotéticas con una puntuación y clasificación aumentadas para evitar de manera más efectiva que se confundan interacciones epistáticas. Las cepas hipotéticas pueden construirse en este momento o pueden pasarse a otro método computacional para su análisis o uso posterior.
Los expertos en la técnica reconocerán que el cartografiado epistático y el diseño de cepas predictivo iterativo tal como se describen aquí no están limitados a emplear solo mutaciones por pares, sino que pueden expandirse a la aplicación simultánea de muchas más mutaciones a una cepa de fondo. En otra realización, pueden aplicarse mutaciones adicionales secuencialmente a cepas que ya se han mutado usando mutaciones seleccionadas según los métodos predictivos descritos aquí. En otra realización, los efectos epistáticos se imputan aplicando la misma mutación genética a un número fondos de cepa que difieren ligeramente entre sí, y anotando cualquier diferencia significativa en los perfiles de respuesta positiva entre los fondos de cepas modificadas.
Organismos susceptibles de diseño genético
La plataforma de ingeniería genómica HTP dada a conocer se ejemplifica con cultivos de células microbianas industriales (por ejemplo, Corynebacterium y A. niger), pero es aplicable a cualquier organismo de célula hospedante en el que pueden identificarse rasgos deseados en una población de mutantes genéticos.
Por tanto, tal como se usa aquí, el término “microorganismo” debe tomarse de manera amplia. Incluye, pero no se limita a, los dos dominios procariotas, Bacteria y Archaea, así como ciertos hongos eucariotas y protistas. Sin embargo, en ciertos aspectos, pueden utilizarse organismos eucariotas “superiores” tales como insectos, plantas y animales en los métodos enseñados aquí.
La presente descripción proporciona ejemplos de trabajo para células hospedantes tanto procariotas (ejemplos 1-9) como eucariotas (ejemplos 10-11).
Las células hospedantes adecuadas incluyen, pero no se limitan a: células bacterianas, células de algas, células vegetales, células fúngicas, células de insecto y células de mamífero. En una realización ilustrativa, las células hospedantes adecuadas incluyen E. coli (por ejemplo, E. coli competente SHuffle™ disponible de New England BioLabs en Ipswich, Mass.).
Otros organismos hospedantes adecuados de la presente descripción incluyen microorganismos del género Corynebacterium. En algunas realizaciones, las cepas/especies de Corynebacterium preferidas incluyen: C. efficiens, siendo la cepa tipo depositada DSM44549, C. glutamicum, siendo la cepa tipo depositada ATCC13032, y C. ammoniagenes, siendo la cepa tipo depositada ATCC6871. En algunas realizaciones, el hospedante preferido de la presente descripción es C. glutamicum.
Cepas hospedantes adecuadas del género Corynebacterium, en particular de la especie Corynebacterium glutamicum, son en particular las cepas de tipo silvestre conocidas: Corynebacterium glutamicum ATCC13032, Corynebacterium acetoglutamicum ATCC15806, Corynebacterium acetoacidophilum ATCC13870, Corynebacterium melassecola ATCC17965, Corynebacterium thermoaminogenes FERM BP-1539, Brevibacterium flavum ATCC14067, Brevibacterium lactofermentum ATCC13869 y Brevibacterium divaricatum ATCC14020; y mutantes, o cepas, que producen L-aminoácido preparadas a partir de las mismas, tal como, por ejemplo, las cepas que producen L-lisina: Corynebacterium glutamicum FERM-P 1709, Brevibacterium flavum FERM-P 1708, Brevibacterium lactofermentum FERM-P 1712, Corynebacterium glutamicum FERM-P 6463, Corynebacterium glutamicum FERM-P 6464, Corynebacterium glutamicum DM58-1, Corynebacterium glutamicum DG52-5, Corynebacterium glutamicum DSM5714 y Corynebacterium glutamicum DSM12866.
La expresión "Micrococcus glutamicus” también ha estado en uso para C. glutamicum. Algunos representantes de la especie C. efficiens también se han denominado C. thermoaminogenes en la técnica anterior, tal como la cepa FERM BP-1539, por ejemplo.
En algunas realizaciones, la célula hospedante de la presente descripción es una célula eucariota. Las células hospedantes eucariotas adecuadas incluyen, pero no se limitan a: células fúngicas, células de algas, células de insecto, animal células y células vegetales. Las células hospedantes fúngicas adecuadas incluyen, pero no se limitan a: Ascomycota, Basidiomycota, Deuteromycota, Zygomycota, Fungi imperfecti. Ciertas células hospedantes fúngicas preferidas incluyen células de levadura y células fúngicas filamentosas. Las células hospedantes de hongos filamentosos adecuadas incluyen, por ejemplo, cualquier forma filamentosa de la subdivisión Eumycotina y Oomycota (véase, por ejemplo, Hawksworth et al., En Ainsworth and Bisby's Dictionary of The Fungi, 8a edición, 1995, CAB International, University Press, Cambridge, Reino Unido). Los hongos filamentosos se caracterizan por un micelio vegetativo con una pared celular compuesta de quitina, celulosa y otros polisacáridos complejos. Las células hospedantes de hongos filamentosos son morfológicamente distintas de la levadura.
En ciertas realizaciones ilustrativas, pero no limitativas, la célula hospedante fúngica filamentosa puede ser una célula de una especie de: Achlya, Acremonium, Aspergillus, Aureobasidium, Bjerkandera, Ceriporiopsis, Cephalosporium, Chrysosporium, Cochliobolus, Corynascus, Cryphonectria, Cryptococcus, Coprinus, Coriolus, Diplodia, Endothis, Fusarium, Gibberella, Gliocladium, Humicola, Hypocrea, Myceliophthora (por ejemplo, Myceliophthora thermophila), Mucor, Neurospora, Penicillium, Podospora, Phlebia, Piromyces, Pyricularia, Rhizomucor, Rhizopus, Schizophyllum, Scytalidium, Sporotrichum, Talaromyces, Thermoascus, Thielavia, Tramates, Tolypocladium, Trichoderma, Verticillium, Volvariella, o teleomorfos, o anamorfos, y sinónimos o equivalentes taxonómicos de los mismos. En una realización, el hongo filamentoso se selecciona del grupo que consiste en A. nidulans, A. oryzae, A. sojae y Aspergilli del grupo A. niger. En una realización, el hongo filamentoso es Aspergillus niger.
En otra realización, se usan mutantes específicos de las especies fúngicas para los métodos y sistemas proporcionados aquí. En una realización, se usan mutantes específicos de las especies fúngicas que son adecuados para los métodos y sistemas de alto rendimiento y/o automatizados proporcionados aquí. Ejemplos de tales mutantes pueden ser cepas que forman protoplastos muy bien; cepas que producen principalmente o, más preferiblemente, solo protoplastos con un solo núcleo; cepas que se regeneran de manera eficiente en placas de microtitulación, cepas que se regeneran más rápido y/o cepas que absorben moléculas de polinucleótido (por ejemplo, ADN) de manera eficiente, cepas que producen cultivos de baja viscosidad tales como, por ejemplo, células que producen fijas en cultivo que no están tan enmarañadas como para impedir el aislamiento de clones individuales y/o aumentan la viscosidad del cultivo, cepas que tienen una integración aleatoria reducida (por ejemplo, ruta de unión de extremos no homólogos desactivada) o combinaciones de las mismas.
En aún otra realización, una cepa mutante específica para su uso en los métodos y sistemas proporcionados aquí puede ser cepas que carecen de un gen marcador seleccionable tal como, por ejemplo, cepas mutantes que requieren uridina. Estas cepas mutantes pueden ser deficientes en o bien orotidina-5-fosfato descarboxilasa (OMPD) o bien orotato-p-ribosilo transferasa (OPRT) codificada por el gen pyrG o pyrE, respectivamente (T. Goosen et al., Curr Genet. 1987, 11:499503; J. Begueret et al., Gene. 198432:48792.
En una realización, las cepas mutantes específicas para su uso en los métodos y sistemas proporcionados aquí son cepas que presentan una morfología celular compacta caracterizada por hifas más cortas y un aspecto más de tipo levadura.
Las células hospedantes de levadura adecuadas incluyen, pero no se limitan a: Candida, Hansenula, Saccharomyces, Schizosaccharomyces, Pichia, Kluyveromyces y Yarrowia. En algunas realizaciones, la célula de levadura es Hansenula polymorpha, Saccharomyces cerevisiae, Saccaromyces carlsbergensis, Saccharomyces diastaticus, Saccharomyces norbensis, Saccharomyces kluyveri, Schizosaccharomyces pombe, Pichia pastoris, Pichia finlandica, Pichia trehalophila, Pichia kodamae, Pichia membranaefaciens, Pichia opuntiae, Pichia thermotolerans, Pichia salictaria, Pichia quercuum, Pichia pijperi, Pichia stipitis, Pichia methanolica, Pichia angusta, Kluyveromyces lactis, Candida albicans, o Yarrowia lipolytica.
En ciertas realizaciones, la célula hospedante es una célula de alga, tal como Chlamydomonas (por ejemplo, C. reinhardtii) y Phormidium (P. sp. ATCC29409).
En otras realizaciones, la célula hospedante es una célula procariota. Las células procariotas adecuadas incluyen células bacterianas gram positivas, gram negativas y gran variables. La célula hospedante puede ser una especie de, pero no está limitada a: Agrobacterium, Alicyclobacillus, Anabaena, Anacystis, Acinetobacter, Acidothermus, Arthrobacter, Azobacter, Bacillus, Bifidobacterium, Brevibacterium, Butyrivibrio, Buchnera, Campestris, Camplyobacter, Clostridium, Corynebacterium, Chromatium, Coprococcus, Escherichia, Enterococcus, Enterobacter, Erwinia, Fusobacterium, Faecalibacterium, Francisella, Flavobacterium, Geobacillus, Haemophilus, Helicobacter, Klebsiella, Lactobacillus, Lactococcus, Ilyobacter, Micrococcus, Microbacterium, Mesorhizobium, Methylobacterium, Methylobacterium, Mycobacterium, Neisseria, Pantoea, Pseudomonas, Prochlorococcus, Rhodobacter, Rhodopseudomonas, Rhodopseudomonas, Roseburia, Rhodospirillum, Rhodococcus, Scenedesmus, Streptomyces, Streptococcus, Synecoccus, Saccharomonospora, Saccharopolyspora, Staphylococcus, Serratia, Salmonella, Shigella, Thermoanaerobacterium, Tropheryma, Tularensis, Temecula, Thermosynechococcus, Thermococcus, Ureaplasma, Xanthomonas, Xylella, Yersinia, y Zymomonas. En algunas realizaciones, la célula hospedante es Corynebacterium glutamicum.
En algunas realizaciones, la cepa hospedante bacteriana es una cepa industrial. Numerosas cepas industriales bacterianas se conocen y son adecuadas en los métodos y composiciones descritos aquí.
En algunas realizaciones, la célula hospedante bacteriana es de la especie Agrobacterium (por ejemplo, A. radiobacter, A. rhizogenes, A. rubi), la especie Arthrobacter (por ejemplo, A. aurescens, A. citreus, A. globformis, A. hidrocarboglutamicus, A. mysorens, A. nicotianae, A. paraffineus, A. protophonniae, A. roseoparaffinus, A. sulfureus, A. ureafaciens), la especie Bacillus (por ejemplo, B. thuringiensis, B. anthracis, B. megaterium, B. subtilis, B. lentus, B. circulars, B. pumilus, B. lautus, B. coagulans, B. brevis, B. firmus, B. alkaophius, B. licheniformis, B. clausii, B. stearothermophilus, B. halodurans y B. amiloliquefaciens. En realizaciones particulares, la célula hospedante será una cepa de Bacillus industrial que incluye, pero no se limita a, B. subtilis, B. pumilus, B. licheniformis, B. megaterium, B. clausii, B. stearothermophilus y B. amiloliquefaciens. En algunas realizaciones, la célula hospedante será una especie de Clostridium industrial (por ejemplo, C. acetobutilicum, C. tetani E88, C. lituseburense, C. saccharobutilicum, C. perfringens, C. beijerinckii). En algunas realizaciones, la célula hospedante será una especie de Corynebacterium industrial (por ejemplo, C. glutamicum, C. acetoacidophilum). En algunas realizaciones, la célula hospedante será una especie de Escherichia industrial (por ejemplo, E. coli). En algunas realizaciones, la célula hospedante será una especie de Erwinia industrial (por ejemplo, E. uredovora, E. carotovora, E. ananas, E. herbicola, E. punctata, E. terreus). En algunas realizaciones, la célula hospedante será una especie de Pantoea industrial (por ejemplo, P. citrea, P. agglomerans). En algunas realizaciones, la célula hospedante será una especie de Pseudomonas industrial (por ejemplo, P. putida, P. aeruginosa, P. mevalonii). En algunas realizaciones, la célula hospedante será una especie de Streptococcus industrial (por ejemplo, S. equisimiles, S. pyogenes, S. uberis). En algunas realizaciones, la célula hospedante será una especie de Streptomyces industrial (por ejemplo, S. ambofaciens, S. achromogenes, S. avermitilis, S. coelicolor, S. aureofaciens, S. aureus, S. fungicidicus, S. griseus, S. lividans). En algunas realizaciones, la célula hospedante será una especie de Zymomonas industrial (por ejemplo, Z. mobilis, Z. lipolytica), y similares.
La presente descripción es también adecuada para su uso con una variedad de tipos de células animales, incluyendo células de mamífero, por ejemplo, líneas celulares humanas (incluyendo células 293, WI38, PER.C6 y de melanoma de Bowes), de ratón (incluyendo 3T3, NS0, NS1, Sp2/0), de hámster (CHO, BHK), de mono (COS, FRhL, Vero) y de hibridoma.
En diversas realizaciones, las cepas que pueden usarse en la práctica de la descripción que incluyen cepas tanto procariotas como eucariotas, son fácilmente accesibles para el público de varias colecciones de cultivo tales como la American Type Culture Collection (ATCC), Deutsche Sammlung von Mikroorganismen und Zellkulturen GmbH (DSM), Centraalbureau Voor Schimmelcultures (CBS), y Agricultural Research Service Patent Culture Collection, Northern Regional Research Center (NRRL).
En algunas realizaciones, los métodos de la presente descripción son también aplicables a organismos multicelulares. Por ejemplo, la plataforma podría usarse para mejorar el rendimiento de cosechas. Los organismos pueden comprender una pluralidad de plantas tales como Gramineae, Fetucoideae, Poacoideae, Agrostis, Phleum, Dactilis, Sorgum, Setaria, Zea, Oryza, Triticum, Secale, Avena, Hordeum, Saccharum, Poa, Festuca, Stenotaphrum, Cynodon, Coix, Olyreae, Phareae, Compositae o Leguminosae. Por ejemplo, las plantas pueden ser maíz, arroz, soja, algodón, trigo, centeno, avena, cebada, guisante, judías, lenteja, cacahuete, haba de ñame, caupís, judías aterciopeladas, trébol, alfalfa, atramuz, algarroba, loto, melitoto, glicinia, guisante de olor, sorgo, mijo, girasol, colza o similares. De manera similar, los organismos pueden incluir una pluralidad de animales tales como mamíferos no humanos, pescado, insectos, o similares.
Generación de conjuntos de diversidad genética para utilización en la plataforma de ingeniería microbiana HTP y diseños genéticos
En algunas realizaciones, los métodos de la presente descripción se caracterizan como diseño genético. Tal como se usa aquí, el término diseño genético se refiere a la reconstrucción o alteración del genoma de un organismo hospedante a través de la identificación y selección de las variantes más óptimas de un gen particular, la porción de un gen, promotor, codón de terminación, 5'UTR, 3'UTR, u otra secuencia de ADN para diseñar y crear nuevas células hospedantes superiores.
En algunas realizaciones, una primera etapa en los métodos de diseño genético de la presente descripción es obtener una población de conjunto de diversidad genética inicial con una pluralidad de variaciones de secuencia a partir de las que puede reconstruirse un nuevo genoma hospedante.
En algunas realizaciones, una etapa posterior en los métodos de diseño genético enseñados aquí es usar uno o más de los conjuntos de herramientas moleculares HTP mencionados anteriormente (por ejemplo, intercambio SNP o intercambio de promotor) para construir bibliotecas de diseños genéticos HTP, que entonces funcionan como accionadores del proceso de ingeniería genómica, proporcionando bibliotecas de alteraciones genómicas particulares para someter a prueba en una célula hospedante.
Aprovechamiento de conjuntos de diversidad de cepas de tipo silvestre existentes
En algunas realizaciones, la presente descripción enseña métodos para identificar la diversidad de secuencias presente entre microbios de una población de tipo silvestre dada. Por tanto, un conjunto de diversidad puede ser un número dado n de microbios de tipo silvestre utilizados para el análisis, representando los genomas de dichos microbios el “conjunto de diversidad.”
En algunas realizaciones, los conjuntos de diversidad pueden ser el resultado de la diversidad existente presente en la variación genética natural entre dichos microbios de tipo silvestre. Esta variación puede resultar de variantes de cepa de una célula hospedante dada o puede ser el resultado de que los microbios son especies diferentes en su totalidad. Las variaciones genéticas pueden incluir cualquier diferencia en la secuencia genética de las cepas, ya se produzcan de manera natural o no. En algunas realizaciones, las variaciones genéticas pueden incluir intercambios SNP, intercambios PRO, intercambios de codón de iniciación/terminación, o intercambios STOP, entre otros.
Aprovechamiento de conjuntos de diversidad de variantes de cepas industriales existentes
En otras realizaciones de la presente descripción, los conjuntos de diversidad son variantes de cepas creadas durante procesos de mejora de cepas tradicionales (por ejemplo, una o más cepas de organismo hospedante generadas por medio de mutación aleatoria y seleccionadas para producciones mejoradas a lo largo de los años). Por tanto, en algunas realizaciones, el conjunto de diversidad o los organismos hospedantes pueden comprender una colección de cepas de producción históricas.
En aspectos particulares, un conjunto de diversidad puede ser una cepa microbiana parental original (Si) con una secuencia genética “inicial” en un punto de tiempo particular (S1Gem) y entonces cualquier número de cepas de descendencia posteriores (S2, S3, S4, S5, etc., generalizable a S2-n) que se derivaron/desarrollaron a partir de dicha cepa S1 y que tienen un genoma diferente (S2-nGen2-n), en relación con el genoma inicial de S1.
Por ejemplo, en algunas realizaciones, la presente descripción enseña secuenciar los genomas microbianos en un conjunto de diversidad para identificar los SNP presentes en cada cepa. En una realización, las cepas del conjunto de diversidad son cepas de producción microbianas históricas. Por tanto, un conjunto de diversidad de la presente descripción puede incluir, por ejemplo, una cepa de base industrial, y una o más cepas mutadas industriales producidas por medio de programas de mejora de cepas tradicionales.
Una vez que se han identificado todos los SNP en el conjunto de diversidad, la presente descripción enseña métodos de intercambio SNP y métodos de examen para definir (es decir, cuantificar y caracterizar) los efectos (por ejemplo, creación de un fenotipo de interés) de SNP individualmente y en grupos. Por tanto, tal como se ha mencionado anteriormente, una etapa inicial en la plataforma enseñada puede ser obtener una población de conjunto de diversidad genética inicial con una pluralidad de variaciones de secuencia, por ejemplo, SNP. Entonces, una etapa posterior en la plataforma enseñada puede ser usar uno o más de los conjuntos de herramientas moleculares HTP mencionados anteriormente (por ejemplo, intercambio SNP) para construir bibliotecas de diseños genéticos HTP, que entonces funcionan como accionadores del proceso de ingeniería genómica, proporcionando bibliotecas de alteraciones genómicas particulares para someter a prueba en un microbio.
En algunas realizaciones, los métodos de intercambio SNP de la presente descripción comprende la etapa de introducir uno o más SNP identificados en una cepa mutada (por ejemplo, una cepa de entre S2-nGen2-n) en una cepa de base (SiGeni) o cepa de tipo silvestre.
En otras realizaciones, los métodos de intercambio SNP de la presente descripción comprenden la etapa de eliminar uno o más SNP identificados en una cepa mutada (por ejemplo, una cepa de entre S2-nGen2-n).
Creación de conjuntos de diversidad por medio de mutagénesis
En algunas realizaciones, las mutaciones de interés en una población de conjunto de diversidad dada de células pueden generarse artificialmente mediante cualquier medio para mutar cepas, incluyendo productos químicos mutagénicos, o radiación. El término “mutagenizar” se usa aquí para hacer referencia a un método para inducir una o más modificaciones genéticas en material de ácido nucleico celular.
La expresión “modificación genética” se refiere a cualquier alteración de ADN. Las modificaciones genéticas representativas incluyen inserciones, deleciones, sustituciones de nucleótidos, y combinaciones de las mismas, y pueden ser tan pequeñas como una única base o tan grandes como decenas de miles de bases. Por tanto, el término “modificación genética” abarca inversiones de una secuencia de nucleótidos y otras redisposiciones cromosómicas, mediante las cuales se altera la posición u orientación de ADN que comprende una región de un cromosoma. Una redisposición cromosómica puede comprender una redisposición intracromosómica o una redisposición intercromosómica.
En una realización, los métodos de mutagenización empleados en la materia reivindicada aquí son sustancialmente aleatorios de modo que una modificación genética puede producirse en cualquier posición de nucleótido disponible dentro del material de ácido nucleico que debe mutagenizarse. Dicho de otro modo, en una realización, la mutagenización no muestra una preferencia o frecuencia aumentada de aparición en secuencias de nucleótidos particulares.
Los métodos de la descripción pueden emplear cualquier agente mutagénico incluyendo, pero sin limitarse a: luz ultravioleta, radiación de rayos X, radiación gamma, N-etil-N-nitrosourea (ENU), metilnitrosourea (MNU), procarbazina (PRC), trietilenmelamina (TEM), monómero de acrilamida (AA), clorambucilo (CHL), melfalán (MLP), ciclofosfamida (CPP), sulfato de dietilo (DES), metanosulfonato de etilo (EMS), metanosulfonato de metilo (MMS), 6-mercaptopurina (6-Mp), mitomicina-C (MMC), N-metil-N'-nitro-N-nitrosoguanidina (MNNG), 3H2O, y uretano (Ur) (véase, por ejemplo, Rinchik, 1991; Marker et al., 1997; y Russell, 1990). Los expertos en la técnica conocen ampliamente agentes mutagénicos adicionales, incluyendo los descritos en http://www.iephb.nw.ru/~spirov/hazard/mutagen_lst.html.
El término “mutagenizar” abarca también un método para alterar (por ejemplo, mediante mutación dirigida) o modular una función celular, para potenciar de ese modo una tasa, calidad o grado de mutagénesis. Por ejemplo, una célula puede alterarse o modularse para de ese modo ser disfuncional o deficiente en la reparación de ADN, metabolismo de mutágenos, la sensibilidad de mutágenos, la estabilidad genómica, o combinaciones de los mismos. Por tanto, la perturbación de funciones génicas que mantienen normalmente la estabilidad genómica puede usarse para potenciar la mutagénesis. Las dianas de perturbación representativas incluyen, pero no se limitan a, ADN ligasa I (Bentley et al., 2002) y caseína cinasa I (patente U.S. n° 6.060.296).
En algunas realizaciones, la mutagénesis específica del sitio (por ejemplo, mutagénesis dirigida a cebador usando un kit disponible comercialmente tal como el kit de mutagénesis Transformer Site Directed (Clontech)) se usa para hacer una pluralidad de cambios por toda una secuencia de ácido nucleico con el fin de generar ácido nucleico que codifique una enzima de escisión de la presente descripción.
La frecuencia de modificación genética tras la exposición a uno o más agentes mutagénicos puede modularse variando la dosis y/o la repetición de tratamiento, y puede adaptarse para una aplicación particular.
Por tanto, en algunos ejemplos, “mutagénesis” tal como se usa aquí comprende todas las técnicas conocidas en la técnica para inducir mutaciones, incluyendo mutagénesis por PCR propensa a errores, mutagénesis dirigida por oligonucleótidos, mutagénesis dirigida al sitio y recombinación de secuencias iterativa mediante cualquiera de las técnicas descritas aquí.
Mutaciones de un solo locus para generar diversidad
En algunas realizaciones, la presente descripción enseña mutar poblaciones celulares introduciendo, delecionando o sustituyendo porciones seleccionadas de ADN genómico. Por tanto, en algunas realizaciones, la presente descripción enseña métodos para dirigir mutaciones a un locus específico. En otras realizaciones, la presente descripción enseña el uso de tecnologías de edición genética tales como ZFNs, TALENS o CRISPR, para editar de manera selectiva regiones de ADN diana.
En otras realizaciones, la presente descripción enseña mutar regiones de ADN seleccionadas fuera del organismo hospedante, y entonces insertar la secuencia mutada de vuelta en el organismo hospedante. Por ejemplo, en algunas realizaciones, la presente descripción enseña mutar promotores nativos o sintéticos para producir una gama de variantes de promotor con diversas propiedades de expresión (véase escalera de promotores más adelante). En otras realizaciones, la presente descripción es compatible con técnicas optimización de genes individuales, tales como ProSAR (Fox et al. 2007. “Improving catalytic funtion by ProSAR-driven enzyme evolution.” Nature Biotechnology vol. 25 (3) 338-343).
En algunas realizaciones, las regiones seleccionadas de ADN se producen in vitro por medio de la transposición génica de variantes naturales, o la transposición con oligos sintéticos, la recombinación plásmido-plásmido, la recombinación de plásmido de virus, la recombinación virus-virus. En otras realizaciones, las regiones genómicas se producen por medio de PCR propensa a errores (Véase, por ejemplo, la Figura 1).
En algunas realizaciones, la generación de mutaciones en regiones genéticas seleccionadas se lleva a cabo mediante “PCR de reensamblaje”. Brevemente, se sintetizan cebadores de oligonucleótidos (oligos) para la amplificación por PCR de segmentos de una secuencia de ácido nucleico de interés, de modo que las secuencias de los oligonucleótidos solapen las uniones de dos segmentos. La región de solapamiento normalmente es de aproximadamente 10 a 100 nucleótidos de longitud. Cada uno de los segmentos se amplifica con un conjunto de tales cebadores. Los productos de PCR se “reensamblan” entonces según protocolos de ensamblaje. Brevemente, en un protocolo de ensamblaje, los productos de PCR se separan en primer lugar mediante purificación de los cebadores, mediante, por ejemplo, electroforesis en gel o cromatografía de exclusión por tamaño. Los productos purificados se mezclan entre sí y se someten a aproximadamente 1-10 ciclos de desnaturalización, nueva hibridación y extensión en presencia de polimerasa y desoxinucleósido trifosfatos (dNTP) y sales tampón apropiadas en ausencia de cebadores adicionales (“autocebado”). PCR posteriores con cebadores que flanquean el gen se usan para amplificar la producción de los genes completamente reensamblados y transpuestos.
En algunas realizaciones de la descripción, regiones de ADN mutadas, tales como las discutidas anteriormente, se enriquecen para secuencias mutantes de modo que el espectro mutante múltiple, es decir, posibles combinaciones de mutaciones, se muestrea de manera más eficiente. En algunas realizaciones, las secuencias mutadas se identifican por medio de una matriz de afinidad de proteínas mutS (Wagner et al., Nucleic Acids Res. 23(19):3944-3948 (1995); Su et al., Proc. Natl. Acad. Sci. (U.S.A.), 83:5057-5061 (1986)) con una etapa preferida de amplificación del material purificado por afinidad in vitro antes de una reacción de ensamblaje. Este material amplificado se pone entonces en una reacción de PCR de ensamblaje o reensamblaje tal como se describe en partes posteriores de esta solicitud.
Escaleras de promotores
Los promotores regulan la tasa a la que se transcriben los genes, y pueden influir en la transcripción en una variedad de modos. Los promotores constitutivos, por ejemplo, dirigen la transcripción de sus genes asociados a una tasa constante independientemente de las condiciones celulares internas o externas, mientras que los promotores regulables aumentan o disminuyen la tasa a la que se transcribe un gen dependiendo de las condiciones celulares internas y/o externas, por ejemplo, tasa de crecimiento, temperatura, respuestas a productos químicos ambientales específicos, y similares. Los promotores pueden aislarse de sus contextos celulares normales y modificarse mediante ingeniería para regular la expresión de prácticamente cualquier gen, posibilitando la modificación efectiva del crecimiento celular, la producción de producto y/u otros fenotipos de interés.
En algunas realizaciones, la presente descripción enseña métodos para producir bibliotecas de escalares de promotores para su uso en métodos de diseño genético posteriores. Por ejemplo, en algunas realizaciones, la presente descripción enseña métodos de identificación de uno o más promotores y/o de generación de variantes de uno o más promotores dentro de una célula hospedante, que presentan un intervalo de fuerzas de expresión, o propiedades reguladoras superiores. Una combinación particular de estos promotores identificados y/o generados puede agruparse como una escalera de promotores, que se explica en más detalle a continuación.
En algunas realizaciones, la presente descripción enseña el uso de escaleras de promotores. En algunas realizaciones, las escaleras de promotores de la presente descripción comprenden promotores que presentan un intervalo continuo de perfiles de expresión. Por ejemplo, en algunas realizaciones, se crean escaleras de promotores: identificando promotores naturales, nativos o de tipo silvestre que presentan un intervalo de fuerzas de expresión en respuesta a un estímulo, o a través de expresión constitutiva (véase, por ejemplo, la Figura 20 y las Figuras 28-30). Estos promotores identificados pueden agruparse como una escalera de promotores.
En otras realizaciones, la presente descripción enseña la creación de escaleras de promotores que presentan un intervalo de perfiles de expresión entre diferentes condiciones. Por ejemplo, en algunas realizaciones, la presente descripción enseña la creación de una escalera de promotores con picos de expresión propagados por todas las diferentes fases de una fermentación (véase, por ejemplo, la Figura 28). En otras realizaciones, la presente descripción enseña la creación de una escalera de promotores con diferentes dinámicas de picos de expresión en respuesta a un estímulo específico (véase, por ejemplo, la Figura 29). Los expertos en la técnica reconocerán que las escaleras de promotores reguladoras de la presente descripción pueden ser representativas de uno cualquier o más perfiles reguladores.
En algunas realizaciones, las escaleras de promotores de la presente descripción están diseñadas para perturbar la expresión génica de una manera predecible entre un intervalo continuo de respuestas. En algunas realizaciones, la naturaleza continua de una escalera de promotores confiere a los programas de mejora de cepas un poder predictivo adicional. Por ejemplo, en algunas realizaciones, el intercambio de promotores o secuencias de terminación de una ruta metabólica seleccionada puede producir una curva de rendimiento de célula hospedante, que identifica el perfil o la relación de expresión más óptima; producir una cepa en la que el gen seleccionado como diana ya no es un factor limitante para una cascada genética o reacción particular, mientras que también se evita la sobreexpresión innecesaria o expresión errónea en circunstancias inapropiadas. En algunas realizaciones, se crean escaleras de promotores: identificando promotores naturales, nativos o de tipo silvestre que presentan los perfiles deseados. En otras realizaciones, las escaleras de promotores se crean mutando promotores que se producen de manera natural para derivar múltiples secuencias promotoras mutadas. Cada uno de estos promotores mutados se somete a prueba para el efecto sobre la expresión del gen diana. En algunas realizaciones, los promotores editados se someten a prueba para la actividad de expresión entre una variedad de condiciones, de modo que la actividad de cada variante de promotor se documenta/caracteriza/anota y almacena en una base de datos. Las variantes de promotor editadas resultantes se organizan posteriormente en escaleras de promotores dispuestas basándose en la fuerza de su expresión (por ejemplo, con variantes de expresión alta cerca de la parte superior, y de expresión atenuada cerca de la parte inferior, conduciendo así al término “escalera”).
En algunas realizaciones, la presente descripción enseña escaleras de promotores que son una combinación de promotores que se producen de manera natural identificados y promotores de variante mutados.
En algunas realizaciones, la presente descripción enseña métodos de identificación de promotores naturales, nativos o de tipo silvestre que cumplen ambos de los siguientes criterios: 1) representaban una escalera de promotores constitutivos; y 2) podrían codificarse por secuencias de ADN cortas, de manera ideal de menos de 100 pares de bases. En algunas realizaciones, los promotores constitutivos de la presente descripción presentan una expresión génica constante entre dos condiciones de crecimiento seleccionadas (normalmente en comparación con condiciones experimentadas durante el cultivo industrial). En algunas realizaciones, los promotores de la presente descripción consistirán en un promotor de núcleo de ~60 pares de bases, y una 5' UTR de entre 26 y 40 pares de bases de longitud.
En algunas realizaciones, una o más de las secuencias promotoras que se producen de manera natural identificadas mencionadas anteriormente se eligen para la edición genética. En algunas realizaciones, los promotores naturales se editan por medio de cualquiera de los métodos de mutación descritos anteriormente. En otras realizaciones, los promotores de la presente descripción se editan sintetizando nuevas variantes de promotor con la secuencia deseada.
Se hace referencia a toda la descripción de la solicitud de patente U.S. n° 62/264.232, presentada el 07 de diciembre de 2015.
Una lista no exhaustiva de los promotores de la presente descripción se proporciona en la Tabla 1 a continuación. Cada una de las secuencias de promotor puede denominarse como promotor heterólogo o polinucleótido de promotor heterólogo.
Tabla 1. Secuencias promotoras seleccionadas de la presente descripción.
Figure imgf000035_0001
En algunas realizaciones, los promotores de la presente descripción presentan al menos el 100%, 99%, 98%, 97%, 96%, 95%, 94%, 93%, 92%, 91%, 90%, 89%, 88%, 87%, 86%, 85%, 84%, 83%, 82%, 81%, 80%, 79%, 78%, 77%, 76%, o 75% de identidad de secuencia con un promotor de la tabla anterior.
Escaleras de terminadores
En algunas realizaciones, la presente descripción enseña métodos de mejora de cepas hospedantes modificadas mediante ingeniería genética proporcionando una o más secuencias de terminación transcripcional en una posición 3' con respecto al extremo del elemento codificante de ARN. En algunas realizaciones, la presente descripción enseña que la adición de secuencias de terminación mejora la eficiencia de transcripción de ARN de un gen seleccionado en el hospedante modificado mediante ingeniería genética. En otras realizaciones, la presente descripción enseña que la adición de secuencias de terminación reduce la eficiencia de transcripción de ARN de un gen seleccionado en el hospedante modificado mediante ingeniería genética. Por tanto, en algunas realizaciones, las escaleras de terminadores de la presente descripción comprenden una serie de secuencias terminadoras que presentan un intervalo de eficiencias de transcripción (por ejemplo, un terminador débil, un terminador promedio y un promotor fuerte).
Una secuencia de terminación transcripcional puede ser cualquier secuencia de nucleótidos, que cuando se pone transcripcionalmente secuencia abajo de una secuencia de nucleótidos que codifica un marco de lectura abierto, provoca el fin de la transcripción del marco de lectura abierto. Tales secuencias se conocen en la técnica y pueden ser de origen procariota, eucariota o de fago. Los ejemplos de secuencias terminadoras incluyen, pero no se limitan a, terminador PTH, terminador pET-T7, terminador T3-Tj, terminador pBR322-P4, terminador del virus de la estomatitis vesicular, terminador rrnB-T1, terminador rrnC, terminador transcripcional TTadc y secuencias de terminación reconocidas por levadura, tales como terminador de transcripción Mata (factor a), secuencia de terminación de la transcripción de factor a nativa, secuencia de terminación de la transcripción de ADR1, secuencia de terminación de la transcripción de ADH2, y secuencia de terminación de la transcripción de GAPD. Un listado no exhaustivo de secuencias terminadoras transcripcionales puede encontrarse en el registro iGEM, que está disponible en: http://partsregistry.org/Terminators/Catalog.
En algunas realizaciones, las secuencias de terminación transcripcional pueden ser específicas de polimerasa o no específicas, sin embargo, los terminadores transcripcionales seleccionados para su uso en las presentes realizaciones deben formar una “combinación funcional” con el promotor seleccionado, lo que significa que la secuencia terminadora debe ser capaz de terminar la transcripción mediante el tipo de ARN polimerasa que se inicia en el promotor. Por ejemplo, en algunas realizaciones, la presente descripción enseña que un promotor de ARN pol 1 eucariota y terminadores de ARN pol II eucariotas, un promotor T7 y terminadores T7, un promotor T3 y terminadores T3, un promotor reconocido por levadura y secuencias de terminación reconocidas por levadura, etc., formarían generalmente una combinación funcional. La identidad de las secuencias de terminación transcripcional usadas también puede seleccionarse basándose en la eficiencia con la que se termina la transcripción de un promotor dado. Por ejemplo, puede proporcionarse una secuencia terminadora transcripcional heteróloga transcripcionalmente secuencia abajo del elemento codificante de ARN para conseguir una eficiencia de terminación de al menos el 60%, al menos el 70%, al menos el 75%, al menos el 80%, al menos el 85%, al menos el 90%, al menos el 91%, al menos el 92%, al menos el 93%, al menos el 94%, al menos el 95%, al menos el 96%, al menos el 97%, al menos el 98% o al menos el 99% de un promotor dado.
En algunas realizaciones, la eficiencia de transcripción de ARN del constructo de expresión modificado mediante ingeniería puede mejorarse proporcionando una secuencia de ácido nucleico que forma una estructura secundaria que comprende dos o más horquillas en una posición 3' con respeto al extremo del elemento codificante de ARN. Sin querer estar restringido a una teoría particular, la estructura secundaria desestabiliza el complejo de elongación de la transcripción y conduce a que la polimerasa se disocie de la plantilla de ADN, minimizando de ese modo la transcripción no productiva de secuencia no funcional y aumentando la transcripción del ARN deseado. Por consiguiente, puede proporcionarse una secuencia de terminación que forma una estructura secundaria que comprende dos o más horquillas adyacentes. Generalmente, una horquilla puede formarse mediante una secuencia de nucleótidos palíndroma que puede replegarse sobre sí misma para formar una región de tallo de pared cuyos brazos están conectados mediante un bucle monocatenario. En algunas realizaciones, la secuencia de terminación comprende 2, 3, 4, 5, 6, 7, 8, 9, 10 o más horquillas adyacentes. En algunas realizaciones, las horquillas adyacentes están separadas por 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14 o 15 nucleótidos no emparejados. En algunas realizaciones, un tallo de horquilla comprende 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30 o más pares de bases de longitud. En ciertas realizaciones, un tallo de horquilla tiene de 12 a 30 pares de bases de longitud. En ciertas realizaciones, la secuencia de terminación comprende dos o más horquillas de tamaño medio que tienen una región de tallo que comprende aproximadamente de 9 a 25 pares de bases. En algunas realizaciones, la horquilla comprende una región formadora de bucle de 1, 2, 3, 4, 5, 6, 7, 8, 9 o 10 nucleótidos. En algunas realizaciones, la región formadora de bucle comprende 4-8 nucleótidos. Sin querer restringirse a una teoría particular, la estabilidad de la estructura secundaria puede correlacionarse con la eficiencia de terminación. La estabilidad de la horquilla se determina mediante su longitud, el número de apareamientos erróneos o abombamientos que contiene y la composición de base de la región apareada. Los apareamientos entre guanina y citosina tienen tres enlaces de hidrógeno y son más estables en comparación con los apareamientos de adenina-timina, que solo tienen dos. El contenido de G/C de una secuencia de nucleótidos palíndroma que forma horquillas puede ser de al menos el 60%, al menos el 65%, al menos el 70%, al menos el 75%, al menos el 80%, al menos el 85%, al menos el 90% o más. En algunas realizaciones, el contenido de G/C de una secuencia de nucleótidos palíndroma que forma horquillas es de al menos el 80%. En algunas realizaciones, la secuencia de terminación se deriva de una o más secuencias terminadoras transcripcionales de origen procariota, eucariota o de fago. En algunas realizaciones, una secuencia de nucleótidos que codifica una serie de 4, 5, 6, 7, 8, 9, 10 o más adeninas (A) se proporciona en 3' con respecto a la secuencia de terminación.
En algunas realizaciones, la presente descripción enseña el uso de una serie de secuencias de terminación en tándem. En algunas realizaciones, la primera secuencia terminadora transcripcional de una serie de 2, 3, 4, 5, 6, 7 o más puede colocarse directamente en 3' con respecto al nucleótido final del elemento que codifica ARNbc o a una distancia de al menos 1-5, 5-10, 10-15, 15-20, 20-25, 25-30, 30-35, 35-40, 40-45, 45-50, 50-100, 100-150, 150-200, 200-300, 300-400, 400-500, 500-1.000 o más nucleótidos en 3' con respecto al nucleótido final del elemento que codifica ARNbc. El número de nucleótidos entre secuencias terminadoras transcripcionales en tándem puede variarse, por ejemplo, las secuencias terminadoras transcripcionales pueden estar separadas por 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 10-15, 15-20, 20-25, 25-30, 30-35, 35-40, 40-45, 45-50 o más nucleótidos. En algunas realizaciones, las secuencias terminadoras transcripcionales pueden seleccionarse basándose en su estructura secundaria predicha tal como se determina mediante un algoritmo de predicción de estructura. Los programas de predicción estructura se conocen ampliamente en la técnica e incluyen, por ejemplo, CLC Main Workbench.
Los expertos en la técnica reconocerán que los métodos de la presente descripción son compatibles con cualquier secuencia de terminación. En algunas realizaciones, la presente descripción enseña el uso de terminadores de Corynebacterium glutamicum anotados tal como se da a conocer en Pfeifer-Sancar et al. 2013. “Comprehensive analysis of the Corynebacterium glutamicum transcritome using an improved RNAseq technique” Pfeifer-Sancar et al. BMC Genomics 2013, 14:888). En otras realizaciones, la presente descripción enseña el uso de secuencias terminadoras transcripcionales encontradas en el registro iGEM, que está disponible en: http://partsregistry.org/Terminators/Catalog. Un listado no exhaustivo de secuencias terminadoras transcripcionales de la presente descripción se proporciona en la Tabla 1.1 a continuación.
Tabla 1.1. Lista no exhaustiva de secuencias de terminación de la presente descripción.
Figure imgf000037_0001
Figure imgf000038_0001
Conjuntos de diversidad accionados por hipótesis y ascenso de colinas
La presente descripción enseña que los métodos de ingeniería genómica HTP de la presente descripción no requieren conocimiento genético previo con el fin de conseguir ganancias significativas en el rendimiento de la célula hospedante. De hecho, la presente descripción enseña métodos de generación de conjuntos de diversidad por medio de varios enfoques funcionalmente agnósticos, incluyendo mutagénesis aleatoria, y la identificación de diversidad genética entre variantes de célula hospedante preexistentes (por ejemplo, tal como la comparación entre una célula hospedante de tipo silvestre y una variante industrial).
Sin embargo, en algunos ejemplos la presente descripción enseña también métodos accionados por hipótesis de diseño de mutaciones de diversidad genética que se usarán para ingeniería HTP posterior. Es decir, en algunas realizaciones, la presente descripción enseña el diseño dirigido de mutaciones seleccionadas. En algunas realizaciones, las mutaciones dirigidas se incorporan en las bibliotecas de ingeniería de la presente descripción (por ejemplo, intercambio SNP, intercambio PRO, o intercambio STOP).
En algunas realizaciones, la presente descripción enseña la creación de mutaciones dirigidas basándose en anotación de genes, función génica hipotética (o confirmada) o la ubicación dentro de un genoma. Los conjuntos de diversidad de la presente descripción pueden incluir mutaciones en genes cuya hipótesis es que están implicados en una ruta metabólica o genética específica asociada en la bibliografía con un rendimiento aumentado de una célula hospedante. En otras realizaciones, el conjunto de diversidad de la presente descripción también puede incluir mutaciones en genes presentes en un operón asociado con un rendimiento del hospedante mejorado. En aún otras realizaciones, el conjunto de diversidad de la presente descripción también puede incluir mutaciones en genes basándose en la función predicha algorítmica u otra anotación génica.
En algunas realizaciones, la presente descripción enseña un enfoque basado en la “envuelta” para priorizar las dianas de mutaciones accionadas por hipótesis. La metáfora de la envuelta para la priorización de dianas se basa en la hipótesis de que solo un puñado de genes primarios son responsables de la mayoría de un aspecto particular del rendimiento de una célula hospedante (por ejemplo, producción de una única biomolécula). Estos genes primarios están ubicados en el núcleo de la envuelta, seguidos por genes efectores secundarios en la segunda capa, efectos terciarios en la tercera envuelta, y... etc. Por ejemplo, en una realización, el núcleo de la envuelta puede comprender genes que codifican para enzimas biosintéticas críticas dentro de una ruta metabólica seleccionada (por ejemplo, producción de ácido cítrico). Los genes ubicados en la segunda envuelta pueden comprender genes que codifican para otras enzimas dentro de la ruta de biosíntesis responsable de la desviación de producto o señalización de retroalimentación. Los genes de tercera categoría según esta metáfora ilustrativa comprenderían probablemente genes reguladores responsables de modular la expresión de la ruta de biosíntesis, o de regular el flujo de carbono general dentro de la célula hospedante.
La presente descripción enseña también métodos “de ascenso de colinas” para optimizar las ganancias de rendimiento de cada mutación identificada. En algunas realizaciones, la presente descripción enseña que mutaciones aleatorias, naturales o accionadas por hipótesis en bibliotecas de diversidad HTP pueden dar como resultado la identificación de genes asociados con el rendimiento de la célula hospedante. Por ejemplo, los presentes métodos pueden identificar uno o más SNP beneficiosos ubicados en, o cerca de, una secuencia codificante del gen. Este gen puede estar asociado con el rendimiento de la célula hospedante, y su identificación puede compararse con el descubrimiento de una “colina” de rendimiento en el espacio de mutaciones genéticas combinatorio de un organismo.
En algunas realizaciones, la presente descripción enseña métodos de exploración del espacio combinatorio alrededor de la colina identificada personificada en la mutación SNP. Es decir, en algunas realizaciones, la presente descripción enseña la perturbación del gen identificado y secuencias reguladoras asociadas con el fin de optimizar las ganancias de rendimiento obtenidas de ese nodo génico (es decir, ascenso de colina). Por tanto, según los métodos de la presente descripción, un gen puede identificarse en primer lugar en una biblioteca de diversidad conseguida a partir de mutagénesis aleatoria, pero puede mejorarse posteriormente para su uso en el programa de mejora de cepas a través de la mutación dirigida de otra secuencia dentro del mismo gen.
El concepto de ascenso de colina también puede expandirse más allá de la exploración del espacio combinatorio que rodea una secuencia génica individual. En algunas realizaciones, una mutación en un gen específico puede revelar la importancia de una ruta metabólica o genética particular para el rendimiento de la célula hospedante. Por ejemplo, en algunas realizaciones, el descubrimiento de que una mutación en un único gen de degradación de ARN daba como resultado ganancias de rendimiento del hospedante significativas pudo usarse como base para mutar genes de degradación de ARN relacionados como medio para extraer ganancias de rendimiento adicionales del organismo hospedante. Los expertos en la técnica reconocerán variantes de los enfoques de envuelta y ascenso de colina descritos anteriormente para el diseño genético dirigido. Examen de alto rendimiento.
Cultivo celular y fermentación
Las células de la presente descripción pueden cultivarse en medios nutritivos convencionales modificados según sea apropiado para cualquier selección o reacción biosintética deseada. En algunas realizaciones, la presente descripción enseña el cultivo en medios de inducción para activar promotores. En algunas realizaciones, la presente descripción enseña medios con agentes de selección, incluyendo agentes de selección de transformantes (por ejemplo, antibióticos), o selección de organismos adecuados para crecer en condiciones de inhibición (por ejemplo, condiciones con alto contenido de etanol). En algunas realizaciones, la presente descripción enseña el crecimiento de cultivos celulares en medios optimizados para el crecimiento celular. En otras realizaciones, la presente descripción enseña el crecimiento de cultivos celulares en medios optimizados para la producción de producto. En algunas realizaciones, la presente descripción enseña el crecimiento de cultivos en medios capaces de inducir el crecimiento celular y también contiene los precursores necesarios para la producción de producto final (por ejemplo, altos niveles de azúcares para la producción de etanol).
Las condiciones de cultivo, tales como temperatura, pH y similares, son aquellas adecuadas para su uso con la célula hospedante seleccionada para la expresión, y resultarán evidentes para los expertos en la técnica. Como se indica, muchas referencias están disponibles para el cultivo y la producción de muchas células, incluyendo células de origen bacteriano, vegetal, animal (incluyendo de mamífero) y de Archaebacteria. Véase, por ejemplo, Sambrook, Ausubel (todo anteriormente), así como Berger, Guide to Molecular Cloning Techniques, Methods in Enzymology volumen 152 Academic Press, Inc., San Diego, CA; y Freshney (1994) Culture of Animal Cells, a Manual of Basic Technique, tercera edición, Wiley-Liss, Nueva York y las referencia citadas en los mismos; Doile y Griffiths (1997) Mammalian Cell Culture: Essential Techniques John Wiley and Sons, NY; Humason (1979) Animal Tissue Techniques, cuarta edición W.H. Freeman y Company; y Ricciardelle et al., (1989) In vitro Cell Dev. Biol. 25:1016-1024. Para el cultivo y la regeneración de células vegetales, Payne et al. (1992) Plant Cell and Tissue Culture in Liquid Systems John Wiley & Sons, Inc. New York, N.Y.; Gamborg y Phillips (eds) (1995) Plant Cell, Tissue and Organ Culture; Fundamental Methods Springer Lab Manual, Springer-Verlag (Berlin Heidelberg N.Y.); Jones, ed. (1984) Plant Gene Transfer and Expression Protocols, Humana Press, Totowa, N.J. y Plant Molecular Biology (1993) R. R. D. Croy, Ed. Bios Scientific Publishers, Oxford, U.K. ISBN 0121983706. Medios de cultivo celular en general se exponen en Atlas y Parks (eds.) The Handbook of Microbiological Media (1993) CRC Press, Boca Raton, Fla. Información adicional para el cultivo celular se encuentra en la bibliografía comercial disponible, tal como el Life Science Research Cell Culture Catalogue de Sigma-Aldrich, Inc (St Louis, Mo.) (“Sigma-LSRCCC”) y, por ejemplo, The Plant Culture Catalogue, y su suplemento, también de Sigma-Aldrich, Inc (St Louis, Mo.) (“Sigma-PCCS”).
El medio de cultivo que debe usarse tiene que cumplir de manera adecuada las demandas de las respectivas cepas. Descripciones de medios de cultivo para diversos microorganismos están presentes en el “Manual of Methods for General Bacteriology” de la Sociedad Americana de Bacteriología (Washington D.C., USA, 1981).
La presente descripción proporciona además un proceso para la preparación fermentativa de un producto de interés, que comprende las etapas de: a) cultivar un microorganismo según la presente descripción en un medio adecuado, dando como resultado un caldo de fermentación; y b) concentrar el producto de interés en el caldo de fermentación de a) y/o en las células del microorganismo.
En algunas realizaciones, la presente descripción enseña que los microorganismos producidos pueden cultivarse de manera continua - tal como se describe, por ejemplo, en el documento WO 05/021772 - o de manera discontinua en un proceso por lotes (cultivo en lotes) o en un proceso de alimentación por lotes o alimentación por lotes repetida con el propósito de producir el compuesto químico orgánico deseado. Un sumario de naturaleza general sobre métodos de cultivo conocidos está disponible en el libro de texto de Chmiel (Bioprozeptechnik. 1: Einführung in die Bioverfahrenstechnik (Gustav Fischer Verlag, Stuttgart, 1991)) o en el libro de texto Storhas (Bioreaktoren und periphere Einrichtungen (Vieweg Verlag, Braunschweig/Wiesbaden, 1994)).
En algunas realizaciones, las células de la presente descripción se hacen crecer en condiciones de fermentaciones por lotes o continuas.
La fermentación por lotes clásica es un sistema cerrado, en el que las composiciones del medio se fijan al principio de la fermentación y no se someten a alternaciones artificiales durante la fermentación. Una variación del sistema por lotes es una fermentación alimentada por lotes que también encuentra uso en la presente descripción. En esta variación, el sustrato se añade en incrementos a medida que la fermentación progresa. Los sistemas de alimentación por lotes son útiles cuando es probable que la represión por catabolito inhiba el metabolismo de las células y cuando sea deseable tener cantidades limitadas de sustrato en el medio. Las fermentaciones por lotes y alimentadas por lotes son comunes y ampliamente conocidas en la técnica.
La fermentación continua es un sistema en el que se añade de manera continua un medio de fermentación definido a un biorreactor y una cantidad igual de medio acondicionado se elimina simultáneamente para el procesamiento y la recogida de productos de interés biomoleculares deseados. En algunas realizaciones, la fermentación continua mantiene generalmente los cultivos a una densidad alta constante en la que las células están principalmente en crecimiento en fase logarítmica. En algunas realizaciones, la fermentación continua mantiene generalmente los cultivos en crecimiento en fase estacionaria o logarítmica tardía/estacionaria. Los sistemas de fermentación continua tratan de mantener condiciones de crecimiento en estado constante.
Métodos para modular nutrientes y factores de crecimiento para procesos de fermentación continua, así como técnicas para maximizar la tasa de formación de producto, se conocen ampliamente en la técnica de microbiología industrial.
Por ejemplo, una lista no limitativa de fuentes de carbono para los cultivos de la presente descripción incluyen, azúcares y carbohidratos tales como, por ejemplo, glucosa, sacarosa, lactosa, fructosa, maltosa, melaza, disoluciones que contienen sacarosa de remolacha azucarera o procesamiento de la caña de azúcar, almidón, hidrolizado de almidón y celulosa; aceites y grasas tales como, por ejemplo, aceite de soja, aceite de girasol, aceite de cacahuete y grasa de coco; ácidos grasos tales como, por ejemplo, ácido palmítico, ácido esteárico y ácido linoleico; alcoholes tales como, por ejemplo, glicerol, metanol y etanol; y ácidos orgánicos tales como, por ejemplo, ácido acético o ácido láctico.
Una lista no limitativa de las fuentes de nitrógeno para los cultivos de la presente descripción incluye, compuestos que contienen nitrógeno orgánico tales como peptonas, extracto de levadura, extracto de carne, extracto de malta, licor de maíz fermentado, harina de soja y urea; o compuestos inorgánicos tales como sulfato de amonio, cloruro de amonio, fosfato de amonio, carbonato de amonio y nitrato de amonio. Las fuentes de nitrógeno pueden usarse individualmente o como mezcla.
Una lista no limitativa de las posibles fuentes de fósforo para los cultivos de la presente descripción incluye, ácido fosfórico, dihidrogenofosfato de potasio o hidrogenofosfato de dipotasio o las sales que contienen sodio correspondientes.
El medio de cultivo puede comprender adicionalmente sales, por ejemplo, en forma de cloruros o sulfatos de metales tales como, por ejemplo, sodio, potasio, magnesio, calcio y hierro, tal como, por ejemplo, sulfato de magnesio o sulfato de hierro, que son necesarios para el crecimiento.
Finalmente, factores de crecimiento esenciales tales como aminoácidos, por ejemplo, homoserina y vitaminas, por ejemplo, tiamina, biotina o ácido pantoténico, pueden emplearse además de las sustancias mencionadas anteriormente.
En algunas realizaciones, el pH del cultivo puede controlarse mediante un ácido o base, o sal tampón, incluyendo, pero sin limitarse a, hidróxido de sodio, hidróxido de potasio, amoniaco o amoniaco acuoso; o compuestos ácidos tales como ácido fosfórico o ácido sulfúrico de manera adecuada. En algunas realizaciones, el pH se ajusta generalmente a un valor de desde 6,0 hasta 8,5, preferiblemente de 6,5 a 8.
En algunas realizaciones, los cultivos de la presente descripción pueden incluir un agente antiespumante tal como, por ejemplo, ésteres de poliglicol de ácidos grasos. En algunas realizaciones, los cultivos de la presente descripción se modifican la estabilizar los plásmidos de los cultivos añadiendo sustancias selectivas adecuadas tales como, por ejemplo, antibióticos.
En algunas realizaciones, el cultivo se lleva a cabo en condiciones aerobias. Con el fin de mantener estas condiciones, se introducen oxígeno o mezclas de gas que contiene oxígeno tales como, por ejemplo, aires en el cultivo. Es igualmente posible usar líquidos enriquecidos con peróxido de hidrógeno. La fermentación se lleva a cabo, cuando se apropiado, a presión elevada, por ejemplo, a una presión elevada de desde 0,03 hasta 0,2 MPa. La temperatura del cultivo es normalmente de desde 20°C hasta 45°C y preferiblemente de desde 25°C hasta 40°C, de manera particularmente preferible de desde 30°C hasta 37°C. En procesos por lotes o de alimentación por lotes, se continúa con el cultivo preferiblemente hasta que se haya formado una cantidad del producto de interés deseado (por ejemplo, un compuesto químicos orgánicos) suficientes para recuperarse. Este propósito puede conseguirse normalmente en el plazo de 10 horas a 160 horas. En procesos continuos son posibles tiempos de cultivo más largos. La actividad de los microorganismos da como resultado una concentración (acumulación) del producto de interés en el medio de fermentación y/o en las células de dichos microorganismos.
En algunas realizaciones, el cultivo se lleva a cabo en condiciones anaerobias.
Examen
En algunas realizaciones, la presente descripción enseña exámenes iniciales de alto rendimiento. En otras realizaciones, la presente descripción enseña también validaciones basadas en tanques robustas de datos de rendimiento (véase la Figura 6B).
En algunas realizaciones, el proceso de examen de alto rendimiento está diseñado para predecir el rendimiento de cepas en biorreactores. Tal como se describió anteriormente, las condiciones de cultivo se seleccionan para ser adecuadas para el organismo y reflejar las condiciones de biorreactor. Se cogen colonias individuales y se transfieren a placas de 96 pocillos y se incuban durante una cantidad de tiempo adecuada. Las células se transfieren posteriormente a nuevas placas de 96 pocillos para cultivos de siembra adicionales, o para cultivos de producción. Los cultivos se incuban durante duraciones de tiempo variables, en las que pueden hacerse múltiples mediciones. Estas pueden incluir mediciones de producto, biomasa u otras características que predigan el rendimiento de cepas en biorreactores. Los resultados de cultivo de alto rendimiento se usan para predecir el rendimiento del biorreactor.
En algunas realizaciones, la validación del rendimiento basada en tanques se usa para confirmar el rendimiento de cepas aisladas mediante examen de alto rendimiento. Los procesos/condiciones de fermentación se obtienen de los sitios de los clientes. Las cepas candidatas se examinan usando reactores de fermentación a escala de banco (por ejemplo, los reactores dados a conocer en la Tabla 5 de la presente descripción) para características de rendimiento de cepas relevantes tales como productividad o producción.
Recuperación y cuantificación de producto
Métodos para examinar para la producción de productos de interés son conocidos para los expertos en la técnica, y se discuten a lo largo de toda la presente memoria descriptiva. Tales métodos pueden emplearse cuando se examinan las cepas de la descripción.
En algunas realizaciones, la presente descripción enseña métodos de mejora de cepas diseñados para producir productos intracelulares no secretados. Por ejemplo, la presente descripción enseña métodos de mejora de la robustez, la producción, la eficiencia o la deseabilidad global de cultivos celulares que producen enzimas intracelulares, aceites, productos farmacéuticos u otras moléculas pequeñas o péptidos valiosos. La recuperación o el aislamiento de productos intracelulares no secretados puede conseguirse mediante técnicas de lisis y de recuperación que se conocen ampliamente en la técnica, incluyendo aquellas descritas aquí.
Por ejemplo, en algunas realizaciones, las células de la presente descripción pueden recogerse mediante centrifugación, filtración, deposición u otro método. Las células recogidas se rompen entonces mediante cualquier método conveniente, incluyendo ciclos de congelación-descongelación, sonicación, rotura mecánica o el uso de agentes de lisado celular, u otros métodos, que son ampliamente conocidos para los expertos en la técnica.
El producto de interés resultante, por ejemplo, un polipéptido, puede recuperarse/aislares y opcionalmente purificarse mediante cualquier de un número de métodos conocidos en la técnica. Por ejemplo, un producto polipéptido puede aislarse del medio nutritivo mediante procedimientos convencionales que incluyen, pero no se limitan a: centrifugación, filtración, extracción, secado por pulverización, evaporación, cromatografía (por ejemplo, de intercambio iónico, afinidad, interacción hidrófoba, cromatoenfoque y exclusión por tamaño), o precipitación. Finalmente, puede emplearse cromatografía de líquidos de alto rendimiento (HPLC) en las etapas de purificación finales (véase, por ejemplo, Purification of intracellular protein tal como se describe en Parry et al., 2001, Biochem. J.353:117, y Hong et al., 2007, Appl. Microbiol. Biotechnol. 73:1331).
Además de las referencias indicadas anteriormente, una variedad de métodos de purificación se conocen ampliamente en la técnica, incluyendo, por ejemplo, aquellos expuestos en: Sandana (1997) Bioseparation of Proteins, Academic Press, Inc.; Bollag et al. (1996) Protein Methods, 2a edición, Wiley-Liss, NY; Walker (1996) The Protein Protocols Handbook Humana Press, NJ; Harris y Angal (1990) Protein Purification Applications: A Practical Approach, IRL Press at Oxford, Oxford, England; Harris y Angal Protein Purification Methods: A Practical Approach, IRL Press at Oxford, Oxford, Inglaterra; Scopes (1993) Protein Purification: Principles and Practice 3a edición, Springer Verlag, NY; Janson y Ryden (1998) Protein Purification: Principles, High Resolution Methods and Applications, segunda edición, Wiley-VCH, NY; y Walker (1998) Protein Protocols on CD-ROM, Humana Press, NJ. En algunas realizaciones, la presente descripción enseña los métodos de mejora de cepas diseñados para producir productos secretados. Por ejemplo, la presente descripción enseña métodos de mejora de la robustez, la producción, la eficiencia o la deseabilidad global de cultivos celulares que producen moléculas pequeñas o péptidos valiosos.
En algunas realizaciones, pueden usarse métodos inmunológicos para detectar y/o purificar productos secretados o no secretados producidos por las células de la presente descripción. En un enfoque de ejemplo, el anticuerpo dirigido contra una molécula de producto (por ejemplo, frente a un polipéptido de insulina o un fragmento inmunogénico del mismo) usando métodos convencionales se inmoviliza en perlas, se mezcla con medios de cultivo celular en condiciones en las que se une la endoglucanasa, y se hace precipitar. En algunas realizaciones, la presente descripción enseña el uso de ensayos de inmunoabsorción ligado a enzimas (ELISA).
En otras realizaciones relacionadas, se usa inmunocromatografía, tal como se da a conocer en la patente U.S. n° 5.591.645, la patente U.S. n° 4.855.240, la patente U.S. n° 4.435.504, la patente U.S. n° 4.980.298, y Se-Hwan Paek, et al., “Development of rapid One-Step Immunochromatographic assay, Methods”, 22, 53-60, 2000). Una inmunocromatografía general detecta un espécimen usando dos anticuerpos. Un primer anticuerpo existe en una disolución de prueba o en una porción en un extremo de una pieza de prueba en una forma aproximadamente rectangular hecha de una membrana porosa, en la que se deja caer la disolución de prueba. Este anticuerpo está etiquetado con partículas de látex o partículas coloidales de oro (este anticuerpo se denominará anticuerpo etiquetado a continuación aquí). Cuando la disolución de prueba que se deja caer incluye un espécimen que debe detectarse, el anticuerpo etiquetado reconoce el espécimen para unirse con el espécimen. Un complejo del espécimen y el anticuerpo etiquetado fluye por capilaridad hacia un absorbedor, que está hecho de un papel de filtro y unido a un extremo opuesto al extremo que tiene el anticuerpo etiquetado. Durante el flujo, el complejo del espécimen y el anticuerpo etiquetado se reconoce y se atrapa por un segundo anticuerpo (se denominará anticuerpo de toma a continuación aquí) que existe en el centro de la membrana porosa y, como resultado de esto, el complejo aparece en una parte de detección en la membrana porosa como una señal visible y se detecta.
En algunas realizaciones, los métodos de examen de la presente descripción se basan en técnicas de detección fotométricas (absorción, fluorescencia). Por ejemplo, en algunas realizaciones, la detección puede basarse en la presencia de un detector de fluoróforo tal como GFP unida a un anticuerpo. En otras realizaciones, la detección fotométrica puede basarse en la acumulación sobre el producto deseado del cultivo celular. En algunas realizaciones, el producto puede detectarse por medio de UV del cultivo o extractos de dicho cultivo.
Los expertos en la técnica reconocerán que los métodos de la presente descripción son compatibles con células hospedantes que producen cualquier producto de interés biomolecular deseable. La Tabla 2, a continuación, presenta una lista no limitativa de categorías de producto, biomoléculas y células hospedantes. Estos ejemplos se proporcionan con fines ilustrativos y no pretenden limitar la aplicabilidad de la tecnología dada a conocer aquí de ningún modo.
Tabla 2. - Una lista no limitativa de las células hospedantes y productos de interés de la presente descripción.
Figure imgf000043_0001
Figure imgf000044_0001
Criterios y objetivos de selección
Los criterios de selección criterios aplicados a los métodos de la presente descripción variarán con los objetivos específicos del programa de mejora de cepas. La presente descripción puede adaptarse para cumplir cualquier objetivo de programa. Por ejemplo, en algunas realizaciones, el objetivo de programa puede ser maximizar producciones de lote individuales de reacciones sin límites de tiempo inmediatos. En otras realizaciones, el objetivo de programa puede ser reequilibrar producciones de biosíntesis para producir un producto específico, o para producir una relación particular de productos. En otras realizaciones, el objetivo de programa puede ser modificar la estructura química de un producto, tal como alargar la cadena de carbonos de un polímero. En algunas realizaciones, el objetivo de programa puede ser mejorar características de rendimiento tales como producción, título, productividad, eliminación de subproductos, tolerancia para procesar excursiones, temperatura de crecimiento óptima y tasa de crecimiento. En algunas realizaciones, el objetivo de programa es una rendimiento del hospedante mejorado medido mediante productividad volumétrica, productividad específica, producción o título, de un producto de interés producido por un microbio.
En otras realizaciones, el objetivo de programa puede ser optimizar la eficiencia de síntesis de una cepa comercial en términos de producción de producto final por cantidad de entradas (por ejemplo, cantidad total de etanol producido por libra de sacarosa). En otras realizaciones, el objetivo de programa puede ser optimizar la velocidad de síntesis, medida, por ejemplo, en términos de tasa de completitud de lotes, o tasas de producción en sistemas de cultivo continuos. En otras realizaciones, el objetivo de programa puede ser aumentar la resistencia de las cepas a un fago particular, o aumentar de otro modo el vigor/la robustez de las cepas en condiciones de cultivo.
En algunas realizaciones, los proyectos de mejora de cepas pueden estar sujetos a más de un objetivo. En algunas realizaciones, el objetivo del proyecto de cepas puede girar sobre la calidad, fiabilidad o rentabilidad global. En algunas realizaciones, la presente descripción enseña métodos de mutaciones o grupos de mutaciones seleccionadas asociadas con una o más de las propiedades de cepa descritas anteriormente.
Los expertos normales en la técnica reconocerán cómo adaptar los criterios de selección de cepas para cumplir el objetivo de proyecto particular. Por ejemplo, selecciones de una producción máxima individual de una cepa a saturación de reacción pueden ser apropiadas para identificar cepas con altas producciones de lote individuales. La selección basada en consistencia en la producción entre un intervalo de temperaturas y condiciones puede ser apropiada para identificar cepas con robustez y fiabilidad aumentadas.
En algunas realizaciones, los criterios de selección para la fase de alto rendimiento inicial y la validación basada en tanques serán idénticos. En otras realizaciones, la selección basada en tanques puede funcionar bajo criterios de selección adicionales y/o diferentes. Por ejemplo, en algunas realizaciones, la selección de cepas de alto rendimiento puede basarse en producciones de completitud de lote individuales, mientras que la selección basada en tanques puede expandirse para incluir selecciones basadas en producciones para la velocidad de reacción. Secuenciación
En algunas realizaciones, la presente descripción enseña la secuenciación del genoma completo de los organismos descritos aquí. En otras realizaciones, la presente descripción enseña también la secuenciación de plásmidos, productos de PCR y otros oligos como controles de calidad para los métodos de la presente descripción. Métodos de secuenciación para proyectos grandes y pequeños son ampliamente conocidos para los expertos en la técnica. En algunas realizaciones, cualquier técnica de alto rendimiento para secuenciar ácidos nucleicos puede usarse en los métodos de la descripción. En algunas realizaciones, la presente descripción enseña la secuenciación del genoma completo. En otras realizaciones, la presente descripción enseña la secuenciación de amplicones, secuenciación ultraprofunda, para identificar variaciones genéticas. En algunas realizaciones, la presente descripción enseña también métodos novedosos para la preparación de biblioteca, incluyendo tagmentación (véase el documento WO/2016/073690). Las técnicas de secuenciación de ADN incluyen reacciones de secuenciación didesoxi clásicas (método Sanger) usando cebadores o terminadores etiquetados y separación por gel en bloque o capilar; secuenciación mediante síntesis usando nucleótidos etiquetados terminados de manera reversible, pirosecuenciación; secuenciación 454; hibridación específica de alelo a un biblioteca de sondas de oligonucleótidos etiquetadas; secuenciación mediante síntesis usando hibridación específica de alelo a una biblioteca de clones etiquetados que va seguida de ligación; monitorización en tiempo real de la incorporación de nucleótidos etiquetados durante una etapa de polimerización; secuenciación polony; y secuenciación SOLiD.
En un aspecto de la descripción, se emplean métodos de alto rendimiento de secuenciación que comprenden una etapa de aislar espacialmente moléculas individuales sobre una superficie sólida en la que se secuencian en paralelo. Tales superficies sólidas pueden incluir superficies no porosas (tal como en la secuenciación Solexa, por ejemplo, Bentley et al, Nature, 456: 53-59 (2008) o la secuenciación Complete Genomics, por ejemplo, Drmanac et al, Science, 327: 78-81 (2010)), redes de pocillos, que pueden incluir plantillas unidas a perlas o a partículas (tal como con 454, por ejemplo, Margulies et al, Nature, 437: 376-380 (2005) o secuenciación Ion Torrent, publicación de patente U.S. 2010/0137143 o 2010/0304982), membranas micromecanizadas (tal como con la secuenciación SMRT, por ejemplo, Eid et al, Science, 323: 133-138 (2009)), o redes de perlas (tal como con la secuenciación SOLiD o la secuenciación polony, por ejemplo, Kim et al, Science, 316: 1481-1414 (2007)).
En otra relización, los métodos de la presente descripción comprender amplificar las moléculas aislarse o bien antes o bien después de que se aíslen espacialmente sobre una superficie sólida. La amplificación previa puede comprender amplificación basada en emulsión, tal como PCR en emulsión, o amplificación por círculo rodante. También se enseña la secuenciación basada en Solexa en la que se aíslan especialmente moléculas de plantilla individuales sobre una superficie sólida, tras lo que se amplifican en paralelo mediante PCR de puente para formar poblaciones clonales independientes, o grupos, y entonces secuenciarlas, tal como se describe en Bentley et al (citado anteriormente) y en las instrucciones del fabricante (por ejemplo, kit de preparación de muestras TruSeq™ y la ficha de datos, Illumina, Inc., San Diego, Calif., 2010); y además en las siguientes referencias: patentes U.S. n.os 6.090.592; 6.300.070; 7.115.400; y el documento EP0972081B1.
En una realización, moléculas individuales dispuestas y amplificada sobre una superficie sólida forma grupos en una densidad de al menos 105 grupos por cm2; o en una densidad de al menos 5x105 por cm2; o en una densidad de al menos 106 grupos por cm2. En una realización, se emplean químicas de secuenciación que tienen tasas de error relativamente altas. En tales realizaciones, las puntuaciones de calidad promedio producidas mediante tales químicas son funciones que disminuyen de manera monótona de longitudes de lectura de secuencia. En una realización, tal disminución corresponde al 0,5 por ciento de lecturas de secuencia que tienen al menos un error en las posiciones 1 -75; el 1 por ciento de lecturas de secuencia tiene al menos un error en las posiciones 76-100; y el 2 por ciento de lecturas de secuencia tiene al menos un error en las posiciones 101 -125.
Análisis computacional y predicción de efectos de criterios de diseño genético por todo el genoma
En algunas realizaciones, la presente descripción enseña métodos de predicción de los efectos de alteraciones genéticas particulares que se incorporan en una cepa hospedante dada. En aspectos adicionales, la descripción proporciona métodos para generar alteraciones genéticas propuestas que deben incorporarse en una cepa hospedante dada, con el fin de que dicho hospedante presente un rasgo fenotípico o parámetro de cepa particular. En aspectos dados, la descripción proporciona modelos predictivos que pueden utilizarse para diseñar cepas hospedantes novedosas.
En algunas realizaciones, la presente descripción enseña métodos de análisis de los resultados de rendimiento de cada ronda de examen y métodos para generar nuevas modificaciones de secuencia por todo el genoma propuestas para las que se predice que potencian el rendimiento de cepas en la siguiente ronda de examen.
En algunas realizaciones, la presente descripción enseña que el sistema genera modificaciones de secuencia propuestas para cepas hospedantes basándose en resultados de examen anteriores. En algunas realizaciones, las recomendaciones del presente sistema se basan en los resultados del examen inmediatamente anterior. En otras realizaciones, las recomendaciones del presente sistema se basan en los resultados acumulativos de uno o más de los exámenes anteriores.
En algunas realizaciones, las recomendaciones del presente sistema se basan en bibliotecas de diseños genéticos HTP desarrolladas previamente. Por ejemplo, en algunas realizaciones, el presente sistema está diseñado para guardar resultados de exámenes anteriores y aplicar esos resultados a un proyecto diferente, en los mismos o diferentes organismos hospedante.
En otras realizaciones, las recomendaciones del presente sistema se basan en conocimientos científicos. Por ejemplo, en algunas realizaciones, las recomendaciones se basan en propiedades conocidas de genes (de fuentes tales como bases de datos de genes anotadas y la bibliografía relevante), optimización de codones, deslizamiento transcripcional, uORF u otras optimizaciones de hospedante y de secuencia accionadas por hipótesis.
En algunas realizaciones, las modificaciones de secuencia propuestas a una cepa hospedante recomendada por el sistema, o modelo predictivo, se llevan a cabo mediante la utilización de uno o más de los conjuntos de herramientas moleculares dados a conocer que comprenden: (1) intercambios de promotor, (2) intercambios SNP, (3) intercambios de codón de iniciación/terminación, (4) optimización de secuencias, (5) intercambios Stop y (5) cartografiado epistático.
La plataforma de ingeniería genética HTP descrita aquí es agnóstica con respecto a cualquier rasgo fenotípico o microbio particular (por ejemplo, producción de un compuesto particular). Es decir, la plataforma y los métodos enseñados aquí pueden utilizarse con cualquier célula hospedante para modificar mediante ingeniería dicha célula hospedante para tener cualquier rasgo fenotípico deseado. Además, las lecciones aprendidas de un proceso de ingeniería genética HTP dado usado para crear una células hospedantes novedosa, pueden aplicarse a cualquier número de otras células hospedantes, como resultado del almacenamiento, la caracterización y el análisis de una infinidad de parámetros de proceso que se producen durante los métodos enseñados.
Tal como se alude en la sección de cartografiado epistático, es posible estimar el rendimiento (también conocido como puntuación) de una cepa hipotética obtenida consolidando una colección de mutaciones de una biblioteca de diseños genéticos HTP en un fondo particular por medio de algún modelo predictivo preferido. Dado un modelo predictivo de este tipo, es posible puntuar y clasificar todas las cepas hipotéticas accesibles con respecto a la biblioteca de mutaciones por medio de consolidación combinatoria. La sección a continuación esboza modelos particulares utilizados en la presente plataforma HTP.
Diseño de cepas predictivo
Aquí se describe un enfoque para el diseño de cepas predictivo, que incluye: métodos de descripción de cambios genéticos y del rendimiento de cepas, prediciendo el rendimiento de la cepa basándose en la composición de cambios en la cepa, recomendando diseños candidatos con un alto rendimiento predicho y filtrando predicciones para optimizar consideraciones de segundo orden, por ejemplo, similitud con cepas existentes, epistasis o confianza en las predicciones.
Entradas al modelo de diseño de cepas
En una realización, con motivos de facilidad de ilustración, los datos de entrada pueden comprender dos componentes: (1) conjuntos de cambios genéticos y (2) el rendimiento de cepa relativo. Los expertos en la técnica reconocerán que este modelo puede extenderse fácilmente para considerar una amplia variedad de entradas, al tiempo que se tiene en cuenta la consideración compensatoria de sobreajuste. Además de cambios genéticos, algunos de los parámetros de entrada (variables independientes) que pueden ajustarse con tipos de célula (género, especie, cepa, caracterización filogenética, etc.) y parámetros de proceso (por ejemplo, condiciones ambientales, equipo de manipulación, modificación técnicas, etc.) con los que se lleva a cabo la fermentación con las células. Los conjuntos de cambios genéticos pueden proceder de las colecciones de perturbaciones genéticas discutidas previamente denominadas bibliotecas de diseños genéticos HTP. El rendimiento de cepa relativo puede evaluarse basándose en cualquier rasgo fenotípico o parámetro dado de interés (por ejemplo, producción de un compuesto, molécula pequeña o producto de interés).
Los tipos de célula pueden especificarse en categorías generales tales como sistemas procariotas y eucariotas, género, especie, cepa, cultivos tisulares (frente a células dispersas), etc. Los parámetros de proceso que pueden ajustarse incluyen la temperatura, la presión, la configuración del reactor y la composición del medio. Los ejemplos de configuración del reactor incluyen el volumen del reactor, ya sea el proceso por lotes o continuo, y, si es continuo, la tasa de flujo volumétrico, etc. También puede especificarse la estructura de soporte, si la hay, sobre la que residen las células. Los ejemplos de composición del medio incluyen las concentraciones de electrolitos, nutrientes, productos residuales, ácidos, pH y similares.
Conjuntos de cambios genéticos de bibliotecas de diseños genéticos HTP seleccionadas que deben utilizarse en el modelo de regresión lineal inicial que se usa posteriormente para crear el modelo de diseño de cepas predictivo Un conjunto de ejemplo de entradas de una tabla de cambios genéticos se muestra a continuación en la Tabla 3. Cada fila indica un cambio genético en la cepa 7000051473, así como metadatos sobre el mecanismo de cambio, por ejemplo, intercambio de promotor o intercambio SNP. aceE, zwf, y pyc están todos relacionados con el ciclo del ácido cítrico.
En este caso, la cepa 7000051473 tiene un total de 7 cambios. “Último cambio” significa que el cambio en esta cepa representa la modificación más reciente en este linaje de cepa. Por tanto, la comparación del rendimiento de esta cepa con el rendimiento de su cepa parental representa un punto de dato relativo al rendimiento de la mutación “de último cambio”.
Tabla 3- Tabla de entradas de diseño de cepa para la cepa 7000051473
Figure imgf000046_0001
Figure imgf000047_0002
Evaluación del rendimiento de cepas construidas
El objetivo del modelo enseñado es predecir el rendimiento de cepas basándose en la composición de cambios genéticos introducidos en la cepa. Para construir un estándar para la comparación, el rendimiento de cepa se computa en relación con una cepa de referencia común, calculando en primer lugar la mediana del rendimiento por cepa, por placa de ensayo. El rendimiento relativo se computa entonces como la diferencia en el rendimiento promedio entre una cepa modificada mediante ingeniería y la cepa de referencia común dentro de la misma placa. La restricción de los cálculos a comparaciones dentro de la placa garantiza que las muestras en consideración reciban todas las mismas condiciones experimentales.
La Figura 23 muestra la distribución de rendimientos de cepas relativos para los datos de entrada en consideración. Un rendimiento relativo de cero indica que la cepa modificada mediante ingeniería tuvo un rendimiento igual de bueno la cepa de base o “referencia” en la placa. Es de interés la capacidad del modelo predictivo para identificar las cepas que es probable que tengan un rendimiento significativamente por encima de cero. Además, y más generalmente, es de interés si cualquier cepa dada supera a su cepa parental según algunos criterios. En la práctica, los criterios pueden ser un título de producto que cumple o supera algún umbral por encima del nivel parental, aunque también podría usarse en su lugar o adicionalmente tener una diferencia estadísticamente significativa con respecto a la cepa parental en la dirección deseada. El papel de la cepa de base o “referencia” es simplemente servir como factor de normalización añadido para hacer comparaciones dentro de o entre placas. Un concepto a tener en cuenta es el de las diferencias entre: cepa parental y cepa de referencia. La cepa parental es el fondo que se usó para una ronda actual de mutagénesis. La cepa de referencia es una cepa control ejecutada en cada placa para facilitar comparaciones, especialmente entre placas, y es normalmente la “cepa de base” tal como se hizo referencia anteriormente. Pero, dado que la cepa de base (por ejemplo, la cepa de tipo silvestre o industrial que está usándose para marcar el rendimiento global) no es necesariamente una “base” en el sentido de ser una diana de mutagénesis en una ronda dada de mejora de cepa, un término más descriptivo es “cepa de referencia”.
En resumen, una cepa de base/referencia se usa para marcar el rendimiento de cepas construidas, generalmente, mientras que la cepa parental se usa para marcar el rendimiento de un cambio genético específico en el fondo genético relevante.
Clasificación del rendimiento de cepas construidas con regresión lineal
El objetivo del modelo dado a conocer es clasificar el rendimiento de cepas construidas, describiendo el rendimiento de cepa relativa, en función de la composición de cambios genéticos introducidos en las cepas construidas. Tal como se discute por toda la descripción, las diversas bibliotecas de diseños genéticos HTP proporcionan el repertorio de posibles cambios genéticos (por ejemplo, perturbaciones/alteraciones genéticas) que se introducen en las cepas modificadas mediante ingeniería. La regresión lineal es la base para el modelo predictivo a modo de ejemplo descrito actualmente.
La tabla a continuación contiene una entrada de ejemplo para el modelado basado en regresión. Los rendimientos de cepa se clasificación en relación con una cepa de base común, en función de la composición de los cambios genéticos contenidos en la cepa.
Cada encabezamiento de columna representa un cambio genético, un “1” representa la presencia del cambio, mientras que un “0” representa la ausencia de un cambio. “DSS” se refiere a intercambios SNP de una biblioteca particular (primeras 3 columnas tras rend_relativo). Las últimas 3 columnas son intercambios de promotor, donde pcgXXXX designa el promotor particular, y las últimas 3 letras representan el gen al que está aplicándose el promotor. Los genes están relacionados con el metabolismo central. Los promotores son de Corynebacterium glutamicum (de ahí la notación “cg”). Información adicional sobre los promotores utilizados puede encontrarse en la Tabla 1, los promotores listados P1-P8 y el listado de secuencias de la presente solicitud. Además, información detallada sobre cada promotor P1-P8 puede encontrarse en la solicitud provisional U.S. n° 62/264.232, presentada el 07 de diciembre de 2015, y titulada “Promoters from Corynebacterium glutamicum". Por facilidad de referencia, en la tabla a continuación, pcg3121 = P8; pcg0755 = P4; y pcg1860 = P3.
Tabla 4- Sumario de cambios genéticos y su efecto sobre el rendimiento relativo.
Figure imgf000047_0001
Figure imgf000048_0001
Regresión lineal para caracterizar cepas construidas
La regresión lineal es un método atractivo para la plataforma de ingeniería genómica HTP descrita, debido a la facilidad de implementación y de interpretación. Los coeficientes de regresión resultantes pueden interpretarse como el aumento o la disminución promedio en el rendimiento de cepa relativo atribuible a la presencia de cada cambio genético.
Por ejemplo, como se ve en la Figura 24, esta técnica nos permite concluir que cambiar el promotor pgi a pcg3121 mejora el rendimiento de cepa relativo en aproximadamente 5 unidades en promedio y es por tanto un cambio potencialmente muy deseable, en ausencia de cualquier interacción epistática negativa (nota: la entrada es un valor normalizado sin unidad).
Por tanto, el método enseñado usa modelos de regresión lineal para describir/caracterizar y clasificar cepas construidas, que tienen diversas perturbaciones genéticas introducidas en sus genomas de las diversas bibliotecas enseñadas.
Modelado de diseño predictivo
El modelo de regresión lineal descrito anteriormente, que utilizaba datos de cepas construidas, puede usarse para hacer predicciones de rendimiento para cepas que aún no se han construido.
El procedimiento puede resumirse tal como sigue: generar in silico todas las posibles configuraciones de cambios genéticos ^ usar el modelo de regresión para predecir el rendimiento de cepa relativo ^ ordenar los diseños de cepa candidatos por rendimiento. Por tanto, utilizando el modelo de regresión para predecir el rendimiento de cepas aún no construidas, el método permite la producción de cepas de rendimiento mayor, al tiempo que simultáneamente se llevan a cabo menos experimentos.
Generar configuraciones
Cuando se construye un modelo para predecir el rendimiento de cepas aún no construidas, la primera etapa es producir una secuencia de candidatos de diseño. Esto se hace fijando el número total de cambios genéticos en la cepa, y entonces definiendo todas las posibles combinaciones de cambios genéticos. Por ejemplo, puede fijarse el número total de cambios/perturbaciones genéticos potenciales a 29 (por ejemplo, 29 posibles SNP o 29 promotores diferentes, o cualquier combinación de los mismos siempre que el universo de perturbaciones genéticas sea 29) y entonces decidir diseñar todas las combinaciones de 3 miembros posibles de los 29 cambios genéticos potenciales, lo que dará como resultado 3.654 diseños de cepa candidatos.
Para proporcionar contexto a las 3.654 cepas candidatas mencionadas anteriormente, considérese que puede calcularse el número de agrupamientos no redundantes de tamaño r de n miembros posibles usando n! / ((n - r )! * r!). Si r = 3, n = 29 da 3.654. Por tanto, si se diseñan todas las combinaciones de 3 miembros posibles de 29 cambios potenciales, el resultado es 3.654 cepas candidatas. Los 29 cambios genéticos potenciales están presentes en el eje x de la Figura 25.
Predecir el rendimiento de nuevos diseños de cepa
Usando la regresión lineal construida anteriormente con las configuraciones combinatorias como entrada, entonces puede predecirse el rendimiento relativo esperado de cada diseño candidato. La Figura 25 resume la composición de cambios para los 100 diseños de cepa predichos superiores. El eje x lista el conjunto de cambios genéticos potenciales (29 posibles cambios genéticos), y el eje y muestra el orden de intervalo. Las celdas negras indican la presencia de un cambio particular en el diseño candidato, mientras que las celdas blancas indican la ausencia de ese cambio. En este ejemplo particular, todos los 100 diseños superiores contienen los cambios pcg3121_pgi, pcg1860_pyc, dss_339, y pcg0007_39_lysa. Adicionalmente, el diseño candidato superior contiene los cambios dss_034, dss_009.
La precisión predictiva debe aumentar a lo largo del tiempo a medida que se usan nuevas observaciones para volver a entrenar y reajustar de manera iterativa el modelo. Los resultados de un estudio de los inventores ilustran los métodos mediante los cuales puede volver a entrenarse y reajustarse de manera iterativa el modelo predictivo. La Figura 47 compara las predicciones de modelo con valores de medición observados. La calidad de las predicciones de modelo puede evaluarse a través de varios métodos, incluyendo un coeficiente de correlación que indica la fuerza de asociación entre los valores predichos y observados, o la raíz del error cuadrático medio, que es una medida del error de modelo promedio. Usando una métrica elegida para la evaluación del modelo, el sistema puede definir reglas para cuándo debe volver a entrenarse el modelo.
Un par de suposiciones no explícitas con respecto al modelo anterior incluyen: (1) no hay interacciones epistáticas; y (2) los cambios/perturbaciones genéticos utilizados para construir el modelo predictivo (por ejemplo, a partir de datos de cepas construidas como se ilustra en la figura 24, o se usa cualquier conjunto de datos como referencia para construir el modelo) se hicieron todos en el mismo fondo, como las combinaciones propuestas de cambios genéticos (por ejemplo, como se ilustra en la figura 25).
Filtración para características de segundo orden
El ejemplo ilustrativo anterior se centró en predicciones de regresión lineal basándose en el rendimiento de célula hospedante predicho. En algunas realizaciones, los presentes métodos de regresión lineal también pueden aplicarse a factores no biomoleculares, tales como biomasa de saturación, resistencia u otras características de célula hospedante medibles. Por tanto, los métodos de la presente descripción también enseñan la consideración de otras características fuera del rendimiento predicho cuando se priorizan los candidatos a construir. Asumiendo que hay datos relevantes adicionales, también se incluyen términos no lineales en el modelo de regresión.
Proximidad con cepas existentes
Las cepas predichas que son similares a aquellas que ya se han construido podrían dar como resultado ahorros de tiempo y costes a pesar de no ser un candidato predicho superior.
Diversidad de cambios
Cuando se construyen los modelos mencionados anteriormente, no puede tenerse certeza qué cambios genéticos serán verdaderamente aditivos (tal como se asume mediante regresión lineal y mencionado como suposición anteriormente) debido a la presencia de interacciones epistáticas. Por tanto, el conocimiento de disimilitud de cambios genéticos puede usarse para aumentar la probabilidad de aditividad positiva. Si se conoce, por ejemplo, que los cambios dss_034 y dss_009 (que son intercambios SNP) de la cepa de clasificación superior anterior están en la misma ruta metabólica y tienen características de rendimiento similares, entonces esa información podría usarse para seleccionar otra cepa de clasificación superior con una composición de cambios diferente. Tal como se describe en la sección anterior relativa a cartografiado epistático, los mejores cambios genéticos predichos pueden filtrarse para restringir la selección a mutaciones con perfiles de respuesta suficientemente diferentes. Alternativamente, la regresión lineal puede ser una regresión de mínimos cuadrados ponderada usando la matriz de similitud para ponderar predicciones.
Diversidad de rendimiento predicho
Finalmente, puede elegirse diseñar cepas con rendimiento predicho regular o pobre, con el fin de validar y posteriormente mejorar los modelos predictivos.
Optimización del diseño de cepas iterativa
Como se describió para el ejemplo anterior, todos los 100 diseños de cepa superiores contienen los cambios pcg3121_pgi, pcg1860_pyc, dss_339 y pcg0007_39_lysa. Adicionalmente, el diseño de cepa candidato superior contiene los cambios dss_034, dss_009.
En realizaciones, el motor de realización de pedidos 208 impone un pedido de fábrica a la fábrica 210 para fabricar cepas microbianas que incorporan las mutaciones candidatas superiores. En un modo de bucle de retroalimentación, los resultados pueden analizarse por el equipo de análisis 214 para determinar qué microbios presentan propiedades fenotípicas deseadas (314). Durante la fase de análisis, los cultivo de cepas modificadas se evalúan para determinar su rendimiento, es decir, su expresión de propiedades fenotípicas deseadas, incluyendo la capacidad para producirse a escala industrial. Por ejemplo, la fase de análisis usa, entre otras cosas, datos de imagen de placas para medir el crecimiento de colonias microbianas como indicador de la salud de la colonia. El equipo de análisis 214 se usa para correlacionar cambios genéticos con el rendimiento fenotípico, y guardar los datos de correlación de genotipo-fenotipo resultantes en bibliotecas, que pueden almacenarse en la biblioteca 206, para informar a la producción microbiana futura.
En particular, los cambios candidatos que dan realmente un rendimiento medido suficientemente alto pueden añadirse como filas en la base de datos a tablas tales como a Tabla 4 anterior. De esta manera, las mutaciones de mejor rendimiento se añaden al modelo de diseño de cepas predictivo de un modo de aprendizaje automático supervisado.
El LIMS itera el ciclo de diseño/construcción/prueba/analizar basándose en las correlaciones desarrolladas a partir de ejecuciones de fábrica previas. Durante un ciclo posterior, el equipo de análisis 214 solo, o junto con operadores humanos, puede seleccionar los mejores candidatos como cepas de base para introducirlas de vuelta en la interfaz de entrada 202, usando los datos de correlación para afinar modificaciones genéticas para conseguir un rendimiento fenotípico mejor con una granularidad más fina. De esta manera, el sistema de gestión de información de laboratorio de realizaciones de la descripción implementa un bucle de retroalimentación de mejora de la calidad.
En resumen, con referencia al diagrama de flujo de la Figura 33, el flujo de trabajo de diseño de cepas predictivo iterativo puede describirse como sigue:
• Generar un conjunto de entrenamiento de variables de entrada y de salida, por ejemplo, cambios genéticos como entradas y características de rendimiento como salidas (3302). Las generación puede realizarse por el equipo de análisis 214 basándose en cambios genéticos previos y el rendimiento medido correspondiente de las cepas microbianas que incorporan esos cambios genéticos.
• Desarrollar un modelo inicial (por ejemplo, modelo de regresión lineal) basándose en un conjunto de entrenamiento (3304). Esto puede realizarse por el equipo de análisis 214.
• Generar cepas candidatas de diseño (3306)
° En una realización, el equipo de análisis 214 puede fijar el número de cambios genéticos que deben hacerse en una cepa de fondo, en la forma de combinaciones de cambios. Para representar estos cambios, el equipo de análisis 214 puede proporcionar al interpretador 204 una o más expresiones de especificación de ADN que representan esas combinaciones de cambios (estos cambios genéticos o las cepas microbianas que incorporan esos cambios pueden denominarse “entradas de prueba”). El interpretador 204 interpreta la una o más especificaciones de ADN, y el motor de ejecución 207 ejecuta las especificaciones de ADN para poblar la especificación de ADN con salidas resultas que representan las cepas de diseño candidato individuales para estos cambios.
• Basándose en el modelo, el equipo de análisis 214 predice el rendimiento esperado de cada cepa de diseño candidato (3308).
• El equipo de análisis 214 selecciona un número limitado de diseños candidatos, por ejemplo, 100, con el rendimiento predicho más alto (3310).
° Como se describe en otro punto aquí con respecto al cartografiado epistático, el equipo de análisis 214 puede tener en cuenta efectos de segundo orden tal como epistasis, por ejemplo, filtrando diseños superiores para efectos epistáticos, o factorizando la epistasis en el modelo predictivo.
• Construir las cepas candidatas filtradas (en fábrica 210) basándose en el pedido de fábrica generado por el motor de realización de pedidos 208 (3312).
• El equipo de análisis 214 mide el rendimiento real de las cepas seleccionadas, selecciona un número limitado de esas cepas seleccionadas basándose en su rendimiento real superior (3314), y añade los cambios de diseño y su rendimiento resultante al modelo predictivo (3316). En el ejemplo de regresión lineal, añadir los conjuntos de cambios de diseño y su rendimiento asociado como filas nuevas en la Tabla 4.
• El equipo de análisis 214 itera entonces de vuelta a la generación de nuevas cepas candidatas de diseño (3306) y continúa iterando hasta que se cumple una condición de parada. La condición de parada puede comprender, por ejemplo, el rendimiento medido de al menos una cepa microbiana que cumple una métrica de rendimiento, tal como la producción, la tasa de crecimiento o el título.
En el ejemplo anterior, la optimización iterativa de diseño de cepas emplea retroalimentación y regresión lineal para implementar aprendizaje automático. En general, el aprendizaje automático puede describirse como la optimización de criterios de rendimiento, por ejemplo, parámetros, técnicas u otras características, en el rendimiento de una tarea informativa (tal como clasificación o regresión) usando un número limitado de ejemplos de datos etiquetados y realizando entonces la misma tarea en datos desconocidos. En el aprendizaje automático supervisado, tal como el del ejemplo de regresión lineal anterior, la máquina (por ejemplo, un dispositivo informático) aprende, por ejemplo, patrones de identificación, categorías, relaciones estadísticas u otros atributos, presentados por los datos de entrenamiento. El resultado del aprendizaje se usa entonces para predecir si nuevos datos presentarán los mismos patrones, categorías, relaciones estadísticas u otros atributos.
Las realizaciones de la descripción pueden emplear otras técnicas de aprendizaje automático supervisado cuando estén disponibles datos de entrenamiento. En ausencia de datos de entrenamiento, las realizaciones pueden emplear aprendizaje automático no supervisado. Alternativamente, las realizaciones pueden emplear aprendizaje automático semisupervisado, usando una pequeña cantidad de datos etiquetados y una gran cantidad de datos no etiquetados. Las realizaciones también pueden emplear selección de características para seleccionar el subconjunto de las características más relevantes para optimizar el rendimiento del modelo de aprendizaje automático. Dependiendo del tipo de enfoque de aprendizaje automático seleccionado, como alternativas o además de regresión lineal, las realizaciones pueden emplear, por ejemplo, regresión logística, redes neurales, máquinas de vector soporte (SVM), árboles de decisión, modelos ocultos de Markov, redes bayesianas, Gram Schmidt, aprendizaje basado en refuerzo, aprendizaje basado en grupos, incluyendo agrupamiento jerárquico, algoritmos genéticos y cualquier otra máquina de aprendizaje adecuada conocida en la técnica. En particular, las realizaciones pueden emplear regresión logística para proporcionar probabilidades de clasificación (por ejemplo, clasificación de genes en grupos funcionales diferentes) junto con las propias clasificaciones. Véase, por ejemplo, Shevade, A simple and efficient algorithm for gene selection using sparse logistic regression, Bioinformatics, vol. 19, n° 172003, págs. 2246­ 2253, Leng, et al., Classification using functional data analysis for temporal gene expression data, Bioinformatics, vol.
22, n° 1, Oxford University Press (2006), págs. 68-76.
Las realizaciones pueden emplear arquitecturas aceleradas por unidad de procesamiento de gráficos (GPU) que han obtenido una popularidad creciente en la realización de tareas de aprendizaje automático, particularmente en la forma conocida como redes neurales profundas (DNN). Las realizaciones de la descripción pueden emplear aprendizaje automático basado en GPU, tal como el descrito en GPU-Based Deep Learning Inference: A Performance and Power Analysis, NVidia Whitepaper, noviembre de 2015, Dahl, et al., Multi-task Neural Networks for QSAR Predictions, Dept. of Computer Science, Univ. de Toronto, junio de 2014 (arXiv:1406.1231 [stat.ML]). Técnicas de aprendizaje automático aplicables a las realizaciones de la descripción también pueden encontrarse en, entre otras referencias, Libbrecht, et al., Machine learning applications in genetics and genomics, Nature Reviews: Genetics, vol. 16, junio de 2015, Kashyap, et al., Big Data Analytics in Bioinformatics: A Machine Learning Perspective, Journal of Latex Class Files, vol. 13, n° 9, septiembre de 2014, Prompramote, et al., Machine Learning in Bioinformatics, Capítulo 5 de Bioinformatics Technologies, págs. 117-153, Springer Berlin Heidelberg 2005.
Diseño de cepas predictivo iterativo: Ejemplo
Los siguiente proporciona una aplicación de ejemplo del flujo de trabajo de diseño de cepas predictivo iterativo esbozado anteriormente.
Se preparó un conjunto inicial de variables de entrada y de salida de entrenamiento. Este conjunto comprendía 1864 cepas modificadas mediante ingeniería únicas con una composición genética definida. Cada cepa contenía entre 5 y 15 cambios de ingeniería. Un total de 336 cambios genéticos únicos estaban presentes en el entrenamiento.
Se desarrolló un modelo informático predictivo inicial. La implementación usó un modelo lineal generalizado (regresión de cresta de núcleo con núcleo polinómico de 4° orden). La implementación modela dos fenotipos distintos (producción y productividad). Estos fenotipos se combinaron como suma ponderada para obtener una única puntuación para la clasificación, tal como se muestra más adelante. Diversos parámetros de modelo, por ejemplo, factor de regularización, se afinaron por medio de validación cruzada de k veces con respecto a los datos de entrenamiento designados.
La implementación no incorpora ningún análisis explícito de efectos de interacción tal como se describe en la sección de cartografiado epistático anterior. Sin embargo, como entenderán los expertos en la técnica, el modelo lineal generalizado implementado puede capturar efectos de interacción implícitamente a través de términos de segundo, tercer y cuarto orden del núcleo.
El modelo se entrenó frente al conjunto de entrenamiento. El modelo ajustado tiene un valor R2 (coeficiente de determinación) de 0,52 con respecto a la producción y un valor R2 de 0,67 con respecto a la productividad. La Figura 47 demuestra un ajuste de calidad significativa del modelo de producción con respecto a los datos de entrenamiento. Se generaron cepas candidatas. Este ejemplo incluye una restricción de construcción en serie asociada con la introducción de nuevos cambios genéticos con respecto a una cepa parental (en este ejemplo, solo se modificó mediante ingeniería una nueva mutación en una cepa cada vez). En este caso, los candidatos no se consideran simplemente en función del número deseado de cambios. En su lugar, el equipo de análisis 214 seleccionó, como punto de partida, una colección de cepas diseñadas previamente de las que se sabía que tenían métricas de rendimiento altas (“cepas de siembra”). El equipo de análisis 214 aplicó individualmente cambios genéticos con respecto a cada una de las cepas de siembra. Los cambios genéticos introducidos no incluían aquellos ya presentes en la cepa de siembra. Por diversos motivos técnicos, biológicos u otros, ciertas mutaciones se requerían explícitamente, por ejemplo, opca_4, o se excluían explícitamente, por ejemplo, dss_422. Usando 166 cepas de siembra disponibles y los 336 cambios caracterizados por el modelo, se diseñaron 6239 cepas candidatas novedosas.
Basándose en el modelo, el equipo de análisis 214 predijo el rendimiento de diseños de cepa candidatos. El equipo de análisis 214 clasificó los candidatos de “mejor” a “peor” basándose en el rendimiento predicho con respecto a dos fenotipos de interés (producción y productividad). Específicamente, el equipo de análisis 214 usó una suma ponderada para puntuar una cepa candidata:
Punt. = 0,8 *prod. / máx(prod ) 0,2 *product./máx(product.), en la que producción representa la producción predicha para la cepa candidata,
máx(producciones) representa la producción máxima entre todas las cepas candidatas,
product. representa la productividad para la cepa candidata, y
máx(product.) representa la producción máxima entre todas las cepas candidatas.
El equipo de análisis 214 generó un conjunto final de recomendaciones a partir de la lista clasificada de candidatos imponiendo tanto restricciones de capacidad como restricciones operativas. En este ejemplo, el límite de capacidad se fijó a 48 cepas de diseño candidatas generadas por ordenador. Debido a restricciones operativas, en este ejemplo solo se usó una cepa de siembra por columna de una placa de 96 pocillos. Esto significa que después de elegir una cepa de siembra, podían construirse hasta 8 cambios en esa cepa, pero solo podían elegirse 6 cepas de siembra en cualquier semana dada.
El modelo entrenado (descrito anteriormente) se usó para predecir el rendimiento esperador (para producción y productividad) de cada cepa candidata. El equipo de análisis 214 clasificó las cepas candidatas usando la función de puntuación facilitada anteriormente. Se aplicaron restricciones de capacidad y operativas para producir un conjunto filtrado de 48 cepas candidatas. Este conjunto de cepas candidatas filtradas se representa en la Figura 48.
Se construyeron cepas candidatas filtradas (en fábrica 210) basándose en una pedido de fábrica generado por el motor de realización de pedidos 208 (3312). El pedido se basó en especificaciones de ADN correspondientes a las cepas candidatas.
En la práctica, el proceso de construcción tiene una tasa de fallo esperada según la cual un conjunto aleatorio de cepas no se construye. Para este ciclo de construcción, aproximadamente el 20% de las cepas candidatas no se construyeron, dando como resultado 37 cepas construidas.
El equipo de análisis 214 se usó para medir el rendimiento de producción y productividad real de las cepas seleccionadas. El equipo de análisis 214 evaluó el modelo y recomendó cepas basándose en tres criterios: precisión del modelo; mejora en el rendimiento de la cepa; y equivalencia (o mejora) con respecto a diseños generados por expertos humanos.
Los fenotipos de producción y productividad se midieron para cepas recomendadas y en comparación con los valores predichos por el modelo. Tal como se muestra en la Figura 49, el modelo demuestra una utilidad predictiva útil. En particular, los valores de producción predichos para las cepas recomendadas tienen un coeficiente de correlación de Pearson-r de 0,59 con las observaciones correspondientes.
A continuación, el equipo de análisis 214 calculó el cambio de rendimiento en porcentaje a partir de la cepa parental para cada una de las cepas recomendadas. Estos datos se muestran en la Figura 50 (en gris claro). Los inventores encontraron que muchas de las cepas predichas presentaban de hecho las ganancias de rendimiento esperadas con respecto a sus cepas parentales inmediatas. En particular, la mejor cepa predicha mostró una mejora del 6% en la producción con respecto a su cepa parental inmediata.
En paralelo con el proceso de diseño de cepas basada en un modelo descrito anteriormente, se diseñó independientemente una colección de 48 cepas por un experto humano. De estas cepas, 37 se construyeron y se sometieron a prueba exitosamente. Estos datos demostraron que los diseños de cepas basados en un modelo tenían un rendimiento comparable con las cepas diseñadas por expertos humanos. Estos expertos son científicos altamente preparados (por ejemplo, nivel Ph.D.) empleados u ocupados de otro modo por el cesionario de la presente invención, y familiarizados con las realizaciones de esta descripción. Para comparar los dos métodos, los inventores inspeccionaron en primer lugar las distribuciones de rendimiento de cada grupo (Figura 51). En este experimento, la producción media de cepas basadas en un modelo mostró un aumento del 1% con respecto a diseños generados por un experto humano.
Los inventores compararon entonces cepas diseñadas por un experto humano y diseñadas por un modelo informático agrupadas por fondos, es decir, nuevas cepas con la misma cepa parental (Figura 52). De nuevo, los inventores encontraron que los diseños generados por ordenador tenían un rendimiento comparable a, y en algunos casos mejor que, los diseños generados por expertos humano, y tenían además a producir menos variabilidad. Finalmente, los inventores compararon el cambio en porcentaje con respecto a las cepas parentales de las cepas diseñadas por un experto humano y diseñadas por un modelo (Figura 50). De nuevo, estas poblaciones mostraron ganancias comparables.
Véase la Tabla 4.1 para estadísticas de sumario tabuladas.
Tabla 4.1. Estadísticas de rendimiento medido para cepas diseñadas mediante el modelo predictivo y por una referencia con experiencia humana.
Figure imgf000053_0001
Al final de cada ronda del ciclo de predicción ^ construcción ^ prueba, los inventores se interesaron en evaluar la calidad de las predicciones de modelo e incorporar de manera iterativa nuevos datos en el modelo anterior. Para la evaluación del modelo anterior, los inventores se centraron en medir la precisión predictiva comparando predicciones de modelo con mediciones experimentales. La precisión predictiva puede evaluarse a través de varios métodos, incluyendo un coeficiente de correlación que indica la fuerza de asociación entre los valores predichos y observados, o la raíz del error cuadrático medio, que es una medida del error del modelo promedio.
A lo largo de muchas rondas de experimentación, las predicciones de modelo pueden variar, y pueden añadirse nuevos cambios genéticos a las entradas de entrenamiento para mejorar la precisión predictiva. Para este ejemplo, se añadieron cambios de diseño y su rendimiento resultante al modelo predictivo (3316).
Diseño genómico e ingeniería como servicio
En realizaciones de la descripción, el software del sistema LIMS 3210 de la Figura 31 puede implementarse en un sistema de computación en la nube 3202 de la Figura 32, para posibilitar que múltiples usuarios diseñen y construyan cepas microbianas según realizaciones de la presente descripción. La Figura 32 ilustra un entorno de computación en la nube 3204 según realizaciones de la presente descripción. Ordenadores cliente 3206, tales como los ilustrados en la Figura 34, acceden al sistema LIMS por medio de una red 3208, tal como Internet. En realizaciones, el software de aplicación del sistema LIMS 3210 reside en el sistema de computación en la nube 3202. El sistema LIMS puede emplear uno o más sistemas de computación que usan uno o más procesadores, del tipo ilustrado en la Figura 34. El propio sistema de computación en la nube incluye una interfaz de red 3212 para interconectar las aplicaciones del sistema LIMS 3210 con los ordenadores cliente 3206 por medio de la red 3208. La interfaz de red 3212 puede incluir una interfaz de programación de aplicaciones (API) para posibilitar que aplicaciones de cliente en los ordenadores cliente 3206 accedan al software del sistema LIMS 3210. En particular, a través de la API, ordenadores cliente 3206 pueden acceder a componentes del sistema LIMS 200, incluyendo sin limitación el software que ejecuta la interfaz de entrada 202, el interpretador 204, el motor de ejecución 207, el motor de realización de pedidos 208, la fábrica 210, así como el equipo de prueba 212 y equipo de análisis 214. Un módulo de software de software como servicio (SaaS) 3214 ofrece el software del sistema LIMS 3210 como un servicio a ordenadores cliente 3206. Un módulo de gestión en la nube 3216 gestiona el acceso al sistema LIMS 3210 por parte de los ordenadores cliente 3206. El módulo de gestión en la nube 3216 puede posibilitar una arquitectura en la nube que emplea aplicaciones compartidas, virtualización u otras arquitecturas conocidas en la técnica para dar servicio a múltiples usuarios.
Automatización genómica
La automatización de los métodos de la presente descripción posibilita un examen fenotípico de alto rendimiento y una identificación de productos objetivo a partir de múltiples variantes de cepa de prueba simultáneamente.
La plataforma de modelado predictivo de ingeniería genómica mencionada anteriormente se basa en el hecho de que cientos y miles de cepas mutantes se construyen de un modo de alto rendimiento. Los sistemas robóticos e informáticos descritos más adelante son los mecanismos estructurales mediante los cuales puede llevarse a cabo un proceso de alto rendimiento.
En algunas realizaciones, la presente descripción enseña métodos de mejora de productividades de células hospedantes, o de rehabilitación de cepas industriales. Como parte de este proceso, la presente descripción enseña métodos de ensamblaje de ADN, construcción de nuevas cepas, examen de cultivos en placas y examen de cultivos en modelos para la fermentación en tanques. En algunas realizaciones, la presente descripción enseña que uno o más de los métodos mencionados anteriormente de creación y de prueba de nuevas cepas hospedantes está ayudado por robótica automatizada.
En algunas realizaciones, la presente descripción enseña una plataforma de ingeniería de cepas de alto rendimiento tal como se representa en la Figura 6.
Sistemas robóticos HTP
En algunas realizaciones, los métodos automatizados de la descripción comprenden un sistema robótico. Los sistemas esbozados aquí se refieren generalmente al uso de placas de microtitulación de 96 o 384 pocillos, pero como apreciarán los expertos en la técnica, puede usarse cualquier número de placas o configuraciones diferentes. Además, cualquiera de o todas las etapas esbozadas aquí pueden automatizarse; por tanto, por ejemplo, los sistemas pueden estar completa o parcialmente automatizados.
En algunas realizaciones, los sistemas automatizados de la presente descripción comprenden uno o más módulos de trabajo. Por ejemplo, en algunas realizaciones, el sistema automatizado de la presente descripción comprende un módulo de síntesis de ADN, un módulo de clonación de vectores, un módulo de transformación de cepas, un módulo de examen y un módulo de secuenciación (véase la Figura 7).
Como apreciarán los expertos en la técnica, un sistema automatizado puede incluir una amplia variedad de componentes, incluyendo, pero sin limitarse a: manipuladores de líquido; uno o más brazos robóticos; manipuladores de placas para la colocación de microplacas; selladores de placas, perforadores de placas, manipuladores de tapas automatizados para eliminar y sustituir tapas para pocillos sobre placas no de contaminación cruzada; ensamblajes de punta desechables para la distribución de muestra con puntas desechables; ensamblajes de punta lavables para la distribución de muestra; bloques de carga de 96 pocillos; cicladores térmicos integrados; estantes de reactivos enfriados; posiciones de pipetas de placas de microtitulación (opcionalmente enfriadas); torres de apilamiento para placas y puntas; estaciones de procesamiento de perlas magnéticas; sistemas de filtración; agitadores de placas; aplicadores y lectores de códigos de barras; y sistemas informáticos.
En algunas realizaciones, los sistemas robóticos de la presente descripción incluyen una manipulación de líquidos y partículas automatizada que posibilite un pipeteado de alto rendimiento para realizar todas las etapas en el proceso de selección como diana de genes y aplicaciones de recombinación. Esto incluye manipulaciones de líquidos y partículas tales como aspiración, dispensación, mezclado, dilución, lavado, transferencias volumétricas precisas; recuperación y desechado de puntas de pipeta; y pipeteado repetitivo de volúmenes idénticos para múltiples entregas de una única aspiración de muestra. Estas manipulaciones son transferencias de líquidos, partículas, células y organismos libres de contaminación cruzada. Los instrumentos realizan una replicación automatizada de muestras de microplacas para filtros, membranas y/o placas hija, transferencias de alta densidad, diluciones en serie de placas completas y un funcionamiento de alta capacidad.
En algunas realizaciones, el sistema de manipulación automatizado personalizado de la descripción es una máquina TECAN (por ejemplo, una TECAN Freedom Evo personalizada).
En algunas realizaciones, los sistemas automatizados de la presente descripción son compatibles con plataformas para placas de múltiples pocillos, placas de pocillos profundos, placas de pocillos cuadrados, cubetas de reactivos, tubos de ensayo, minitubos, tubos de microcentrífuga, crioviales, filtros, microchips de red, fibras ópticas, perlas, geles de agarosa y acrilamida, y otras matrices de fase sólida o plataformas están alojadas en una cubierta modular adaptable. En algunas realizaciones, los sistemas automatizados de la presente descripción contienen al menos una cubierta modular para superficies de trabajo de múltiples posiciones para colocar muestras de fuente y de salida, reactivos, dilución de muestras y reactivos, placas de ensayo, reservorios de muestras y reactivos, puntas de pipetas y una estación de lavado de puntas activa.
En algunas realizaciones, los sistemas automatizados de la presente descripción incluyen sistemas de electroporación de alto rendimiento. En algunas realizaciones, los sistemas de electroporación de alto rendimiento son capaces de transformar células en placas de 96 o 384 pocillos. En algunas realizaciones, los sistemas de electroporación de alto rendimiento incluyen sistemas de electroporación de alto rendimiento VWR®, BTX™, Bio-Rad® Gene Pulser MXcell™ u otro sistema de electroporación de múltiples pocillos.
En algunas realizaciones, se usan el ciclador térmico integrado y/o reguladores térmicos para estabilizar la temperatura de intercambiadores de calor tales plataformas o bloques controlados para proporcionar un control de temperatura preciso de muestras en incubación de desde 0°C hasta 100°C.
En algunas realizaciones, los sistemas automatizados de la presente descripción son compatibles con cabezales de máquina intercambiables (de uno solo o de múltiples canales) con una sola o múltiples sondas magnéticas, sondas de afinidad, replicadores o pipeteadores, capaces de manipular robóticamente líquido, partículas, células y organismos multicelulares. Separadores magnéticos de múltiples pocilios o múltiples tubos y estaciones de filtración manipulan líquido, partículas, células y organismos en formatos de muestra individuales o múltiples.
En algunas realizaciones, los sistemas automatizados de la presente descripción son compatible con sistemas de visión en cámara y/o de espectrómetro. Por tanto, en algunas realizaciones, los sistemas automatizados de la presente descripción son capaces de detectar y archivar cambios de color y absorción en cultivos celulares en curso. En algunas realizaciones, el sistema automatizado de la presente descripción está diseñado para ser flexible y adaptable con múltiples accesorios de hardware para permitir que el sistema lleve a cabo múltiples aplicaciones. Los módulos de programa de software permiten la creación, modificación y ejecución de métodos. Los módulos de diagnóstico del sistema permiten la configuración, la alineación de instrumentos y operaciones de motor. Las herramientas personalizadas, aparatos de laboratorio y patrones de transferencia de líquidos y partículas permiten que se programen y realicen diferentes aplicaciones. La base de datos permite el almacenamiento de métodos y parámetros. Las interfaces robóticas e informáticas permiten la comunicación entre instrumentos.
Por tanto, en algunas realizaciones, la presente descripción enseña una plataforma de ingeniería de cepas de alto rendimiento, tal como se representa en la Figura 26.
Los expertos en la técnica reconocerán las diversas plataformas robóticas capaces de llevar a cabo los métodos de ingeniería HTP de la presente descripción. La Tabla 5 a continuación proporciona una lista no exclusiva de equipo científico capaz de llevar a cabo cada etapa de las etapas de ingeniería HTP de la presente descripción tal como se representa en la Figura 26.
Tabla 5- Lista no exclusiva de equipo científico compatible con los métodos de ingeniería HTP de la presente descripción
Figure imgf000056_0001
Figure imgf000057_0001
Figure imgf000058_0001
Figure imgf000059_0001
Figure imgf000060_0001
Figure imgf000061_0001
Figure imgf000062_0001
Figure imgf000063_0001
Hardware del sistema informático
La Figura 34 ilustra un ejemplo de un sistema informático 800 que puede usarse para ejecutar código de programa almacenado en un medio legible por ordenador no transitorio (por ejemplo, memoria) según realizaciones de la descripción. El sistema informático incluye un subsistema de entrada/salida 802, que puede usarse para interconectar con usuarios humanos y/u otros sistemas informáticos dependiendo de la aplicación. El subsistema E/S 802 puede incluir, por ejemplo, un teclado, ratón, interfaz de usuario gráfica, pantalla táctil u otras interfaces para la entrada, y, por ejemplo, un LED u otra presentación en pantalla plana, u otras interfaces para la salida, incluyendo interfaces de programación de aplicaciones (API). Otros elementos de realizaciones de la descripción, tal como los componentes del sistema LIMS, pueden implementarse con un sistema informático como el del sistema informático 800.
El código de programa puede almacenares en medios no transitorios tal como almacenamiento persistente en memoria secundaria 810 o memoria principal 808 o ambas. La memoria principal 808 puede incluir una memoria volátil tal como memoria de acceso aleatorio (RAM) o una memoria no volátil tal como memoria de solo lectura (ROM), así como diferentes niveles de memoria caché para un acceso más rápido a instrucciones y datos. La memoria secundaria puede incluir almacenamiento persistente tal como unidades de estado sólido, unidades de disco duro o discos ópticos. Uno o más procesadores 804 leen el código de programa de uno o más medios no transitorios y ejecutan el código para posibilitar que el sistema informático lleve a cabo los métodos realizados por las realizaciones aquí. Los expertos en la técnica entenderán que el/los procesador(es) pueden consumir código fuente, e interpretar o compilar el código fuente en código máquina que es comprensible al nivel de compuerta de hardware del/de los procesador(es) 804. El/los procesador(es) 804 puede(n) incluir unidades de procesamiento de gráficos (GPU) para manejar tareas computacionalmente intensivas. Particularmente en el aprendizaje automático, una o más CPU 804 pueden descargar el procesamiento de grandes cantidades de datos en una o más GPU 804.
El/Los procesador(es) 804 puede(n) comunicarse con redes externas por medio de una o más interfaces de comunicación 807, tal como una tarjeta de interfaz de red, transceptor WiFi, etc. Un bus 805 acopla de manera comunicativa el subsistema E/S 802, el/los procesador(es) 804, dispositivos periféricos 806, interfaces de comunicación 807, memoria 808 y almacenamiento persistente 810. Las realizaciones de la descripción no están limitados a esta arquitectura representativa. Realizaciones alternativas pueden emplear diferentes disposiciones y tipos de componentes, por ejemplo, buses independientes para componentes de entrada-salida y subsistemas de memoria.
Los expertos en la técnica entenderán que algunos de o todos los elementos de realizaciones de la descripción, y sus operaciones acompañantes, pueden implementarse completa o parcialmente mediante uno o más sistemas informáticos que incluyen uno o más procesadores y uno o más sistemas de memoria como aquellos del sistema informático 800. En particular, los elementos del sistema LIMS 200 y cualquier robótica y otros sistemas o dispositivos automatizados descritos aquí pueden implementarse en ordenador. Algunos elementos y funcionalidades pueden implementarse localmente y otros pueden implementarse de un modo distribuido en una red a través de diferentes servidores, por ejemplo, de un modo cliente-servidor, por ejemplo. En particular, operaciones en el lado de servidor pueden ponerse a disposición de múltiples clientes en un modo de software como servicio (SaaS), tal como se muestra en la Figura 32.
El término componente en este contexto se refiere ampliamente a un componente de software, hardware o firmware (o cualquier combinación de los mismos). Los componentes son normalmente componentes funcionales que pueden generar datos útiles u otra salida usando entrada(s) especificada(s). Un componente puede estar o no autocontenido. Un programa de aplicaciones (también denominado “aplicación”) puede incluir uno o más componentes, o un componente puede incluir uno o más programas de aplicaciones.
Algunas realizaciones incluyen algunos de, todos o ninguno de los componentes junto con otros módulos o componentes de aplicación. Todavía aún, diversas realizaciones pueden incorporar dos o más de estos componentes en un único módulo y/o asociar una porción de la funcionalidad de uno o más de estos componentes con un componente diferente.
El término “memoria” puede ser cualquier dispositivo o mecanismo usado para almacenar información. Según algunas realizaciones de la presente descripción, memoria pretende abarcar cualquier tipo de, pero no se limita a: memoria volátil, memoria no volátil y memoria dinámica. Por ejemplo, la memoria puede ser una memoria de acceso aleatorio, dispositivos de almacenamiento de memoria, dispositivos de memoria ópticos, medios magnéticos, disquetes, cintas magnéticas, unidades de disco duro, SIMMs, SDRAM, DIMMs, RDRAM, DDR RAM, SODIMMS, memorias solo de lectura programables borrables (EPROM), memorias solo de lectura programables borrables eléctricamente (EEPROM), discos compactos, DVD, y/o similares. Según algunas realizaciones, la memoria puede incluir una o más unidades de disco, memorias USB, bases de datos, memorias caché locales, memorias caché de procesador, bases de datos relacionales, bases de datos planas, servidores, plataformas basadas en la nube, y/o similares. Además, los expertos habituales en la técnica apreciarán que muchos dispositivos y técnicas adicionales para almacenar información pueden usarse como memoria.
La memoria puede usarse para almacenar instrucciones para ejecutar una o más aplicaciones o módulos en un procesador. Por ejemplo, la memoria podría usarse en algunas realizaciones para alojar algunas de o todas las instrucciones necesarias para ejecutar la funcionalidad de uno o más de los módulos y/o aplicaciones dados a conocer en esta solicitud.
Ingeniería de cepas microbianas HTP basada en predicciones de diseños genéticos: Un flujo de trabajo de ejemplo En algunas realizaciones, la presente descripción enseña la ingeniería dirigida de nuevos organismos hospedantes basándose en las recomendaciones de los sistemas de análisis computacional de la presente descripción.
En algunas realizaciones, la presente descripción es compatible con todos los métodos de diseño genético y clonación. Es decir, en algunas realizaciones, la presente descripción enseña el uso de técnicas de clonación tradicionales tales como la reacción en cadena de la polimerasa, digestiones con enzimas de restricción, ligación, recombinación homóloga, RT-PCR y otras conocidas generalmente en la técnica y se dan a conocer en, por ejemplo: Sambrook et al. (2001) Molecular Cloning: A Laboratory Manual (3a ed., Cold Spring Harbor Laboratory Press, Plainview, Nueva York).
En algunas realizaciones, las secuencias clonadas pueden incluir posibilidades de cualquiera de las bibliotecas de diseños genéticos HTP enseñadas aquí, por ejemplo: promotores de una biblioteca de intercambio de promotor, SNP de una biblioteca de intercambio SNP, codones de iniciación o terminación de una biblioteca de intercambio de codones de iniciación/terminación, terminadores de una biblioteca de intercambio STOP u optimizaciones de secuencias de una biblioteca de optimización de secuencias.
Además, las combinaciones de secuencia exactas que deben incluirse en un constructo particular pueden informarse mediante la función de cartografiado epistático.
En otras realizaciones, las secuencias clonadas también pueden incluir secuencias basadas en diseño racional (accionadas por hipótesis) y/o secuencias basadas en otras fuentes, tales como publicaciones científicas.
En algunas realizaciones, la presente descripción enseña métodos de ingeniería dirigida, incluyendo las etapas de i) generar ADN específico de SNP a medida, ii) ensamblar plásmidos específicos de SNP, iii) transformar células hospedantes diana con ADN específico de SNP, y iv) eliminar en bucle cualquier marcador de selección (véase la Figura 2).
La Figura 6A representa el flujo de trabajo general de los métodos de ingeniería de cepas de la presente descripción, incluyendo la adquisición y el ensamblaje de ADN, el ensamblaje de vectores, la transformación de células hospedantes y la eliminación de marcadores de selección.
Construcción de oligonucleótidos de ADN específicos
En algunas realizaciones, la presente descripción enseña la inserción y/o sustitución y/o alteración y/o deleción de un segmento de ADN del organismo de célula hospedante. En algunos aspectos, los métodos enseñados aquí implican la construcción de un oligonucleótido de interés (es decir, un segmento de ADN diana), que se incorporará en el genoma de un organismo hospedante. En algunas realizaciones, los segmentos de ADN diana de la presente descripción pueden obtenerse por medio de cualquier método conocido en la técnica, incluyendo: copiar o cortar de una plantilla conocida, mutación o síntesis de ADN. En algunas realizaciones, la presente descripción es compatible con productos de síntesis génica disponibles comercialmente para producir secuencias de ADN diana (por ejemplo, GeneArt™, GeneMaker™, GenScript™, Anagen™, Blue Heron™, Entelechon™, GeNOsys, Inc. o Qiagen™).
En algunas realizaciones, el segmento de ADN diana está diseñado para incorporar un SNP en una región de ADN seleccionada del organismo hospedante (por ejemplo, añadir un SNP beneficioso). En otras realizaciones, el segmento de ADN está diseñado para eliminar un SNP del ADN de los organismos hospedantes (por ejemplo, eliminar un SNP perjudicial o neutro).
En algunas realizaciones, los oligonucleótidos usados en los métodos inventivos pueden sintetizarse usando cualquiera de los métodos de síntesis enzimática o química conocidos en la técnica. Los oligonucleótidos pueden sintetizarse sobre soportes sólidos tales como vidrio de poro controlado (CPG), perlas de poliestireno o membranas compuestas de polímeros termoplásticos que pueden contener CPG. Los oligonucleótidos también pueden sintetizarse en redes, en una microescala paralela usando microfluídica (Tian et al., Mol. BioSyst., 5, 714-722 (2009)), o tecnologías conocidas que ofrecen combinaciones de ambas (véase Jacobsen et al., solicitud de patente U.S. n° 2011/0172127).
La síntesis en matrices o a través de microfluídica ofrece una ventaja con respecto a la síntesis sobre soportes sólidos convencional reduciendo costes a través de un menor uso de reactivos. La escala requerida para la síntesis génica es baja, de modo que la escala de producto oligonucleotídico sintetizado a partir de redes o través de microfluídica es aceptable. Sin embargo, los oligonucleótidos sintetizados son de menor calidad que cuando se usa la síntesis sobre soportes sólidos (véase Tian, más abajo; véase también Staehler et al., solicitud de patente U.S. n° 2010/0216648).
Se han conseguido un gran número de avances en la química de fosforamidita de cuatro etapas tradicional desde que se describió por primera vez en la década de 1980 (véase, por ejemplo, Sierzchala, et al. J. Am. Chem. Soc., 125, 13427-13441 (2003) que usa desprotección de anión peroxi; Hayakawa et al., patente U.S. n° 6.040.439 para grupos protectores alternativos; Azhayev et al, Tetrahedron 57, 4977-4986 (2001) para soportes universales; Kozlov et al., Nucleosides, Nucleotides, and Nucleic Acids, 24 (5-7), 1037-1041 (2005) para una síntesis mejorada de oligonucleótidos más largos a través del uso de CPG de poro grande; y Damha et al., NAR, 18, 3813-3821 (1990) para una derivatización mejorada).
Independientemente del tipo de síntesis, los oligonucleótidos resultantes pueden formar entonces los bloques de construcción más pequeños para oligonucleótidos más largos. En algunas realizaciones, los oligonucleótidos más pequeños pueden unirse usando protocolos conocidos en la técnica, tal como ensamblaje de cadena de polimerasa (PCA), reacción en cadena de la ligasa (LCR) y síntesis de dentro-fuera equilibrada termodinámicamente (TBIO) (véase Czar et al. Trends in Biotechnology, 27, 63-71 (2009)). En PCA, los oligonucleótidos que abarcan toda la longitud del producto más largo deseado se hibridan y se extienden en múltiples ciclos (de manera normal aproximadamente 55 ciclos) para conseguir eventualmente un producto de longitud completa. LCR usa enzima ligasa para unir dos oligonucleótidos que están ambos hibridados a un tercer oligonucleótido. La síntesis TBIO empieza en el centro del producto deseado y se extiende progresivamente en ambas direcciones usando oligonucleótidos solapantes que son homólogos a la hebra directa en el extremo 5' del gen y frente a la hebra inversa en el extremo 3' del gen.
Otro método de síntesis de un fragmento de ADN bicatenario más grande es combinar oligonucleótidos más pequeños a través de PCR de cadena superior (TSP). En este método, una pluralidad de oligonucleótidos abarcan toda la longitud de un producto deseado y contienen regiones solapantes con el/los oligonucleótido(s) adyacente(s). La amplificación puede realizarse con cebadores directos e inversos universales, y a través de múltiples ciclos de amplificación se forma un producto de ADN bicatenario de longitud completa. Este producto puede experimentar entonces una corrección de errores opcional y una amplificación adicional que da como resultado el producto final de fragmento de ADN bicatenario deseado.
En un método de TSP, el conjunto de oligonucleótidos más pequeños que se combinarán para formar el producto deseado de longitud completa son de entre 40-200 bases de longitud y se solapan entre sí en al menos aproximadamente 15-20 bases. Para los propósitos prácticos, la región de solapamiento debe ser como mínimo suficientemente larga para garantizar una hibridación específica de oligonucleótidos y tener una temperatura de fusión (Tm) suficientemente alta para hibridarse a la temperatura de reacción empleada. El solapamiento puede extenderse hasta el punto en el que un oligonucleótido dado está completamente solapado por oligonucleótidos adyacentes. La cantidad de solapamiento no parece tener ningún efecto sobre la calidad del producto final. El primer y el último bloque constructivo de oligonucleótido en el ensamblaje debe contener sitios de unión para cebadores de amplificación directos e inversos. En una realización, la secuencia de extremo terminal del primer y el último oligonucleótido contienen la misma secuencia de complementariedad para permitir para el uso de cebadores universales.
Ensamblaje/Clonación de plásmidos a medida
En algunas realizaciones, la presente descripción enseña métodos para construir vectores capaces de insertar secciones de ADN diana deseadas (por ejemplo, que contienen un SNP particular) en el genoma de organismos hospedante. En algunas realizaciones, la presente descripción enseña métodos de clonación de vectores que comprenden el ADN diana, brazos de homología y al menos un marcador de selección (véase la Figura 3).
En algunas realizaciones, la presente descripción es compatible con cualquier vector adecuado para la transformación en el organismo hospedante. En algunas realizaciones, la presente descripción enseña el uso de vectores lanzadera compatibles con una célula hospedante. En una realización, un vector lanzadera para su uso en los métodos proporcionados aquí es un vector lanzadera compatible con una célula hospedante de E. coli y/o Corynebacterium. Los vectores lanzadera para su uso en los métodos proporcionados aquí pueden comprender marcadores para selección y/o selección contraria tal como se describe aquí. Los marcadores pueden ser cualquier marcador conocido en la técnica y/o proporcionado aquí. Los vectores lanzadera pueden comprender además cualquier secuencia reguladora y/o secuencias útiles en el ensamblaje de dichos vectores lanzadera tal como se conoce en la técnica. Los vectores lanzadera pueden comprender además cualquier origen de replicación que pueda necesitarse para la propagación en una célula hospedante tal como se proporciona aquí tal como, por ejemplo, E. coli o C. glutamicum. La secuencia reguladora puede ser cualquier secuencia reguladora conocida en la técnica o proporcionada aquí tal como, por ejemplo, una secuencia promotora, de iniciación, de parada, señal, de secreción y/o de terminación usada por la maquinaria genética de la célula hospedante. En ciertos casos, el ADN diana puede insertarse en vectores, constructos o plásmidos que pueden obtenerse de cualquier producto de catálogo o repositorio, tal como un vector comercial (véanse, por ejemplo, los vectores DNA2.0 custom o GATEWAY®). En ciertos casos, el ADN diana puede insertarse en vectores, constructos o plásmidos que pueden obtenerse de cualquier producto de catálogo o repositorio, tal como un vector comercial (véanse, por ejemplo, los vectores DNA2.0 custom o GATEWAY®).
En algunas realizaciones, los métodos de ensamblaje/clonación de la presente descripción pueden emplear al menos una de las siguientes estrategias de ensamblaje: i) clonación convencional de tipo II, ii) clonación “Golden Gate” o medida por S de tipo II (véase, por ejemplo, Engler, C., R. Kandzia, y S. Marillonnet. 2008 “A one pot, one step, precision cloning method with high-throughput capability”. PLos One 3:e3647; Kotera, I., y T. Nagai. 2008 “A high-throughput and single-tube recombination of crude PCR products using a DNA polymerase inhibitor and type IIS restriction enzyme.” J Biotechnol 137:1-7.; Weber, E., R. Gruetzner, S. Werner, C. Engler, y S. Marillonnet. 2011 Assembly of Designer TAL Effectors by Golden Gate Cloning. PloS One 6:e19722), iii) recombinación GATEWAY®, iv) clonación TOPO®, ensamblaje mediado por exonucleasa (Aslanidis y de Jong 1990. “Ligation-independent cloning of PCR products (LIC-PCR).” Nucleic Acids Research, vol. 18, n° 206069), v) recombinación homóloga, vi) unión de extremos no homólogos, vii) ensamblaje Gibson (Gibson et al., 2009 “Enzymatic assembly of DNA molecules up to several hundred kilobases” Nature Methods 6, 343-345) o una combinación de las mismas. Estrategias de ensamblaje a base de tipo IIS modulares se dan a conocer en la publicación PCT WO 2011/154147.
En algunas realizaciones, la presente descripción enseña vectores de clonación con al menos un marcador de selección. Diversos genes marcadores de selección se conocen en la técnica que codifican a menudo para la función de resistencia antibiótica para su selección en células procariotas (por ejemplo, frente a ampicilina, kanamicina, tetraciclina, cloranfenicol, zeocina, espectinomicina/estreptomicina) o eucariotas (por ejemplo, geneticina, neomicina, higromicina, puromicina, blasticidina, zeocina) bajo presión selectiva. Otros sistemas de marcadores permiten el examen y la identificación de células deseadas o no deseadas tales como el sistema de examen azul/blanco ampliamente conocido usado en bacterias para seleccionar clones positivos en presencia de X-gal o indicadores fluorescentes tales como proteínas fluorescentes verdes o rojas expresadas en células hospedantes transducidas exitosamente. Otra clase de marcadores de selección la mayoría de los cuales son solo funcionales en sistemas procariotas se refiere a genes marcadores seleccionables de manera contraria denominados a menudo también “genes de muerte” que expresan productos génicos tóxicos que destruyen las células productoras. Los ejemplos de tales genes incluyen sacB, rpsL(strA), tetAR, pheS, thyA, gata-1 o ccdB, cuya función se describe en (Reyrat et al. 1998 “Counterselectable Markers: Untapped Tools for Bacterial Genetics and Pathogenesis.” Infect Immun. 66(9): 4011-4017).
Métodos de formación de protoplastos
En una realización, los métodos y sistemas proporcionados aquí hacen uso de la generación de protoplastos a partir de células fúngicas filamentosas. Procedimientos adecuados para la preparación de protoplastos pueden ser cualquiera conocido en la técnica incluyendo, por ejemplo, los descritos en el documento EP 238.023 y Yelton et al. (1984, Proc. Natl. Acad. Sci. USA 81:1470-1474). En una realización, los protoplastos se generan tratando un cultivo de células fúngicas filamentosas con una o más enzimas líticas o una mezcla de las mismas. Las enzimas líticas pueden ser una beta-glucanasa y/o una poligalacturonasa. En una realización, la mezcla de enzimas para generar protoplastos es concentrado VinoTaste. Tras el tratamiento enzimático, los protoplastos pueden aislarse usando métodos conocidos en la técnica tal como, por ejemplo, centrifugación.
El cultivo previo y la etapa de formación de protoplastos real pueden variarse para optimizar el número de protoplastos y la eficiencia de transformación. Por ejemplo, puede haber variaciones de tamaño de inóculo, método de inóculo, medios de cultivo previo, tiempos de cultivo previo, temperaturas de cultivo previo, condiciones de mezclado, composición de tampón de lavado, relaciones de dilución, composición de tampón durante el tratamiento con enzima lítica, el tipo y/o la concentración de enzima lítica usada, el tiempo de incubación con enzima lítica, los tampones y/o procedimientos de lavado de protoplastos, la concentración de protoplastos y/o polinucleótido y/o reactivos de transformación durante la transformación real, los parámetros físicos durante la transformación, los procedimientos tras la transformación hasta los transformantes obtenidos.
Los protoplastos pueden resuspenderse en un tampón de estabilización osmótica. La composición de tales tampones puede variar dependiendo de la especie, la aplicación y las necesidades. Sin embargo, normalmente estos tampones contienen o bien un componente orgánico como sacarosa, citrato, manitol o sorbitol entre 0,5 y 2 M. Más preferiblemente entre 0,75 y 1,5 M; lo más preferido es 1 M. De lo contrario, estos tampones contienen un componente de estabilización osmótica inorgánico como KCl, MgSO.sub.4, NaCl o MgCl.sub.2 en concentraciones de entre 0,1 y 1,5 M. Preferiblemente entre 0,2 y 0,8 M; más preferiblemente entre 0,3 y 0,6 M, lo más preferiblemente de 0,4 M. Los tampones de estabilización más preferidos son STC (sorbitol, 0,8 M; CaCl.sub.2, 25 mM; Tris, 25 mM; pH 8,0) o citrato de KCl (KCl, 0,3-0,6 M; citrato, 0,2% (p/v)). Los protoplastos pueden usarse en una concentración de entre 1 x 105 y 1 x 1010 células/ml. Preferiblemente, la concentración es de entre 1 x 106 y 1 x 109; más preferiblemente la concentración es de entre 1 x 107 y 5 x 108; lo más preferiblemente la concentración es de 1 x 108 células/ml. Se usa ADN en una concentración de entre 0,01 y 10 ug; preferiblemente de entre 0,1 y 5 ug, incluso más preferiblemente de entre 0,25 y 2 ug; lo más preferiblemente de entre 0,5 y 1 ug. Para aumentar la eficiencia de transfección puede añadirse ADN portador (como ADN de esperma de salmón o ADN de vector no codificante) a la mezcla de transformación.
En una realización, tras la generación y el posterior aislamiento, los protoplastos se mezclan con uno o más crioprotectores. Los crioprotectores pueden ser glicoles, dimetilsulfóxido (DMSO), polioles, azúcares, 2-metil-2,4-pentanodiol (MPD), polivinilpirrolidona (PVP), metilcelulosa, glicoproteínas anticongelantes ligadas a C (C-AFGP) o combinaciones de los mismos. Los glicoles para su uso como crioprotectores en los métodos y sistemas proporcionados aquí pueden seleccionarse de etilenglicol, propilenglicol, polipropilenglicol (PEG), glicerol, o combinaciones de los mismos. Los polioles para su uso como crioprotectores en los métodos y sistemas proporcionados aquí pueden seleccionarse de propano-1,2-diol, propano-1,3-diol, 1,1,1 -tris-(hidroximetil)etano (THME) y 2-etil-2-(hidroximetil)-propano-1,3-diol (EHMP), o combinaciones de los mismos. Los azúcares para su uso como crioprotectores en los métodos y sistemas proporcionados aquí pueden seleccionarse de trehalosa, sacarosa, glucosa, rafinosa, dextrosa o combinaciones de las mismas. En una realización, los protoplastos se mezclan con DMSO. El DMSO puede mezclarse con los protoplastos a una concentración final de al menos, como máximo, menos de, más de, igual a o aproximadamente el 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 12,5%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70% o 75% p/v o v/v. La mezcla de protoplastos/crioprotector (por ejemplo, DMSO) puede distribuirse a placas de microtitulación antes del almacenamiento. La mezcla de protoplastos/crioprotector (por ejemplo, DMSO) puede almacenares a cualquier temperatura proporcionada aquí para almacenamiento a largo plazo (por ejemplo, varias horas, día(s), semana(s), mes(es), año(s)) tal como se proporciona aquí tal como, por ejemplo, -202C o -802C. En una realización, un crioprotector adicional (por ejemplo, PEG) se añade a la mezcla de protoplastos/DMSO. En aún otra realización, el crioprotector adicional (por ejemplo, PEG) se añade a la mezcla de protoplastos/DMSO antes del almacenamiento. El PEG puede ser cualquier PEG proporcionado aquí y puede añadirse a cualquier concentración (por ejemplo, p/v o v/v) tal como se proporciona aquí.
Métodos de transformación de protoplastos
En una realización, los métodos y sistemas proporcionados aquí requieren la transferencia de ácidos nucleicos a protoplastos derivados de células fúngicas filamentosas tal como se describe aquí. En otra realización, la transformación utilizada por los métodos y sistemas proporcionados aquí es de naturaleza de alto rendimiento y/o está parcial o completamente automatizada tal como describe aquí. Además de esta realización, la transformación se realiza añadiendo constructos o constructos de expresión tal como se describe aquí a los pocillos de una placa de microtitulación seguido por tomar alícuotas de protoplastos generados mediante los métodos proporcionados aquí a cada pocillo de la placa de microtitulación. Los procedimientos adecuados para la transformación/transfección de protoplastos pueden ser cualquiera de los conocidos en la técnica incluyendo, por ejemplo, los descritos en las solicitudes de patente internacional PCT/NL99/00618, PCT/EP99/202516, Finkelstein y Ball (eds.), Biotechnology of filamentous fungi, technology and products, Butterworth-Heinemann (1992), Bennett y Lasure (eds.) More Gene Manipulations in fungi, Academic Press (1991), Turner, en: Puhler (ed), Biotechnology, segunda edición completamente revisada, VHC (1992), fusión de protoplastos, y la transformación de protoplastos mediada por Ca-PEG descrita en el documento EP635574B. Alternativamente, la transformación de las células hospedantes fúngicas filamentosas o protoplastos derivados de las mismas también puede realizarse mediante electroporación tal como, por ejemplo, la electroporación descrita por Chakraborty y Kapoor, Nucleic Acids Res. 18:6737 (1990), Agrobacterium tumefaciens-mediated transformation, la introducción biolística de ADN tal como, por ejemplo, la descrita en Christiansen et al., Curr. Genet. 29:100 102 (1995); Durand et al., Curr. Genet. 31:158 161 (1997); y Barcellos et al., Can. J. Microbiol. 44:1137 1141 (1998), o transfección de células “magnetobiolística” tal como, por ejemplo, la descrita en las patentes U.S. nos 5.516.670 y 5.753.477. En una realización, el procedimiento de transformación usado en los métodos y sistemas proporcionados aquí es uno rectificable para ser de alto rendimiento y/o automatizado tal como se proporciona aquí tal como, por ejemplo, transformación mediada por PEG.
La transformación de los protoplastos generados usando los métodos descritos aquí puede facilitarse a través del uso de cualquier reactivo de transformación conocido en la técnica. Los reactivos de transformación adecuados pueden seleccionarse de polietilenglicol (PEG), FUGENE® HD (de Roche), Lipofectamine® u OLIGOFECTAMINE® (de Invitrogen), TRANSpAs S®D1 (de New England Biolabs), LYPOVEC® o LIPOGEN® (de Invivogen). En una realización, el PEG es el reactivo de transformación/transfección más preferido. El PEG está disponible a diferentes pesos moleculares y puede usarse a diferentes concentraciones. Preferiblemente, el PEG 4000 se usa entre el 10% y el 60%, más preferiblemente entre el 20% y el 50%, lo más preferiblemente al 30%. En una realización, el PEG se añade a los protoplastos antes del almacenamiento tal como se describe aquí.
Transformación de células hospedante
En algunas realizaciones, los vectores de la presente descripción pueden introducirse en las células hospedantes usando cualquiera de una variedad de técnicas, incluyendo transformación, transfección, transducción, infección viral, pistolas genéticas o transferencia genética mediada por Ti (véase Christie, P.J., y Gordon, J.E., 2014 “The Agrobacterium Ti Plasmids” Microbiol SPectr. 2014; 2(6); 10.1128). Los métodos particulares incluyen transfección con fosfato de calcio, transfección mediada por DEAE-dextrano, lipofección o electroporación (Davis, L., Dibner, M., Battey, I., 1986 “Basic Methods in Molecular Biology”). Otros métodos de transformación incluyen, por ejemplo, transformación con acetato de litio y electroporación. Véase, por ejemplo, Gietz et al., Nucleic Acids Res. 27:69-74 (1992); Ito et al., J. Bacterol. 153:163-168 (1983); y Becker y Guarente, Methods in Enzymology 194:182-187 (1991). En algunas realizaciones, las células hospedantes transformadas se denominan cepas hospedantes recombinantes.
En algunas realizaciones, la presente descripción enseña la transformación de alto rendimiento de células usando la plataforma robótica de placas de 96 pocillos y las máquinas de manipulación de líquidos de la presente descripción.
En algunas realizaciones, la presente descripción enseña el examen de células transformadas con uno o más marcadores de selección tal como se describió anteriormente. En una realización de este tipo, células transformadas con un vector que comprende un marcador de resistencia a kanamicina (KanR) se siembran en placa en medios que contienen cantidades efectivas del antibiótico kanamicina. Se asume que las unidades formadoras de colonias visibles en medios mezclados con kanamicina han incorporado el casete de vector en su genoma. La inserción de las secuencias deseadas puede confirmarse por medio de PCR, análisis de enzimas de restricción y/o secuenciación del sitio de inserción relevante.
Eliminación en bucle de secuencias seleccionadas
En algunas realizaciones, la presente descripción enseña métodos de eliminación en bucle de regiones seleccionadas de ADN de los organismos hospedante. El método de eliminación en bucle puede ser tal como se describe en Nakashima et al. 2014 “Bacterial Cellular Engineering by Genome Editing and Gene Silencing.” Int. J. Mol. Sci. 15(2), 2773-2793. En algunas realizaciones, la presente descripción enseña la eliminación en bucle de marcadores de selección de transformantes positivos. Técnicas de deleción de eliminación en bucle se conocen en la técnica y se describen en (Tear et al. 2014 “Excision of Unstable Artificial Gene-Specific inverted Repeats Mediates Scar-Free Gene Deletions in Escherichia coli.” Appl. Biochem. Biotech. 175:1858-1867). Los métodos de eliminación en bucle usados en los métodos proporcionados aquí pueden realizarse usando recombinación homóloga de entrecruzamiento simple o recombinación homóloga de entrecruzamiento doble. En una realización, la eliminación en bucle de regiones seleccionadas tal como se describe aquí puede conllevar el uso de recombinación homóloga de entrecruzamiento simple tal como se describe aquí.
En primer lugar, se insertan vectores de eliminación en bucle en regiones diana seleccionadas dentro del genoma del organismo hospedante (por ejemplo, por medio de recombinación homóloga, CRISPR u otra técnica de edición genética). En una realización, se usa recombinación homóloga de entrecruzamiento simple entre un vector o plásmido circular y el genoma de la célula hospedante con el fin de incorporar en bucle el vector o plásmido circular tal como se representa en la Figura 3. El vector insertado puede diseñarse con una secuencia que es una repetición directa de una secuencia hospedante existente o introducida cerca, de modo que las repeticiones directas flanquean la región de ADN seleccionada para la modificación en bucle y deleción. Una vez insertado, las células que contienen el vector o plástico de eliminación en bucle pueden seleccionarse de manera contraria para la deleción de la región de selección (por ejemplo, véase la Figura 4; falta de resistencia al gen de selección).
Los expertos en la técnica reconocerán que la descripción del procedimiento de eliminación en bucle representa nada más que un método ilustrativo para delecionar regiones no deseadas de un genoma. De hecho, los métodos de la presente descripción son compatibles con cualquier método para deleciones de genoma, incluyendo, pero sin limitarse a, edición genética por medio de CRISPR, TALENS, FOK u otras endonucleasas. Los expertos en la técnica también reconocerán la capacidad para sustituir regiones no deseadas del genoma por medio de técnicas de recombinación homóloga.
EJEMPLOS
Tabla 5.1- Índice por sección de ejemplo.
Figure imgf000069_0001
Figure imgf000070_0001
E j e m p l o 1 : T r a n s f o r m a c i ó n H T P d e Corynebacterium y d e m o s t r a c i ó n d e l a c r e a c i ó n d e b i b l i o t e c a s S N P Este ejemplo ilustra realizaciones de los métodos de ingeniería genética HTP de la presente descripción. Las células hospedantes se transforman con una variedad de secuencias SNP de diferente tamaños, que seleccionan todas como diana diferentes áreas del genoma. Los resultados demuestran que los métodos de la presente descripción son capaces de generar cambios genéticos rápidos de cualquier clase, por todo el genoma de una célula hospedante.
A. Clonación de vectores de transformación
Se escogieron aleatoriamente una variedad de SNP de Corynebacterium glutamicum (ATCC21300) y se clonaron en vectores de clonación de Corynebacterium usando técnicas de clonación de recombinación homóloga de levadura para ensamblar un vector en el que cada SNP estaba flanqueado por regiones de repetición directa, tal como se describió anteriormente en la sección “Ensamblaje/Clonación de plásmidos a medida”, y como se ilustra en la Figura 3.
Los casetes de SNP para este ejemplo se diseñaron para incluir un intervalo de longitudes de brazo de repetición directa de homología que oscila entre 0,5 Kb, 1 Kb, 2 Kb y 5 Kb. Además, se diseñaron casetes de SNP para recombinación homóloga dirigidos a diversas regiones distintas del genoma, tal como se describe en más detalle más adelante.
El genoma de C. glutamicum tiene un tamaño de 3.282.708 pb (véase la Figura 9). El genoma se dividió arbitrariamente en 24 regiones genéticas de igual tamaño y se diseñaron casetes de SNP para seleccionar como diana cada una de las 24 regiones. Por tanto, se clonaron un total de 96 plásmidos distintos para este ejemplo (4 tamaños de inserto diferentes x 24 regiones genómicas distintas).
Cada inserto de ADN se produjo mediante amplificación por PCR de regiones homólogas usando oligos de fuentes comerciales y el ADN genómico de la cepa hospedante descrito anteriormente como plantilla. El SNP que debe introducirse en el genoma se codificó en las colas de oligo. Se ensamblaron Fragmentos de PCR en la estructura principal del vector usando recombinación homóloga en levadura.
La clonación de cada SNP y brazo de homología en el vector se llevó a cabo según el flujo de trabajo de ingeniería HTP descrito en la Figura 6, la Figura 3 y la Tabla 5.
B. Transformación de clones ensamblados en E. coli
Se transformaron inicialmente vectores en E. coli usando técnicas de transformación por choque térmico estándar con el fin de identificar correctamente clones ensamblados, y para amplificar el ADN de vector para la transformación de Corynebacterium.
Por ejemplo, se sometieron a prueba bacterias E. coli transformadas para el éxito de ensamblaje. Se cultivaron cuatro colonias de cada placa de transformación de E. coli y se sometieron a prueba para el ensamblaje correcto por medio de PCR. Este proceso se repitió para cada una de las 24 ubicaciones de transformación y para cada uno de los 4 tamaños de inserto diferentes (es decir, para los 96 transformantes de este ejemplo). Los resultados de este experimento se representaron como el número de colonias correctas identificadas de las cuatro colonias que se sometieron a prueba para cada tratamiento (tamaño de inserto y ubicación genómica) (véase la Figura 12). Los insertos de más de 5 kb presentaban una disminución en la eficiencia de ensamblaje en comparación con los equivalentes más cortos (n=96).
C. Transformación de clones ensamblados en Corynebacterium
Se transformaron clones validados en células hospedantes de Corynebacterium glutamicum por medio de electroporación. Para cada transformación, el número de unidades formadoras de colonias (UFC) por pg de ADN se determinó como una función del tamaño de inserto (véase la Figura 13). La integración del genoma de Coryne también se analizó como una función de la longitud de brazo de homología, y los resultados mostraron que brazos más cortos tenían una eficiencia menor (véase la Figura 13).
También se analizó la eficiencia de integración genómica con respecto a la ubicación de genoma seleccionada como diana en transformantes de C. glutamicum. Las posiciones genómicas 1 y 2 presentaban una eficiencia de integración ligeramente reducida en comparación con el resto del genoma (véase la Figura 10).
D. Eliminación en bucle de marcadores de selección
Se cultivaron cultivos de Corynebacterium identificados como que tenían integraciones exitosas del casete de inserto en medios que contenían sacarosa al 5% para seleccionar de manera contraria eliminaciones en bucle del gen de selección sacb. La frecuencia de resistencia a la sacarosa para diversos brazos de repetición directa de homología no varió significativamente con la longitud de brazo (véase la Figura 14). Estos resultados sugerían que las eficiencias de eliminación en bucle permanecían estables a través de longitudes de brazo de homología de 0,5 kb a 5 kb.
Con el fin de validar adicionalmente eventos de eliminación en bucle, se cultivaron colonias que presentaban resistencia a la sacarosa y se analizaron por medio de secuenciación.
Los resultados para la secuenciación de las regiones genómicas de inserto se resumen en la Tabla 6 a continuación.
Tabla 6 - Frecuencia de validación de eliminación en bucle
Figure imgf000071_0001
Los resultados de secuenciación mostraron una eficiencia del 10-20% en eliminación en bucle. La eliminación en bucle real depende probablemente en cierta medida de la secuencia de inserto. Sin embargo, escoger 10-20 colonias resistentes a la sacarosa conduce a tasas de éxito altas.
E. Sumario
La Tabla 7 a continuación proporciona una evaluación cuantitativa de las eficiencias de los métodos de ingeniería de genoma HTP de la presente descripción. Las tasas de ensamble de constructos para metodologías de homología de levadura produjeron constructos de ADN esperados en aproximadamente 9 de cada 10 colonias sometidas a prueba. Las transformaciones de Coryne de constructos de SNP con brazos de homología de 2 kb produjeron un promedio de 51 unidades formadoras de colonias por microgramo de ADN (UFC/pg), presentando un 98% de dichas colonias insertos de SNP integrados correctamente (eficiencia de selección como diana). Las eficiencias de eliminación en bucle permanecieron al 0,2% de células que se volvían resistentes cuando se exponían a la sacarosa, presentando un 13% de estas secuencias eliminadas en bucle correctamente.
Tabla 7- Resultados de sumario para ingeniería de cepas de Corynebacterium glutamicum
Figure imgf000071_0002
Ejemplo 2: Ingeniería genómica HTP - Implementación de una biblioteca SNP para rehabilitar/mejorar una cepa microbiana industrial
Este ejemplo ilustra varios aspectos de las bibliotecas de intercambio SNP de los programas de mejora de cepas HTP de la presente descripción. Específicamente, el ejemplo ilustra varios enfoques concebidos para rehabilitar cepas industriales existentes actualmente. Este ejemplo describe los enfoques de elevación y disminución para explorar el espacio de solución fenotípica creado por las múltiples diferencias genéticas que pueden estar presentes entre la cepa “de base”, “intermedia” y cepas industriales.
A. Identificación de SNP en un conjunto de diversidad
Un programa de mejora de cepas a modo de ejemplo usando los métodos de la presente descripción se llevó a cabo en una cepa microbiana de producción industrial, denominada aquí “C”. Las cepas del conjunto de diversidad para este programa se representan mediante A, B y C. La cepa A representaba la cepa hospedante de producción original, antes de cualquier mutagénesis. La cepa C representaba la cepa industrial actual, que había experimentado muchos años de mutagénesis y selección por medio de programas de mejora de cepas tradicionales. La cepa B representaba una cepa “de punto medio”, que había experimentado algo de mutagénesis y había sido la predecesora de la cepa C. (véase la Figura 17A).
Las cepas A, B y C se secuenciaron y sus genomas se analizaron para diferencias genéticas entre cepas. Se identificaron un total de 332 SNP no sinónimos. De estos, 133 SNP eran únicos para C, 153 se compartían adicionalmente por B y C, y 46 eran únicos para la cepa B (véase la Figura 17B). Estos SNP se usarán como conjunto de diversidad para ciclos de mejora de cepas más adelante.
B. Análisis de intercambio SNP
Los SNP identificados del conjunto de diversidad en la parte A del ejemplo 2 se analizarán para determinar su efecto sobre el rendimiento de la célula hospedante. La ronda “de aprendizaje” inicial del rendimiento de cepa se descompondrá en seis etapas tal como se describe más adelante y se representa en un diagrama en la Figura 18. En primer lugar, todos los SNP de C se clonarán individualmente y/o de manera combinatoria en la cepa A de base. Esto representará un mínimo de 286 transformantes individuales. El propósito de estos transformantes será identificar SNP beneficiosos.
En segundo lugar, todos los SNP se C se eliminarán individualmente y/o de manera combinatoria de la cepa comercial C. Esto representará un mínimo de 286 transformantes individuales. El propósito de estos transformantes será identificar SNP neutros y perjudiciales. Las etapas opcionales adicionales 3-6 se describen también más adelante. Las etapas primera y segunda de añadir y sustraer SNP de dos puntos de tiempo genéticos (cepa de base A y cepa industrial C) se denominan aquí “onda”, que comprende una “elevación” (adición de SNP a una cepa de base, primera etapa) y una “disminución” (eliminación de SNP de la cepa industrial, segunda etapa). El concepto de onda se extiende a adiciones/sustracciones adicionales de SNP.
En tercer lugar, todos los SNP de B se clonarán individualmente y/o de manera combinatoria en la cepa A de base. Esto representará un mínimo de 199 transformantes individuales. El propósito de estos transformantes será identificar SNP beneficiosos. Varios de los transformantes servirán también como datos de validación para transformantes producidos en la primera etapa.
En cuarto lugar, todos los SNP de B se eliminarán individualmente y/o de manera combinatoria de la cepa comercial B. Esto representará un mínimo de 199 transformantes individuales. El propósito de estos transformantes será identificar SNP neutros y perjudiciales. Varios de los transformantes servirán también como datos de validación para transformantes producidos en la segunda etapa.
En quinto lugar, todos los SNP únicos para C (es decir, no presentes también en B) se clonarán individualmente y/o de manera combinatoria en la cepa B comercial. Esto representará un mínimo de 46 transformantes individuales. El propósito de estos transformantes será identificar SNP beneficiosos. Varios de los transformantes servirán también como datos de validación para transformantes producidos en las etapas primera y tercera.
En sexto lugar, todos los SNP únicos para C se eliminarán individualmente y/o de manera combinatoria de la cepa comercial C. Esto representará un mínimo de 46 transformantes individuales. El propósito de estos transformantes será identificar SNP neutros y perjudiciales. Varios de los transformantes servirán también como datos de validación para transformantes producidos en las etapas segunda y cuarta.
Los datos recogidos de cada una de estas etapas se usan para clasificar cada SNP como beneficioso, neutro o perjudicial a primera vista.
C. Utilización de cartografiado epistático para determinar combinaciones de SNP beneficiosas
Los SNP beneficiosos identificados en la parte B del ejemplo 2 se analizarán por medio de los métodos de cartografiado epistático de la presente descripción, con el fin de identificar SNP que mejoren probablemente el rendimiento del hospedante cuando se combinen.
Se crearán nuevas variantes de cepa modificadas mediante ingeniería usando los métodos de ingeniería del ejemplo 1 para someter a prueba combinaciones de SNP según predicciones de cartografiado epistático. La consolidación de SNP puede tener lugar secuencialmente, o alternativamente puede tener lugar entre múltiples ramas de modo que puede existir más de una cepa mejorada con un subconjunto de SNP beneficiosos. La consolidación de SNP continuará a lo largo de múltiples rondas de mejora de cepas, hasta que se produzca una cepa final que contenga la combinación óptima de SNP beneficiosos, sin nada del equipaje de SNP neutros o perjudiciales.
Figure imgf000073_0001
Este ejemplo proporciona una implementación ilustrativa de una porción del programa de mejora de cepas de diseños HTP de intercambio SNP del ejemplo 2 con el objetivo de producir mejoras de producción y de productividad de la producción de lisina en Corynebacterium.
La sección B de este ejemplo ilustra adicionalmente las etapas de consolidación de mutaciones del programa de mejora de cepas HTP de la presente descripción. Por tanto, el ejemplo proporciona resultados experimentales para una consolidación de primera, segunda y tercera ronda de los métodos de mejora de cepas HTP de la presente descripción.
Las mutaciones para las consolidaciones de segunda y tercera ronda se derivan de intercambios de bibliotecas genéticas independientes. Por tanto, estos resultados también ilustran la capacidad para que los programas de cepas HTP se lleven a cabo en pistas paralelas de múltiples ramas, y la “memoria” de mutaciones beneficiosas que puede incrustarse en metadatos asociados con las diversas formas de las bibliotecas de diseños genéticos de la presente descripción.
Tal como se describió anteriormente, los genomas de una cepa de referencia de base proporcionada (cepa A) y una segunda cepa “modificada mediante ingeniería” (cepa C) se secuenciaron, y se identificaron todas las diferencias genéticas. La cepa de base era una variante de Corynebacterium glutamicum que no había experimentado mutagénesis UV. La cepa modificada mediante ingeniería era también una cepa de C. glutamicum que se había producido a partir de la cepa de base tras varias rondas de programas de mejora de mutaciones tradicionales. Este ejemplo proporciona los resultados de intercambio SNP para 186 diferencias de SNP no sinónimos distintas identificadas entre las cepas A y C.
A. Modificación mediante ingeniería HTP y examen de alto rendimiento
Cada uno de los 186 SNP identificados se añadieron de vuelta individualmente a la cepa de base, según los métodos de clonación y de transformación de la presente descripción. Cada cepa creada recientemente que comprende un único SNP se sometió a prueba para la producción de lisina en cultivos a pequeña escala diseñados para evaluar el rendimiento de título de producto. Se llevaron a cabo cultivos a pequeña escala usando medios de cultivos a escala industrial. El título de producto se midió ópticamente al agotamiento de carbono (es decir, representativo de una producción de lote individual) con un ensayo colorimétrico estándar. Brevemente, se preparó una mezcla de ensayo concentrada y se añadió a muestras de fermentación de modo que las concentraciones finales de los reactivos fueran tampón fosfato de sodio 160 mM, Amplex Red 0,2 mM, peroxidasa del rábano 0,2 U/ml y 0,005 U/ml de lisina oxidasa. Se permitió que las reacciones avanzaran hasta un punto final y se midió la densidad óptica usando un espectrofotómetro de placa Tecan M1000 a una longitud de onda de 560 nm. Los resultados del experimento se resumen en la Tabla 8 a continuación y se representan en la Figura 38.
Tabla 8- Resultados de sumario para ingeniería de cepas de intercambio SNP para la producción de lisina
Figure imgf000073_0002
Figure imgf000074_0001
Figure imgf000075_0001
Figure imgf000076_0001
B. Ingeniería HTP de segunda ronda y examen de alto rendimiento- Consolidación de bibliotecas de intercambio SNP con resultados positivos de intercambio PRO seleccionados
Una de las fortalezas de los métodos HTP de la presente descripción es su capacidad para almacenar bibliotecas de diseños genéticos HTP junto con información asociada con cada efecto de SNP/promotor/terminador/codón de iniciación sobre los fenotipos de célula hospedante. Los presentes inventores habían llevado a cabo previamente un experimento de intercambio de promotor que había identificado varios intercambios de promotor zwf en C. glutamicum con efectos positivos sobre producciones de biosíntesis (véanse, por ejemplo, los resultados para la diana “N” en la Figura 22).
Los presentes inventores modificaron la cepa de base A de este ejemplo para incluir también uno de los intercambios de promotor zwf identificados previamente del ejemplo 5. Los 176 SNP superiores identificados del examen inicial descrito anteriormente en la Tabla 8 volvieron a introducirse en esta nueva cepa de base para crear una nueva biblioteca microbiana de diseños genéticos de intercambio SNP. Como con la etapa anterior, cada cepa creada recientemente que comprende un único SNP se sometió a prueba para la producción de lisina. Cepas mutantes de SNP seleccionadas también se sometieron a prueba para un proxi de productividad, midiendo la producción de lisina a las 24 horas usando el método colorimétrico descrito anteriormente. Los resultados de esta etapa se resumen en la Tabla 9 a continuación y se representan en la Figura 39.
Tabla 9- Examen de segunda ronda para ingeniería de cepas de intercambio SNP para la producción de lisina
Figure imgf000077_0001
Figure imgf000078_0001
Figure imgf000079_0001
Figure imgf000080_0001
Los resultados de esta segunda ronda de intercambio SNP identificaron varios SNP capaces de aumentar la producción y productividad de lisina de cepa de base en una cepa de base que comprende la mutación de intercambio de promotor zwf (véanse, por ejemplo, SNP 084 y SNP 121 en la esquina superior derecha de la Figura 39).
C. Validación de cultivos en tanque
Se cultivaron cepas que contenían los SNP superiores identificados durante las etapas HTP anteriores en tanques de fermentación de prueba de tamaño medio. Brevemente, se hicieron crecer cultivos de 100 ml pequeños de cada cepa durante la noche y entonces se usaron para inocular cultivos de 5 litros en los tanques de fermentación de prueba con cantidades iguales de inoculado. El inoculado se normalizó para contener la misma densidad celular tras una medición de DO600.
Se permitió que los cultivos en tanque resultantes avanzaran durante 3 días antes de la recogida. Se calcularon mediciones de producción y de productividad a partir de títulos de sustrato y de producto en muestras tomadas del tanque en diversos puntos a lo largo de la fermentación. Se analizaron muestras para concentraciones de moléculas pequeñas particulares mediante cromatografía de líquidos a alta presión usando los patrones apropiados. Los resultados para este experimento se resumen en la Tabla 10 a continuación y se representan en la Figura 40.
Tabla 10- Validación en tanque de microbios de intercambio SNP
Figure imgf000080_0002
Como se predijo mediante los cultivos de alto rendimiento a pequeña escala, los cultivos en tanque más grandes para cepas que comprenden el intercambio de promotor zwf combinado y SNP 121 presentaban aumentos significativos en la producción y productividad con respecto a la cepa de referencia de base. La productividad de esta cepa, por ejemplo, saltó hasta 4,5 g/l/h en comparación con la productividad de 3,29 g/l/h de la cepa de base (un aumento del 37,0% en la productividad en solo 2 rondas de intercambio SNP).
Ejemplo 4: Ingeniería genómica HTP - Implementación de una biblioteca de intercambio de promotor para mejorar una cepa microbiana industrial
Ejemplos anteriores han demostrado la potencia de los programas de mejora de cepas HTP de la presente descripción para rehabilitar cepas industriales. Los ejemplos 2 y 3 describieron la implementación de bibliotecas y técnicas de intercambio SNP que exploran la diversidad genética existente dentro de diversas cepas de base, intermedias e industriales
Este ejemplo ilustra realizaciones de los programas de mejora de cepas HTP usando las técnicas de intercambio PRO de la presente descripción. A diferencia del ejemplo 3, este ejemplo enseña métodos para la generación de novo de mutaciones por medio de la generación de bibliotecas de intercambio PRO.
A. Identificación de una diana para el intercambio de promotor
Como se mencionó anteriormente, el intercambio de promotor es un proceso de múltiples etapas que comprende una etapa de: seleccionar un conjunto de “n” genes para seleccionar como diana.
En este ejemplo, los inventores han identificado un grupo de 23 genes de ruta potenciales para modular por medio de los métodos de escalera de promotores de la presente descripción (19 genes para sobreexpresión y 4+ genes de desviación para la regulación por disminución, en una ruta metabólica a modo de ejemplo que produce la molécula lisina). (Véase la Figura 19).
B. Creación de una escalera de promotores
Otra etapa en la implementación de un proceso de intercambio de promotor es la selección de un conjunto de “x” promotores para actuar como “escalera”. De manera ideal, se ha mostrado que estos promotores conducen a una expresión altamente variable entre múltiples loci genómicos, pero el único requisito es que perturben la expresión génica de algún modo.
Estas escaleras de promotores, en realizaciones particulares, se crean: identificando promotores naturales, nativos o de tipo silvestre asociados con el gen diana de interés y entonces mutando dicho promotor para derivar múltiples secuencias promotoras mutadas. Cada uno de estos promotores mutados se somete a prueba para el efecto sobre la expresión del gen diana. En algunas realizaciones, los promotores editados se someten a prueba para la actividad de expresión entre una variedad de condiciones, de modo que cada actividad de la variante de promotor se documenta/caracteriza/anota y almacena en una base de datos. Las variantes de promotor editadas resultantes se organizan posteriormente en “escaleras” dispuestas basándose en la fuerza de su expresión (por ejemplo, con variantes de expresión alta cerca de la parte superior, y expresión atenuada cerca de la parte inferior, conduciendo así al término “escalera”).
En la presente realización ejemplar, los inventores han creado combinaciones de escalera de promotores:ORF para cada uno de los genes diana identificados en la Figura 19.
C. Asociación de promotores de la escalera con genes diana
Otra etapa en la implementación de un proceso de intercambio de promotor es la ingeniería HTP de diversas cepas que comprenden un promotor dado de la escalera de promotores asociado con un gen diana particular.
Si existe un promotor nativo delante del gen diana n y se conoce su secuencia, entonces puede llevarse a cabo la sustitución del promotor nativo con cada uno de los x promotores en la escalera. Cuando no existe el promotor nativo o su secuencia es desconocida, entonces puede llevarse a cabo la inserción de cada uno de los x promotores en la escalera delante del gen n. De este modo se construye una biblioteca de cepas, en la que cada miembro de la biblioteca es un caso de x promotor ligado operativamente a n diana, en un contexto genético por lo demás idéntico (véase, por ejemplo, la Figura 20).
D. Examen HTP de las cepas
Una etapa final en el proceso de intercambio de promotor es el examen HTP de las cepas en la biblioteca mencionada anteriormente. Cada una de las cepas derivadas representa un caso de x promotor ligado a n diana, en un fondo genético por lo demás idéntico.
Implementando un examen HTP de cada cepa, en un escenario en el que se caracteriza su rendimiento frente a una o más métricas, los inventores son capaces de determinar qué asociación de promotor/gen diana es la más beneficiosa para una métrica dada (por ejemplo, optimización de la producción de una molécula de interés). Véase la Figura 20 (efecto de los promotores P1-P8 sobre el gen de interés).
En la realización ejemplar ilustrada en las Figuras 19-22, los inventores han utilizado el proceso de intercambio de promotor para optimizar la producción de lisina. Una aplicación de los métodos de intercambio Pro descritos anteriormente se describe en el ejemplo 5, a continuación.
Ejemplo 5: Ingeniería genómica HTP - Implementación de una biblioteca de intercambio PRO para mejorar el rendimiento de cepas para la producción de lisina.
La sección a continuación proporciona una implementación ilustrativa de las herramientas de programa de mejora de cepas de diseños HTP de intercambio PRO de la presente descripción, tal como se describe en el ejemplo 4. En este ejemplo, una cepa de Corynebacterium se sometió a los métodos de intercambio PRO de la presente descripción con el fin de aumentar la producción de lisina de la célula hospedante.
A. Intercambio de promotor
Se llevaron a cabo intercambios de promotor tal como se describe en el ejemplo 4. Se seleccionaron como diana genes seleccionados de la ruta de biosíntesis de lisina en la Figura 19 para intercambios de promotor usando los promotores P1-P8.
B. Ingeniería HTP y examen de alto rendimiento
La ingeniería HTP de los intercambios de promotor se llevó a cabo tal como se describe en el ejemplo 1 y 3. El examen HTP de las cepas de intercambio de promotor resultantes se llevó a cabo tal como se describe en el ejemplo 3. En total se llevaron a cabo 145 intercambios PRO. Los resultados del experimento se resumen en la Tabla 11 a continuación y se representan en la Figura 41.
Tabla 11- Examen HTP de bibliotecas de intercambio PRO de lisina
Figure imgf000082_0001
Figure imgf000083_0001
Figure imgf000084_0001
Cuando se visualizan, los resultados del examen de bibliotecas de intercambio de promotor sirven para identificar dianas génicas que están correlacionadas de la manera más estrecha con la métrica de rendimiento que está midiéndose. En este caso, las dianas génicas pgi, zwf, ppc, pck, fbp y ddh se identificaron como genes para los que los intercambios de promotor producen grandes ganancias en la producción con respecto a las cepas de base. Cepas seleccionadas de la Tabla 11 volvieron a cultivarse en placas pequeñas y se sometieron a prueba para la producción de lisina tal como se describió anteriormente. Los resultados de este examen secundario se proporcionan en la Figura 22.
Ejemplo 6: Cartografiado epistático- Una herramienta algorítmica para predecir consolidaciones de mutaciones beneficiosas
Este ejemplo describe una realización de las técnicas de modelado predictivo utilizada como parte del programa de mejora de cepas HTP de la presente descripción. Después de una identificación inicial de mutaciones potencialmente beneficiosas (a través del uso de bibliotecas de diseños genéticos descritas anteriormente), la presente descripción enseña métodos de consolidación de mutaciones beneficiosas en segundas, terceras, cuartas rondas y rondas posteriores adicionales de mejora de cepas HTP. En algunas realizaciones, la presente descripción enseña que consolidaciones de mutaciones pueden basarse en el rendimiento individual de cada una de dichas mutaciones. En otras realizaciones, la presente descripción enseña métodos para predecir la probabilidad de que dos o más mutaciones presenten efectos aditivos o sinérgicos si se consolidan en una única célula hospedante. El ejemplo más adelante ilustra una realización de las herramientas de predicción de la presente descripción.
Mutaciones seleccionadas de las bibliotecas de intercambio SNP y de intercambio de promotor (intercambio PRO) de los ejemplos 3 y 5 se analizaron para identificar combinaciones de intercambio SNP/PRO que conducirían de la manera más probable a mejoras del rendimiento de hospedante de cepas.
Se compararon entre sí secuencias de bibliotecas de intercambio SNP usando una matriz de similitud coseno, tal como se describe en la sección “Cartografiado epistático” de la presente descripción. Los resultados del análisis produjeron puntuaciones funcionales de similitud para cada combinación de intercambio SNP/PRO. Una representación visual de las similitudes funcionales entre todos los intercambios SNP/PRO se representa en un mapa de calor en la Figura 15. Las puntuaciones funcionales de similitud resultantes se usaron también para desarrollar un dendrograma que representa la distancia de similitud entre cada uno de los intercambios SNP/PRO (Figura 16A).
Mutaciones del mismo grupo funcional o uno similar (es decir, intercambios SNP/PRO con una similitud funcional alta) son más probable de funcionar mediante el mismo mecanismo, y por tanto son más probables de presentar epistasis negativa o neutra en el rendimiento de hospedante global cuando se combinen. Por el contrario, mutaciones de diferentes grupos funcionales serían más probables de funcionar mediante mecanismos independientes, y por tanto más probables de producir efectos aditivos o combinatorios beneficios sobre el rendimiento de hospedante.
Con el fin de ilustrar los efectos de rutas biológicas sobre la epistasis, se combinaron intercambios de SNP y PRO que presentaban diversas similitudes funcionales y se sometieron a prueba en cepas hospedante. Tres combinaciones de intercambio SNP/PRO se modificaron mediante ingeniería en el genoma de Corynebacterium glutamicum tal como se describe en el ejemplo 1: i) intercambio PRO Pcg0007::zwf intercambio PRO Pcg1860::pyc, ii) intercambio PRO Pcg0007::zwf SNP 309, y iv) intercambio PRO Pcg0007::zwf intercambio PRO Pcg0007::lysA (véase la Figura 15 y 16A para relaciones de similitud funcional).
El rendimiento de cada una de las células hospedantes que contienen las combinaciones de intercambio SNP/PRO se sometió a prueba tal como se describe en el ejemplo 3 y se comparó con el de una célula hospedante control que contenía solo intercambio PRO zwf. Las Tablas 12 y 13 a continuación resumen los resultados de producción de célula hospedante (mediciones de 96 h) y de productividad (mediciones de 24 h) de cada una de las cepas.
Tabla 12- Acumulación de lisina para un experimento de cartografiado epistático a 24 horas.
Figure imgf000085_0001
Tabla 13- Acumulación de lisina para un experimento de cartografiado epistático a 96 horas.
Figure imgf000085_0002
Los resultados de rendimiento de producción de hospedante para cada combinación de intercambio SNP/PRO se representan también en la Figura 16B. Las cepas hospedantes que combinan intercambios SNP/PRO que presentan una similitud funcional menor superaron en su rendimiento a las cepas en las que los SNP combinados habían presentado una similitud funcional mayor en las mediciones tanto a 24 como 96 horas.
Por tanto, el procedimiento de cartografiado epistático es útil para predecir/programar/informar de consolidaciones efectivas y/o positivas de cambios genéticos diseñados. El conocimiento analítico del procedimiento de cartografiado epistático permite la creación de conjuntos de reglas predictivas que pueden guiar rondas posteriores de desarrollo de cepas microbianas. El conocimiento predictivo obtenido de la biblioteca epistática puede usarse entre tipos microbianos y tipos de moléculas diana.
Ejemplo 7: Consolidación de mutaciones de ingeniería genómica HTP-intercambio Pro y pruebas combinatorias multifactoriales
Ejemplos anteriores han ilustrado métodos para consolidar un número pequeño de mutaciones de intercambio PRO seleccionadas previamente con bibliotecas de intercambio SNP (ejemplo 3). Otros ejemplos han ilustrado los métodos epistáticos para seleccionar consolidaciones de mutaciones que son las más probables de producir propiedades beneficiosas aditivas o sinérgicas de la célula hospedante (ejemplo 6). Este ejemplo ilustra la capacidad de los métodos HTP de la presente descripción para explorar de manera efectiva el gran espacio de soluciones creado por la consolidación combinatoria de múltiples combinaciones de biblioteca de genes/diseños genéticos (por ejemplo, biblioteca de intercambio PRO x biblioteca SNP o combinaciones dentro de una biblioteca de intercambio PRO).
En esta aplicación ilustrativa de los métodos de mejora de cepas HTP de la presente descripción, los intercambios de promotor identificados como que tienen un efecto positivo sobre el rendimiento de hospedante en el ejemplo 5 se consolidan en combinaciones de segundo orden con la biblioteca de intercambio PRO original. La decisión de consolidar mutaciones de intercambio PRO se basó en cada efecto global de la mutación sobre la producción o productividad, y la probabilidad de que la combinación de las dos mutaciones produjera un efecto aditivo o sinérgico. Por ejemplo, los solicitantes hacen referencia a su elección de combinar Pcg0007::zwf y Pcg0007::lysA, basándose en los resultados de cartografiado epistático del ejemplo 6.
A. Ronda de consolidación para ingeniería de cepas de intercambio PRO
Se transformaron cepas tal como se describe en el ejemplo 1 anterior. Brevemente, las cepas que ya contenían una mutación de intercambio PRO deseada se transformaron una vez más con la segunda mutación de intercambio PRO deseada. En total, los 145 intercambios PRO sometidos a prueba del ejemplo 5 se consolidaron en 53 cepas de consolidación de segunda ronda, comprendiendo cada una dos mutaciones de intercambio PRO de las que se esperaba que presentasen efectos aditivos o sinérgicos beneficiosos.
Las cepas de segunda ronda resultantes se examinaron una vez más tal como se describe en el ejemplo 3. Los resultados de este experimento se resumen en la Tabla 14 a continuación y se representan en la Figura 11.
Tabla 14- Examen HTP bibliotecas de intercambio PRO de lisina consolidadas de segunda ronda
Figure imgf000086_0001
Figure imgf000087_0001
Como se predice mediante el modelo epistático, la cepa de intercambio PRO de segunda ronda que comprende las mutaciones Pcg0007::zwf y Pcg0007::lysA presentaba una de las mejoras de producción más altas, con una mejora de aproximadamente el 30% en la producción con respecto a Pcg0007::lysA sola, y una mejora del 35,5% con respecto a la cepa de base (véase el punto de dato rodeado con un círculo en la Figura 11).
Los métodos HTP para explorar el espacio de soluciones de mutaciones consolidadas individuales y dobles también pueden aplicarse a consolidaciones de mutaciones terceras, cuartas y posteriores. También se presta atención, por ejemplo, a la cepa de consolidación de 3 cambios dada a conocer correspondiente a zwf, pyc y lysa, que se elaboró de entre los resultados positivos superiores identificados en las consolidaciones de 2 cambios mostradas en la Tabla 14 anterior, y tal como se identificó mediante los métodos epistáticos de la presente descripción. Esta cepa de consolidación de 3 cambios se validó adicionalmente en tanques como que estaba mejorada significativamente en comparación con la parental o parental zwf (véase la Tabla 10 anterior y la Figura 40).
Ejemplo 8: Ingeniería genómica HTP - Implementación de una biblioteca de terminadores para mejorar una cepa hospedante industrial
El presente ejemplo aplica los métodos HTP de la presente descripción a bibliotecas de diseños genéticos HTP adicionales, incluyendo intercambio STOP. El ejemplo ilustra adicionalmente la capacidad de la presente descripción para combinar elementos de bibliotecas de diseños genéticos básicas (por ejemplo, intercambio PRO, intercambio SNP, intercambio STOP, etc.,) para crear bibliotecas de diseños genéticos más complejas (por ejemplo, bibliotecas de intercambio PRO-STOP, que incorporan tanto un promotor como un terminador). En algunas realizaciones, la presente descripción enseña cualquiera y todas las bibliotecas de diseños genéticos posibles, incluyendo aquellas derivadas de combinar cualquiera de las bibliotecas de diseños genéticos dadas a conocer previamente.
En este ejemplo, se llevó a cabo un experimento a pequeña escala para demostrar el efecto de los métodos de intercambio STOP de la presente descripción sobre la expresión génica. Los terminadores T1-T8 de la presente descripción se emparejaron con uno de dos promotores de Corynebacterium glutamicum nativos tal como se describe más adelante y se analizaron para su capacidad para afectar a la expresión de una proteína fluorescente. A. Ensamblaje de constructos de ADN
Los terminadores T1-T8 se emparejaron con uno de dos promotores de Corynebacterium glutamicum nativos (por ejemplo, Pcg0007 o Pcg0047) que expresan una proteína fluorescente amarilla (YFP). Para facilitar la amplificación y el ensamblaje de ADN, la secuencia de promotor-YFP-terminador final se sintetizó en dos porciones; la primera porción codificaba para (de 5' a 3') i) el brazo de homología de vector, ii) el promotor seleccionado, iii) y 2/3 del gen YFP. La segunda porción codificaba (de 5' a 3') iv) los siguientes 2/3 del gen YFP, v) el terminador seleccionado, y vi) el segundo brazo de homología de vector. Cada porción se amplificó usando oligonucleótidos sintéticos y se purificó en gel. Los amplicones purificados en gel se ensamblaron con una estructura principal de vector usando recombinación homóloga de levadura.
B. Transformación de clones ensamblados en E. coli
Vectores que contenían las secuencias de promotor-YFP-terminador se transformaron cada uno individualmente en E. coli con el fin de identificar correctamente clones ensamblados, y para amplificar ADN de vector para la transformación de Corynebacterium. Los vectores ensamblados correctamente se confirmaron mediante digestión con enzima de restricción y secuenciación Sanger. Los clones positivos se almacenaron a -20°C para su uso futuro. C. Transformación de clones ensamblados en Corynebacterium
Los clones de vector verificados se transformaron individualmente en células hospedantes de Corynebacterium glutamicum por medio de electroporación. Cada vector se diseñó para integrarse en un sitio de integración neutro dentro del genoma de Corynebacterium glutamicum que se determinó empíricamente que permitía la expresión de proteína fluorescente amarilla heteróloga pero no era perjudicial para la célula hospedante. Para facilitar su integración, el vector de expresión adicionalmente comprendía aproximadamente 2 kpb de homólogo de secuencia (es decir, brazo de homología) en el sitio de integración deseado, con lo que cada casete génico descrito anteriormente se insertaba secuencia abajo del brazo de homología. La integración en el genoma se produjo mediante integración de cruce individual. Corynebacterium transformado se sometió entonces a prueba para la integración correcta por medio de PCR. Este proceso se repitió para cada una de las transformaciones llevadas a cabo para cada constructo génico.
D. Evaluación de los constructos de terminador individuales en Corynebacterium
El fenotipo de cada transformante de Corynebacterium que contiene constructos de promotor-YFP-terminador se sometió entonces a prueba en dos tipos de medios (medios de prueba de infusión cerebro-corazón-BHI y HTP) en dos puntos de tiempo con el fin de evaluar la expresión. Brevemente, entre cuatro y seis transformantes confirmados mediante PCR se eligieron y cultivaron en medios selectivos en un formato de 96 pocillos. Los cultivos iniciales se dividieron entonces en medios BHI selectivos o medios de siembra selectivos. A las 48 horas, los cultivos en los medios de siembra se inocularon en medios de prueba HTP selectivos o medios BHI y se analizaron en dos puntos de tiempo que representan diferentes porciones de la curva de crecimiento. Los puntos de tiempo para los cultivos de medios de prueba HTP eran 48 y 96 horas tras la inoculación. Los cultivos en los medios BHI selectivos se analizaron 48 y 72 horas tras la inoculación.
Se realizó un análisis de los cultivos usando un citómetro de flujo de mesa. Brevemente, los cultivos se diluyeron 1:100 en 200 ml de solución salina tamponada con fosfato (PBS). Para cada cultivo, se analizaron entre 3000 y 5000 eventos individuales (es decir, células) para fluorescencia amarilla. El citómetro de flujo de mesa representa gráficamente un histograma de fluorescencia amarilla de cada “evento” y calcula la mediana de la fluorescencia dentro de cada pocillo. La Figura 36 representa la media de la mediana de la fluorescencia para cada constructo (entre los 4-6 duplicados biológicos). Las barras de error indican el intervalo de confianza del 95% de cada punto de dato. Las condiciones A-D pueden hacer referencia a un único medio y a un único punto de tiempo. Por tanto, las condiciones A y B representan los dos puntos de tiempo para los medios BHI, mientras que los puntos C y D representan los dos puntos de tiempo para los medios de prueba HTP. Obsérvese que las unidades arbitrarias (por ejemplo, UA) representan la mediana de la fluorescencia registrada por e citómetro de flujo de mesa.
Los resultados muestran que los terminadores 1-8 de la biblioteca de diseños genéticos de intercambio STOP dan como resultado un intervalo continuo de expresión de YFP. Por tanto, estos terminadores forman una escalera de terminadores que puede implementarse en bibliotecas de diseños genéticos futuras, según los métodos HTP de la presente descripción.
Ejemplo 9: Comparación de conjuntos de herramientas HTP frente a mutaciones UV tradicionales.
Este ejemplo demuestra los beneficios de las bibliotecas de diseños genéticos HTP de la presente descripción con respecto a programas de mejora de cepas mutacionales tradicionales. Los experimentos en esta parte de la memoria descriptiva cuantifican la magnitud y velocidad mejoradas de las mejoras fenotípicas conseguidas a través de los métodos HTP de la presente descripción con respecto a la mutagénesis UV tradicional.
La presente descripción enseña nuevos métodos para acelerar los programas de mejora de cepas de células hospedantes. En algunas realizaciones, el programa de mejora de cepas HTP de la presente descripción se basa en la capacidad de los conjuntos de herramientas HTP para generar e identificar perturbaciones genéticas. Los presentes inventores intentaron cuantificar los beneficios de los conjuntos de herramientas HTP llevando a cabo un programa de mejora de cepas de pista paralela pequeña que compara las técnicas de intercambio de promotor de la presente descripción con los enfoques de mutaciones UV tradicionales.
Se eligió una cepa de referencia de base que produce un metabolito bioquímico de interés como punto de partida para perturbaciones genéticas tanto UV como de intercambio de promotor.
A. Mutaciones UV
Se hicieron crecer cultivos de la cepa de base en medio BHI en cultivos que estaban normalizados para la DO a una DO600 de 10. Se tomaron alícuotas de este cultivo en una placa de Petri estéril y se agitó usando una barra agitadora magnética pequeña. Entonces se invirtió un transiluminador UV a una longitud de onda de 254 nm sobre el cultivo y se tomaron alícuotas a los 5 y 9 minutos de exposición UV. Estas muestras se diluyeron en serie 10 veces y cada dilución se sembró en placa sobre bandejas Q de medio BHI. De estas bandejas Q, se cogieron aproximadamente 2500 colonias de cada punto de exposición UV usando un aparato de recogida de colonias automatizado y se evaluó el rendimiento tal como más adelante.
B. Intercambio de promotor
Se generaron constructos de intercambio PRO en la cepa de base para 15 dianas génicas usando o bien todos o bien un subconjunto de promotores seleccionados de P1, P3, P4 y P8 descritos en la Tabla 1. La etapa final en la biosíntesis del producto de interés se cataliza mediante una enzima O-metiltransferasa que utiliza el cofactor potencialmente limitante de la tasa S-adenosilmetionina. Por tanto, se seleccionaron dianas génicas para intercambios PRO basándose en que estuvieran directamente implicadas en la biosíntesis de este cofactor o metabolitos secuencia arriba.
C. Evaluación de UV y bibliotecas de intercambio de promotor
El fenotipo de cada cepa de Corynebacterium desarrollada para este ejemplo se sometió a prueba para su capacidad para producir una biomolécula seleccionada. Brevemente, se eligieron entre cuatro y seis colonias de secuencia confirmada de cada cepa de intercambio PRO, y colonias individuales para cada cepa UV y se propagaron en medios selectivos en un formato de 96 pocillos en medios líquidos de producción.
Tras la propagación de biomasa en placas de micropocillos de 96 pocillos, se añadió masa celular a medios de fermentación que contenían sustrato en placas de micropocillos de 96 pocillos y se permitió que la bioconversión avanzara durante 24 h. Se determinaron los títulos de producto para cada cepa usando cromatografía de líquidos de alto rendimiento de muestras tomadas a las 24 h. Se analizaron los resultados de título para cada perturbación genética (UV e intercambio PRO). Los resultados para cada réplica se promediaron y asignaron para representar el rendimiento global de dicha cepa. Las cepas se repartieron entonces en categorías basándose en el efecto de cada mutación sobre la producción medida expresada como relación con respecto a la producción de la cepa de base. La Figura 37 resume los resultados de este experimento, que se presentan como el número de cepas para cada técnica de mejora de cepas que produjo: i) ningún cambio en la producción, ii) una mejora de 1,2 a 1,4 veces en la producción, iii) una mejora de 1,4 a 1,6 veces en la producción, iv) una mejora de 1,6 a 1,8 veces en la producción, o v) una mejora de 1,8 a 2 veces en la producción.
Los resultados son ilustrativos de los beneficios de los conjuntos de herramientas HTP de la presente descripción con respecto a los enfoques de mutagénesis UV tradicionales. Por ejemplo, los resultados de la Figura 37 demuestran que las cepas de intercambio PRO presentaban una tasa mayor de cambios positivos en la producción, y por tanto eran más probables para proporcionar mutaciones que pudieron mejorar significativamente la cepa. Lo más llamativa era la alta incidencia de cepas con alta mejora que muestran mejoras de 1,6, 1,8 y 2 veces en la biblioteca de intercambios PRO, con de poca a ninguna mejora identificada en la biblioteca UV.
Los resultados son también importantes porque resaltan la tasa acelerada de mejora de los métodos de intercambio PRO de la presente descripción. De hecho, los resultados para la biblioteca de intercambios PRO se basaron en menos de 100 perturbaciones de promotor::gen, mientras que los resultados de mutación UV incluían el examen de más de 4.000 cepas mutantes distintas. Por tanto, los métodos de la presente descripción reducen drásticamente el número de mutantes que tienen que examinarse antes de identificar perturbaciones genéticas capaces de conferir cepas con altas ganancias en el rendimiento.
Ejemplo 10: Aplicación de métodos de ingeniería HTP en eucariotas
Ejemplos anteriores ilustran aplicaciones de programas de mejora de cepas HTP en células procariotas. Este ejemplo demuestra la aplicabilidad de las mismas técnicas a células eucariotas. Específicamente, los ejemplos 10 y 11 describen un programa de mejora de cepas de intercambio SNP para Aspergillus niger para la producción industrial de ácido cítrico.
A. Formación y transformación de protoplastos de Aspergillus niger
Se generó un gran volumen (500 ml) de protoplastos de una cepa fúngica eucariota de Aspergillus niger, ATCC 1015, usando una mezcla de enzimas disponible comercialmente que contiene actividad beta-glucanasa. Los protoplastos se aislaron de la mezcla de enzimas mediante centrifugación y se resuspendieron en última instancia en un tampón que contenía cloruro de calcio.
Se tomaron alícuotas de los protoplastos y se congelaron a 80 grados Celsius negativos en recipientes que contenían una suspensión de sulfóxido de dimetilo y polietilenglicol (PEG). En algunas realizaciones, la presente descripción enseña que puede prepararse y congelarse una reserva de placas de microtitulación de 96 pocillos que contienen 25-50 microlitros de protoplastos en cada pocilio en lotes grandes para campañas de edición de genoma a gran escala usando esta técnica.
Se llevaron a cabo transformaciones medidas por PEG-calcio tradicionales mediante manipuladores de líquido automatizados, que combinaban el ADN con las mezclas de protoplastos-PEG en los 96 pocillos. Se usó una etapa de manipulación de líquidos automatizada adicional para sembrar en placa la transformación sobre medios selectivos después de la transformación.
B. Examen automatizado de transformantes
Como se discute en más detalle más adelante, las células de A. niger se habían transformado con un gen pyrG funcional, que permitía que las células transformadas crecieran en ausencia de uracilo. El gen pyrG de este ejemplo se diseñó adicionalmente para la incorporación en la ubicación del gen aygA de tipo silvestre de A. niger, incorporando así una mutación en el gen aygA que se produce de manera natural. La alteración del gen aygA da como resultado adicionalmente un color de espora amarillo, proporcionando un método de examen secundario para identificar transformantes.
Los transformantes que se hicieron crecer en los medios selectivos sin uracilo se aislaron y se pusieron en pocillos individuales de una segunda placa de microtitulación. Se permitió que los transformantes en la segunda placa de microtitulación crecieran y esporularan durante 2-3 días, antes de resuspenderse en un líquido que consistía en agua y una pequeña cantidad de detergente para generar una reserva de esporas adecuada para al almacenamiento y el examen automatizado más adelante.
Entonces se usó una alícuota pequeña de cada una de las reservas de esporas mencionadas anteriormente para inocular medios líquidos en una tercera placa de PCR de 96 pocillos. Se permitió que estos cultivos pequeños crecieran durante la noche en un incubador estacionario de modo que las esporas que contenían pigmento amarillo germinaran y formaran hifas que son más susceptibles de selección, y etapas más adelante.
Tras la etapa de cultivo, las hifas de la tercera placa de PCR se lisaron añadiendo un tampón disponible comercialmente y calentando los cultivos hasta 99 grados Celsius durante 20 minutos. Las placas se centrifugaron entonces para separar el sobrenadante de suspensión de ADN de los sedimentos de células/orgánulos. Las extracciones de ADN se usaron entonces para un análisis de PCR para identificar líneas celulares que comprendían las modificaciones de ADN deseadas.
C. Transformación conjunta para la integración de diseño de SNP de SNP
Se obtuvo la secuencia de ADN del gen aygA de Aspergillus niger y se determinó el marco de lectura apropiado. Se diseñaron cuatro tipos de mutaciones distintos, que si se integraban darían como resultado una mutación nula.
Las mutaciones incluían un único cambio de pares de bases que incorpora un codón de terminación en marco, una deleción de dos pares de bases pequeña, una integración de tres pares de bases y una deleción más grande de 100 pares de bases, que si se integraban todas apropiadamente, eliminarán la actividad aygA. Las cepas que carecen de actividad aygA tienen un fenotipo de espora amarilla. Los diseños se generaron como constructos in silico que predecían un conjunto de oligómeros que se usaban para construir los constructos usando ensamblaje de Gibson. D. Integración de SNP mediante transformación conjunta
Usando el enfoque de transformación descrito anteriormente, se incorporaron amplicones que contenían los cambios pequeños en el genoma de una cepa de Aspergillus niger 1015. Como se ha discutido anteriormente, esta cepa de Aspergillus niger comprendía un pyrG no funcional, y por tanto no era capaz de crecer en ausencia de uracilo exógeno. Las células que habían integrado exitosamente el gen pyrG eran ahora capaces de crecer en ausencia de uracilo. De estos transformantes pyrG+, los aislados que integraban también las mutaciones pequeñas en el gen aygA presentaban el fenotipo de espora amarilla (Figura 43A). La presencia de la mutación se detecta también a través de la secuenciación de amplicones pequeños que contiene la región seleccionada como diana para el intercambio SNP (Figura 43B).
Figure imgf000090_0001
El ejemplo 10 anterior describió las técnicas para automatizar las técnicas de ingeniería genética de la presente descripción de una manera de alto rendimiento. Este ejemplo aplica las técnicas descritas anteriormente a la mejora de cepas HTP específica de la cepa de Aspergillus niger ATCC11414.
Aspergillus niger es una especie de hongos filamentosos usados para la producción a gran escala de ácido cítrico a través de fermentación. Múltiples cepas de esta especie se han aislado y han mostrado que tienen una capacidad variable para la producción de ácido cítrico y otros ácidos orgánicos. Los métodos de ingeniería de cepas HTP de la

Claims (20)

REIVINDICACIONES
1. Un método de intercambio de promotores de ingeniería genómica para desarrollar una célula hospedante para adquirir un fenotipo deseado, que comprende las etapas de:
a. proporcionar una pluralidad de genes diana endógenos a una célula hospedante base, y una escalera de promotores, en el que dicha escalera de promotores comprende una pluralidad de promotores que muestran diferentes perfiles de expresión en la célula hospedante de base;
b. manipular el genoma de la célula hospedante de base, para crear una biblioteca de células hospedantes de intercambio de promotor inicial que comprende una pluralidad de células hospedantes individuales con una variación genética que se encuentra dentro de cada célula hospedante de dicha pluralidad de células hospedantes, en el que cada variación genética comprende uno o más de los promotores de la escalera de promotores ligados operativamente a un gen diana endógeno a la célula hospedante;
c. examinar y seleccionar para el fenotipo deseado células hospedantes individuales de la biblioteca de células hospedantes de intercambio de promotor inicial;
d. proporcionar una pluralidad posterior de células hospedantes que comprendan cada una una combinación de variación genética, dicha variación genética seleccionada de la variación genética presente en al menos dos células hospedantes individuales examinadas en una etapa anterior, para crear así una biblioteca de células hospedantes posterior;
e. examinar y seleccionar para el fenotipo deseado células hospedantes individuales de la biblioteca de células hospedantes posterior; y
f. repetir las etapas d)-e) una o más veces, hasta que una célula hospedante resultante haya adquirido el fenotipo deseado.
2. El método según la reivindicación 1, en el que cada iteración posterior de repetir las etapas d)-e) crea una nueva biblioteca de células hospedantes que comprende células hospedantes individuales que poseen variaciones genéticas que son una combinación de variaciones genéticas seleccionadas de entre al menos dos células hospedantes individuales de un biblioteca de células hospedantes anterior.
3. El método según la reivindicación 1, en el que la escalera de promotores comprende uno o más promotores heterólogos.
4. El método según la reivindicación 1, en el que la escalera de promotores comprende un promotor constitutivo.
5. El método según la reivindicación 1, en el que la escalera de promotores deriva de promotores de Corynebacterium.
6. El método según la reivindicación 1, en el que la escalera de promotores comprende una pluralidad de promotores seleccionados del grupo que consiste en SEQ ID NOs: 1-8.
7. El método según la reivindicación 1, en el que, en la etapa (b), uno o más de los promotores de la escalera de promotores se unen operativamente a un gen endógeno diana de una ruta metabólica asociada con la producción de un aminoácido.
8. El método según la reivindicación 1, en el que, en la etapa (b), uno o más de los promotores de la escalera de promotores se unen operativamente a un gen endógeno diana de la ruta metabólica de la lisina.
9. El método según la reivindicación 1, en el que, en la etapa (b), uno o más de los promotores de la escalera de promotores se unen operativamente a un gen endógeno diana seleccionado del grupo que consiste en: PTS, zwf, pgi, tkt, fbp, ppc, pyc, aspB, ask, asd, dapA, dapB, dapD, cg0931, dapE, dapF, ddh, lysA, lysE, hom, odx, pck e icd.
10. El método según la reivindicación 1, en el que la combinación de variación genética presente en cada una de la pluralidad posterior de células hospedantes en la biblioteca de células hospedantes posterior se selecciona de una combinación de dos o más promotores unidos operativamente a sus respectivos genes endógenos diana escogidos de los biblioteca de células hospedantes de intercambio de promotor inicial.
11. El método según la reivindicación 1, en el que la combinación de variación genética presente en cada una de la pluralidad posterior de células hospedantes en la biblioteca de células hospedantes posterior se selecciona de un polimorfismo de nucleótido simple, inserción de ADN, o deleción de ADN, escogido de una biblioteca de células hospedantes posterior examinada en una etapa anterior.
12. El método según la reivindicación 1, en el que la célula hospedante resultante exhibe al menos un 10% de aumento en una variable fenotípica medida, en comparación con la de una célula hospedante de base.
13. El método según la reivindicación 1, en el que la célula hospedante resultante muestra un aumento de al menos una vez en una variable fenotípica medida, en comparación con la de una célula hospedante de base.
14. El método según la reivindicación 1, en el que el fenotipo deseado de la etapa f) se selecciona del grupo que consiste en: mayor productividad volumétrica de un producto de interés, mayor productividad específica de un producto de interés, mayor rendimiento de un producto de interés, mayor título de un producto de interés, y combinaciones de los mismos.
15. El método según la reivindicación 1, en el que el fenotipo deseado de la etapa f) es: producción aumentada o más eficiente de un producto de interés, dicho producto de interés seleccionado del grupo que consiste en: una molécula pequeña, enzima, proteína, péptido, aminoácido, ácido orgánico, compuesto sintético, combustible, alcohol, metabolito extracelular primario, metabolito extracelular secundario, molécula componente intracelular, y combinaciones de los mismos.
16. El método según la reivindicación 1, en el que dicha célula hospedante es una célula procariota.
17. El método según la reivindicación 1, en el que dicha célula hospedante procede de Corynebacterium glutamicum.
18. El método según la reivindicación 1, en el que dicha célula hospedante es una célula eucariota.
19. El método según la reivindicación 1, en el que dicha célula hospedante procede de Aspergillus niger.
20. Un sistema de ingeniería genómica para desarrollar una célula hospedante a través del intercambio de promotor para adquirir un fenotipo deseado, comprendiendo el sistema:
uno o más procesadores; y
una o más memorias acopladas operativamente a al menos uno del uno o más procesadores y que tienen instrucciones almacenadas en las mismas que, cuando se ejecutan por al menos uno del uno o más procesadores, hacen que el sistema:
a. proporcione una pluralidad de genes diana endógenos a una célula hospedante de base, y una escalera de promotores, en el que dicha escalera de promotores comprende una pluralidad de promotores que exhiben diferentes perfiles de expresión en la célula hospedante de base;
b. diseñe el genoma de la célula hospedante de base, para crear una biblioteca de células hospedantes de intercambio de promotor inicial que comprende una pluralidad de células hospedantes individuales con una variación genética que se encuentra dentro de cada célula hospedante de dicha pluralidad de células hospedantes, en el que cada variación genética comprende uno o más de los promotores de la escalera de promotores unidos operativamente a un gen diana endógeno a la célula hospedante;
c. examine y seleccione para el fenotipo deseado células hospedantes individuales de la biblioteca de células hospedantes de intercambio de promotor inicial;
d. proporcione una pluralidad posterior de células hospedantes que comprenden cada una una combinación de variación genética, dicha variación genética seleccionada de la variación genética presente en al menos dos células hospedantes individuales examinadas en una etapa anterior, para crear así una biblioteca de células hospedantes posterior;
e. examine y seleccione para el fenotipo deseado células hospedantes individuales de la biblioteca de células hospedantes posterior; y
f. repita las etapas d)-e) una o más veces, hasta que una célula hospedante resultante haya adquirido el fenotipo deseado.
ES21161430T 2015-12-07 2016-12-07 Mejora de cepas microbianas mediante una plataforma de ingeniería genómica HTP Active ES2928728T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562264232P 2015-12-07 2015-12-07
US15/140,296 US11151497B2 (en) 2016-04-27 2016-04-27 Microbial strain design system and methods for improved large-scale production of engineered nucleotide sequences
US201662368786P 2016-07-29 2016-07-29

Publications (1)

Publication Number Publication Date
ES2928728T3 true ES2928728T3 (es) 2022-11-22

Family

ID=59013271

Family Applications (2)

Application Number Title Priority Date Filing Date
ES16873805T Active ES2878014T3 (es) 2015-12-07 2016-12-07 Mejora de cepas microbianas mediante una plataforma de ingeniería genómica HTP
ES21161430T Active ES2928728T3 (es) 2015-12-07 2016-12-07 Mejora de cepas microbianas mediante una plataforma de ingeniería genómica HTP

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES16873805T Active ES2878014T3 (es) 2015-12-07 2016-12-07 Mejora de cepas microbianas mediante una plataforma de ingeniería genómica HTP

Country Status (7)

Country Link
EP (2) EP3387571B1 (es)
JP (5) JP6605042B2 (es)
KR (2) KR102006320B1 (es)
CN (2) CN108027849B (es)
CA (4) CA3105722C (es)
ES (2) ES2878014T3 (es)
WO (1) WO2017100377A1 (es)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2016010285A (es) 2014-02-11 2017-01-11 Univ Colorado Regents Ingenieria genetica multiplexada habilitada por crispr.
US9988624B2 (en) 2015-12-07 2018-06-05 Zymergen Inc. Microbial strain improvement by a HTP genomic engineering platform
BR112018011503A2 (pt) 2015-12-07 2018-12-04 Zymergen Inc promotores da corynebacterium glutamicum
US11208649B2 (en) 2015-12-07 2021-12-28 Zymergen Inc. HTP genomic engineering platform
AU2017280353B2 (en) 2016-06-24 2021-11-11 Inscripta, Inc. Methods for generating barcoded combinatorial libraries
JP2019519241A (ja) 2016-06-30 2019-07-11 ザイマージェン インコーポレイテッド グルコース透過酵素ライブラリーを生成するための方法およびその使用
WO2018005655A2 (en) 2016-06-30 2018-01-04 Zymergen Inc. Methods for generating a bacterial hemoglobin library and uses thereof
CA3048658A1 (en) * 2016-12-30 2018-07-05 Zymergen Inc. A method to build fungal production strains using automated steps for genetic manipulation and strain purification
EP3625351A1 (en) 2017-05-19 2020-03-25 Zymergen Inc. Genomic engineering of biosynthetic pathways leading to increased nadph
CN110914425B (zh) * 2017-06-06 2024-06-25 齐默尔根公司 用于改良刺糖多孢菌的高通量(htp)基因组工程改造平台
EP3635111A1 (en) 2017-06-06 2020-04-15 Zymergen, Inc. High throughput transposon mutagenesis
US20200370058A1 (en) * 2017-06-06 2020-11-26 Zymergen Inc. A htp genomic engineering platform for improving escherichia coli
EP3635112A2 (en) 2017-06-06 2020-04-15 Zymergen, Inc. A htp genomic engineering platform for improving fungal strains
US9982279B1 (en) 2017-06-23 2018-05-29 Inscripta, Inc. Nucleic acid-guided nucleases
US10011849B1 (en) 2017-06-23 2018-07-03 Inscripta, Inc. Nucleic acid-guided nucleases
US11450121B2 (en) * 2017-06-27 2022-09-20 The Regents Of The University Of California Label-free digital brightfield analysis of nucleic acid amplification
HRP20220615T1 (hr) 2017-06-30 2022-06-24 Inscripta, Inc. Postupci, moduli, instrumenti i sustavi za automatiziranu obradu stanica
US10557216B2 (en) * 2018-04-24 2020-02-11 Inscripta, Inc. Automated instrumentation for production of T-cell receptor peptide libraries
JP2021526799A (ja) * 2018-06-06 2021-10-11 ザイマージェン インコーポレイテッド 発酵および産生中の真菌の形態を制御するためのシグナル伝達に関与する遺伝子の操作
CA3105371A1 (en) * 2018-07-03 2020-01-09 Zymergen Inc. Liquid based selection and cell isolation
US11951610B2 (en) 2018-07-31 2024-04-09 Mjnn Llc Opening apparatus for use with a multi-piece, hinged, hydroponic tower
WO2020092704A1 (en) 2018-10-31 2020-05-07 Zymergen Inc. Multiplexed deterministic assembly of dna libraries
EP3921293A4 (en) * 2019-02-05 2023-04-05 Pivot Bio, Inc. IMPROVED CONSISTENCY OF CROP YIELD THROUGH BIOLOGICAL NITROGEN FIXATION
KR20210136997A (ko) 2019-03-08 2021-11-17 지머젠 인코포레이티드 미생물에서 반복적 게놈 편집
US11053515B2 (en) 2019-03-08 2021-07-06 Zymergen Inc. Pooled genome editing in microbes
EP3963589A4 (en) * 2019-04-30 2023-01-25 Amgen Inc. DATA-DRIVEN PREDICTIVE MODELING FOR CELL LINE SELECTION IN BIOPHARMACEUTICAL PRODUCTION
US11723328B2 (en) 2019-05-08 2023-08-15 Mjnn Llc Cleaning apparatus for use with a plant support tower
CA3149211A1 (en) 2019-09-13 2021-03-18 Rama Ranganathan Method and apparatus using machine learning for evolutionary data-driven design of proteins and other sequence defined biomolecules
WO2021061694A1 (en) 2019-09-23 2021-04-01 Zymergen Inc. Method for counterselection in microorganisms
US11479779B2 (en) 2020-07-31 2022-10-25 Zymergen Inc. Systems and methods for high-throughput automated strain generation for non-sporulating fungi
CN116917474A (zh) 2020-11-13 2023-10-20 特里普巴尔生物公司 多参数发现和优化平台
WO2022175878A1 (en) * 2021-02-20 2022-08-25 Kcat Enzymatic Private Limited Insilico guided crispr-cas driven enzyme engineering framework
CN113393900B (zh) * 2021-06-09 2022-08-02 吉林大学 基于改进Transformer模型的RNA状态推断研究方法
CN116072227B (zh) * 2023-03-07 2023-06-20 中国海洋大学 海洋营养成分生物合成途径挖掘方法、装置、设备和介质
CN116665763B (zh) * 2023-05-18 2024-05-03 中南大学 一种基于多视图多标签学习的代谢途径推断方法

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4435504A (en) 1982-07-15 1984-03-06 Syva Company Immunochromatographic assay with support having bound "MIP" and second enzyme
GB8406752D0 (en) 1984-03-15 1984-04-18 Unilever Plc Chemical and clinical tests
DK122686D0 (da) 1986-03-17 1986-03-17 Novo Industri As Fremstilling af proteiner
CA1303983C (en) 1987-03-27 1992-06-23 Robert W. Rosenstein Solid phase assay
US4855240A (en) 1987-05-13 1989-08-08 Becton Dickinson And Company Solid phase assay employing capillary flow
JPH01225487A (ja) * 1988-03-04 1989-09-08 Sakai Eng Kk セルロースのアスペルギルス ニガーによるクエン酸若しくはグルコン酸生産を目的としたバイオリアクター担体への利用方法
US6060296A (en) 1991-07-03 2000-05-09 The Salk Institute For Biological Studies Protein kinases
US5516670A (en) 1991-09-30 1996-05-14 Kuehnle; Adelheid R. Magnetophoretic particle delivery method and apparatus for the treatment of cells
DE69432543T2 (de) 1993-07-23 2003-12-24 Dsm Nv Selektionmarker-genfreie rekombinante Stämme: Verfahren zur ihrer Herstellung und die Verwendung dieser Stämme
US5837458A (en) 1994-02-17 1998-11-17 Maxygen, Inc. Methods and compositions for cellular and metabolic engineering
US5605793A (en) 1994-02-17 1997-02-25 Affymax Technologies N.V. Methods for in vitro recombination
US6090592A (en) 1994-08-03 2000-07-18 Mosaic Technologies, Inc. Method for performing amplification of nucleic acid on supports
CA2219136A1 (en) * 1995-04-24 1996-10-31 Chromaxome Corp. Methods for generating and screening novel metabolic pathways
US5753477A (en) 1996-03-19 1998-05-19 University Technology Corporation Magneto-biolistic methods
US6326204B1 (en) * 1997-01-17 2001-12-04 Maxygen, Inc. Evolution of whole cells and organisms by recursive sequence recombination
ES2563643T3 (es) 1997-04-01 2016-03-15 Illumina Cambridge Limited Método de secuenciación de ácido nucleico
JPH1180185A (ja) 1997-09-05 1999-03-26 Res Dev Corp Of Japan オリゴヌクレオチドの化学合成法
US6713073B1 (en) * 1998-07-24 2004-03-30 Megan Health, Inc. Method of vaccination of newly hatched poultry
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
US6300070B1 (en) 1999-06-04 2001-10-09 Mosaic Technologies, Inc. Solid phase methods for amplifying multiple nucleic acids
EP1236173A2 (en) * 1999-10-27 2002-09-04 Biowulf Technologies, LLC Methods and devices for identifying patterns in biological systems
JP2004536553A (ja) * 2000-09-30 2004-12-09 ディヴァーサ コーポレイション 始原ゲノムの本質部分突然変異、突然変異の組合せおよび任意反復による全細胞工学
WO2005021772A1 (en) 2003-08-29 2005-03-10 Degussa Ag Process for the preparation of l-lysine
EP1790721A4 (en) * 2004-09-09 2008-12-10 Res Inst Innovative Tech Earth DNA FRAGMENT HAVING A PROMOTING FUNCTION
BRPI0711878A2 (pt) 2006-05-30 2012-01-10 Dow Global Technologies Inc método de otimização do códon
CN101434910A (zh) * 2007-11-13 2009-05-20 科兹莫弗姆有限公司 产生鞘脂碱的微生物菌株
DE102007047933B3 (de) 2007-12-20 2009-02-26 Vistec Semiconductor Systems Gmbh Verfahren zur Inspektion von einer Oberfläche eines Wafers mit Bereichen unterschiedlicher Detektionsempfindlichkeit
US8808986B2 (en) 2008-08-27 2014-08-19 Gen9, Inc. Methods and devices for high fidelity polynucleotide synthesis
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
US8783382B2 (en) 2009-01-15 2014-07-22 Schlumberger Technology Corporation Directional drilling control devices and methods
EP2398915B1 (en) 2009-02-20 2016-08-24 Synthetic Genomics, Inc. Synthesis of sequence-verified nucleic acids
US8574835B2 (en) 2009-05-29 2013-11-05 Life Technologies Corporation Scaffolded nucleic acid polymer particles and methods of making and using
CN101628296A (zh) * 2009-07-31 2010-01-20 中国科学院南京土壤研究所 一种利用拮抗微生物菌剂修复沙门氏菌污染土壤的方法
TWI371374B (en) 2009-09-14 2012-09-01 Compal Electronics Inc Production method of three dimensional pattern
KR101735868B1 (ko) 2010-02-17 2017-05-15 다케다 야쿠힌 고교 가부시키가이샤 복소고리 화합물
EP2395087A1 (en) 2010-06-11 2011-12-14 Icon Genetics GmbH System and method of modular cloning
US20120115734A1 (en) * 2010-11-04 2012-05-10 Laura Potter In silico prediction of high expression gene combinations and other combinations of biological components
US8621430B2 (en) 2011-03-03 2013-12-31 International Business Machines Corporation Method for code transformation supporting temporal abstraction of parameters
WO2012142591A2 (en) * 2011-04-14 2012-10-18 The Regents Of The University Of Colorado Compositions, methods and uses for multiplex protein sequence activity relationship mapping
BR112013025567B1 (pt) * 2011-04-27 2021-09-21 Amyris, Inc Métodos para modificação genômica
US20140180660A1 (en) * 2012-12-14 2014-06-26 Life Technologies Holdings Pte Limited Methods and systems for in silico design
CN103279689B (zh) * 2013-05-20 2016-08-17 天津大学 基于fk506生产菌筑波链霉菌基因组尺度代谢网络模型指导下次级途径改造方法
ES2947757T3 (es) 2014-11-05 2023-08-18 Illumina Inc Composiciones de transposasas para reducir el sesgo de inserción
KR102356072B1 (ko) 2015-09-10 2022-01-27 에스케이하이닉스 주식회사 메모리 시스템 및 그 동작 방법
WO2020004190A1 (ja) 2018-06-26 2020-01-02 東京エレクトロン株式会社 溶射装置

Also Published As

Publication number Publication date
CA3007840A1 (en) 2017-06-15
JP6798056B2 (ja) 2020-12-09
KR20180012280A (ko) 2018-02-05
CA3007840C (en) 2020-09-15
CA3105722C (en) 2022-10-11
EP3387571A1 (en) 2018-10-17
KR20190090081A (ko) 2019-07-31
CA3090392A1 (en) 2017-06-15
JP7119048B2 (ja) 2022-08-16
CN108027849A (zh) 2018-05-11
JP2021010384A (ja) 2021-02-04
CA3088654C (en) 2021-05-18
JP2019162131A (ja) 2019-09-26
EP3858996B1 (en) 2022-08-03
CN108027849B (zh) 2020-03-20
KR102006320B1 (ko) 2019-08-02
CA3090392C (en) 2021-06-01
CA3105722A1 (en) 2017-06-15
EP3387571A4 (en) 2019-03-20
EP3387571B1 (en) 2021-03-31
JP2020115890A (ja) 2020-08-06
WO2017100377A1 (en) 2017-06-15
CN111223527B (zh) 2022-07-26
JP2022066521A (ja) 2022-04-28
EP3858996A1 (en) 2021-08-04
CA3088654A1 (en) 2017-06-15
JP6605042B2 (ja) 2019-11-13
CN111223527A (zh) 2020-06-02
JP6715374B2 (ja) 2020-07-01
JP2018523968A (ja) 2018-08-30
ES2878014T3 (es) 2021-11-18

Similar Documents

Publication Publication Date Title
ES2928728T3 (es) Mejora de cepas microbianas mediante una plataforma de ingeniería genómica HTP
US11155808B2 (en) HTP genomic engineering platform
US11208649B2 (en) HTP genomic engineering platform
EP3635111A1 (en) High throughput transposon mutagenesis