ES2693150T3 - Filtración automática de variantes de enzimas - Google Patents

Filtración automática de variantes de enzimas Download PDF

Info

Publication number
ES2693150T3
ES2693150T3 ES14781426.3T ES14781426T ES2693150T3 ES 2693150 T3 ES2693150 T3 ES 2693150T3 ES 14781426 T ES14781426 T ES 14781426T ES 2693150 T3 ES2693150 T3 ES 2693150T3
Authority
ES
Spain
Prior art keywords
substrate
variants
enzyme
positions
active
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES14781426.3T
Other languages
English (en)
Inventor
Xiyun Zhang
Russell Javiniar SARMIENTO
Donald Scott Baskerville
Gjait W. HUISMAN
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Codexis Inc
Original Assignee
Codexis Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Codexis Inc filed Critical Codexis Inc
Application granted granted Critical
Publication of ES2693150T3 publication Critical patent/ES2693150T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C99/00Subject matter not provided for in other groups of this subclass
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1058Directional evolution of libraries, e.g. evolution of libraries is achieved by mutagenesis and screening or selection of mixed population of organisms
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1089Design, preparation, screening or analysis of libraries using computer algorithms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/20Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • G16C20/64Screening of libraries

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Microbiology (AREA)
  • Plant Pathology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computing Systems (AREA)
  • Ecology (AREA)
  • Analytical Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Enzymes And Modification Thereof (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

Un método, implementado usando un sistema informático que incluye uno o más procesadores y memoria del sistema, para seleccionar una pluralidad de diferentes variantes de enzima para actividad con un sustrato, donde la pluralidad de diferentes variantes de enzima comprende al menos diez variantes diferentes, y las variantes de enzima comprenden sitios activos que difieren de otro por al menos una mutación en la secuencia de aminoácidos del sitio activo, comprendiendo el método: (a) crear o recibir un modelo estructural para cada una de la pluralidad de diferentes variantes de enzima, en donde cada modelo estructural contiene una representación computacional tridimensional de un sitio activo de una variante de enzima; (b) para cada variante enzimática, acoplamiento, por el sistema informático, una representación computacional del sustrato a la representación computacional tridimensional del sitio activo de la variante enzimática, en donde el acoplamiento (i) genera una pluralidad de posiciones del sustrato en el sitio activo, en donde una posición comprende una posición u orientación del sustrato con respecto al sitio activo de la variante enzimática, e (ii) identifica posiciones energéticamente favorables del sustrato en el sitio activo, en donde una posición energéticamente favorable es una posición que tiene una energía que sea favorable para la unión entre el sustrato y la variante enzimática; (c) para cada posición energéticamente favorable, determinar si la posición está activa, en donde una posición activa cumple una o más restricciones para que el sustrato experimente una reacción catalítica en el sitio activo; y (d) seleccionar al menos una de las variantes de enzima que tiene un sitio activo en el que el sustrato tiene una o más posiciones activas como se determina en (c).

Description

5
10
15
20
25
30
35
40
45
50
55
60
65
DESCRIPCION
Filtracion automatica de variantes de enzimas FONDO
[0001] Diseno de protemas durante mucho tiempo ha sido conocido por ser una tarea diffcil, si no por otra razon que la explosion combinatoria de posibles moleculas que constituyen el espacio de secuencias de busqueda. El espacio de secuencia de las protemas es inmenso y es imposible explorar exhaustivamente usando metodos actualmente conocidos en la tecnica, que a menudo estan limitados por el tiempo y el costo requeridos para identificar polipeptidos utiles. Parte del problema surge del gran numero de variantes polipeptfdicas que deben ser secuenciadas, cribadas y analizadas. Los metodos de evolucion dirigidos aumentan la eficacia en el afilado de las biomoleculas candidatas que tienen propiedades ventajosas. En la actualidad, la evolucion dirigida de las protemas esta dominada por varios formatos de seleccion y recombinacion de alto rendimiento, a menudo de forma iterativa.
[0002] Tambien se han propuesto diversas tecnicas computacionales para explorar el espacio de secuencias- actividad. Hablando relativamente, estas tecnicas estan en su infancia y todavfa se necesitan avances significativos. De acuerdo con esto, son muy deseables nuevos metodos para mejorar la eficacia de exploracion, secuenciacion y ensayo de biomoleculas candidatas.
[0003] Hediger y col. (PLoS One. 2012; 7 (12): e49849.) Describe un metodo computacional para evaluar la actividad enzimatica, que se basa en los metodos PM6 y MOZYME implementados en MOPAC2009, y se prueba en el primer paso de la reaccion de hidrolisis de amida catalizada por la enzima Candida Antarctica lipasa B (CalB).
RESUMEN
[0004] La invencion proporciona un metodo, implementado usando un sistema informatico que incluye uno o mas procesadores y la memoria del sistema, para el cribado de una pluralidad de diferentes enzimas variantes para la actividad con un sustrato, en el que la pluralidad de diferentes variantes de la enzima comprende al menos diez diferentes variantes, y las variantes enzimaticas comprenden sitios activos que difieren entre sf por al menos una mutacion en la secuencia de aminoacidos del sitio activo, comprendiendo el metodo:
(a) crear o recibir un modelo estructural para cada una de la pluralidad de diferentes variantes de enzima, en el que cada modelo estructural contiene una representacion computacional tridimensional de un sitio activo de una variante de enzima;
(b) para cada variante enzimatica, acoplamiento, por el sistema informatico, una representacion computacional del sustrato a la representacion computacional tridimensional del sitio activo de la variante enzimatica, donde el acoplamiento (i) genera una pluralidad de posiciones del sustrato en el sitio activo, en donde una posicion comprende una posicion u orientacion del sustrato con respecto al sitio activo de la variante enzimatica, y (ii) identifica posiciones energeticamente favorables del sustrato en el sitio activo, en donde una posicion energeticamente favorable es una posicion que tiene una energfa que es favorable para la union entre el sustrato y la variante enzimatica;
(c) para cada posicion energeticamente favorable, determinar si la posicion esta activa, en donde una posicion activa cumple una o mas restricciones para que el sustrato experimente una reaccion catalttica en el sitio activo; y
(d) seleccionar al menos una de las variantes de enzima que tiene un sitio activo en el que el sustrato tiene una o mas posiciones activas como se determina en (c).
[0005] La invencion proporciona ademas un producto de programa de ordenador que comprende uno o mas medios de almacenamiento transitorio no legible por ordenador que tiene almacenado en el mismo instrucciones ejecutables por ordenador que, cuando son ejecutadas por uno o mas procesadores de un sistema informatico, dan lugar a que el sistema de ordenador implemente el metodo del modo descrito arriba.
[0006] La invencion proporciona ademas un sistema, que comprende: uno o mas procesadores;
memoria del sistema; y
en donde uno o mas procesadores y memoria estan configurados para implementar un metodo como se indico anteriormente.
[0007] La presente descripcion se refiere a los campos de la biologfa molecular, evolucion molecular, bioinformatica
5
10
15
20
25
30
35
40
45
50
55
60
65
y sistemas digitales. Tambien se proporcionan sistemas, incluidos sistemas digitales, y software de sistema para realizar estos metodos. Los metodos de la presente divulgacion tienen utilidad en la optimizacion de protemas para uso industrial y terapeutico. Los metodos y sistemas son especialmente utiles para disenar y desarrollar enzimas que tienen actividad y selectividad deseadas para reacciones catalfticas de sustratos particulares.
[0008] Ciertos aspectos de la presente descripcion se refieren a metodos para protemas practicamente de deteccion que tienen propiedades beneficiosas y/o de gma de programas de evolucion dirigida. La descripcion presenta metodos para identificar biomoleculas con propiedades deseadas (o que son mas adecuadas para la evolucion dirigida hacia tales propiedades) a partir de bibliotecas de biomoleculas complejas o conjuntos de tales bibliotecas. Algunas realizaciones de la presente divulgacion proporcionan metodos para seleccionar virtualmente enzimas para la actividad y selectividad deseadas para reacciones catalfticas en sustratos particulares. Algunas realizaciones combinan exploracion y evolucion dirigida para disenar y desarrollar protemas y enzimas que tienen propiedades deseadas. Tambien se proporcionan productos de sistemas y programas informaticos que implementan los metodos.
[0009] Algunas realizaciones de la descripcion proporcionan metodos para el cribado de una pluralidad de diferentes variantes de la enzima para la actividad con un sustrato. En algunas realizaciones, el metodo se implementa usando un sistema informatico que incluye uno o mas procesadores y memoria del sistema. El metodo incluye: (a) para cada variante de enzima, acoplamiento, por el sistema informatico, una representacion computacional del sustrato a una representacion computacional de un sitio activo de la variante enzimatica, en donde el acoplamiento (i) genera una pluralidad de posiciones del sustrato en el sitio activo, e (ii) identifica posiciones energeticamente favorables del sustrato en el sitio activo; (b) para cada posicion energeticamente favorable, determinar si la posicion es activa, en donde una posicion activa cumple una o mas restricciones para que el sustrato experimente catalisis en el sitio activo; y (c) selecciona al menos una de las variantes de enzima que se determina que tiene una o mas posiciones activas.
[0010] En algunas realizaciones, las limitaciones incluyen uno o mas de los siguientes: restricciones de posicion, distancia, angulo, y de torsion. En algunas realizaciones, las restricciones incluyen una distancia entre un resto particular en el sustrato y un resto particular o resto en el sitio activo. En algunas realizaciones, las restricciones incluyen una distancia entre un resto particular en el ligando y un ligando nativo posicionado idealmente en el sitio activo.
[0011] En algunas realizaciones, la representacion computacional del sustrato representa una especie a lo largo de la coordenada de reaccion para la actividad de la enzima. La especie se selecciona del sustrato, un intermedio de reaccion del sustrato, o un estado de transicion del sustrato. En algunas realizaciones, las variantes rastreadas se seleccionan de un panel de enzimas que puede convertir multiples sustratos y en donde los miembros del panel poseen al menos una mutacion con respecto a una secuencia de referencia. En algunas realizaciones, al menos una mutacion es una mutacion de unico residuo. En algunas realizaciones, al menos una mutacion esta en el sitio activo de la enzima. En algunas realizaciones, la pluralidad de variantes incluye una o mas enzimas que pueden catalizar una reaccion qmmica seleccionada entre reduccion de cetona, transaminacion, oxidacion, hidrolisis de nitrilo, reduccion de imina, reduccion de enona, hidrolisis de acilo y deshalogenacion de halohidrina. En algunas realizaciones, la enzima se selecciona de reductasa de cetona, transaminasa, citocromo P450, monooxigenasa de Baeyer-Villiger, monoaminooxidasa, nitrilasa, reductasa de imina, reductasa de enona, acilasa y halohidrina deshalogenasa. Sin embargo, no se pretende que la presente invencion se limite a ninguna enzima o clase de enzima particular, ya que cualquier enzima adecuada encuentra uso en los metodos de la presente invencion. En algunas realizaciones, las variantes son miembros de la biblioteca producida por una o mas rondas de evolucion dirigida in vitro y/o in silico.
[0012] En algunas realizaciones, el metodo filtra al menos unos diez variantes diferentes. En otras realizaciones, el metodo selecciona al menos aproximadamente mil variantes diferentes.
[0013] En algunas realizaciones, las representaciones computacionales de sitios activos estan dentro de modelos de homologfa 3-D para la pluralidad de variantes. En algunas realizaciones, se proporcionan metodos para producir los modelos de homologfa 3-D para variantes de protemas. En algunas realizaciones, el metodo se aplica para seleccionar una pluralidad de sustratos.
[0014] Algunas realizaciones proporcionan un metodo para identificar las limitaciones para el sustrato a someterse a la transformacion qmmica catalizada mediante la identificacion de una o mas posiciones de un sustrato nativo, un intermedio de reaccion del sustrato nativo, o un estado de transicion del sustrato nativo cuando el nativo sustrato sufre la transformacion qmmica catalizada por una enzima de tipo salvaje.
[0015] Algunas realizaciones proporcionan un metodo para aplicar un conjunto de una o mas restricciones de la enzima a la pluralidad de variantes de la enzima, en donde las una o mas restricciones de enzimas son similares a las limitaciones de una enzima de tipo salvaje cuando un sustrato nativo sufre una transformacion qmmica catalizada en presencia de la enzima de tipo salvaje.
[0016] En algunas realizaciones, la pluralidad de posturas del sustrato se obtiene mediante operaciones de conexion
5
10
15
20
25
30
35
40
45
50
55
60
65
que incluyen uno o mas de los siguientes: red basada en la dinamica molecular de alta temperatura, rotacion aleatoria, el refinamiento por recocido simulado basado en la red, y una minimizacion de campo final o de fuerza completa. En algunas realizaciones, la pluralidad de posiciones del ligando comprende al menos aproximadamente 10 posiciones del sustrato en el sitio activo.
[0017] En algunas realizaciones, la seleccion de variantes en (c) anterior implica la identificacion de variantes que se ha determinado que tienen un gran numero de posiciones activas por comparacion con otras variantes. En algunas realizaciones, la seleccion en (c) implica clasificar las variantes por uno o mas de los siguientes: el numero de posiciones activas que tienen las variantes, puntuaciones de atraque de las posiciones activas y energfas de enlace de las posiciones activas. Entonces las variantes se seleccionan segun el rango. En algunas realizaciones, los puntajes de atraque se basan en la fuerza de van de Waals y la interaccion electrostatica. En algunas realizaciones, las energfas de enlace se basan en uno o mas de las siguientes: fuerza de van der Waals, interaccion electrostatica y energfa de solvatacion.
[0018] En algunas realizaciones, el metodo de seleccion tambien implica preparar una pluralidad de oligonucleotidos que contienen o que codifican al menos una porcion de al menos una variante seleccionada. El metodo ademas implica realizar una o mas rondas de evolucion dirigida utilizando la pluralidad de oligonucleotidos. En algunas realizaciones, la preparacion de una pluralidad de oligonucleotidos implica sintetizar los oligonucleotidos usando un sintetizador de acido nucleico. En algunas realizaciones, realizar una o mas rondas de evolucion dirigida comprende fragmentar y recombinar la pluralidad de oligonucleotidos. En algunas realizaciones, realizar una o mas rondas de evolucion dirigida implica realizar mutagenesis de saturacion en la pluralidad de oligonucleotidos.
[0019] En algunas realizaciones, la variante de la enzima filtrada ha deseado actividad catalttica y/o selectividad. El metodo de algunas formas de realizacion tambien implica sintetizar la enzima seleccionada a partir del cribado.
[0020] En algunas realizaciones, el metodo de cribado se puede ampliar para detectar biomoleculas distintas de enzimas. Algunas realizaciones proporcionan un metodo para examinar una pluralidad de variantes de protemas para la interaccion con un ligando. El metodo implica: (a) para cada variante de protema, acoplamiento, por el sistema informatico, una representacion computacional del ligando a una representacion computacional de un sitio activo de la variante enzimatica, en donde el acoplamiento (i) genera una pluralidad de posiciones del ligando en el sitio activo, e (ii) identifica posiciones energeticamente favorables del ligando en el sitio activo; (b) para cada posicion energeticamente favorable, determinar si la posicion es activa, en donde una posicion activa cumple una o mas restricciones para que el ligando experimente una interaccion particular con la variante de protema; y (c) seleccionar al menos una de las variantes de protema que se determina que tiene una o mas posiciones activas. En algunas realizaciones, el ligando puede seleccionarse de un sustrato, un intermedio, un estado de transicion, un producto, un inhibidor, un agonista y/o un antagonista.
[0021] En algunas realizaciones, tambien se proporcionan productos de programas de ordenador y sistemas informaticos de aplicacion de los metodos para el cribado de enzimas y protemas.
[0022] Estas y otras caractensticas se presentan a continuacion con referencia a los dibujos asociados.
BREVE DESCRIPCION DE LOS DIBUJOS
[0023]
La Figura 1 ilustra las restricciones geometricas para identificar las posiciones activas para una reaccion catalftica de selectividad pro-R, la reaccion que implica una enzima cetona-reductasa con un resto de tirosina, un sustrato de acetofenona y el cofactor NADPH.
La Figura 2 es un diagrama de flujo que presenta un flujo de trabajo para analizar la actividad potencial de biomoleculas candidatas en algunas implementaciones.
La Figura 3A es un diagrama de flujo que muestra un ejemplo de un flujo de trabajo para disenar secuencias de biomoleculas de acuerdo con algunas realizaciones de la divulgacion.
La Figura 3B es un diagrama de flujo que muestra un ejemplo de un flujo de trabajo para disenar secuencias de biomoleculas, que implica sintetizar y analizar secuencias obtenidas a partir de cribado virtual.
La Figura 3C es un diagrama de flujo que muestra un ejemplo de un flujo de trabajo para disenar secuencias de biomoleculas, que combina la evolucion dirigida in vitro y el cribado virtual en cada ronda de iteraciones multiples.
La Figura 4 muestra un dispositivo digital ejemplar que puede implementarse de acuerdo con algunas realizaciones de la presente divulgacion.
La Figura 5 proporciona un grafico de datos que muestra la energfa de enlace y la selectividad de 10 mejores variantes de una segunda ronda de evolucion dirigida y las cadenas principales para la ronda 1 (RdIBB) y la ronda 2 (Rd2BB).
La Figura 6A muestra la aptitud del modelo de un modelo de actividad de secuencia construido usando datos de un sistema de exploracion de protema virtual de acuerdo con algunas realizaciones.
La Figura 6B muestra datos de validacion cruzada que indican que el modelo de actividad de secuencia tal como
5
10
15
20
25
30
35
40
45
50
55
60
65
se construyo en la Figura 6A fue preciso para predecir la energfa de union.
La Figura 6C muestra los coeficientes para diversas mutaciones de acuerdo con el modelo de actividad de secuencia tal como se construye en la Figura 6A.
La Figura 7 muestra las cantidades que indican la conversion en el eje X y la selectividad en el eje Y desde virtualmente el cribado de las variantes de la cetoductasa para la produccion enantioseletiva de (R)-1,1,1- trifluropropano-2-ol a partir de 1,1,1-trifluropropano-2-ona.
La Figura 8 muestra las cantidades que indican conversion y exitos (variantes con cierto nivel de mejora) de la evolucion virtual dirigida de P450 para la oxidacion de CH regioselectiva a C-OH.
DESCRIPCION DETALLADA
[0024] El cribado de protemas y enzimas se puede realizar de maneras reales que implican mediciones de las propiedades qmmicas y ffsicas de protema y moleculas de enzima que interaction con ligandos y sustratos. Las medidas reales consumen tiempo y recursos, y los mecanismos ffsicos y qmmicos subyacentes a menudo son diffciles de visualizar o manipular. Los metodos y sistemas de cribado "virtuales" descritos en este documento proporcionan herramientas para visualizar o manipular la estructura y la dinamica de enzimas, protemas y sus sustratos y ligandos. Estas herramientas pueden ahorrar tiempo y/o materiales para estudiar las moleculas.
[0025] En algunas realizaciones, el cribado virtual de protemas o enzimas se utiliza en la evolucion dirigida de protemas de interes. El cribado virtual se usa en lugar del cribado ffsico durante varias etapas de estas formas de evolucion dirigidas, lo que permite estudiar un gran numero de moleculas y reacciones sin requerir los materiales ffsicos o el tiempo requerido por el cribado real. Estas realizaciones pueden acelerar los procesos para obtener protemas y enzimas que tienen propiedades deseadas. Los materiales y recursos tambien se pueden guardar en los procesos. Algunas realizaciones son especialmente utiles para disenar y desarrollar enzimas que tienen actividad y/o selectividad deseadas para reacciones cataffticas que implican sustratos particulares.
I. DEFINICIONES
[0026] A menos que se defina lo contrario en el presente documento, todos los terminos tecnicos y cienffficos usados en este documento tienen el mismo significado que se entiende comunmente por un experto ordinario en la tecnica. Diversos diccionarios cienffficos que incluyen los terminos incluidos en este documento son bien conocidos y estan disponibles para los expertos en la tecnica. Cualquier metodo y materiales similares o equivalentes a los descritos en este documento encuentran uso en la practica de las realizaciones descritas aqrn.
[0027] Los terminos definidos inmediatamente a continuacion estan mas completamente entendidos por referencia a la especificacion como un todo. Las definiciones tienen el proposito de describir realizaciones particulares solamente y ayudar a comprender los conceptos complejos descritos en esta memoria descriptiva. No estan destinados a limitar el alcance completo de la divulgacion. Espedficamente, debe entenderse que esta divulgacion no esta limitada a las secuencias, composiciones, algoritmos, sistemas, metodologfa, protocolos y reactivos particulares descritos, ya que pueden variar, dependiendo del contexto en el que los utilizan los expertos en la tecnica.
[0028] Como se usa en esta memoria descriptiva y las reivindicaciones adjuntas, las formas singulares "un", "una", "el" y "ella" incluyen los referentes plurales a menos que el contenido y el contexto indiquen claramente lo contrario. Por lo tanto, por ejemplo, la referencia a "un dispositivo" incluye una combinacion de dos o mas de tales dispositivos, y similares. A menos que se indique lo contrario, una conjuncion "o" esta destinada a ser utilizada en su sentido correcto como operador logico booleano, abarcando tanto la seleccion de caracteffsticas en la alternativa (A o B, donde la seleccion de A es mutuamente excluyente de B) como la seleccion de caracteffsticas en conjuncion (A o B, donde se seleccionan A y B).
[0029] "Acoplamiento" como se usa en el presente documento, se refiere al proceso de calculo para simular y/o caracterizar la union de una representacion computacional de una molecula (por ejemplo, un sustrato o ligando) a una representacion computacional de un sitio activo de una biomolecula (por ejemplo, una enzima o protema). El acoplamiento se implementa ffpicamente en un sistema informatico que utiliza un programa informatico "acoplador". Tfpicamente, el resultado de un proceso de acoplamiento es una representacion computacional de la molecula "acoplada" en el sitio activo en una "posicion" espedfica. Se puede llevar a cabo una pluralidad de procesos de acoplamiento entre la misma representacion computacional de una molecula y la misma representacion computacional de un sitio activo, dando como resultado una pluralidad de "posiciones" diferentes de la molecula en el sitio activo. La evaluacion de la estructura, conformacion y energfa de la pluralidad de diferentes "posiciones" en la representacion computacional del sitio activo pueden identificar ciertas "posiciones" como mas energeticamente favorables para la union entre el ligando y la biomolecula.
[0030] En algunas realizaciones, posiciones generadas a partir de acoplamiento son evaluadas para determinar si son "activas" para una interaccion deseada con la biomolecula. Las "posiciones activas" son aquellas que cumplen una o mas restricciones para una actividad en consideracion. Una "restriccion" puede limitar la estructura, geometffa, conformacion, energfa, etc. de una posicion. En ciertas formas de realizacion, una "posicion activa" de una representacion computacional de un sustrato en el sitio activo de una enzima satisface las condiciones para la
5
10
15
20
25
30
35
40
45
50
55
60
65
catalisis por la enzima. Cuando el acoplamiento identifica numerosas posiciones activas de una representacion computacional de un sustrato en la representacion computacional del sitio activo, la enzima espedfica representada puede seleccionarse como favorable para catalizar la transformacion qmmica del sustrato al producto.
[0031] Un "acoplador" es un programa informatico que computacionalmente simula y/o caracteriza el proceso de acoplamiento entre una representacion computacional de una molecula (por ejemplo, un sustrato o ligando) y una representacion computacional de un sitio activo de interes en una protema u otra molecula biologica.
[0032] Los acopladores se implementan tfpicamente como software que puede almacenarse temporal o permanentemente en asociacion con hardware tal como un procesador o procesadores. Los programas de acoplamiento comercialmente disponibles incluyen CDocker (Accelrys), DOCK (Universidad de California, San Francisco), AutoDock (Instituto de Investigacion Scripps), FlexX (tripos.com), GOLD (ccdc.cam.ac.uk) y GLIDE (schrodinger. com).
[0033] El acoplamiento usando un acoplador tfpicamente genera "posiciones" de representaciones computacionales de sustratos y ligandos con respecto a los sitios activos. Estas posturas pueden usarse para generar un puntaje de atraque o para evaluar el atraque. En algunas realizaciones, las posturas estan asociadas con los valores de energfa de interaccion calculados por un acoplador. Algunas posiciones son energicamente mas favorables que otras posiciones. En algunas realizaciones, el acoplador permite a un usuario especificar un numero de posiciones (n) para uso al evaluar el acoplamiento. Solo se consideran las posiciones n superiores con los mejores puntajes de atraque al evaluar el atraque. En algunas realizaciones, solo las posiciones con energfa de interaccion favorable que cumplen los criterios definidos se seleccionan para clasificarse como posiciones activas o inactivas.
[0034] En algunas realizaciones, un acoplador puede determinar que es probable que un sustrato o ligando se una con una biomolecula si una o mas posiciones del sustrato o ligando tienen energfa de interaccion favorable con la biomolecula. Un ligando unido puede actuar como un agonista o antagonista. Varios estibadores emiten un puntaje de atraque u otra medida de union entre el sustrato o ligando y la biomolecula. Para algunas combinaciones de sitios activos de biomoleculas con un sustrato o ligando, el programa de acoplamiento determinara que es poco probable que se produzca la union. En tales casos, el programa de acoplamiento arrojara una conclusion de que el sustrato o ligando no se une a la biomolecula.
[0035] Un acoplador puede ser programado para emitir una evaluacion de la probabilidad de que un ligando se acoplara con el sitio activo de biomolecula o la calidad de tal acoplamiento, en caso de producirse. La probabilidad y la calidad del acoplamiento indican la probabilidad de que un ligando se una con una biomolecula. En un nivel, un acoplador determina si es probable que un ligando se una al sitio activo de una biomolecula. Si la logica de acoplamiento concluye que el enlace no es probable o es altamente desfavorable, puede generar un resultado de "no se encuentran posiciones refinadas". Esto puede ocurrir cuando todas las conformaciones generadas por el programa de acoplamiento tienen enfrentamientos de van der Waals desfavorables y/o repulsiones electrostaticas con el sitio activo. En el ejemplo anterior de un procedimiento de acoplamiento, si la segunda operacion no logra encontrar una posicion con energfa suave inferior al umbral, el acoplador puede devolver un resultado como "no se encontraron posiciones refinadas". Debido a que la energfa suave considera principalmente las interacciones no fusionadas que incluyen van der Waals y las fuerzas electrostaticas, el resultado "no se encontro una posicion refinada" significa que el ligando tiene enfrentamientos estericos severos y/o repulsiones electrostaticas con el receptor de biomoleculas para un numero determinado de posiciones.
[0036] En ciertas realizaciones, el acoplador da salida a una puntuacion de acoplamiento que representa la interaccion entre el ligando en el sitio activo de biomolecula. Los estibadores pueden calcular diversas caractensticas de la interaccion ligando-biomolecula. En un ejemplo, la salida es simplemente la energfa de interaccion entre el ligando y la biomolecula. En otra realizacion, se emite una energfa total. Se puede entender que la energfa total es una combinacion de energfa de interaccion ligando-biomolecula y cepa de ligando. En ciertas implementaciones, dicha energfa puede calcularse usando un campo de fuerza como CHARMm.
[0037] En diversas realizaciones, los programas de conexion generan tales salidas al considerar multiples posiciones del ligando en el sitio activo de la biomolecula. Cada posicion tendra sus propios valores de energfa asociados. En algunas realizaciones, el programa de acoplamiento clasifica las posiciones y considera la energfa asociada con una o mas de las posiciones de alto rango. En algunos casos, puede promediar las energfas de ciertas posiciones de alto rango o realizar un analisis estadfstico de las mejores posiciones de clasificacion. En otras realizaciones, simplemente elige el valor asistido con la posicion superiormente clasificada y lo emite como la energfa resultante para el acoplamiento.
[0038] En algunas realizaciones, la representacion computacional de un sustrato corresponde a una especie molecular a lo largo de la coordenada de reaccion de una reaccion enzimatica que es capaz de convertir la molecula de sustrato a la molecula de producto deseado. En algunas realizaciones, la representacion computacional del sustrato representa la molecula de sustrato per se. En algunas realizaciones, la representacion computacional del sustrato representa una estructura intermedia del sustrato que se forma a lo largo de la coordenada de reaccion (es decir, un "intermedio de reaccion del sustrato"). En algunas realizaciones, la representacion computacional del
5
10
15
20
25
30
35
40
45
50
55
60
65
sustrato representa una estructura de estado de transicion que se forma a lo largo de la coordenada de reaccion enzimatica (es decir, un "estado de transicion del sustrato").
[0039] En algunas realizaciones, una representacion computacional de un ligando puede representar una especie molecular que se une fuertemente a una enzima o biomolecula pero no procede a lo largo de una coordenada de reaccion a un producto deseado. Por ejemplo, la representacion computacional del ligando puede representar un fuerte inhibidor para detectar inhibidores de una enzima, o antagonistas de union fuerte o agonistas de protemas (por ejemplo, receptores).
[0040] Una "posicion" es la posicion u orientacion de un sustrato o ligando con respecto a un sitio activo de una molecula biologica. En una posicion, las posiciones tridimensionales de algunos o todos los atomos del ligando se especifican con respecto a algunas o todas las posiciones de los atomos en el sitio activo. Si bien la conformacion de un ligando no es su posicion, porque la conformacion no considera el sitio activo, la conformacion puede usarse para determinar una posicion. En algunas realizaciones, la orientacion y conformacion de un ligando definen una posicion. En algunas realizaciones, una posicion solo existe si la combinacion de orientacion/conformacion de un ligando cumple un nivel de energfa umbral definido en el sitio activo de referencia.
[0041] Varios mecanismos computacionales se pueden emplear para generar posiciones para acoplamiento. Los ejemplos incluyen busquedas de torsion sistematicas o estocasticas sobre enlaces giratorios, simulaciones de dinamica molecular y algoritmos geneticos para "evolucionar" nuevas conformaciones de baja energfa. Estas tecnicas se utilizan para modificar representaciones computacionales del ligando y/o sitio activo para explorar el "espacio de posicion".
[0042] Los acopladores evaluan las posiciones para determinar como interactua el ligando con el sitio activo. En algunas realizaciones, lo hacen calculando la energfa de interaccion basada en uno o mas de los tipos de interaccion mencionados anteriormente (por ejemplo, fuerzas de van der Waals). Esta informacion se usa para caracterizar el acoplamiento y en algunos casos produce una puntuacion de atraque. En algunas implementaciones, los estibadores clasifican las posiciones basadas en puntajes de atraque. En algunas implementaciones, los estibadores eliminan las posiciones con puntuaciones de atraque desfavorables de consideracion.
[0043] En ciertas realizaciones, un sistema de deteccion de la protema virtual evalua una posicion para determinar si la posicion esta activa. Se considera que una posicion esta activa si cumple con las restricciones definidas que se sabe que son importantes para la actividad deseada bajo consideracion. Como ejemplo, el sistema de seleccion de protema virtual puede determinar si una posicion soporta la transformacion catalftica del ligando en un sitio activo.
[0044] Un "ligando" es una molecula o complejo que interactua con un sitio activo de una biomolecula para formar un complejo estable que contiene al menos el ligando y la biomolecula. Ademas del ligando y la biomolecula, el complejo estable puede incluir (algunas veces requiere) otras entidades qmmicas tales como cofactores organicos e inorganicos (por ejemplo, coenzimas y grupos prosteticos), iones metalicos y similares. Los ligandos pueden ser agonistas o antagonistas.
[0045] El "sitio activo" de una biomolecula es un sitio definido por la estructura de la biomolecula que es capaz de contener y/o unir la totalidad o parte de una molecula (por ejemplo, un sustrato o ligando). Se contemplan muchos tipos de sitios activos y algunos de estos se describen en otra parte del presente documento. A menudo, el sitio activo contiene caractensticas qmmicas y/o ffsicas (por ejemplo, residuos de aminoacidos) capaces de formar interacciones de union con el sustrato o ligando. En algunas realizaciones (por ejemplo, cuando la biomolecula es una enzima), el "sitio activo" incluye al menos un residuo catalftico y una pluralidad de residuos de union, y a veces otras entidades qmmicas tales como cofactores organicos e inorganicos (por ejemplo, coenzimas y grupos prosteticos), iones metalicos y similares. Al menos un residuo catalftico del sitio activo puede contener un resto catalftico que cataliza la renovacion de un sustrato. Los residuos de union del sitio activo proporcionan interacciones de union con el sustrato para mantenerlo en el sitio activo de una manera estereoselectiva y/o regioselectiva. Dichas interacciones pueden incluir interacciones de van der Waals, interacciones electrostaticas, enlaces de hidrogeno, interacciones hidrofflicas, interacciones hidrofobicas, interacciones de solventes, enlaces covalentes, etc.
[0046] En algunas realizaciones, una representacion computacional de un sitio activo se puede utilizar para acoplar una representacion computacional de un sustrato o ligando, generando asf posiciones que pueden evaluarse para una interaccion favorable con el sitio activo (p. ej., determinacion de la energfa de enlace para las posiciones).
[0047] En algunas realizaciones, la representacion computacional del sitio activo se define geometricamente por una esfera u otra forma. En algunas realizaciones, el sitio activo se define creando una esfera alrededor del centro de objetos seleccionados (p. ej., ligandos y/u otras entidades qmmicas en el molde de estructura) con el radio ajustado para incluirlos. El radio mmimo es de 5A, pero el tamano del sitio activo se puede expandir aumentando el radio de la esfera en 1A, 2A, 3A, 4A, 6A, 8A, 10A, y asf sucesivamente. En algunas implementaciones, el tamano del radio se selecciona para capturar residuos proximos al sustrato. Por lo tanto, los sustratos mas grandes se asociaran con radios mas grandes y los sustratos pequenos se asociaran con radios mas pequenos. No se pretende que la presente divulgacion se limite a ningun valor particular de radios. En algunas realizaciones, el sitio activo se puede definir a partir de cavidades de receptor, donde el sitio activo se derivo de una de las cavidades detectadas en el molde de estructura. En algunas realizaciones, el sitio activo se puede definir a partir de los registros del sitio de
5
10
15
20
25
30
35
40
45
50
55
60
65
Protein Data Bank (PDB), ya que el archivo PDB del molde de estructura a menudo tiene un sitio activo definido usando registros del sitio. Dado que todos los modelos de homolog^a se crearan utilizando el molde de estructura, el sitio activo definido es transferible a todos los modelos de homologfa.
[0048] En algunas realizaciones, la representacion computacional del sitio activo puede ser definida por varias formas tridimensionales, tales como una forma personalizable por el usuario (por ejemplo, una elipse o una forma irregular que refleja la estructura del sustrato) con referencia a restos en el sustrato y/o la enzima.
[0049] En algunas realizaciones, la representacion computacional del sitio activo puede ser definida para incluir aminoacidos que no interaction directamente (por ejemplo, a traves de interacciones de van der Waals, interacciones electrostaticas, enlaces de hidrogeno) con el sustrato o molecula de ligando en el activo sitio, pero que interaction con otros aminoacidos en la representacion computacional del sitio activo, y por lo tanto afectan la evaluacion de posiciones del sustrato o ligando.
[0050] En algunas realizaciones, los residuos que contribuyen a la catalisis y/o union pueden existir fuera de la representacion computacional del sitio activo como se definio anteriormente. Dichos residuos pueden modificarse durante la evolucion dirigida considerando residuos mas alla del sitio activo como candidatos para mutacion o recombinacion.
[0051] Un "intermedio de reaccion" es una entidad qmmica generada a partir del sustrato en la transformacion de sustrato a producto de reaccion. Un "estado de transicion" de un sustrato es el sustrato en un estado correspondiente a la energfa potencial mas alta a lo largo de una ruta de reaccion. En un estado de transicion que tiende a tener una existencia fugaz, las moleculas reactivas colisionantes proceden a formar productos. En esta descripcion, algunas veces cuando se describe un sustrato en un proceso, el estado intermedio y de transicion tambien puede ser adecuado para el proceso. En tales situaciones, el sustrato, el intermedio y el estado de transicion se pueden denominar colectivamente como "ligandos". En algunos casos, se generan intermedios multiples en la transformacion catalftica de un sustrato. En ciertas realizaciones, la especie de ligando (sustrato o estado intermedio o de transicion) elegida para el analisis es una que se sabe que esta asociada con una etapa limitante de velocidad en la transformacion catalftica. Como ejemplo, un sustrato unido covalentemente a un cofactor de enzima puede modificarse qmmicamente en una etapa de limitacion de velocidad. En tal caso, la especie sustrato-cofactor se usa para modelar la interaccion.
[0052] Un "ligando" es una molecula capaz de unirse a una biomolecula y puede incluir moleculas "sustrato" que son capaces de unirse y de someterse, ademas, a una transformacion qmmica catalftica. Algunos ligandos se unen con un sitio activo pero no experimentan una transformacion catalftica. Los ejemplos incluyen ligandos evaluados en el campo del diseno de farmacos. Dichos ligandos pueden ser moleculas pequenas elegidas por su capacidad para unirse no covalentemente con una biomolecula diana con fines farmacologicos. En algunos casos, un ligando se evalua por su capacidad para potenciar, activar o inhibir el comportamiento natural de una biomolecula.
[0053] Una "biomolecula" o una "molecula biologica" se refiere a una molecula que se encuentra generalmente en o producida por un organismo biologico. En algunas realizaciones, las moleculas biologicas comprenden macromoleculas biologicas polimericas que tienen multiples subunidades (es dear, "biopoftmeros"). Las biomoleculas tfpicas incluyen proternas, enzimas y otros polipeptidos, ADN, ARN y otros polinucleotidos, y tambien pueden incluir moleculas que comparten algunas caractensticas estructurales con poftmeros naturales tales como ARN (formados a partir de subunidades de nucleotidos), ADN (formados a partir de subunidades de nucleotidos), y peptidos o polipeptidos (formados a partir de subunidades de aminoacidos), que incluyen, por ejemplo, analogos de ARN, analogos de ADN, analogos de polipeptidos, acidos nucleicos peptfdicos (PNA), combinaciones de ARN y ADN (por ejemplo, quimeraplastos) o similares. No se pretende que las biomoleculas se limiten a cualquier molecula particular, ya que cualquier molecula biologica adecuada encuentra uso en la presente descripcion, incluyendo pero no limitado a, por ejemplo, ftpidos, hidratos de carbono, u otras moleculas organicas que son realizadas por una o mas moleculas geneticamente codificables (por ejemplo, una o mas enzimas o vfas enzimaticas) o similares. De particular interes para algunos aspectos de esta descripcion son biomoleculas que tienen sitios activos que interaccionan con un ligando para efectuar una transformacion qmmica o biologica, por ejemplo, catalisis de un sustrato, activacion de biomoleculas, o inactivacion de las biomoleculas, espedficamente enzimas.
[0054] En algunas realizaciones, una "propiedad beneficiosa" o "actividad" es un aumento o disminucion en una o mas de las siguientes: velocidad catalftica (kcat), la afinidad de union al sustrato (Km), la eficiencia catalftica (kcat/KM), especificidad del sustrato, quimioterapia, regioselectividad, estereoselectividad, estereoespecificidad, especificidad del ligando, agonismo del receptor, antagonismo del receptor, conversion de un cofactor, estabilidad del oxfgeno, nivel de expresion de la protema, solubilidad, termoactividad, termoestabilidad, actividad del pH, estabilidad del pH (por ejemplo, a pH alcalino o acido), inhibicion de glucosa y/o resistencia a inhibidores (por ejemplo, acido acetico, lectinas, acidos tanicos y compuestos fenolicos) y proteasas. Otras actividades deseadas pueden incluir un perfil alterado en respuesta a un estfmulo particular (p. ej., temperatura alterada y/o perfiles de pH). En el contexto del diseno racional de ligandos, la optimizacion de la inhibicion covalente dirigida (TCI) es un tipo de actividad. En algunas realizaciones, dos o mas variantes rastreadas como se describe aqm actuan sobre el mismo sustrato pero difieren con respecto a una o mas de las siguientes actividades: velocidad de formacion del producto, porcentaje de
5
10
15
20
25
30
35
40
45
50
55
60
65
conversion de un sustrato a un producto, selectividad y/o conversion porcentual de un cofactor. No se pretende que la presente divulgacion se limite a ninguna propiedad beneficiosa particular y/o actividad deseada.
[0055] En algunas realizaciones, "actividad" se utiliza para describir el concepto mas limitado de la capacidad de una enzima para catalizar la facturacion de un sustrato en un producto. Una caractenstica enzimatica relacionada es su "selectividad" para un producto particular tal como un enantiomero o producto regioselectivo. La definicion amplia de "actividad" presentada en este documento incluye selectividad, aunque convencionalmente la selectividad a veces se ve como distinta de la actividad enzimatica.
[0056] Los terminos "protema", "polipeptido" y "peptido" se usan indistintamente para referirse a un polfmero de al menos dos aminoacidos unidos covalentemente mediante un enlace amida, independientemente de la longitud o modificacion postraduccional (por ejemplo, glicosilacion, fosforilacion, lipidacion, miristilacion, ubiquitinacion, etc.). En algunos casos, el polfmero tiene al menos aproximadamente 30 residuos de aminoacidos, y habitualmente al menos aproximadamente 50 residuos de aminoacidos. Mas tfpicamente, contienen al menos aproximadamente 100 residuos de aminoacidos. Los terminos incluyen composiciones convencionalmente consideradas como fragmentos de protemas o peptidos de longitud completa. Se incluyen dentro de esta definicion los aminoacidos D y L, y las mezclas de aminoacidos D y L. Los polipeptidos descritos en este documento no estan restringidos a los aminoacidos geneticamente codificados. De hecho, ademas de los aminoacidos codificados geneticamente, los polipeptidos descritos en la presente memoria pueden estar compuestos, en su totalidad o en parte, de aminoacidos no codificados naturales y/o sinteticos. En algunas realizaciones, un polipeptido es una porcion del polipeptido ancestral o parental de longitud completa, que contiene adiciones o deleciones de aminoacidos (por ejemplo, espacios) y/o sustituciones, en comparacion con la secuencia de aminoacidos del polipeptido parental de longitud completa, mientras que aun retiene la actividad funcional (p. ej., actividad catalftica).
[0057] Una biomolecula u organismo de "tipo salvaje" (WT) es uno que tiene el fenotipo de la forma tfpica de una especie, ya que se produce en la naturaleza. En ocasiones, se ha aislado una biomolecula de tipo salvaje de una fuente natural. Otras veces, se deriva en el entorno de laboratorio. Habitualmente, las biomoleculas de tipo salvaje se relacionan o codifican por secuencias geneticas de genomas normales o de referencia en oposicion a los genomas mutantes. Se incluyen dentro de la definicion de "biomoleculas de tipo silvestre" las formas recombinantes de un polipeptido o polinucleotido que tiene una secuencia identica a la forma nativa. Un sustrato o ligando que reacciona con una biomolecula de tipo salvaje a veces se considera un sustrato o ligando "nativo".
[0058] Como se usa en el presente documento, los terminos "variantes", "mutante", "secuencia mutante" y "variante de secuencia" se refieren a una secuencia biologica que difiere en algun aspecto de una secuencia estandar o de referencia (por ejemplo, en algunas realizaciones, una secuencia parental). La diferencia se puede referir como una "mutacion". En algunas realizaciones, un mutante es un polipeptido o secuencia de polinucleotido que se ha alterado mediante al menos una sustitucion, insercion, cruzamiento, delecion y/u otra operacion genetica. Para los fines de la presente descripcion, los mutantes y las variantes no estan limitadas a un metodo particular mediante el cual se generan. En algunas realizaciones, una secuencia mutante o variante tiene actividades o propiedades aumentadas, disminuidas o sustancialmente similares, en comparacion con la secuencia parental. En algunas realizaciones, el polipeptido variante comprende uno o mas restos de aminoacidos que se han mutado, en comparacion con la secuencia de aminoacidos del polipeptido de tipo salvaje (por ejemplo, un polipeptido original). En algunas realizaciones, uno o mas residuos de aminoacidos del polipeptido se mantienen constantes, son invariantes, o no estan mutados en comparacion con un polipeptido original en los polipeptidos variantes que constituyen una pluralidad de polipeptidos. En algunas realizaciones, el polipeptido original se usa como base para generar variantes con estabilidad, actividad o cualquier otra propiedad deseada.
[0059] Como se usa en el presente documento, los terminos "variante de la enzima" y "enzima variante" se usan en referencia a las enzimas que son similares a una enzima de referencia, en particular en su funcion, pero que tienen mutaciones en su secuencia de aminoacidos que las hacen diferentes en secuencia del tipo silvestre u otra enzima de referencia. Las variantes de enzimas pueden prepararse mediante una amplia variedad de tecnicas de mutagenesis diferentes bien conocidas por los expertos en la tecnica. Ademas, los kits de mutagenesis tambien estan disponibles en muchos proveedores comerciales de biologfa molecular. Se encuentran disponibles metodos para realizar sustituciones espedficas en aminoacidos definidos (dirigidos a sitio), mutaciones espedficas o aleatorias en una region localizada del gen (regio-espedfico) o mutagenesis aleatoria sobre el gen completo (por ejemplo, mutagenesis de saturacion). Numerosos metodos adecuados son conocidos por expertos en la tecnica para generar variantes de enzimas, que incluyen, pero no se limitan a mutagenesis dirigida al sitio, ADN monocatenario o ADN bicatenario usando PCR, mutagenesis en casete, smtesis genica, PCR propensa a error, barajado y mutagenesis de saturacion qrnmica, o cualquier otro metodo adecuado conocido en la tecnica. Despues de que se producen las variantes, se pueden seleccionar para la propiedad deseada (por ejemplo, alta o aumentada, o baja o reducida actividad, mayor estabilidad termica y/o alcalina, etc.).
[0060] Un "panel de enzimas" es un grupo de enzimas seleccionado de tal manera que cada miembro del panel cataliza la misma reaccion qrnmica. En algunas realizaciones, los miembros del panel pueden girar colectivamente sobre sustratos multiples, experimentando cada uno la misma reaccion. A menudo, los miembros del panel son elegidos para entregar de manera eficiente multiples sustratos. En algunos casos, los paneles estan disponibles
5
10
15
20
25
30
35
40
45
50
55
60
65
comercialmente. En otros casos, son propiedad de una entidad. Por ejemplo, un panel puede incluir diversas enzimas identificadas como exitos en un procedimiento de seleccion. En ciertas realizaciones, uno o mas miembros de un panel existen solo como una representacion computacional. En otras palabras, la enzima es una enzima virtual.
[0061] Un "modelo" es una representacion de la estructura de una biomolecula o ligando. A veces se proporciona como una coleccion de posiciones tridimensionales para los atomos o restos de la entidad que se representa. Los modelos a menudo contienen representaciones producidas computacionalmente de los sitios activos u otros aspectos de las variantes de la enzima. Los ejemplos de modelos relevantes para las realizaciones de la presente invencion se producen a partir del modelado de homologfa, el enhebramiento de protemas o el modelado de protemas ab initio usando una rutina tal como Rosetta (rosettacommons.org/software/) o simulaciones de Dinamica Molecular.
[0062] Un "modelo de homologfa" es un modelo tridimensional de una protema o parte de una protema que contiene al menos el sitio activo de un ligando bajo consideracion. El modelo de homologfa se basa en la observacion de que las estructuras de protemas tienden a conservarse entre protemas homologas. Un modelo de homologfa proporciona posiciones tridimensionales de los residuos que incluyen la cadena principal y las cadenas laterales. El modelo se genera a partir de un molde de estructura de una protema homologa que se asemeja a la estructura de la secuencia modelada. En algunas realizaciones, se usa un molde de estructura en dos pasos: "alinear secuencia con moldes" y "construir modelos de homologfa".
[0063] El paso "alinear secuencia a los moldes" alinea la secuencia modelo a una o mas secuencias modelo de estructura y prepara una alineacion de la secuencia de entrada para la construccion del modelo de homologfa. La alineacion identifica las lagunas y otras regiones de disimilitud entre la secuencia del modelo y la(s) secuencia(s) del molde de la estructura.
[0064] El paso de "modelos de homologfa de construccion" utiliza caractensticas estructurales del molde de estructura para derivar las restricciones espaciales que, a su vez, se utilizan para generar, por ejemplo, estructuras de protemas modelo utilizando gradiente conjugado y procedimientos de optimizacion de recocido simulado. Las caractensticas estructurales del molde se pueden obtener a partir de una tecnica como la RMN o la cristalograffa de rayos X. Se pueden encontrar ejemplos de tales tecnicas en el artmulo de revision, "A Guide to Template Based Structure Prediction", por Qu X, Swanson R, Day R, Tsai J. Curr Protein Pept Sci. 2009 Jun; 10 (3): 270-85.
[0065] El termino "conformacion activa" se usa en referencia a una conformacion de una protema (por ejemplo, una enzima) que permite que la protema de lugar a que un sustrato se someta a una transformacion qrnmica (por ejemplo, una reaccion catalftica).
[0066] Una "posicion activa" es una en la que es probable que un ligando sufra una transformacion catalftica o realice alguna funcion deseada tal como la union de forma covalente con el sitio de union de un ligando.
[0067] Los terminos "oxidorreduccion", "oxidacion-reduccion", y "redox" se usan indistintamente con referencia a una reaccion qrnmica reversible en la que una reaccion es una oxidacion y la inversa es una reduccion. Los terminos tambien se usan para referirse a todas las reacciones qrnmicas en las que los atomos han cambiado su estado de oxidacion; en general, las reacciones redox implican la transferencia de electrones entre especies. Esto puede ser un proceso simple redox, tales como la oxidacion de carbono para producir dioxido de carbono (CO2) o la reduccion de carbono con hidrogeno para producir metano (CH4), o un proceso complejo tal como la oxidacion de la glucosa (C6H12O6) en el cuerpo humano a traves de una serie de procesos complejos de transferencia de electrones.
[0068] Una "oxidorreductasa" es una enzima que cataliza una reaccion de oxidorreduccion.
[0069] El termino "transferacion" se utiliza aqrn para referirse a una reaccion qrnmica que transfiere un grupo funcional a partir de un compuesto a otro compuesto. Una "transferasa" se usa para referirse a cualquiera de las diversas enzimas que catalizan una reaccion de transfeccion.
[0070] El termino "hidrolisis" se utiliza para referirse a una reaccion qrnmica en la que el agua reacciona con un compuesto para producir otros compuestos, cuya reaccion implica la division de un enlace qrnmico mediante la adicion del cation de hidrogeno y el anion hidroxido del agua.
[0071] Una "hidrolasa" es una enzima que cataliza una reaccion de hidrolisis.
[0072] El termino "isomerizacion" se utiliza para referirse a una reaccion qrnmica que convierte un compuesto en un isomero.
[0073] Una "isomerasa" es una enzima que cataliza una reaccion de isomerizacion, haciendo que su sustrato se convierta en una forma isomerica.
5
10
15
20
25
30
35
40
45
50
55
60
65
[0074] El termino "ligacion" se utiliza aqm para referirse a cualquier reaccion qmmica que unen dos moleculas mediante la formacion de un nuevo enlace qmmico. En algunas realizaciones, una reaccion de ligacion implica la hidrolisis de un pequeno grupo qmmico dependiente de una de las moleculas mas grandes. En algunas realizaciones, una enzima cataliza la union de dos compuestos, por ejemplo, enzimas que catalizan la union de CO, CS, CN, etc. Una enzima que cataliza una reaccion de ligacion se denomina "ligasa".
[0075] Una "liasa" es una enzima que cataliza la rotura de diversos enlaces qmmicos por medios distintos de la hidrolisis y oxidacion. En algunas realizaciones, una reaccion de liasa forma un nuevo doble enlace o una nueva estructura de anillo.
[0076] Una "cetorreductasa" es una enzima que normalmente utiliza el cofactor NADPH para reducir estereoespedficamente un grupo ceto a un grupo hidroxilo (Vease por ejemplo, las variantes descritas en WO2008103248A2, WO2009029554A2, WO2009036404A2, WO2009042984A1, WO2009046153A1, y
WO2010025238A2).
[0077] Una "transaminasa" o una "aminotransferasa" es una enzima que cataliza una reaccion de transaminacion entre un aminoacido y un a-cetoacido, en el que el grupo amino NH2 en el aminoacido se intercambia con el grupo ceto =O en el a-cetoacido (veanse, por ejemplo, las variantes descritas en WO2010081053A2 y WO2010099501A2).
[0078] Las protemas "citocromo" (abreviadas como "CYP") son enzimas involucradas en la oxidacion de sustancias organicas. Un ejemplo son las enzimas del citocromo P450. Los sustratos de las enzimas CYP incluyen, pero no se limitan a intermedios metabolicos tales como lfpidos y hormonas esteroides, asf como sustancias xenobioticas tales como farmacos y otros productos qmmicos toxicos. Los CYP son las principales enzimas involucradas en el metabolismo y la bioactivacion de los medicamentos. Los CYP usan una variedad de moleculas pequenas y grandes como sustratos en reacciones enzimaticas. La reaccion mas comun catalizada por el citocromo P450 es una reaccion de monooxigenasa, por ejemplo, la insercion de un atomo de oxfgeno en un sustrato organico (RH) mientras que el otro atomo de oxfgeno se reduce a agua. Las enzimas del citocromo P450 pertenecen a una superfamilia de protemas que contienen un cofactor hemo y, por lo tanto, son hemoprotemas. En general, son enzimas oxidasa terminales en las cadenas de transferencia de electrones. Las placas y enzimas de cribado Micro- Cyp® disponibles en Codexis son utiles en la produccion de metabolitos de farmacos y nuevos compuestos principales (veanse, por ejemplo, las variantes descritas en los documentos WO2002083868A2, WO20050l7l05A2, WO2005017116A2 y WO2003008563A2).
[0079] Una "monooxigenasa Baeyer-Villiger" es una enzima que emplea NADPH y oxfgeno molecular para catalizar una reaccion de oxidacion de Baeyer-Villiger, en donde se inserta un atomo de oxfgeno en un enlace carbono- carbono de un sustrato carbomlico (Vease por ejemplo, las variantes en WO2011071982A2 y WO2012078800A2).
[0080] Una "oxidasa de monoamina" (MAO) (EC 1.4.3.4) es una enzima que cataliza la oxidacion de monoaminas, que son neurotransmisores y neuromoduladores que contienen un grupo amino que esta conectado a un anillo aromatico por una cadena de dos carbonos (-CH2-CH2-). Los MAO pertenecen a la familia de protemas de oxidorreductasas de aminas que contienen flavina (veanse, por ejemplo, las variantes en WO2010008828A2).
[0081] Una "nitrilasa" o aminohidrolasa de nitrilo (EC 3.5.5.1) es una enzima que cataliza la hidrolisis de nitrilos a los acidos carboxflicos y amomaco, sin la formacion de productos intermedios de amida "libre" (veanse, por ejemplo, las variantes en WO2011011630A2).
[0082] Una "reductasa de imina" es una enzima que cataliza la reduccion de un grupo funcional de imina que contiene un doble enlace nitrogeno-carbono, rompiendo el enlace doble al dar lugar a que un electron se done al atomo de nitrogeno.
[0083] Una "reductasa de enona" es una enzima que cataliza la reduccion de un grupo funcional de enona, que incluye un sistema conjugado de un alqueno y una cetona, rompiendo el ceto o un doble enlace alqueno (Vease por ejemplo, las variantes describen en WO2010075574A2).
[0084] Una "acilasa" es una enzima que cataliza la escision hidrolttica de amida de acilo o enlaces de ester de acilo (Vease por ejemplo, las variantes de acilasa de penicilina G en WO2010054319A2).
[0085] Una "deshalogenasa halohidrina" "HHDH" es una enzima implicada en la degradacion de halohidrinas vecinales. En Agrobacterium radiobacter AD1, por ejemplo, cataliza la deshalogenacion de halohidrinas para producir los epoxidos correspondientes (veanse, por ejemplo, las variantes descritas en WO2010080635A2).
[0086] El termino "secuencia" se utiliza aqm para referirse a la orden y la identidad de cualquiera de las secuencias biologicas incluyendo, pero no limitado a, un genoma entero, todo el cromosoma, el segmento de cromosoma, la coleccion de secuencias de genes para genes que interactuan, gen, secuencia de acido nucleico, protema, peptido, polipeptido, polisacarido, etc. En algunos contextos, una "secuencia" se refiere al orden y la identidad de los residuos de aminoacidos en una protema (es decir, una secuencia de protema o cadena de caracteres de protema) o al orden
5
10
15
20
25
30
35
40
45
50
55
60
65
y la identidad de nucleotidos en un acido nucleico (es dedr, una secuencia de acido nucleico o cadena de caracteres de acido nucleico). Una secuencia puede ser representada por una cadena de caracteres. Una "secuencia de acido nucleico" se refiere al orden y la identidad de los nucleotidos que comprenden un acido nucleico. Una "secuencia de protema" se refiere al orden y la identidad de los aminoacidos que comprenden una protema o peptido.
[0087] "Codon" se refiere a una secuencia espedfica de tres nucleotidos consecutivos que es parte del codigo genetico y que especifica un aminoacido particular en una protema o inicia o detiene la smtesis de protemas.
[0088] El termino "gen" se utiliza ampliamente para referirse a cualquier segmento de ADN u otro acido nucleico asociado con una funcion biologica. Por lo tanto, los genes incluyen secuencias de codificacion y, opcionalmente, las secuencias reguladoras requeridas para su expresion. Los genes tambien incluyen opcionalmente segmentos de acido nucleico no expresados que, por ejemplo, forman secuencias de reconocimiento para otras protemas. Los genes se pueden obtener a partir de una variedad de fuentes, incluida la clonacion a partir de una fuente de interes o la smtesis a partir de informacion de secuencia conocida o predicha, y pueden incluir secuencias disenadas para tener los parametros deseados.
[0089] Un "resto" es una parte de una molecula que puede incluir cualquiera de los grupos funcionales enteros o partes de grupos funcionales como subestructuras, mientras que los grupos funcionales son grupos de atomos o enlaces dentro de las moleculas que son responsables de las reacciones qrnmicas caractensticas de esas moleculas.
[0090] "Filtracion" se refiere al proceso en el que se determinan una o mas propiedades de una o mas biomoleculas. Por ejemplo, los procesos de seleccion tfpicos incluyen aquellos en los que se determinan una o mas propiedades de uno o mas miembros de una o mas bibliotecas. La filtracion puede realizarse computacionalmente utilizando modelos computacionales de biomoleculas y entorno virtual de las biomoleculas. En algunas realizaciones, se proporcionan sistemas de seleccion de protemas virtuales para enzimas seleccionadas de actividad y selectividad deseadas.
[0091] Un "sistema de expresion" es un sistema para expresar una protema o peptido codificado por un gen u otro acido nucleico.
[0092] "Evolucion dirigida", "evolucion guiada," o "evolucion artificial" se refiere a procesos in silico, in vitro, o in vivo para modificar artificialmente una o mas secuencias de biomoleculas (o una cadena de caracteres que representa esa secuencia) mediante seleccion artificial, mutacion, recombinacion u otra manipulacion. En algunas realizaciones, la evolucion dirigida ocurre en una poblacion reproductora en la cual (1) hay variedades de individuos, (2) algunas variedades tienen informacion genetica hereditaria, y (3) algunas variedades difieren en su aptitud. El exito reproductivo se determina por el resultado de la seleccion de una propiedad predeterminada tal como una propiedad beneficiosa. La poblacion reproductiva puede ser, por ejemplo, una poblacion ffsica en un proceso in vitro o una poblacion virtual en un sistema informatico en un proceso in silico.
[0093] Los metodos de evolucion dirigidos se pueden aplicar facilmente a polinucleotidos para generar bibliotecas
variantes que se pueden expresar, cribar y analizar. La mutagenesis y los metodos de evolucion dirigida son bien conocidos en la tecnica (veanse, por ejemplo, las patentes de los Estados Unidos numeros 5.605.793, 5.830.721, 6.132.970, 6.420.175, 6.277.638, 6.365.808, 6.602.986, 7.288.375, 6.287.861, 6.297.053, 6.576.467, 6.444.468,
5.811.238, 6.117.679, 6.165.793., 6.180.406, 6.291.242, 6.995.017, 6.395.547, 6.506.602, 6.519.065, 6.506.603,
6.413.774, 6.573.098, 6.323.030, 6.344.356, 6.372.497, 7.868.138, 5.834.252, 5.928.905, 6.489.146, 6.096.548,
6.387.702, 6.391.552, 6.358.742, 6.482.647, 6.335.160, 6.653.072, 6.355.484, 6.03.344, 6.319.713, 6.613.514, 6.455.253, 6.579.678, 6.586.182, 6.406.855, 6.946.296, 7.534.564, 7.776.598, 5.837.458, 6.391.640, 6.309.883,
7.105.297, 7.795.030, 6.326.204, 6.251.674, 6.716.631, 6.528.311, 6.287.862, 6.335.198, 6.352.859, 6.379.964,
7.148.054, 7.629.170, 7.620.500, 6.365.377, 6.358.740, 6.406.910, 6.413.745, 6.436.675, 6.961.664, 7.430.477,
7.873.499, 7.702.464, 7.783.428, 7.747.391, 7.747.393, 7.751.986, 6.376.246, 6.426.224, 6.423.542, 6.479.652,
6.319.714, 6.521.453, 6.368.861, 7.421.347, 7.058.515, 7.024.312, 7.620.502, 7.853.410, 7.957.912, 7.904.249 y todas las contrapartes no estadounidenses relacionadas; Ling y col., Anal. Biochem, 254 (2): 157 - 78 [1997]; Dale et al., Meth. Mol. Biol., 57: 369 - 74 [1996]; Smith, Ann. Rev. Genet., 19: 423 -462 [1985]; Botstein et al., Science, 229: 1193 - 1201 [1985]; Carter, Biochem. J., 237: 1-7 [1986]; Kramer et al., Cell, 38: 879 - 887 [1984]; Wells et al., Gene, 34: 315 - 323 [1985]; Minshull y otros, Curr. Op. Chem. Biol., 3: 284 - 290 [1999]; Christians et al., Nat. Biotechnol., 17: 259 - 264 [1999]; Crameri et al., Nature, 391: 288 - 291 [1998]; Crameri, et al., Nat. Biotechnol., 15: 436 - 438 [1997]; Zhang y col., Proc. Nat. Acad. Sci. EE.UU., 94: 4504 - 4509 [1997]; Crameri y otros, Nat. Biotechnol., 14: 315 - 319 [1996]; Stemmer, Nature, 370: 389 - 391 [1994]; Stemmer, Proc. Nat. Acad. Sci. EE.UU., 91: 10747 - 10751 [1994]; WO 95/22625; WO 97/0078; WO 97/35966; WO 98/27230; WO 00/42651; WO 01/75767; y WO 2009/152336).
[0094] En ciertas realizaciones, los metodos de evolucion dirigida generan bibliotecas de variantes de protemas por recombinacion de genes que codifican variantes desarrolladas a partir de una protema de matriz, asf como por recombinacion de genes que codifican variantes en una biblioteca variante de la protema matriz. Los metodos pueden emplear oligonucleotidos que contienen secuencias o subsecuencias que codifican al menos una protema
5
10
15
20
25
30
35
40
45
50
55
60
65
de una biblioteca de variantes parentales. Algunos de los oligonucleotidos de la biblioteca de variantes parentales pueden estar estrechamente relacionados, difiriendo solo en la eleccion de codones para aminoacidos alternativos seleccionados para variar por recombinacion con otras variantes. El metodo se puede realizar durante uno o multiples ciclos hasta que se logren los resultados deseados. Si se utilizan ciclos multiples, cada uno tipicamente implica una etapa de seleccion para identificar aquellas variantes que tienen un rendimiento aceptable o mejorado y son candidatos para su uso en al menos un ciclo de recombinacion posterior. En algunas realizaciones, la etapa de seleccion implica un sistema de seleccion de protema virtual para determinar la actividad catalttica y la selectividad de enzimas para sustratos deseados.
[0095] En algunas realizaciones, los metodos de evolucion dirigida generan variantes de protemas por mutagenesis dirigida al sitio en los residuos definidos. Estos residuos definidos se identifican tfpicamente por analisis estructural de sitios de union, analisis de qrnmica cuantica, analisis de homologfa de secuencia, modelos de actividad de secuencia, etc. Algunas realizaciones emplean mutagenesis de saturacion, en la que se intenta generar todas las posibles (o tan cerca como posible) mutaciones en un sitio espedfico o region estrecha de un gen.
[0096] "Barajado" y "barajado de genes" son los tipos de metodos de evolucion dirigida que recombinan una coleccion de fragmentos de los polinucleotidos parentales a traves de una serie de ciclos de extension de cadena. En ciertas realizaciones, uno o mas de los ciclos de extension de cadena es autocebante; es decir, realizado sin la adicion de cebadores distintos de los fragmentos en sf mismos. Cada ciclo implica el recocido de fragmentos monocatenarios a traves de la hibridacion, el alargamiento posterior de los fragmentos recocidos a traves de la extension de la cadena y la desnaturalizacion. En el transcurso del barajado, una cadena creciente de acido nucleico tfpicamente se expone a multiples socios de apareamiento diferentes en un proceso denominado a veces "conmutacion de molde", que implica cambiar un dominio de acido nucleico de un acido nucleico con un segundo dominio de un segundo nucleico acido (es decir, acidos nucleicos primero y segundo sirven como moldes en el procedimiento de barajado).
[0097] La conmutacion de moldes frecuentemente produce secuencias quimericas, que resultan de la introduccion de cruces entre fragmentos de diferentes ongenes. Los cruces se crean a traves de recombinaciones conmutadas de molde durante los ciclos multiples de recocido, extension y desnaturalizacion. Por lo tanto, la transposicion lleva tfpicamente a la produccion de secuencias de polinucleotidos variantes. En algunas realizaciones, las secuencias variantes comprenden una "biblioteca" de variantes (es decir, un grupo que comprende variantes multiples). En algunas realizaciones de estas bibliotecas, las variantes contienen segmentos de secuencia de dos o mas polinucleotidos parentales.
[0098] Cuando se emplean dos o mas polinucleotidos parentales, los polinucleotidos parentales individuales son suficientemente homologos que los fragmentos de diferentes padres se hibridan en las condiciones de recocido empleadas en los ciclos de barajado. En algunas realizaciones, el barajado permite la recombinacion de polinucleotidos parentales que tienen niveles de homologfa relativamente limitados/bajos. A menudo, los polinucleotidos parentales individuales tienen dominios distintos y/o unicos y/u otras caractensticas de secuencia de interes. Cuando se usan polinucleotidos parentales que tienen caractensticas de secuencia distintas, la transposicion puede producir polinucleotidos variantes muy diversos.
[0099] Diversas tecnicas de barajado son conocidas en la tecnica (veanse, por ejemplo, la Patente de los Estados Unidos Nos 6.917.882, 7.776.598, 8.029.988, 7.024.312, y 7.795.030).
[0100] Algunas de las tecnicas de evolucion dirigida emplean "empalme genetico por extension de solapamiento" o "empalme genetico por extension de solapamiento", que es un metodo basado en PCR de recombinacion de secuencias de ADN sin depender de sitios de restriccion y de generar directamente fragmentos de ADN mutados in vitro. En algunas implementaciones de la tecnica, las PCR iniciales generan segmentos genicos superpuestos que se usan como ADN de molde para una segunda PCR para crear un producto de longitud completa. Los cebadores de PCR internos generan extremos 3' complementarios superpuestos en segmentos intermedios e introducen sustituciones, inserciones o deleciones de nucleotidos para el corte y empalme de genes. Las hebras superpuestas de estos segmentos intermedios se hibridan en la region 3' en la segunda PCR y se extienden para generar el producto de longitud completa. En diversas aplicaciones, el producto de longitud completa se amplifica mediante cebadores flanqueantes que pueden incluir sitios de enzimas de restriccion para insertar el producto en un vector de expresion para fines de clonacion (veanse, por ejemplo, Horton, et al., Biotechniques, 8 (5): 528-35 [1990]). "Mutagenesis" es el proceso de introduccion de una mutacion en una secuencia estandar o de referencia tal como un acido nucleico principal o un polipeptido original.
[0101] La mutagenesis dirigida al sitio es un ejemplo de una tecnica util para introducir mutaciones, aunque cualquier metodo adecuado encuentra uso. De este modo, alternativamente o ademas, los mutantes pueden proporcionarse mediante smtesis genica, saturacion de mutagenesis aleatoria, bibliotecas combinatorias semisinteticas de residuos, recombinacion de secuencia recursiva ("RSR") (veanse, por ejemplo, publicacion de solicitud de patente de Estados Unidos N° 2006/0223143), barajado genico, PCR propensa a error, y/o cualquier otro metodo adecuado.
5
10
15
20
25
30
35
40
45
50
55
60
65
[0102] Un ejemplo de un procedimiento de mutagenesis de saturacion adecuado se describe en la publicacion de solicitud de patente de los Estados Unidos N° 2010/0093560.
[0103] Un "fragmento" es cualquier porcion de una secuencia de nucleotidos o aminoacidos. Los fragmentos pueden producirse usando cualquier metodo adecuado conocido en la tecnica, que incluye, pero no se limita a, escindir un polipeptido o secuencia de polinucleotido. En algunas realizaciones, los fragmentos se producen usando nucleasas que escinden polinucleotidos. En algunas realizaciones adicionales, los fragmentos se generan usando tecnicas de smtesis qmmica y/o biologica. En algunas realizaciones, los fragmentos comprenden subsecuencias de al menos una secuencia parental, generada usando el alargamiento de cadena parcial de acido(s) nucleico(s) complementario(s). En algunas realizaciones que implican tecnicas in silico, se generan fragmentos virtuales de forma computacional para imitar los resultados de fragmentos generados por tecnicas qmmicas y/o biologicas. En algunas realizaciones, los fragmentos polipeptfdicos exhiben la actividad del polipeptido de longitud completa, mientras que en algunas otras realizaciones, los fragmentos polipeptfdicos no tienen la actividad exhibida por el polipeptido de longitud completa.
[0104] "Polipeptido parental", "polinucleotido parental", "acido nucleico parental" y "progenitor" se usan generalmente para referirse al polipeptido de tipo salvaje, polinucleotido de tipo salvaje, o una variante usada como punto de partida en un procedimiento de generacion de diversidad tal como una evolucion dirigida. En algunas realizaciones, el propio progenitor se produce a traves de mezcla u otros procedimientos de generacion de diversidad. En algunas realizaciones, los mutantes usados en la evolucion dirigida estan directamente relacionados con un polipeptido original. En algunas realizaciones, el polipeptido precursor es estable cuando se expone a condiciones de temperatura, pH y/o condiciones de disolvente y puede servir como base para generar variantes para la mezcla. En algunas realizaciones, el polipeptido parental no es estable en condiciones extremas de temperatura, pH y/o disolvente, y el polipeptido parental se desarrolla para producir variantes robustas.
[0105] Un "acido nucleico original" codifica un polipeptido parental.
[0106] Una "biblioteca" o "poblacion" se refiere a una coleccion de al menos dos moleculas diferentes, cadenas de caracteres, y/o modelos, tales como secuencias de acidos nucleicos (por ejemplo, genes, oligonucleotidos, etc.) o productos de expresion (por ejemplo, enzimas u otras protemas) a partir de los mismos. Una biblioteca o poblacion generalmente incluye varias moleculas diferentes. Por ejemplo, una biblioteca o poblacion tfpicamente incluye al menos aproximadamente 10 moleculas diferentes. Las bibliotecas grandes tfpicamente incluyen al menos aproximadamente 100 moleculas diferentes, mas tfpicamente al menos aproximadamente 1.000 moleculas diferentes. Para algunas aplicaciones, la biblioteca incluye al menos alrededor de 10.000 o mas moleculas diferentes. Sin embargo, no se pretende que la presente invencion se limite a un numero espedfico de moleculas diferentes. En ciertas realizaciones, la biblioteca contiene una serie de acidos nucleicos variantes o quimericos o protemas producidas por un procedimiento de evolucion dirigida.
[0107] Dos acidos nucleicos se recombinan cuando las secuencias de cada uno de los dos acidos nucleicos se combinan para producir una progenie de acido(s) nucleico(s). Dos secuencias se recombinan "directamente" cuando ambos acidos nucleicos son sustratos para recombinacion.
[0108] "Seleccion" se refiere al proceso en el que se identifican una o mas biomoleculas que tienen una o mas propiedades de interes. Por lo tanto, por ejemplo, se puede seleccionar una biblioteca para determinar una o mas propiedades de uno o mas miembros de la biblioteca. Si uno o mas de los miembros de la biblioteca se identifican como poseedores de una propiedad de interes, se selecciona. La seleccion puede incluir el aislamiento de un miembro de la biblioteca, pero esto no es necesario. Ademas, la seleccion y la filtracion pueden ser, y a menudo son, simultaneas. Algunas realizaciones descritas en este documento proporcionan sistemas y metodos para la deteccion y seleccion de enzimas de actividad y/o selectividad deseables.
[0109] El termino "modelo de secuencia-actividad" se refiere a cualquiera de los modelos matematicos que describen la relacion entre las actividades, caractensticas o propiedades de las moleculas biologicas, por un lado, y varias secuencias biologicas en la otra mano.
[0110] La "secuencia de referenda" es una secuencia a partir de la cual se efectua la variacion de la secuencia. En algunos casos, se usa una "secuencia de referenda" para definir las variaciones. Tal secuencia puede ser una predicha por un modelo para tener el valor mas alto (o uno de los valores mas altos) de la actividad deseada. En otro caso, la secuencia de referencia puede ser la de un miembro de una biblioteca original de variantes de protemas. En ciertas realizaciones, una secuencia de referencia es la secuencia de una protema parental o acido nucleico.
[0111] La "secuenciacion de proxima generacion" y la "secuenciacion de alto rendimiento" son tecnicas de secuenciacion que paralelizan el proceso de secuenciacion, produciendo miles o millones de secuencias a la vez. Ejemplos de metodos adecuados de secuenciacion de proxima generacion incluyen, entre otros, secuenciacion en una sola molecula en tiempo real (por ejemplo, Pacific Biosciences, Menlo Park, California), secuenciacion de semiconductores ionicos (por ejemplo, Ion Torrent, South San Francisco, California), pirosecuenciacion (p. ej., 454, Branford, Connecticut), secuenciacion por ligamiento (p. ej., secuenciacion SOLiD de Life Technologies, Carlsbad,
5
10
15
20
25
30
35
40
45
50
55
60
65
California), secuenciacion por smtesis y terminador reversible (p. ej., Illumina, San Diego, California), tecnologfas de imagenes de acido nucleico tales como microscop^a electronica de transmision y similares.
[0112] Un "algoritmo genetico" es un proceso que imita los procesos evolutivos. Los algoritmos geneticos (GA) se usan en una amplia variedad de campos para resolver problemas que no estan completamente caracterizados o son demasiado complejos para permitir la caracterizacion completa, pero para los cuales se dispone de alguna evaluacion anafftica. Es decir, los GA se utilizan para resolver problemas que pueden evaluarse mediante una medida cuantificable del valor relativo de una solucion (o al menos el valor relativo de una solucion potencial en comparacion con otra). En el contexto de la presente descripcion, un algoritmo genetico es un proceso para seleccionar o manipular cadenas de caracteres en una computadora, ffpicamente donde la cadena de caracteres corresponde a una o mas moleculas biologicas (por ejemplo, acidos nucleicos, protemas o similares) o datos utilizados para entrenar un modelo, como un modelo de actividad de secuencia.
[0113] En una implementacion ffpica, un algoritmo genetico proporciona y evalua una poblacion de cadenas de caracteres en una primera generacion. Una "funcion de aptitud ffsica" evalua a los miembros de la poblacion y los clasifica en funcion de uno o mas criterios, como la actividad alta. Las cadenas de caracteres de alto rango se seleccionan para promocion a una segunda generacion y/o apareamiento para producir "cadenas de caracteres hijos" para la segunda generacion. La poblacion en la segunda generacion es evaluada de manera similar por la funcion de aptitud, y los miembros de alto rango son promovidos y/o apareados como con la primera generacion. El algoritmo genetico continua de esta manera para las generaciones posteriores hasta que se cumple un "criterio de convergencia", en cuyo punto el algoritmo concluye con uno o mas individuos de alto rango.
[0114] El termino "operacion genetica" (o "IR") se refiere a operaciones geneticas biologicas y/o computacionales, donde todos los cambios en cualquier poblacion de cualquier tipo de cadenas de caracteres (y por lo tanto en cualquier propiedad ffsica de objetos ffsicos codificados por tales cadenas) se puede describir como un resultado de la aplicacion aleatoria y/o predeterminada de un conjunto finito de funciones algebraicas logicas. Los ejemplos de GO incluyen, pero no estan limitados a, multiplicacion, cruce, recombinacion, mutacion, ligacion, fragmentacion, etc.
II. EXAMEN DE PROTEfNAS VIRTUALES
[0115] En algunas realizaciones, un sistema de seleccion de protema virtual esta configurado para realizar diversas operaciones asociadas con la identificacion computacional de variantes de biomoleculas que es probable que tengan una actividad deseable tal como catalizar de forma eficiente y selectiva una reaccion a una temperatura definida. El sistema virtual de deteccion de protemas puede tomar como entradas, representaciones de uno o mas ligandos que estan destinados a interactuar con las variantes. El sistema puede tomar como otras entradas, representaciones de las variantes de biomoleculas, o al menos los sitios activos de estas variantes. Las representaciones pueden contener posiciones tridimensionales de atomos y/o restos de los ligandos y/o variantes. Los modelos de homologfa son ejemplos de las representaciones de las variantes de biomoleculas. El sistema virtual de deteccion de protemas puede aplicar informacion de atraque y restricciones de actividad para evaluar el funcionamiento de las variantes.
[0116] En ciertas realizaciones, un sistema de exploracion de protema virtual aplica una o mas restricciones para distinguir posiciones activas e inactivas. Tales posiciones pueden ser generadas por un acoplador como se describio anteriormente o por otra herramienta. Se evalua una posicion de ligando en su entorno para determinar si una o mas caractensticas del ligando estan posicionadas en el entorno para dar como resultado una transformacion catafftica u otra actividad definida. El entorno en cuestion es ffpicamente un sitio activo de una enzima u otra biomolecula.
[0117] Si se supone que un sustrato u otro ligando se une a un sitio activo de la biomolecula, la pregunta que debe hacerse es si se une de una manera "activa". Un programa de acoplamiento ffpico puede indicarle a uno si un ligando se unira o no al sitio activo, pero no le dice a uno si se une de una manera "activa".
[0118] En ciertas realizaciones, la actividad se determina considerando una o mas posiciones generadas por un acoplador u otra herramienta. Cada posicion se evalua para determinar si cumple con las restricciones asociadas con una actividad de interes (por ejemplo, una "actividad deseada"). Una posicion activa es aquella en la que es probable que el ligando experimente una transformacion catafftica o desempene algun papel deseado, tal como la union covalente con el sitio de union.
[0119] Cuando se considera el recambio catafftico de un sustrato como la actividad, el sistema de seleccion de protema virtual puede configurarse para identificar posiciones que se sabe que estan asociadas con una reaccion particular. En algunas realizaciones, esto implica considerar un intermedio de reaccion o un estado de transicion en lugar del propio sustrato. Ademas del recambio, las posiciones pueden evaluarse para otros tipos de actividad, como la smtesis estereoselectiva de enantiomeros, la union a un receptor de una biomolecula diana identificada como importante para el descubrimiento de farmacos, la conversion regioselectiva de productos, etc. En algunos casos, la actividad es union covalente irreversible o reversible tal como inhibicion covalente dirigida (TCI).
[0120] Las restricciones se pueden determinar de forma directa, manual, automatica, empffica y/o en base a informacion previamente conocida. En un enfoque, un investigador evalua el sitio activo y un sustrato nativo para
5
10
15
20
25
30
35
40
45
50
55
60
65
una protema de tipo salvaje. Esto se debe a que se sabe que la protema de tipo silvestre evoluciono para su sustrato nativo por naturaleza y, por lo tanto, tiene una constante catalftica optima (kcat). En algunos casos, las estructuras cristalinas de la protema de tipo salvaje y el sustrato nativo o un complejo intermedio se han resuelto. La restriccion se puede configurar en funcion del analisis estructural. Esto se conoce como un "enfoque directo" para determinar la restriccion. En los casos en que tales estructuras cristalinas no estan disponibles, la evaluacion puede realizarse con un programa de acoplamiento, por ejemplo. Usando el programa, el investigador identifica restricciones asociadas con una transformacion catalftica del sustrato nativo en la protema de tipo salvaje. Esto se conoce como un enfoque manual o empmco para determinar las restricciones. En otro enfoque, las restricciones se determinan usando calculos de mecanica cuantica. Por ejemplo, un investigador puede optimizar el sustrato o el estado intermedio o de transicion en presencia de grupos funcionales de los residuos catalfticos (por ejemplo, Tyr) y/o cofactores (por ejemplo, NADHP), utilizando la mecanica cuantica y establecer la restriccion para parecerse a esos estados. Este enfoque a veces se denomina enfoque automatico o ab initio. Un ejemplo de una herramienta comercial que utiliza este enfoque es Gaussian disponible en www|.|Gaussian.com.
[0121] Las restricciones pueden tomar diversas formas. En ciertas realizaciones, algunas o todas estas restricciones son restricciones geometricas que especifican la(s) posicion(es) relativa(s) de uno o mas atomos en una posicion de ligando en un espacio tridimensional. En algunas realizaciones, el espacio puede definirse con respecto a las posiciones de los atomos en un sitio activo.
[0122] Una "restriccion geometrica" es una restriccion que evalua la geometna de dos o mas restos participates u otros elementos qmmicos. En ciertas realizaciones, uno de los participates es un resto u otra especie qmmica en el ligando. En algunas realizaciones, otro de los participates es un resto u otra caractenstica qmmica de un sitio activo de una biomolecula. La fraccion u otra caractenstica qmmica del sitio activo puede estar asociada con residuos en el sitio activo de la biomolecula (por ejemplo, una cadena lateral de residuo de aminoacido), una caractenstica de un cofactor u otro compuesto que ftpicamente se asocia con el sitio activo y/o catalisis, y similares. Como ejemplo, en la reduccion de cetonas por una protema de cetoreductasa, el grupo carbonilo del sustrato puede ser un participate en una restriccion geometrica y un resto de tirosina de un sitio activo de enzima puede ser un segundo participate en la restriccion geometrica.
[0123] En general, las restricciones geometricas se hacen con respecto a un ligando por una parte y una o mas caractensticas del entorno de union por otra parte. En algunas realizaciones, el entorno puede incluir posiciones residuales de la cadena principal del peptido (o cadenas laterales) y/o cofactores u otros materiales no estructurales que normalmente residen en un sitio activo.
[0124] La geometna de los participates en la restriccion geometrica puede ser definida en terminos de distancia entre restos, angulos entre restos, relacion de torsion entre restos, etc. A veces, una restriccion incluye multiples restricciones geometricas basicas usadas para caracterizar la actividad. Por ejemplo, una restriccion sobre la posicion de un sustrato puede definirse por las distancias entre dos o mas pares de atomos. En la Figura 1 se muestra un ejemplo. En el caso de una relacion de torsion, la restriccion puede ser apropiada cuando un sustrato y una caractenstica del entorno del sitio activo se ven como placas nominalmente paralelas que comparten un eje de rotacion comun. La posicion angular relativa de estas placas alrededor del eje define la restriccion de torsion.
[0125] La Figura 1 representa un ejemplo de un flujo de trabajo que puede emplearse para identificar restricciones geometricas para identificar posiciones activas. El flujo de trabajo representado asume que la enzima de tipo salvaje es una reductasa de cetona y el sustrato nativo es la acetofenona. Como se representa en la esquina superior izquierda de la Figura 1, la reaccion nativa convierte la acetofenona en un alcohol correspondiente mediante catalisis estereoselectiva. La reaccion introduce un centro quiral en el carbono acetilo del sustrato cetona. La reductasa de cetona de tipo salvaje controla la conversion de modo que solo se produce el enantiomero R. La reaccion se lleva a cabo en presencia de NADPH como cofactor. La reaccion se representa esquematicamente en la esquina superior izquierda de la Figura 1.
[0126] En la esquina superior derecha de la Figura 1, se representa el mecanismo de catalisis y selectividad. Este mecanismo se considera al definir las restricciones geometricas utilizadas para distinguir las posiciones activas de las inactivas. Como parte del proceso, un investigador o sistema automatizado determina la orientacion del sustrato de acetofenona con respecto a su entorno catalftico en la reductasa de cetona natural. En general, el entorno relevante incluye los residuos circundantes, los cofactores, etc. presentes cuando tiene lugar la transformacion catalftica.
[0127] En el ejemplo representado, las caractensticas relevantes del entorno de sitio activo en la reductasa de cetona de tipo salvaje son las posiciones de los atomos en (1) un residuo de tirosina en la cadena principal de la enzima de tipo salvaje y (2) el cofactor NADPH. Otras caractensticas ambientales relevantes del sustrato en las posiciones activas son bolsillos secundarios dentro del sitio activo. Estos no se muestran en la Figura 1. Uno de los bolsillos secundarios acomoda el grupo fenilo del sustrato de acetofenona y otro acomoda el grupo metilo de la acetofenona. Juntos, estos bolsillos secundarios mantienen el sustrato en una orientacion que dicta la estereoespecificidad de la reaccion. En algunas realizaciones, la informacion anterior se recoge en base al analisis estructural de la estructura cristalina de la reductasa de cetona natural y del complejo de sustrato de acetofenona
5
10
15
20
25
30
35
40
45
50
55
60
65
natural. Por lo tanto, las restricciones geometricas se pueden definir directamente.
[0128] El mecanismo catalttico de cetorreductasa se representa por una secuencia de flechas mostradas en la disposicion representada (esquina superior derecha de la Figura 1). Espedficamente, el NADPH dona electrones a traves de un ion hidruro que se acopla con el carbono carbomlico de la acetofenona. Al mismo tiempo, un par de electrones del oxfgeno carbomlico de la acetofenona se dona al proton del residuo de tirosina, y un par de electrones del oxfgeno hidroxflico de la tirosina se dona al proton del resto ribosa de NADP(H), completando asf la conversion del sustrato al alcohol correspondiente. Como se observa, la reaccion continua mientras que el grupo fenilo del sustrato se mantiene en un sub-bolsillo mas grande, su grupo metilo se mantiene en un sub-bolsillo secundario menor, y su grupo cetona se mantiene muy cerca hacia el grupo hidroxilo de tirosina.
[0129] Como se muestra adicionalmente en la Figura 1, la reductasa de cetona natural se desarrolla en una reductasa de cetona variante que cataliza estereoespedficamente la conversion de un sustrato diferente, denominado "sustrato deseado" en este documento. Como se representa en el medio de la Figura 1, la reaccion deseada es una conversion de cetona de terc-butilo de metilo al enantiomero S del alcohol correspondiente (1 alcohol etflico de terc-butilo). Se presume que la reaccion esta catalizada en un sitio activo de una enzima variante optimizada para la conversion y con el cofactor NADPH.
[0130] Para asegurar que la reaccion se desarrolla con la estereoespecificidad deseada, se debe determinar una o mas restricciones. Observese que el sustrato nativo se convierte mediante la reductasa de cetona natural en el enantiomero R y el sustrato deseado se debe convertir mediante la variante en el enantiomero S. Por lo tanto, se puede considerar que el grupo tert-butilo del sustrato deseado debe colocarse en el bolsillo secundario que normalmente acomoda el grupo metilo del sustrato de acetofenona nativo y el grupo metilo del sustrato deseado debe colocarse en el bolsillo secundario que acomoda el grupo fenilo del sustrato nativo.
[0131] Con esto en mente, se puede definir un conjunto de restricciones posicionales como se representa en la esquina inferior izquierda de la Figura 1. Como se muestra allf, se definen diversas restricciones con respecto a la posicion tridimensional del sustrato nativo tal como se encuentra en el sitio activo de la enzima WT en la estructura cristalina, con el fin de obtener el maximo volumen de negocios (kcat). En otras palabras, la orientacion del grupo funcional clave del sustrato nativo, incluido el carbono carbonilo y el oxfgeno del carbonilo que determinan el recambio catalttico y cualquiera de los dos carbonos proximos al carbono del carbonilo que dicta la estereoselectividad, segun se determina con respecto al diagrama en la esquina superior derecha de la Figura 1 se traduce en coordenadas X, Y, Z. Ya que los modelos de homologfa de todas las variantes se construyeron usando la estructura WT como molde, las coordenadas X, Y, Z son transferibles a las variantes. Con este marco de referencia, las posiciones del grupo funcional clave (C-i(C2)C=O) del sustrato deseado se pueden comparar con las posiciones de los 4 atomos correspondientes del sustrato nativo, ya que se predice que se sientan en una orientacion optima hacia el residuo catalftico de tirosina y el cofactor NADPH. Es de destacar que los residuos para la union de catalisis (p. ej., tirosina) y residuos para el cofactor (NADPH) se conservan en todas las variantes y solo se esperan cambios sutiles conformacionales o posicionales para esta tirosina y NADPH en todas las variantes. Con esto en mente, las restricciones posicionales representadas en la esquina inferior izquierda de la Figura 1 especifican un rango de posiciones del atomo de carbono de carbonilo del sustrato deseado, atomo de oxfgeno de carbonilo y atomo de terc- butilo central con respecto a posiciones correspondientes del atomo de carbono de carbonilo del sustrato nativo, atomo de oxfgeno de carbonilo y atomo de carbono de metilo. El rango de diferencias posicionales entre los atomos del sustrato deseado y los atomos correspondientes del sustrato nativo se representa mediante las distancias d1, d2 y d3. Como ejemplo, puede requerirse que cada una de estas distancias sea de 1 angstrom o mas o menos para que una posicion del sustrato deseado se considere una posicion activa. Los valores de restriccion generalmente se establecen para ser un rango que permite cierta flexibilidad que refleja los cambios conformacionales sutiles de la tirosina y el cofactor catalfticos en una variante. En algunas implementaciones, los criterios para estas distancias se refinan mediante algoritmos de aprendizaje automatico.
[0132] En los ejemplos anteriores, las posiciones de los tres atomos relevantes del sustrato deseado se aproximan a las del sustrato nativo. Se espera que las variantes de cetoreductasa atracadas con el sustrato deseado en las posiciones que satisfagan las restricciones de posicion anteriores sean catalfticamente activas y selectivas de S.
[0133] En general, el sistema de seleccion de protema virtual puede aplicar restricciones geometricas de cualquiera de varios tipos. En algunas implementaciones, aplica la distancia absoluta entre los participates. Por ejemplo, la distancia entre un atomo de oxfgeno en el grupo de carbonilo de un sustrato y un atomo de un grupo de tirosina de un sitio activo puede especificarse como una restriccion (por ejemplo, la distancia entre estos atomos debe ser 2 A + 0,5 A). En otro ejemplo, el angulo entre una lmea definida por el eje entre los atomos de carbono y oxfgeno en un grupo carbonilo y otra lmea a lo largo de un eje de un grupo fenilo en un sitio activo es 120° + 20°.
[0134] La parte inferior derecha de la Figura 1 representa ejemplos de tipos de restricciones geometricas, cada una definida entre uno o mas atomos del sustrato deseado y uno o mas atomos de la enzima o un cofactor (u otra entidad) dentro de un bolsillo de union. Una restriccion de distancia se define como la distancia entre un atomo en el sustrato y un atomo en un residuo de sitio activo, un cofactor, etc. En la restriccion de angulo se define para una posicion por la relacion angular entre dos o mas ejes definidos en el sustrato y su entorno. Los ejes pueden ser
5
10
15
20
25
30
35
40
45
50
55
60
65
enlaces covalentes, lrneas entre los atomos del sustrato y un resto en el bolsillo de union, etc. Por ejemplo, se puede definir un angulo entre un eje definido entre dos atomos en el sustrato y otro eje definido como la separacion entre un atomo en un residuo y un atomo en el sustrato. En algunas otras realizaciones, un eje se define entre dos atomos en una cadena lateral de residuo y otro eje se define por la separacion entre un atomo en el sustrato y un atomo en el residuo. En la esquina inferior derecha de la Figura 1 se representa un tipo adicional de restriccion geometrica. Este tipo de restriccion se denomina "restriccion de torsion" y supone que dos entidades distintas en el bolsillo de encuadernacion (una de las cuales suele ser todo o parte de el sustrato) comparten un eje de rotacion comun. La restriccion de torsion puede definirse por un rango de posiciones angulares de una de las entidades con respecto a la otra alrededor del eje de rotacion comun.
[0135] En general, la restriccion geometrica puede aplicarse con respecto a alguna posicion u orientacion geometrica preestablecida de un resto de sustrato dentro de un bolsillo de union. Dicha posicion u orientacion puede especificarse mediante, por ejemplo, una posicion representativa de un resto activo en un sustrato nativo en un bolsillo de union. Como ejemplo, los atomos de carbono y oxfgeno del grupo de carbonilo del sustrato considerado deben estar dentro de 1 A de las ubicaciones de los atomos de oxfgeno de carbono de un grupo carbonilo en un sustrato nativo en el bolsillo de union. Vea la restriccion posicional que se muestra en la esquina inferior izquierda de la Figura 1. Tenga en cuenta que las restricciones posicionales en la esquina inferior izquierda de la Figura 1 existen entre el sustrato deseado y el sustrato nativo. Sin embargo, las restricciones posicionales se pueden traducir en relaciones entre el sustrato deseado y las variantes de la enzima, que corresponden a las restricciones geometricas en la esquina inferior central y derecha de la Figura 1.
[0136] Ademas de determinar las restricciones geometricas de forma directa, manual o automatica utilizando sistemas informaticos, las restricciones tambien pueden refinarse mediante los resultados de la deteccion. Por ejemplo, si una o mas de una variantes se identifican como activas mientras que otras se identifican como inactivas para la reaccion deseada a traves del examen de laboratorio, sus posiciones se pueden analizar mas a fondo y se pueden entrenar las restricciones.
[0137] Mientras que el ejemplo representado en la Figura 1 utiliza una molecula relativamente pequena y simple (cetona de terc-butilo de metilo) como un sustrato deseado, sustratos mucho mas grandes y mas complejos a menudo se evaluaron en un esfuerzo de evolucion dirigida.
[0138] La Figura 2 presenta un flujo de trabajo para analizar la actividad potencial de las biomoleculas candidatas en algunas implementaciones. Si bien se pueden considerar muchas actividades diferentes, la que se enfatizara en esta realizacion es la transformacion catalftica del sustrato. La transformacion puede ser enantioselectiva o regioselectiva. En tal caso, las variantes son enzimas. En la descripcion de esta figura, cuando se usa el termino "sustrato", el concepto se extiende a ligandos relacionados tales como intermedios de reaccion o estados de transicion que son importantes en un paso de determinacion de velocidad en la transformacion catalftica del sustrato a un producto de reaccion.
[0139] Como se muestra en la Figura 2, el proceso comienza identificando restricciones para distinguir posiciones activas de las inactivas del sustrato. Veanse bloque 201. En algunos casos, las restricciones se identifican por acoplamiento. En dichos procesos, un investigador toma en consideracion la interaccion del sustrato o el intermedio de reaccion o estado de transicion con el sitio activo de la enzima. En el proceso, identifica restricciones que dan como resultado la actividad deseada (por ejemplo, transformacion catalftica estereoespedfica del sustrato). El investigador puede hacer esto con la ayuda del analisis de estructura, un programa de acoplamiento y/o calculos de mecanica cuantica que presentan una representacion de una enzima y un sustrato asociado, intermedio o estado de transicion. El acoplamiento realizado con un acoplador a veces se conoce como un enfoque de acoplamiento "empftico" y la optimizacion realizada con una herramienta de mecanica cuantica a veces se denomina enfoque "ab initio". En algunas realizaciones, el acoplamiento se realiza con una enzima de tipo salvaje y el sustrato nativo, intermedio o estado de transicion. Veanse el bloque 201. Como se explico anteriormente, algunas restricciones son restricciones geometricas que representan las posiciones relativas de restos en los sustratos y restos deseados en el sustrato nativo o un cofactor asociado como se muestra en la esquina inferior izquierda de la Figura 1. En algunas implementaciones, las restricciones se pueden definir como las relaciones entre los sustratos deseados y las variantes de la enzima, como las restricciones geometricas que se muestran en la esquina inferior central y derecha de la Figura 1.
[0140] En algunos casos, las restricciones para posiciones activas se pueden identificar mediante tecnicas distintas de atracar un sustrato nativo en una enzima de tipo salvaje. Por ejemplo, es posible identificar restos relevantes para una reaccion catalftica y definir relaciones entre los restos identificados usando mecanismos de mecanica cuantica y dinamica molecular.
[0141] Volviendo al proceso que se muestra en la Figura 2, el sistema de seleccion de protema virtual crea o recibe modelos estructurales para cada una de las multiples biomoleculas variantes que deben considerarse para la actividad. Veanse el bloque 203. Como se explico, los modelos estructurales son representaciones tridimensionales producidas computacionalmente de los sitios activos u otros aspectos de las variantes de la enzima. Estos modelos pueden guardarse para su uso posterior en una base de datos u otro repositorio de datos. En algunos casos, al
5
10
15
20
25
30
35
40
45
50
55
60
65
menos uno de los modelos se crea para su uso en el flujo de trabajo. En algunos casos, al menos uno de los modelos se creo previamente, en cuyo caso el proceso simplemente recibe dichos modelos.
[0142] Multiples modelos, cada uno para una secuencia de biomolecula diferente se utilizan en el proceso mostrado en la Figura 2. Esto debe ser contrastado con flujos de trabajo convencionales utilizando programas de atraque. Los flujos de trabajo convencionales se centran en un unico objetivo o secuencia. En algunos casos, un flujo de trabajo convencional considera multiples instancias de un receptor, pero estas se basan en la misma secuencia. Cada una de las instancias tiene diferentes coordenadas tridimensionales generadas a partir de simulaciones de RMN o dinamica molecular.
[0143] Los modelos estructurales utilizados en el proceso de la Figura 2 pueden variar de unos a otros por la insercion, delecion o sustitucion en los modelos de uno o mas residuos de aminoacidos en las posiciones asociadas con el sitio activo o con alguna otra posicion en la enzima de secuencia. Los modelos estructurales pueden ser creados por varias tecnicas. En una realizacion, se crean por modelado de homologfa.
[0144] Con las limitaciones de actividad y los modelos estructurales en su lugar, el sistema virtual de deteccion de protemas itera las variantes que han sido seleccionadas para su consideracion. El control de la iteracion se ilustra mediante un bloque 205, que indica que la siguiente enzima variante bajo consideracion se selecciona para el analisis. Esta operacion y las operaciones restantes de la Figura 2 pueden implementarse mediante software o logica digital.
[0145] Para la enzima variante actualmente en consideracion, el sistema de seleccion de protema virtual primero intenta acoplar el sustrato deseado al sitio activo de la variante. Veanse bloque 207. Este proceso puede corresponder a un procedimiento convencional de acoplamiento. Por lo tanto, se puede emplear un acoplador para determinar si el sustrato es capaz o no de atracar con el sitio activo en la variante. Esta decision se representa en un bloque 209. Tenga en cuenta que el sustrato deseado a veces es diferente del sustrato nativo, que puede haberse utilizado para generar las restricciones.
[0146] Si el sistema de exploracion de protema virtual determina que es poco probable que el acoplamiento sea exitoso, el control del proceso se dirige a un bloque 220, donde el sistema determina si hay otras variantes a considerar. Si no hay otras variantes a tener en consideracion, el proceso se completa con una operacion opcional 223, como se indica. Si, por otro lado, una o mas variantes quedan por considerar, el control del proceso se dirige de vuelta al paso de proceso 205 donde se selecciona la siguiente variante para consideracion. Esta variante se evalua luego por su capacidad de atracar el sustrato considerado como se describio anteriormente con referencia a los bloques 207 y 209.
[0147] Si resulta que la variante bajo consideracion puede acoplarse con exito al sustrato, el control del proceso se dirige a una parte del algoritmo donde se consideran multiples posiciones y cada una se evalua para determinar su actividad. Como se describe a continuacion, este analisis se representa por los bloques 211, 213, 215, y 217.
[0148] Como se muestra, se repite el proceso a traves de multiples posiciones disponibles. En diversas realizaciones, un acoplador ayuda a seleccionar las posiciones. Como se explico, los estibadores pueden generar numerosas posiciones de un sustrato en un sitio activo. Tambien puede clasificar las posiciones segun uno o mas criterios, como la puntuacion de atraque, las consideraciones energeticas, etc. Se puede considerar la energfa total y/o la energfa de interaccion, como se describe en otra parte. Independientemente de como se generan y/o clasifican las posiciones, el flujo de trabajo puede configurarse para considerar un numero espedfico de posiciones. El numero de posiciones que se consideraran se puede establecer arbitrariamente. En una realizacion, se consideran al menos aproximadamente las 10 posiciones mas importantes. En otra realizacion, se consideran al menos aproximadamente 20 posiciones, o al menos aproximadamente 50 posiciones, o al menos aproximadamente 100 posiciones. Sin embargo, no se pretende que la presente invencion se limite a un numero espedfico de posiciones.
[0149] Como se representa en el bloque 211, el proceso selecciona la siguiente posicion para el analisis. La posicion seleccionada actualmente se evalua luego contra las restricciones identificadas en el bloque 201, para determinar si la posicion es una posicion activa. Como se explico, tales restricciones pueden ser restricciones geometricas que determinan si uno o mas restos del sustrato estan ubicados dentro del sitio activo, de manera que es probable que el sustrato experimente una transformacion catalftica deseada.
[0150] Si la evaluacion realizada en el bloque 213 indica que la posicion actual no es una posicion activa, el sistema de exploracion de protema virtual determina entonces si hay otras posiciones a considerar para la variante actual bajo consideracion. Veanse el bloque 215. Suponiendo que hay mas posiciones que considerar, el control del proceso se dirige de nuevo al bloque 211, donde se considera la siguiente postura.
[0151] Suponiendo que el sistema virtual de seleccion de protema determina en el bloque 213 que la posicion considerada esta activa, toma nota de esta posicion para su posterior consideracion. Veanse el bloque 217. En algunas realizaciones, el sistema de seleccion de protema virtual puede mantener una cuenta corriente del numero
5
10
15
20
25
30
35
40
45
50
55
60
65
de posiciones activas para la variante actualmente bajo consideracion.
[0152] Despues de senalar apropiadamente que la posicion actual esta activa, el control del proceso se dirige al bloque 215, donde el sistema de exploracion de protema virtual determina si hay otras posiciones a considerar. Despues de repetir la consideracion de todas las posiciones disponibles para la variante bajo consideracion, el sistema virtual de deteccion de protemas determina que no hay mas posiciones que considerar y el control del proceso se dirige a un bloque 218, que caracteriza la actividad probable de la variante actual. La caracterizacion se puede realizar mediante diversas tecnicas, que incluyen, pero no se limitan al numero de posiciones activas y puntajes de acoplamiento asociados para la variante en consideracion y otras consideraciones como se describen en este documento. Despues de que se completa la operacion del bloque 218, el control del proceso se dirige a la operacion de decision 220, que determina si hay otras variantes a considerar. Si hay variantes adicionales a considerar, el control del proceso se devuelve al bloque 205, donde el flujo de trabajo continua como se describio anteriormente.
[0153] Despues de considerar todas las variantes en el flujo de trabajo, el sistema virtual de deteccion de protemas puede clasificarlas segun uno o mas criterios, como el numero de posiciones activas que tienen las variantes, una o mas puntuaciones de atraque de las posiciones activas, y/o una o mas energfas de enlace de las posiciones activas. Veanse bloque 223. Solo las posiciones identificadas como posiciones activas (bloque 217) necesitan ser evaluadas al realizar el ranking del bloque 223. De esta forma, las operaciones en el flujo de trabajo sirven para filtrar posiciones inactivas de posiciones activas y ahorrar esfuerzo computacional asociado con la clasificacion de las variantes. Si bien no se muestra en la Figura 2, las variantes se pueden seleccionar para una mayor investigacion en funcion de su clasificacion.
[0154] En ciertas realizaciones, se ejecuta un protocolo para calcular energfas de enlace para evaluar las energfas de cada posicion activa de una variante. En algunas implementaciones, el protocolo puede considerar la fuerza de van der Waals, la interaccion electrostatica y la energfa de solvatacion. La solvatacion generalmente no se considera en los calculos realizados por estibadores. Se encuentran disponibles varios modelos de solvatacion para calcular energfas de enlace, que incluyen, pero no se limitan a dielectricos dependientes de la distancia, generalizado nacido con suma por pares (GenBorn), generalizado nacido with membrana implfcita (GBIM), generalizado nacido con integracion de volumen molecular (GBMV), generalizado nacido con una conmutacion simple (GBSW) y la ecuacion de Poisson-Boltzmann con area de superficie no polar (PBSA). Los protocolos para calcular las energfas de enlace son diferentes o separados de programas de acoplador. Generalmente producen resultados que son mas precisos que los puntajes de atraque, debido en parte a la inclusion de efectos de solvatacion en sus calculos. En varias implementaciones, las energfas de enlace se calculan solo para las posiciones que se consideran activas.
A. Generacion de modelos de multiples biomoleculas que contienen cada una un sitio activo
[0155] Un sistema informatico puede proporcionar modelos tridimensionales para una pluralidad de variantes de protemas. Los modelos tridimensionales son representaciones computacionales de algunas o todas las secuencias completas de las variantes de protemas. Tfpicamente, como mmimo, las representaciones de calculo cubren al menos los sitios activos de las variantes de protemas.
[0156] En algunos casos, los modelos tridimensionales son modelos de homologfa preparados usando un sistema informatico disenado apropiadamente. Los modelos tridimensionales emplean un molde estructural en el que las variantes de protemas vanan entre sf en sus secuencias de aminoacidos. En general, un molde estructural es una estructura previamente resuelta mediante cristalograffa de rayos X o RMN para una secuencia que es homologa a la secuencia modelo. La calidad del modelo de homologfa depende de la identidad de secuencia y la resolucion del molde de estructura. En ciertas realizaciones, los modelos tridimensionales pueden almacenarse en una base de datos para su uso segun sea necesario para proyectos actuales o futuros.
[0157] Los modelos tridimensionales de las variantes de protemas se pueden producir mediante tecnicas distintas de la modificacion de homologfa. Un ejemplo es el enhebrado de protemas, que tambien requiere un molde de estructura. Otro ejemplo es el modelado de protemas ab initio o de novo, que no requiere un molde de estructura y se basa en principios ffsicos subyacentes. Los ejemplos de tecnicas ab initio incluyen simulaciones de dinamica molecular y simulaciones usando el paquete de software Rosetta.
[0158] En algunas realizaciones, las variantes de protema vanan entre sf en sus sitios activos. En algunos casos, los sitios activos se diferencian entre sf por al menos una mutacion en la secuencia de aminoacidos del sitio activo. La(s) mutacion(es) pueden realizarse en una secuencia de protema de tipo salvaje o en alguna otra secuencia de protema de referencia. En algunos casos, dos o mas de las variantes de protemas comparten la misma secuencia de aminoacidos para el sitio activo pero difieren en la secuencia de aminoacidos para otra region de la protema. En algunos casos, dos variantes de protema se diferencian entre sf por al menos aproximadamente 2 aminoacidos, o al menos aproximadamente 3 aminoacidos, o al menos aproximadamente 4 aminoacidos. Sin embargo, no se pretende que la presente invencion se limite a un numero espedfico de diferencias de aminoacidos entre variantes de protemas.
5
10
15
20
25
30
35
40
45
50
55
60
65
[0159] En ciertas realizaciones, la pluralidad de variantes incluye miembros de la biblioteca producidos por una o mas rondas de evolucion dirigida. Las tecnicas de generacion de diversidad usadas en la evolucion dirigida incluyen barajado de genes, mutagenesis, recombinacion y similares. Ejemplos de tecnicas de evolucion dirigidas se describen en la publicacion de solicitud de patente de los Estados Unidos N° 2006/0223143.
[0160] En algunos procesos, la pluralidad de variantes incluye al menos aproximadamente diez variantes diferentes, o al menos aproximadamente l0o variantes diferentes, o al menos aproximadamente mil variantes diferentes.
B. Evaluacion de un ligando en multiples variantes de proteinas diferentes
[0161] Como se explica en la presente memoria, el acoplamiento se lleva a cabo mediante un sistema informatico apropiadamente programado que utiliza una representacion computacional de un ligando y representaciones computacionales de los sitios activos de la pluralidad generada de variantes.
[0162] Como ejemplo, un acoplador se puede configurar para realizar algunas o todas las siguientes operaciones:
1. Generar un conjunto de conformaciones de ligandos usando dinamica molecular de alta temperatura con semillas aleatorias. El acoplador puede generar tales conformaciones sin tener en cuenta el entorno del ligando. Por lo tanto, el acoplador puede identificar conformaciones favorables considerando solo la tension interna u otras consideraciones espedficas del ligando solo. El numero de conformaciones que se generaran se puede establecer de forma arbitraria. En una realizacion, se generan al menos aproximadamente 10 conformaciones. En otra realizacion, se generan al menos aproximadamente 20 conformaciones, o al menos aproximadamente 50 conformaciones, o al menos aproximadamente 100 conformaciones. Sin embargo, no se pretende que la presente invencion se limite a un numero espedfico de conformaciones.
2. Generar orientaciones aleatorias de las conformaciones traduciendo el centro del ligando a una ubicacion espedfica dentro del sitio activo del receptor, y realizando una serie de rotaciones aleatorias. El numero de orientaciones para refinar puede establecerse arbitrariamente. En una realizacion, se generan al menos aproximadamente 10 orientaciones. En otra realizacion, se generan al menos aproximadamente 20 orientaciones, o al menos aproximadamente 50 orientaciones, o al menos aproximadamente 100 orientaciones. Sin embargo, no se pretende que la presente invencion se limite a un numero espedfico de orientaciones. En ciertas realizaciones, el acoplador calcula una energfa "suavizada" para generar combinaciones adicionales de orientacion y conformacion. El acoplador calcula la energfa suavizada utilizando suposiciones ffsicamente poco realistas sobre la permisibilidad de ciertas orientaciones en un sitio activo. Por ejemplo, el acoplador puede suponer que los atomos del ligando y los atomos del sitio activo pueden ocupar esencialmente el mismo espacio, lo cual es imposible en funcion de la repulsion de Pauli y las consideraciones estericas. Esta suposicion suavizada puede implementarse, por ejemplo, empleando una forma relajada del potencial de Lennard-Jones al explorar el espacio de conformacion. Al usar un calculo de energfa suavizado, el acoplador permite una exploracion mas completa de las conformaciones que las disponibles utilizando consideraciones de energfa ffsicamente realistas. Si la energfa ablandada de una conformacion en una orientacion particular es menor que un umbral especificado, se mantiene la orientacion de conformacion. Estas conformaciones de baja energfa se conservan como "posiciones". En ciertas implementaciones, este proceso continua hasta que se encuentra un numero deseado de posiciones de baja energfa o se encuentra un numero maximo de posiciones malas.
3. Someter cada posicion retenida del paso 2 a dinamicas moleculares recocidas simuladas para refinar la posicion. La temperatura aumenta a un valor alto y luego se enfna a la temperatura diana. El acoplador puede hacer esto para proporcionar una orientacion y/o conformacion ffsicamente mas realista que la proporcionada por el calculo de energfa suavizada.
4. Realizar una minimizacion final del ligando en el receptor ngido utilizando potencial no ablandado. Esto proporciona un valor de energfa mas preciso para las posiciones retenidas. Sin embargo, el calculo puede proporcionar solo informacion parcial sobre las energfas de las posiciones.
5. Para cada posicion final, calcular la energfa total (energfa de interaccion receptor-ligando mas tension interna del ligando) y la energfa de interaccion sola. El calculo puede realizarse usando CHARMm. Las posiciones se ordenan por energfa CHARMm y se retienen las posiciones de puntuacion superior (la mayona de las negativas, por lo tanto, favorables para el encuadernado). En algunas realizaciones, este paso (y/o paso 4) elimina posiciones que son energeticamente desfavorables.
[0163] La siguiente referencia proporciona un ejemplo de funcionamiento de un descargador: Wu et al., Detailed Analysis of Grid- Based Molecular Docking: A Case Study of CDOCKER - A CHARMm-Based MD Docking Algorithm, J. Computational Chem, Vol... 24, No. 13, pp 1549 - 62 (2003).
[0164] Un acoplador tal como el descrito aqrn puede proporcionar una o mas piezas de informacion usadas por el sistema de exploracion para identificar variantes de alto rendimiento. Dicha informacion incluye la identidad de variantes para las que es improbable el acoplamiento con el sustrato deseado. Esas variantes no necesitan evaluacion para la actividad, etc. Otra informacion proporcionada por el acoplador incluye conjuntos de posiciones (un conjunto para cada variante) que se pueden considerar para la actividad. Otra informacion mas incluye puntajes de atraque de las posiciones en los conjuntos.
5
10
15
20
25
30
35
40
45
50
55
60
65
C. Determinar si las posiciones del ligando acoplado son activas
[0165] Para una variante de protema que se une satisfactoriamente con el ligando, el sistema de seleccion de protema virtual realiza las siguientes operaciones: (i) considerar una pluralidad de posiciones de la representacion computacional del ligando en el sitio activo de la variante de protema en consideracion, y (ii) determinar cual de las varias posiciones esta activa.
[0166] Una posicion activa es una que reune una restriccion mas para que el ligando se una bajo condiciones definidas (en lugar de una condicion de union arbitraria). Si el ligando es un sustrato y la protema es una enzima, la union activa puede ser un enlace que permita que el sustrato experimente una transformacion qmmica catalizada, particularmente una transformacion estereoespedfica. En algunas implementaciones, las restricciones son restricciones geometricas que definen un rango de posiciones relativas de uno o mas atomos en el ligando y uno o mas atomos en la protema y/o cofactor asociados con la protema.
[0167] En algunos casos, las restricciones se identifican a partir de una o mas conformaciones de un sustrato nativo y/o un intermedio posterior cuando se somete a una transformacion qmmica catalizada por una enzima de tipo salvaje. En ciertas realizaciones, las restricciones incluyen (i) una distancia entre un resto particular en el sustrato y/o el intermedio posterior y un resto particular o resto en el sitio activo, (ii) una distancia entre un resto particular en el sustrato y/o un intermedio posterior y un cofactor particular en el sitio activo, y/o (iii) una distancia entre un resto particular en el sustrato y/o el intermedio posterior y un resto particular en un sustrato nativo posicionado idealmente, y/o intermedio subsiguiente en el sitio activo. En ciertas realizaciones, las restricciones pueden incluir angulos entre enlaces qmmicos, torsion alrededor de ejes o tension en enlaces qmmicos.
[0168] La pluralidad de posiciones de la representacion computacional del sustrato y/o el intermedio posterior se puede generar con respecto a una representacion computacional de la variante de protema en consideracion. La pluralidad de posiciones se puede generar mediante diversas tecnicas. Los ejemplos generales de tales tecnicas incluyen busquedas torsionales sistematicas o estocasticas sobre enlaces giratorios, simulaciones de dinamica molecular y algoritmos geneticos disenados para localizar conformaciones de baja energfa. En un ejemplo, las posiciones se generan utilizando una dinamica molecular de alta temperatura, seguida de rotacion aleatoria, refinamiento mediante recocido simulado basado en rejilla y una minimizacion final de campo de fuerza o de rejilla para generar una conformacion y/u orientacion del sustrato y/o intermedio posterior en el sitio activo de representacion computacional. Algunas de estas operaciones son opcionales, por ejemplo, el refinamiento mediante el recocido simulado basado en la red y la minimizacion del campo de fuerza o de la cuadncula.
[0169] En ciertas realizaciones, el numero de posiciones consideradas es al menos aproximadamente 10, o al menos aproximadamente 20, o al menos aproximadamente 50, o al menos aproximadamente 100, o al menos aproximadamente 200, o al menos aproximadamente 500. Sin embargo, no se pretende que la presente invencion se limite a un numero espedfico de posiciones consideradas.
[0170] Si el proyecto tiene exito, se determina que al menos una de las variantes tiene una o mas posiciones que son activas y energeticamente favorables. En ciertas realizaciones, una variante seleccionada para consideracion adicional es una determinada que tiene un gran numero de conformaciones activas en comparacion con otras variantes. En ciertas realizaciones, las variantes son seleccionadas clasificando las variantes segun el numero de posiciones activas que tienen, una o mas puntuaciones de atraque para las posiciones activas, y/o una o mas energfas vinculantes de las posiciones activas. Como ejemplos, los tipos de puntajes de atraque que se pueden considerar incluyen los puntajes basados en la fuerza de van de Waals y/o interaccion electrostatica. Como ejemplos, los tipos de energfas de enlace que se pueden considerar incluyen la fuerza de van der Waals, la interaccion electrostatica y la energfa de solvatacion.
[0171] Una variante de protema determinada para soportar una o mas posiciones activas puede seleccionarse para investigacion adicional, smtesis, produccion, etc. En un ejemplo, se usa una variante de protema seleccionada para sembrar una o mas rondas de evolucion dirigida. Como ejemplo, una ronda de evolucion dirigida puede incluir (i) preparar una pluralidad de oligonucleotidos que contienen o codifican al menos una porcion de la variante de protema seleccionada, y (ii) realizar una ronda de evolucion dirigida usando la pluralidad de oligonucleotidos. Los oligonucleotidos se pueden preparar por cualquier medio adecuado, que incluye, pero no se limita a, smtesis genica, fragmentacion de un acido nucleico que codifica una parte o la totalidad de la variante de protema seleccionada, etc. En ciertas realizaciones, la ronda de evolucion dirigida incluye fragmentar y recombinar la pluralidad de oligonucleotidos. En ciertas realizaciones, la ronda de evolucion dirigida incluye realizar mutagenesis de saturacion en la pluralidad de oligonucleotidos.
[0172] Las transformaciones qmmicas catalizadas que pueden cribarse usando restricciones incluyen, pero no estan limitadas a, por ejemplo, reduccion de cetona, transaminacion, oxidacion, hidrolisis de nitrilo, reduccion de imina, reduccion de enona, hidrolisis de acilo y deshalogenacion de halohidrina. Los ejemplos de clases de enzimas que pueden proporcionar las multiples variantes evaluadas utilizando restricciones incluyen, pero no se limitan a: reductasa de cetonas, transaminasas, citocromo P450, moooxigenasas Baeyer-Villiger, monoaminooxidasas, nitrilasa, reductasas de imina, reductasas de enona, acilasas y deshidrogenasas de halohidrina. En el contexto del
5
10
15
20
25
30
35
40
45
50
55
60
65
diseno racional de ligandos, la optimizacion de la inhibicion covalente dirigida (TCI) es un tipo de actividad que se puede cribar para usar restricciones. Un ejemplo de una aplicacion de TCI se describe en Singh et al., The resurgence of covalent drugs, Nature Reviews Drug Discovery, vol. 10, pp. 307-317 (2011). En algunas implementaciones, la actividad de TCI se encuentra identificando un aminoacido nucleofilo (por ejemplo, cistema) en una protema. El proceso descrito en este documento puede ayudar a identificar inhibidores que satisfagan restricciones que definen una orientacion ideal de un resto electrofilo importante para la inhibicion (un inhibidor putativo) que puede reaccionar con la biomolecula que se va a inhibir.
III. UTILIZAR EL SISTEMA DE SELECCION DE PROTEfNA VIRTUAL PARA DISENAR ENZIMAS
[0173] Algunas realizaciones proporcionan procesos para virtualmente modelar y seleccionar enzimas usando un sistema de seleccion de protema virtual, identificando de ese modo enzimas que tienen propiedades deseadas, por ejemplo, actividad catalftica y selectividad. En algunas realizaciones, una familia de enzimas reales se puede modelar virtualmente y cribar como una biblioteca de variantes inicial. Algunas realizaciones pueden usar iterativamente una o mas enzimas seleccionadas mediante cribado virtual de la biblioteca inicial como polipeptidos parentales o secuencias de referencia para generar una nueva biblioteca variante mediante tecnicas in silico, in vitro o in vivo. En algunas realizaciones, una o mas enzimas altamente clasificadas por el sistema como se describe en este documento se seleccionan como polipeptido(s) original(es). La nueva biblioteca variante incluye secuencias de protemas que son diferentes de las secuencias de los polipeptidos originales, y/o pueden usarse como precursores para introducir variaciones posteriores.
[0174] En algunas realizaciones, los polipeptidos parentales se modifican en un procedimiento de evolucion dirigida realizando mutagenesis y/o un mecanismo de generacion de diversidad basado en recombinacion para generar la nueva biblioteca de variantes de protema. En algunas realizaciones, los polipeptidos precursores se alteran mediante al menos una sustitucion, insercion, cruzamiento, delecion y/u otra operacion genetica. La evolucion dirigida puede implementarse directamente sobre los polipeptidos (por ejemplo, en un proceso in silico) o indirectamente sobre los acidos nucleicos que codifican los polipeptidos (por ejemplo, en un proceso in vitro). La nueva biblioteca se puede usar para generar nuevos modelos de homologfa para un analisis posterior y una evolucion dirigida.
[0175] En algunas realizaciones, el modelado, rastreo y evolucion de las enzimas se llevan a cabo iterativamente en silico hasta que se cumplen una o mas enzimas que cumplen ciertos criterios. Por ejemplo, los criterios pueden ser una energfa o puntaje de union especificado, o una mejora de los mismos. Otras realizaciones pueden combinar tecnicas in silico y ffsicas (p. ej., In vitro o in vivo). Por ejemplo, es posible iniciar un proceso de diseno de enzimas utilizando enzimas derivadas de cribado in vitro y secuenciacion. La secuenciacion in vitro se puede realizar mediante secuenciacion de proxima generacion. Luego, el proceso de diseno de la enzima puede usar metodos in silico para la evolucion dirigida, el modelado y la deteccion posterior. El proceso finalmente puede usar tecnicas in vitro y/o in vivo para validar una enzima en un sistema biologico. Otras combinaciones y ordenes de tecnicas in silico y ffsicas son adecuadas para diversas aplicaciones. De hecho, no se pretende que la presente invencion se limite a ninguna combinacion espedfica y/u orden de metodos.
[0176] En algunas realizaciones, la preparacion de secuencias polipepffdicas se logra in silico. En otras realizaciones, los polipeptidos se generan sintetizando oligonucleotidos o secuencias de acido nucleico usando un sintetizador de acido nucleico y traduciendo las secuencias de nucleotidos para obtener los polipeptidos.
[0177] Como se indico anteriormente, en algunas realizaciones, la enzima seleccionada puede modificarse realizando uno o mas mecanismos de generacion de diversidad basados en la recombinacion para generar la nueva biblioteca de variantes de protemas. Tales mecanismos de recombinacion incluyen, pero no estan limitados a, por ejemplo, barajado, cambio de molde, empalme de genes mediante extension de solapamiento, PCR propensa a errores, bibliotecas combinatorias semisinteticas de residuos, recombinacion de secuencia recursiva ("RSR") (veanse, por ejemplo, Publicacion de Solicitud de Patente de Estados Unidos N° 2006/0223143). En algunas realizaciones, algunos de estos mecanismos de recombinacion pueden implementarse in vitro. En algunas realizaciones, algunos de estos mecanismos de recombinacion pueden implementarse computacionalmente en silico para imitar los mecanismos biologicos.
[0178] Algunas realizaciones incluyen la seleccion de una o mas posiciones en una secuencia de protema y llevar a cabo metodos de mutacion dirigidos al sitio tales como mutagenesis de saturacion en una o mas posiciones asf seleccionadas. En algunas realizaciones, las posiciones se seleccionan evaluando la estructura del sitio activo y/o restricciones relacionadas con la reaccion catafftica como se discute en otra parte del documento. La combinacion de seleccion virtual con modelado de actividad de secuencia encuentra uso en algunas realizaciones. En estas realizaciones, el proceso de evolucion dirigida puede seleccionar las posiciones evaluando los coeficientes de los terminos de un modelo de actividad de secuencia, identificando de ese modo uno o mas de los residuos que contribuyen a la actividad de interes. La Patente de Estados Unidos N° 7.783.428 proporciona ejemplos de modelos de actividad de secuencia que pueden usarse para identificar aminoacidos para la mutagenesis.
[0179] En algunas realizaciones, el metodo implica seleccionar uno o mas miembros de la nueva biblioteca de
5
10
15
20
25
30
35
40
45
50
55
60
65
variantes de protemas para produccion. Una o mas de estas variantes pueden entonces sintetizarse y/o expresarse en un sistema de expresion. En una realizacion espedfica, el metodo continua de la siguiente manera: (i) proporcionar un sistema de expresion a partir del cual se puede expresar un miembro seleccionado de la nueva biblioteca de variantes de protemas; y (ii) expresar el miembro seleccionado de la nueva biblioteca de variantes de protemas.
[0180] Las Figuras 3A-3C son diagramas de flujo que muestran ejemplos de flujos de trabajo para disenar secuencias de biomoleculas, que implementan diversas combinaciones de elementos descritos en este documento. La Figura 3A muestra un diagrama de flujo para un proceso 300 que comienza recibiendo informacion de secuencia de multiples secuencias de partida de un panel de biomoleculas, tal como un panel de enzimas. Veanse el bloque 302. El proceso luego realiza un cribado virtual de las secuencias recibidas actualmente utilizando un sistema virtual de deteccion de protemas. Veanse el bloque 304. En algunas realizaciones, el sistema de seleccion de protema virtual puede crear modelos de homologfa tridimensional de las secuencias de inicio y acoplar uno o mas sustratos con los modelos de homologfa considerando las posiciones de los sustratos como se describio anteriormente, generando asf puntajes de atraque para las secuencias de inicio. El sistema virtual de deteccion de protemas tambien puede calcular la energfa de interaccion y la energfa interna de los participates en el atraque (las enzimas y los sustratos). Ademas, el sistema de seleccion de protema virtual puede evaluar diversas restricciones de posiciones para determinar si las posiciones son activas, es decir, los sustratos se unen con la enzima de una manera que es probable que provoque una conversion catalftica del sustrato. Ademas, en algunas realizaciones, la evaluacion de las restricciones tambien proporciona inferencia con respecto a si los productos de la reaccion catalftica son enantioselectivos y/o regioselectivos. En algunas realizaciones, el proceso selecciona una o mas secuencias basadas en la energfa de union, la actividad y la selectividad determinadas por el sistema de exploracion virtual. Veanse el bloque 306. El proceso luego evalua si es necesario llevar a cabo una investigacion adicional de las secuencias seleccionadas en el paso 308. Si es asf, el proceso en este ejemplo muta computacionalmente las secuencias seleccionadas. Las mutaciones se basan en los diversos mecanismos de generacion de diversidad descritos anteriormente, como la mutagenesis o la recombinacion. Veanse el bloque 310. A continuacion, se proporcionan las secuencias mutadas computacionalmente para una nueva ronda de exploracion virtual mediante el sistema virtual de deteccion de protemas. Veanse el bloque 304. La seleccion y seleccion virtual puede continuar para las iteraciones, hasta que no sea necesaria una investigacion adicional de las secuencias, que puede determinarse mediante criterios preestablecidos, tales como un numero espedfico de iteraciones y/o un nivel particular de actividad deseada. En ese punto, el proceso de diseno de biomoleculas (por ejemplo, enzimas) se termina en el paso 312.
[0181] La Figura 3B muestra un diagrama de flujo para un proceso 320 para la evolucion dirigida de biomoleculas tales como enzimas, cuyo proceso tiene algunos elementos similares y algunos diferentes en comparacion con el proceso de 300. El proceso 320 comienza por smtesis in vitro de multiples secuencias de inicio de biomoleculas (por ejemplo, enzimas), que pueden ser necesarias o utiles cuando un panel preexistente de biomoleculas no esta disponible. Veanse el bloque 322. Las secuencias sintetizadas tambien se pueden ensayar para recopilar datos para las secuencias, datos que pueden ser utiles para disenar biomoleculas de propiedades deseadas, en las que los datos no pueden obtenerse mediante el sistema de exploracion virtual. El proceso luego realiza un cribado virtual de las secuencias sintetizadas usando un sistema de cribado de protemas virtual, representado en el bloque 324, que es similar al paso 304 en el proceso 300. El proceso selecciona una o mas secuencias basadas en la energfa de enlace, la actividad y selectividad determinada por el sistema de evaluacion virtual. Veanse el bloque 326. El proceso luego evalua si es necesario realizar una evolucion dirigida adicional de las secuencias seleccionadas en el paso 328. Si es asf, el proceso en este ejemplo muta las secuencias seleccionadas in silico o in vitro. Las mutaciones se basan en los diversos mecanismos de generacion de diversidad descritos anteriormente. Veanse el bloque 330. Las secuencias mutadas se proporcionan a continuacion para una nueva ronda de cribado virtual mediante el sistema virtual de cribado de protemas. Veanse el bloque 324. El cribado y la seleccion virtuales pueden continuar para las iteraciones, hasta que no sean necesarias mas evoluciones de secuencias, que pueden determinarse mediante criterios preestablecidos, tales como un numero espedfico de iteraciones y/o un nivel particular de actividad deseada. En ese punto, las secuencias seleccionadas por el sistema de seleccion virtual se sintetizan y expresan para producir enzimas reales. Veanse el bloque 332. Las enzimas producidas se pueden analizar para actividades de interes, que se pueden usar para validar los resultados del proceso de seleccion virtual. Veanse el bloque 334. Despues del ensayo, el proceso de evolucion dirigido se concluye en el paso 336.
[0182] La Figura 3C muestra un diagrama de flujo para un proceso 340 para la evolucion dirigida de biomoleculas tales como enzimas. El proceso 340 comienza por una evolucion dirigida in vitro para derivar multiples secuencias de partida de biomoleculas (por ejemplo, enzimas). Veanse el bloque 342. Como en el proceso 320, las secuencias derivadas se analizan para determinar si las secuencias cumplen ciertos criterios, tales como actividad o selectividad deseadas. Las secuencias que cumplen los criterios se determinan como aciertos para un mayor desarrollo. Veanse el bloque 344. El proceso realiza luego un cribado virtual de los aciertos utilizando un sistema de cribado de protemas virtual, representado en el bloque 346, que es similar al paso 304 en el proceso 300. En algunas realizaciones, el proceso tambien selecciona una o mas secuencias basadas en la energfa de enlace, la actividad y la selectividad determinadas por el sistema de seleccion virtual como se describio anteriormente. El proceso luego evalua si es necesario realizar una ronda adicional de evolucion dirigida de las secuencias seleccionadas en el paso 348. Si es asf, el proceso proporciona las secuencias seleccionadas para una ronda adicional de evolucion dirigida
5
10
15
20
25
30
35
40
45
50
55
60
65
in vitro en una nueva iteracion, veanse el bloque 342. El cribado y la seleccion virtuales pueden continuar para las iteraciones, hasta que no sea necesaria una evolucion posterior de las secuencias, que puede determinarse mediante criterios preestablecidos. En ese punto, el proceso de diseno de biomoleculas (por ejemplo, enzimas) se termina en el paso 350.
IV. GENERACION DE UNA BIBLIOTECA VARIANTE DE PROTEfNA
[0183] Las bibliotecas de variantes de protemas comprenden grupos de protemas multiples que tienen uno o mas residuos que vanan de miembro a miembro en una biblioteca. Estas bibliotecas se pueden generar usando los metodos descritos en este documento y/o cualquier medio adecuado conocido en la tecnica. En diversas realizaciones, estas bibliotecas proporcionan enzimas candidatas para el sistema virtual de seleccion de protemas. En algunas realizaciones, las bibliotecas pueden proporcionarse y seleccionarse in silico en rondas iniciales, y las protemas resultantes seleccionadas mediante el sistema de seleccion virtual de una ronda posterior o final pueden secuenciarse y/o rastrearse in vitro. Debido a que las rondas iniciales de deteccion se realizan en silico, el tiempo y el costo del cribado pueden reducirse significativamente. El numero de protemas incluidas en una biblioteca de variantes de protemas puede aumentarse facilmente en las rondas iniciales de seleccion en algunas implementaciones en comparacion con el examen ffsico convencional. No se pretende que la presente divulgacion se limite a ningun numero particular de protemas en las bibliotecas de protemas usadas en los metodos de la presente descripcion. Ademas, no se pretende que la presente divulgacion se limite a ninguna biblioteca o bibliotecas de variantes de protemas particulares.
[0184] En un ejemplo, la biblioteca de variantes de protemas se genera a partir de una o mas protemas de origen natural, que pueden estar codificadas por una familia de genes unica en algunas realizaciones, o un panel de enzimas en otras realizaciones. Otros puntos de partida incluyen, pero no se limitan a, recombinantes de protemas conocidas y/o nuevas protemas sinteticas. A partir de estas protemas "semilla" o "inicial", la biblioteca puede generarse mediante diversas tecnicas. En un caso, la biblioteca se genera mediante procesos virtuales que reflejan tecnicas biologicas o qmmicas, por ejemplo, recombinacion mediada por fragmentacion de ADN como se describe en Stemmer (1994) Proceedings of the National Academy of Sciences, USA, 10747-10751 y WO 95/22625., recombinacion mediada por oligonucleotidos sinteticos como se describe en Ness et al. (2002) Nature Biotechnology 20: 1251-1255 y WO 00/42561, o acidos nucleicos que codifican parte o la totalidad de una o mas protemas parentales. Se pueden usar combinaciones de estos metodos (por ejemplo, recombinacion de fragmentos de ADN y oligonucleotidos sinteticos) asf como otros metodos basados en la recombinacion conocidos en la tecnica, por ejemplo, WO97/20078 y WO98/27230. Cualquier metodo adecuado usado para generar bibliotecas de variantes de protemas encuentra uso en la presente divulgacion. De hecho, no se pretende que la presente divulgacion se limite a ningun metodo particular para producir bibliotecas de variantes.
[0185] En algunas realizaciones, una unica secuencia de "inicio" (que puede ser una secuencia "antecesora") puede emplearse para definir un grupo de mutaciones usadas en el proceso de modelado. En algunas realizaciones, hay mas de una secuencia de inicio. En algunas realizaciones adicionales, al menos una de las secuencias de inicio es una secuencia de tipo silvestre. En ciertas realizaciones, las mutaciones se identifican (a) en la literatura por afectar a la especificidad, selectividad, estabilidad y/o cualquier otra propiedad de interes del sustrato y/o (b) se predicen computacionalmente para mejorar los patrones de plegamiento de protemas (por ejemplo, empaquetar el interior) residuos de una protema), mejorar la union del ligando, mejorar las interacciones de la subunidad, o mejorar los metodos de mezcla familiar entre multiples homologos diversos, etc. No se pretende que la presente invencion se limite a ninguna eleccion espedfica de propiedad(es) de interes o funcion(es).
[0186] En algunas realizaciones, las mutaciones pueden ser virtualmente introducidas en la secuencia de inicio y las protemas pueden ser rastreadas virtualmente por sus propiedades beneficiosas. La mutagenesis dirigida al sitio es un ejemplo de una tecnica util para introducir mutaciones, aunque cualquier metodo adecuado encuentra uso. De este modo, alternativamente o ademas, los mutantes pueden proporcionarse mediante smtesis genica, saturacion de mutagenesis aleatoria, bibliotecas combinatorias semisinteticas de residuos, evolucion dirigida, recombinacion de secuencia recursiva ("RSR") (veanse, por ejemplo, la Solicitud de Patente de los Estados Unidos N° de publicacion 2006/0223143), barajado de genes, PCR propensa a errores, y/o cualquier otro metodo adecuado. Un ejemplo de un procedimiento de mutagenesis de saturacion adecuado se describe en la Solicitud de Patente de los Estados Unidos Publ. N° 2010/0093560.
[0187] La secuencia de inicio no necesita ser identica a la secuencia de aminoacidos de una protema de tipo
salvaje. Sin embargo, en algunas realizaciones, la secuencia de inicio es la secuencia de una protema de tipo
salvaje. En algunas realizaciones, la secuencia de inicio incluye mutaciones no presentes en la protema de tipo
salvaje. En algunas realizaciones, la secuencia de inicio es una secuencia de consenso derivada de un grupo de
protemas que tiene una propiedad comun, por ejemplo, una familia de protemas.
[0188] En algunas realizaciones, las transformaciones qmmicas catalizadas que pueden cribarse usando el sistema de seleccion virtual incluyen, pero no estan limitadas a, por ejemplo, reduccion de cetona, transaminacion, oxidacion, hidrolisis de nitrilo, reduccion de iminas, reduccion de enonas, hidrolisis de acilo y deshalogenacion de halohidrina. Los ejemplos de clases de enzimas que pueden proporcionar las multiples variantes evaluadas incluyen, pero no se
5
10
15
20
25
30
35
40
45
50
55
60
65
limitan a, reductasas de cetonas, transaminasas, citocromo P450, monooxigenasas de Baeyer-Villiger, oxidasas de monoamina, nitrilasas, reductasas de imina, reductasas de enona, acilasas y deshalogenasas de halohidrina..
[0189] Una lista representativa no limitante de familias o clases de enzimas que pueden servir como fuentes de secuencias parentales incluye, pero no se limita a, las siguientes: oxidorreductasas (EC1); transferasas (EC2); hidroliasas (EC3); liasas (EC4); isomerasas (EC5) y ligasas (EC 6). Subgrupos de oxidoreductasas mas espedficas pero no limitantes incluyen deshidrogenasas (por ejemplo, deshidrogenasas de alcohol (reductasas de carbonilo), reductasas de xilulosa, reductasas de aldelddo, deshidrogenasa de farnesol, deshidrogenasas de lactato, deshidrogenasas de arabinosa, deshidrogenasa de glucosa, deshidrogenasas de fructosa, reductasas de xilosa y deshidrogenasas de succinato), oxidasas (por ejemplo, oxidasas de glucosa, oxidasas de hexosa, oxidasas de galactosa y lacasas), oxidasas de monoamino, lipoxigenasas, peroxidasas, deshidrogenasas de aldehfdo, reductasas, reductasas de acilo-[acilo-portador-protema] de cadena larga, deshidrogenasas de acilo-CoA, ene- reductasas, sintasas (por ejemplo, sintasas de glutamato), reductasas de nitrato, mono y di-oxigenasas y catalasas. Los subgrupos de transferasas mas espedficas pero no limitativas incluyen metilo, amidino y carboxiltransferasas, transquetolasas, transaldolasas, aciltransferasas, glicosiltransferasas, transaminasas, transglutaminasas y polimerasas. Subgrupos de hidrolasas mas espedficas pero no limitativas incluyen hidrolasas de ester, peptidasas, glicosilasas, amilasas, celulasas, hemicelulosa, xilanasas, quitinasas, glucosidasas, glucanasas, glucoamilasas, acilasas, galactosidasas, pululanasas, fitasas, lactasas, arabinosidasas, nucleosidasas, nitrilasa, fosfatasas, lipasas, fosfolipasas, proteasas, ATPasas y deshalogenasas. Los subgrupos de liasas mas espedficos pero no limitantes incluyen descarboxilasas, aldolasas, hidratasas, deshidratasa (por ejemplo, anhidrasas carbonicas), sintasas (por ejemplo, sintasas de isopreno, pineno y farneseno), pectinasas (por ejemplo, pectinasas) y deshidrogenasas de halohidrina. Los subgrupos de isomerasas mas espedficos, pero no limitantes, incluyen racemasas, epimerasas, isomerasas (por ejemplo, isomerasas de xilosa, arabinosa, ribosa, glucosa, galactosa y manosa), tautomerasas y mutasas (por ejemplo, mutasas, fosfomutasas y aminomutasas que transfieren acilo) pero los subgrupos no limitantes de ligasas incluyen sintasas de esteres. Otras familias o clases de enzimas que pueden usarse como fuentes de secuencias parentales incluyen transaminasas, proteasas, quinasas y sintasas. Esta lista, aunque ilustra ciertos aspectos espedficos de las posibles enzimas del divulgacion, no se considera exhaustiva y no retrata las limitaciones ni circunscribe el alcance de la divulgacion.
[0190] En algunos casos, las enzimas candidatas utiles en los metodos descritos en este documento son capaces de catalizar una reaccion enantioselectiva tal como una reaccion de reduccion enantioselectiva, por ejemplo. Tales enzimas pueden usarse para hacer intermedios utiles en la smtesis de compuestos farmaceuticos, por ejemplo.
[0191] En algunas realizaciones, las enzimas candidatas se seleccionan de endoxilanasas (EC 3.2.1.8); p- oxilosidasas (EC 3.2.1.37); alfa-L-arabinofuranosidasas (EC 3.2.1.55); alfa-glucuronidasas (EC 3.2.1.139); acetilxilanosterasas (EC 3.1.1.72); esterasas de feruloMo (EC 3.1.1.73); esterasas de cumaroMo (EC 3.1.1.73); alfa- galactosidasas (EC 3.2.1.22); beta-galactosidasas (EC 3.2.1.23); beta-mananasas (EC 3.2.1.78); beta-manosidasas (EC 3.2.1.25); endo-poligalacturonasas (EC 3.2.1.15); esterasas metflicas de pectina (EC 3.1.1.11); endo- galactanasas (EC 3.2.1.89); esterasas acetflicas de pectina (EC 3.1.1.6); endopectinasasas (EC 4.2.2.10); liasas de pectato (EC 4.2.2.2); alfa-ramnosidasas (EC 3.2.1.40); exo-poli-alfa-galacturonosidasa (EC 3.2.1.82); 1,4-alfa- galacturonidasa (EC 3.2.1.67); exopolisalacturonasas (EC 4.2.2.9); endoliasas de ramnogalacturonano EC (4.2.2.B3); ramnogalacturonanoacetilterasas (EC 3.2.1.B11); galacturonohidrolasas de ramnogalacturonano (EC 3.2.1.B11); endo-arabinanasas (EC 3.2.1.99); lacasas (EC 1.10.3.2); peroxidasas dependientes de manganeso (EC 1.10.3.2); amilasas (EC 3.2.1.1), glucoamilasas (EC 3.2.1.3), proteasas, lipasas y peroxidasas de lignina (EC 1.11.1.14). Cualquier combinacion de una, dos, tres, cuatro, cinco o mas de cinco enzimas encuentra uso en las composiciones de la presente descripcion. No se pretende que la presente invencion se limite a ningun numero particular de enzimas y/o clases de enzimas.
[0192] No se pretende que la presente invencion se limite a ningun metodo particular para generar secuencias variadas sistematicamente, como encuentra uso cualquier metodo adecuado. En una o mas realizaciones de la divulgacion, una unica secuencia de inicio se modifica de diversas maneras para generar la biblioteca. En algunas realizaciones, la biblioteca se genera variando sistematicamente los residuos individuales de la secuencia de inicio. El conjunto de secuencias sistematicamente variadas de una biblioteca se puede disenar a priori usando metodos de diseno de experimentos (DOE) para definir las secuencias en el conjunto de datos. Una descripcion de los metodos DOE se puede encontrar en Diamond, WJ (2001) Practical Experiment Designs: for Engineers and Scientists, John Wiley & Sons y en "Practical Experimental Design for Engineers and Scientists" por William J Drummond (1981) Van Nostrand Reinhold Co Nueva York, "Statistics for experimenters" George EP Box, William G Hunter y J. Stuart Hunter (1978) John Wiley and Sons, Nueva York, o, por ejemplo, en la World Wide Web en itl.nist.gov/div898/handbook/. Hay varios paquetes computacionales disponibles para realizar las matematicas relevantes, incluidos Statistics Toolbox (MAT-LAB®), JMP®, STATISTICA® y STAT-EASE® DESIGN EXPERT®. El resultado es un conjunto de secuencias de datos dispersos ortogonalmente variados y sistematicamente que es adecuado para el cribado mediante el sistema virtual de cribado de protemas descrito en este documento. Los conjuntos de datos basados en DOE tambien se pueden generar facilmente usando Plackett-Burman o Disenos Factoriales Fraccionales, como se conoce en la tecnica. Diamond, WJ (2001).
[0193] Debido a que las rondas iniciales de cribado se pueden realizar in silico con alta eficacia, algunas
5
10
15
20
25
30
35
40
45
50
55
60
65
realizaciones pueden usar algunas o todas las secuencias disponibles para proporcionar la biblioteca de variantes de protemas cuando el numero de variantes suele ser demasiado grande para cribar con metodos ffsicos convencionales. Por ejemplo, para una secuencia con 15 posiciones, teniendo cada una 20 posibles aminoacidos,
hay 300 posiciones posibles frente a pares de aminoacidos, y r 7 diferentes secuencias variantes. En
algunas implementaciones, una biblioteca puede incluir cientos, miles, decenas de miles, cientos de miles o mas variantes de este grupo posible, dependiendo de la potencia informatica disponible y las necesidades de la aplicacion. No se pretende que la presente divulgacion se limite a ningun numero particular de variante en las bibliotecas.
V. SECUENCIACION DE LAS VARIANTES DE PROTEINA
[0194] En algunas realizaciones, las variantes de protema ffsica se usan para generar modelos computacionales de sitios activos de las variantes de protema usadas en seleccion virtual como se describio anteriormente. En algunas realizaciones, las variantes de protemas obtenidas a partir de cribado virtual se generan ffsicamente usando diversos metodos descritos anteriormente. En algunas realizaciones, las variantes de protemas generadas ffsicamente se ensayan para su reaccion contra uno o mas ligandos de interes. En diversas realizaciones, las secuencias de las variantes de protemas ffsicas se determinan por metodos de secuenciacion de protemas, algunos de los cuales se describen adicionalmente a continuacion.
[0195] La secuenciacion de protemas implica determinar la secuencia de aminoacidos de una protema. Algunas tecnicas de secuenciacion de protemas tambien determinan la conformacion que adopta la protema, y la medida en que se compleja con cualquier molecula no pepffdica. La espectrometffa de masas y la reaccion de degradacion de Edman pueden usarse para determinar directamente la secuencia de aminoacidos de una protema.
[0196] La reaccion de degradacion de Edman permite descubrir la composicion de aminoacidos ordenada de una protema. En algunas realizaciones, los secuenciadores Edman automatizados pueden usarse para determinar la secuencia de variantes de protema. Los secuenciadores Edman automatizados son capaces de secuenciar peptidos de secuencias cada vez mas largas, por ejemplo, de hasta aproximadamente 50 aminoacidos de longitud. En algunas realizaciones, un proceso de secuenciacion de protemas que implementa la degradacion de Edman implica uno o mas de los siguientes:
--Romper puentes de disulfuro en la protema con un agente reductor, por ejemplo, 2-mercaptoetanol. Se puede
usar un grupo protector como el acido yodoacetico para evitar que los enlaces se vuelvan a formar
--Separar y purificar las cadenas individuales del complejo de protemas si hay mas de una
--Determinar la composicion de aminoacidos de cada cadena
--Determinar los aminoacidos terminales de cada cadena
--Romper cada cadena en fragmentos, por ejemplo, fragmentos de menos de 50 aminoacidos.
--Separar y purificar los fragmentos
--Determinar la secuencia de cada fragmento usando la reaccion de degradacion de Edman
--Repetir los pasos anteriores aplicando un patron diferente de escision para proporcionar lecturas adicionales de
secuencias de aminoacidos
--Crear la secuencia de la protema global de las lecturas de secuencia de aminoacidos
[0197] En diversas implementaciones, los peptidos de mas de aproximadamente 50-70 aminoacidos deben dividirse en pequenos fragmentos para facilitar la secuenciacion mediante reacciones de Edman. La digestion de secuencias mas largas puede realizarse mediante endopeptideas tales como tripsina o pepsina, o mediante reactivos qmmicos tales como bromuro de cianogeno. Diferentes enzimas dan diferentes patrones de escision, y la superposicion entre fragmentos se puede usar para construir una secuencia global.
[0198] Durante la reaccion de degradacion de Edman, el peptido a secuenciar se adsorbe en una superficie solida de un sustrato. En algunas realizaciones, un sustrato adecuado es fibra de vidrio recubierta con polibreno, un polfmero cationico. El reactivo de Edman, fenilisotiocianato (PITC), se agrega al peptido adsorbido, junto con una solucion de tampon ligeramente basica de trimetilamina. Esta solucion de reaccion reacciona con el grupo amino del aminoacido N-terminal. El aminoacido terminal puede separarse selectivamente mediante la adicion de acido anhidro. El derivado se isomeriza para dar una feniltiohidantoina sustituida, que puede lavarse e identificarse mediante cromatograffa. Entonces el ciclo puede repetirse.
[0199] En algunas realizaciones, la espectrometffa de masas se puede usar para determinar una secuencia de aminoacidos determinando las relaciones de masa a carga de los fragmentos de la secuencia de aminoacidos. Se puede determinar el espectro de masas que incluye los picos correspondientes a los fragmentos cargados de forma multiple, donde la distancia entre los picos correspondientes a diferentes isotopos es inversamente proporcional a la carga en el fragmento. El espectro de masas se analiza, por ejemplo, en comparacion con una base de datos de protemas secuenciadas previamente para determinar las secuencias de los fragmentos. Este proceso se repite luego con una enzima de digestion diferente, y las superposiciones en las secuencias se usan para construir una secuencia de aminoacidos completa.
5
10
15
20
25
30
35
40
45
50
55
60
65
[0200] Los peptidos a menudo son mas faciles de preparar y analizar para la espectrometna de masas que las protemas completas. En algunas realizaciones, la ionizacion por electrospray se usa para administrar los peptidos al espectrometro. La protema se digiere mediante una endoproteasa, y la solucion resultante se pasa a traves de una columna de cromatograffa Kquida de alta presion. Al final de esta columna, la solucion se pulveriza en el espectrometro de masas, y la solucion se carga con un potencial positivo. La carga en las gotas de solucion hace que se fragmenten en iones individuales. Los peptidos se fragmentan y se miden las relaciones de masa a carga de los fragmentos.
[0201] Tambien es posible determinar indirectamente una secuencia de aminoacidos a partir de la secuencia de ADN o ARNm que codifica la protema. Los metodos de secuenciacion de acido nucleico, por ejemplo, diversos metodos de secuenciacion de proxima generacion, pueden usarse para determinar secuencias de ADN o ARN. En algunas implementaciones, una secuencia de protema se aisla nuevamente sin conocimiento de los nucleotidos que codifican la protema. En tales implementaciones, se puede determinar primero una secuencia polipeptfdica corta usando uno de los metodos de secuenciacion directa de protemas. Se puede determinar un marcador complementario para el ARN de la protema a partir de esta secuencia corta. Esto puede usarse para aislar el ARNm que codifica la protema, que luego puede replicarse en una reaccion en cadena de la polimerasa para producir una cantidad significativa de ADN, que luego puede secuenciarse usando metodos de secuenciacion de ADN. La secuencia de aminoacidos de la protema se puede deducir a partir de la secuencia de ADN. En la deduccion, es necesario tener en cuenta los aminoacidos eliminados despues de que el ARNm ha sido traducido.
[0202] En una o mas realizaciones, los datos de secuencia de acido nucleico pueden usarse en diversas etapas en el proceso de evolucion dirigida de protemas. En una o mas realizaciones, pueden obtenerse datos de secuencia usando metodos de secuenciacion masiva que incluyen, por ejemplo, secuenciacion de Sanger o secuenciacion de Maxam-Gilbert, que se consideran los primeros metodos de secuenciacion de generacion. La secuenciacion de Sanger, que implica el uso de terminadores de cadena dideoxi marcados, es bien conocida en la tecnica; vease, por ejemplo, Sanger et al., Proceedings of the National Academy of Sciences of the United States of America 74, 54635467 (1997). La secuenciacion de Maxam-Gilbert, que implica realizar multiples reacciones de degradacion qrnmica parcial en fracciones de la muestra de acido nucleico seguida de deteccion y analisis de los fragmentos para inferir la secuencia, tambien es bien conocida en la tecnica; vease, por ejemplo, Maxam et al., Proceedings of the National Academy of Sciences of the United States of America 74, 560 - 544 (1977). Otro metodo de secuenciacion masiva es la secuenciacion por hibridacion, en la que la secuencia de una muestra se deduce en base a sus propiedades de hibridacion a una pluralidad de secuencias, por ejemplo, en una micromatriz o chip de gen; vease, por ejemplo, Drmanac, et al., Nature Biotechnology 16, 54 - 58 (1998).
[0203] En una o mas realizaciones, los datos de secuencia de acido nucleico se obtienen usando los metodos de secuenciacion de proxima generacion. La secuenciacion de proxima generacion tambien se conoce como secuenciacion de alto rendimiento. Las tecnicas paralelizan el proceso de secuenciacion, produciendo miles o millones de secuencias a la vez. Los ejemplos de metodos de secuenciacion adecuados de proxima generacion incluyen, entre otros, secuenciacion en una sola molecula en tiempo real (por ejemplo, Pacific Biosciences of Menlo Park, California), secuenciacion de semiconductores de iones (por ejemplo, Ion Torrent of South San Francisco, California), pirolisis (p. ej., 454 de Branford, Connecticut), secuenciacion por ligamiento (p. ej., secuenciacion SOLiD propiedad de Life Technologies de Carlsbad, California), secuenciacion por smtesis y terminador reversible (p. ej., Illumina of San Diego, California), tecnologfas de obtencion de imagenes de acido nucleico tales como microscopfa electronica de transmision y similares.
[0204] En general, los metodos de secuenciacion de proxima generacion tfpicamente usan una etapa de clonacion in vitro para amplificar moleculas de ADN individuales. La PCR de emulsion (emPCR) afsla moleculas de ADN individuales junto con perlas recubiertas con cebador en gotas acuosas dentro de una fase oleosa. La PCR produce copias de la molecula de ADN, que se unen a los cebadores en el cordon, y luego se inmoviliza para una secuencia posterior. EmPCR se usa en los metodos de Marguilis et al. (comercializado por 454 Life Sciences, Branford, CT), Shendure y Porreca et al. (tambien conocido como "polony sequencing") y secuenciacion SOLiD, (Applied Biosystems Inc., Foster City, CA). Veanse M. Margulies, et al. (2005) "Genome sequencing in microfabricated high- density picolitre reactors" Nature 437: 376-380; J. Shendure, et al. (2005) "Accurate Multiplex Polony Sequencing of an Evolved Bacterial Genome" Science 309 (5741): 1728-1732. La amplificacion clonal in vitro tambien se puede llevar a cabo mediante "PCR puente", donde los fragmentos se amplifican sobre cebadores unidos a una superficie solida. Braslavsky et al. desarrollo un metodo de molecula unica (comercializado por Helicos Biosciences Corp., Cambridge, MA) que omite este paso de amplificacion, fijando directamente moleculas de ADN a una superficie. I. Braslavsky, et al. (2003) "Sequence information can be obtained from single DNA molecules". Proceedings of the National Academy of Sciences of the United States of America 100: 3960-3964.
[0205] Las moleculas de ADN que estan ffsicamente unidas a una superficie se pueden secuenciar en paralelo. En "secuenciacion por smtesis", se construye una cadena complementaria basada en la secuencia de una cadena molde usando una polimerasa de ADN, como la secuenciacion electroforetica de terminacion de colorante, los metodos de terminacion reversible (comercializados por Illumina, Inc., San Diego, CA y Helicos Biosciences Corp., Cambridge, MA) utilizan versiones reversibles de los terminadores de colorantes, agregan un nucleotido a la vez y detectan la fluorescencia en cada posicion en tiempo real, mediante la eliminacion repetida del grupo bloqueante
5
10
15
20
25
30
35
40
45
50
55
60
65
para permitir la polimerizacion de otro nucleotido. "Pyrosequencing" tambien usa polimerizacion de ADN, agregando un nucleotido a la vez y detectando y cuantificando el numero de nucleotidos agregados a una ubicacion dada a traves de la luz emitida por la liberacion de pirofosfatos unidos (comercializados por 454 Life Sciences, Branford, CT). Veanse M. Ronaghi, et al. (1996). "Real-time DNA sequencing using detection of pyrophosphate release" Analytical Biochemistry 242: 84-89.
[0206] Ejemplos espedficos de metodos de secuenciacion de proxima generacion se describen en mas detalle a continuacion. Una o mas implementaciones de la presente invencion pueden usar uno o mas de los siguientes metodos de secuenciacion sin desviarse de los principios de la invencion.
[0207] La secuenciacion de molecula unica en tiempo real (tambien conocida como SMRT) es una secuencia de ADN de molecula individual paralelizada mediante tecnologfa de smtesis desarrollada por Pacific Biosciences. La secuenciacion de una sola molecula en tiempo real utiliza la grna de onda de modo cero (ZMW). Se fija una unica enzima de polimerasa ADN en la parte inferior de una ZMW con una sola molecula de ADN como molde. El ZMW es una estructura que crea un volumen de observacion iluminado que es lo suficientemente pequeno como para observar que solo un nucleotido de ADN (tambien conocido como una base) se incorpora por la polimerasa de ADN. Cada una de las cuatro bases de ADN esta unida a uno de cuatro tintes fluorescentes diferentes. Cuando un nucleotido es incorporado por la polimerasa de ADN, la etiqueta fluorescente se escinde y se difunde fuera del area de observacion de la ZMW donde su fluorescencia ya no es observable. Un detector detecta la senal fluorescente de la incorporacion de nucleotidos, y la llamada de base se realiza de acuerdo con la fluorescencia correspondiente del tinte.
[0208] Otra tecnologfa de secuenciacion de molecula aplicable es la tecnologfa Helicos True Single Molecule Sequencing (tSMS) (por ejemplo, como se describe en Harris TD et al, Science 320:106-109 [2008]). En la tecnica de tSMS, una muestra de ADN se escinde en cadenas de aproximadamente 100 a 200 nucleotidos, y se agrega una secuencia poliA al extremo 3' de cada cadena de ADN. Cada cadena se marca mediante la adicion de un nucleotido de adenosina marcado fluorescentemente. Las cadenas de ADN se hibridan luego a una celula de flujo, que contiene millones de sitios de captura de oligo-T que se inmovilizan en la superficie de la celula de flujo. En ciertas realizaciones, los moldes pueden ser a una densidad de unos 100 millones de moldes/cm2. La celula de flujo se carga luego en un instrumento, por ejemplo, el secuenciador HeliScope™, y un laser ilumina la superficie de la celula de flujo, revelando la posicion de cada molde. Una camara CCD puede mapear la posicion de los moldes en la superficie de la celula de flujo. La etiqueta fluorescente del molde se escinde y se lava. La reaccion de secuenciacion comienza por la introduccion de una polimerasa de ADN y un nucleotido marcado fluorescentemente. El acido nucleico oligo-T sirve como cebador. La polimerasa incorpora los nucleotidos marcados al cebador de una manera dirigida al molde. La polimerasa y los nucleotidos no incorporados se eliminan. Los moldes que tienen la incorporacion dirigida del nucleotido marcado fluorescentemente se detectan mediante la formacion de imagenes de la superficie de la celula de flujo. Despues de la formacion de imagenes, una etapa de escision elimina la etiqueta fluorescente, y el proceso se repite con otros nucleotidos marcados fluorescentemente hasta que se alcanza la longitud de lectura deseada. La informacion de secuencia se recoge con cada paso de adicion de nucleotidos. La secuenciacion completa del genoma mediante tecnologfas de secuenciacion de molecula unica excluye o generalmente obvia la amplificacion basada en PCR en la preparacion de las bibliotecas de secuenciacion, y los metodos permiten la medicion directa de la muestra, en lugar de la medicion de las copias de esa muestra.
[0209] La secuenciacion de semiconductores de iones es un metodo de secuenciacion de ADN basado en la deteccion de iones de hidrogeno que se liberan durante la polimerizacion de ADN. Este es un metodo de "secuenciacion por smtesis", durante el cual se construye una hebra complementaria basada en la secuencia de una hebra de molde. Un micropocillo que contiene una cadena de molde ADN a secuenciar se inunde con una sola especie de desoxirribonucleotido trifosfato (dNTP). Si el dNTP introducido es complementario al nucleotido molde principal, se incorpora a la cadena complementaria en crecimiento. Esto provoca la liberacion de un ion de hidrogeno que activa un sensor de iones ISFET, lo que indica que se ha producido una reaccion. Si las repeticiones homopolimericas estan presentes en la secuencia de molde, se incorporaran multiples moleculas de dNTP en un solo ciclo. Esto conduce a una cantidad correspondiente de hidrogenos liberados y una senal electronica proporcionalmente mas alta. Esta tecnologfa difiere de otras tecnologfas de secuenciacion en que no se utilizan nucleotidos u opticas modificadas. La secuenciacion de semiconductores de iones tambien se puede denominar secuenciacion de torrente ionico, secuenciacion mediada por pH, secuenciacion de silicio o secuenciacion de semiconductores.
[0210] En la pirosecuenciacion, se hace reaccionar el ion pirofosfato liberado por la reaccion de polimerizacion con adenosina 5' fosfosulfato por ATP sulfurilasa para producir ATP; el ATP luego conduce la conversion de luciferina a oxiluciferina mas luz por la luciferasa. Al ser la fluorescencia transitoria, no es necesario un paso separado para eliminar la fluorescencia en este metodo. Se agrega un tipo de desoxirribonucleotido trifosfato (dNTP), y se discierne la informacion de la secuencia segun la cual el dNTP genera una senal significativa en un sitio de reaccion. El instrumento Roche GS FLX disponible en el mercado adquiere secuencia utilizando este metodo. Esta tecnica y sus aplicaciones se discuten en detalle, por ejemplo, en Ronaghi et al., Analytical Biochemistry 242, 84-89 (1996) y Margulies et al., Nature 437, 376-380 (2005) (correccion en Nature 441, 120 (2006)). Una tecnologfa de pirosecuenciacion disponible en el mercado es la secuenciacion 454 (Roche) (por ejemplo, como se describe en
5
10
15
20
25
30
35
40
45
50
55
60
65
Margulies, M. et al., Nature 437: 376-380 [2005]).
[0211] En la secuenciacion de la ligacion, una enzima ligasa se utiliza para unirse a un oligonucleotido de cadena parcialmente doble con un saliente en el acido nucleico que se esta secuenciado, que tiene un saliente; para que ocurra la ligacion, los aleros deben ser complementarios. Las bases en el saliente del oligonucleotido parcialmente bicatenario pueden identificarse de acuerdo con un fluoroforo conjugado con el oligonucleotido parcialmente bicatenario y/o con un oligonucleotido secundario que se hibrida con otra parte del oligonucleotido parcialmente bicatenario. Despues de la adquisicion de los datos de fluorescencia, el complejo ligado se escinde aguas arriba del sitio de union, tal como mediante una enzima de restriccion de tipo II, por ejemplo, Bbvl, que corta en un sitio a una distancia fija de su sitio de reconocimiento (que se incluyo en el oligonucleotido parcialmente de doble cadena). Esta reaccion de escision expone un nuevo saliente justo aguas arriba del saliente anterior, y el proceso se repite. Esta tecnica y sus aplicaciones se discuten en detalle, por ejemplo, en Brenner et al., Nature Biotechnology 18, 630-634 (2000). En algunas realizaciones, la secuenciacion de ligacion se adapta a los metodos de la invencion obteniendo un producto de amplificacion de cfrculo rodante de una molecula de acido nucleico circular, y usando el producto de amplificacion de cfrculo rodante como molde para la secuenciacion de ligacion.
[0212] Un ejemplo disponible comercialmente de tecnologfa de secuenciacion de ligacion es la tecnologfa SOLiDTM (Bio-sistemas aplicados). En la secuenciacion mediante ligacion SOLiDTM, el ADN genomico se corta en fragmentos y los adaptadores se unen a los extremos 5' y 3' de los fragmentos para generar una biblioteca de fragmentos. Alternativamente, los adaptadores internos se pueden introducir ligando adaptadores a los extremos 5' y 3' de los fragmentos, circulando los fragmentos, digiriendo el fragmento circularizado para generar un adaptador interno, y uniendo adaptadores a los extremos 5' y 3' de los fragmentos resultantes para generar una biblioteca de par emparejado. A continuacion, las poblaciones de perlas clonales se preparan en microrreactores que contienen perlas, cebadores, molde y componentes de PCR. Despues de la PCR, los moldes se desnaturalizan y las perlas se enriquecen para separar las perlas con moldes extendidos. Los moldes de las cuentas seleccionadas se someten a una modificacion de 3' que permite la union a un portaobjetos de vidrio. La secuencia se puede determinar mediante hibridacion secuencial y ligamiento de oligonucleotidos parcialmente aleatorios con una base determinada central (o un par de bases) que se identifica mediante un fluoroforo espedfico. Despues de registrar un color, el oligonucleotido ligado se escinde y se retira y el proceso se repite a continuacion.
[0213] En la secuencia de terminacion reversible, un analogo de nucleotido marcado con colorante fluorescente que es un terminador de cadena reversible debido a la presencia de un grupo de bloqueo se incorpora en una reaccion de extension de base unica. La identidad de la base se determina de acuerdo con el fluoroforo; en otras palabras, cada base esta emparejada con un fluoroforo diferente. Despues de que se adquieren los datos de fluorescencia/secuencia, el fluoroforo y el grupo de bloqueo se eliminan qmmicamente, y el ciclo se repite para adquirir la siguiente base de informacion de la secuencia. El instrumento Illumina GA funciona con este metodo. Esta tecnica y sus aplicaciones se discuten en detalle, por ejemplo, en Ruparel et al., Proceedings of the National Academy of Sciences of the United States of America 102, 5932-5937 (2005), y Harris et al., Science 320, 106-109 (2008).
[0214] Un ejemplo disponible comercialmente de metodo de secuenciacion del terminador reversible es la smtesis de secuenciacion por caso de Illumina y secuenciacion reversible a base de terminador (por ejemplo, como se describe en Bentley et al, Nature 6: 53-59 [2009]). La tecnologfa de secuenciacion de Illumina se basa en la union de ADN genomico fragmentado a una superficie planar, opticamente transparente, sobre la que se unen los anclajes de oligonucleotidos. El ADN molde se repara en el extremo para generar extremos romos fosforilados 5', y la actividad de polimerasa del fragmento Klenow se usa para adicion de una unica base A al extremo 3' de los fragmentos de ADN fosforados embotados. Esta adicion prepara los fragmentos de ADN para la union a adaptadores de oligonucleotidos, que tienen un saliente de una unica base T en su extremo 3' para aumentar la eficacia de ligacion. Los oligonucleotidos adaptadores son complementarios a los anclajes de celulas de flujo. En condiciones de dilucion limitante, se anade ADN de molde monocatenario modificado con adaptador a la celula de flujo y se inmoviliza mediante hibridacion con los anclajes. Los fragmentos de ADN unidos se amplfan y se amplifican en puente para crear una celula de flujo de secuenciacion ultra-alta densidad con cientos de millones de clusteres, cada uno con aproximadamente 1.000 copias del mismo molde. Los moldes se secuencian utilizando una robusta tecnologfa de secuenciacion por smtesis de ADN de cuatro colores que emplea terminadores reversibles con tintes fluorescentes extrafbles. La deteccion de fluorescencia de alta sensibilidad se logra utilizando la excitacion laser y la optica de reflexion interna total. Las lecturas de secuencias cortas de aproximadamente 20-40 pb, por ejemplo, 36 pb, se alinean contra un genoma de referencia con mascara repetida y el mapeo unico de las lecturas cortas de secuencia al genoma de referencia se identifica utilizando un software de canalizacion de analisis de datos especialmente desarrollado. Los genomas de referencia no enmascarados repetidos tambien se pueden usar. Si se usan genomas de referencia enmascarados repetidamente o enmascarados no repetidos, solo se contabilizan los mapas exclusivos del genoma de referencia. Despues de completar la primera lectura, los moldes pueden regenerarse in situ para permitir una segunda lectura desde el extremo opuesto de los fragmentos. Por lo tanto, se puede usar la secuencia final de un solo extremo o apareado de los fragmentos de ADN. Se realiza la secuenciacion parcial de los fragmentos de ADN presentes en la muestra, y se cuentan las etiquetas de secuencia que comprenden lecturas de longitud predeterminada, por ejemplo, 36 pb, se mapean a un genoma de referencia conocido.
5
10
15
20
25
30
35
40
45
50
55
60
65
[0215] En secuenciacion de nanoporos, una sola molecula de acido nucleico de cadena esta roscada a traves de un poro, por ejemplo, utilizando una fuerza de conduccion electroforetica, y la secuencia se deduce mediante el analisis de los datos obtenidos como la molecula de acido nucleico de una sola hebra pasa a traves del poro. Los datos pueden ser datos de corriente ionica, en los que cada base altera la corriente, por ejemplo, bloqueando parcialmente la corriente que pasa a traves del poro a un grado diferente y distinguible.
[0216] En otra realizacion ilustrativa, pero no limitativa, los metodos descritos en este documento comprenden obtener informacion de secuencia usando microscopfa electronica de transmision (TEM). El metodo comprende utilizar imagenes de microscopfa electronica de transmision de resolucion de atomo unico de ADN de alto peso molecular (150 kb o superior) marcadas selectivamente con marcadores de atomos pesados y disponer estas moleculas en pelmulas ultradelgadas en matrices ultradensas paralelas (3nm de hebra a hebra) con espaciado consistente de base a base. El microscopio electronico se usa para obtener imagenes de las moleculas en las pelmulas para determinar la posicion de los marcadores de atomos pesados y extraer la informacion de la secuencia de bases del ADN. El metodo se describe adicionalmente en la publicacion de patente PCT WO 2009/046445.
[0217] En otra realizacion ilustrativa, pero no limitativa, los metodos descritos en este documento comprenden obtener informacion de secuencia usando secuenciacion de tercera generacion. En la secuenciacion de tercera generacion, se usa un portaobjetos con un revestimiento de aluminio con muchos orificios pequenos (~50 nm) como grna de ondas de modo cero (veanse, por ejemplo, Levene et al., Science 299, 682-686 (2003)). La superficie de aluminio esta protegida contra la union de polimerasa de ADN por qmmica de polifosfonato, por ejemplo, qmmica de polivinilfosfonato (veanse, por ejemplo, Korla Ch et al., Proceedings of the National Academy of Sciences of the United States of America l05, 1176-1181 (2008)). Esto da como resultado la union preferencial de las moleculas de polimerasa de ADN a la sflice expuesta en los orificios del revestimiento de aluminio. Esta configuracion permite que los fenomenos de ondas evanescentes se usen para reducir el fondo de fluorescencia, lo que permite el uso de concentraciones mas altas de dNTP marcados fluorescentemente. El fluoroforo esta unido al fosfato terminal de los dNTP, de modo que la fluorescencia se libera con la incorporacion del dNTP, pero el fluoroforo no permanece unido al nucleotido recien incorporado, lo que significa que el complejo esta inmediatamente listo para otra ronda de incorporacion. Mediante este metodo, puede detectarse la incorporacion de dNTP en un complejo de primer molde individual presente en los orificios del recubrimiento de aluminio. Vease, por ejemplo, Eid et al., Science 323, 133138 (2009).
VI. ENSAYO DE GENES Y VARIANTES DE PROTEfNA
[0218] En algunas realizaciones, los polinucleotidos generados en conexion con los metodos de la presente invencion se clonan opcionalmente en celulas para expresar variantes de protemas para el cribado de la actividad (o se usan en reacciones de transcripcion in vitro para fabricar productos que se criban). Ademas, los acidos nucleicos que codifican variantes de protemas se pueden enriquecer, secuenciar, expresar, amplificar in vitro o tratar en cualquier otro metodo recombinante comun.
[0219] Los textos generales que describen tecnicas de biologfa molecular utiles en este documento, que incluyen clonacion, mutagenesis, construccion de bibliotecas, ensayos de cribado, cultivo celular y similares incluyen Berger y Kimmel, Guide to Molecular Cloning Techniques, Methods in Enzymology volumen 152 Academic Press, Inc., San Diego, CA (Berger); Sambrook et al., Molecular Cloning - A Laboratory Manual (2a ed.), Vol. 1-3, Cold Spring Harbor Laboratory, Cold Spring Harbor, Nueva York, 1989 (Sambrook) y Current Protocols in Molecular Biology, FM Ausubel y otros, eds., Current Protocols, una empresa conjunta entre Greene Publishing Associates, Inc. y John Wiley & Sons, Inc., Nueva York (complementado hasta 2000) (Ausubel). Los metodos de transduccion de celulas, que incluyen celulas de plantas y animales, con acidos nucleicos estan generalmente disponibles, como lo son los metodos para expresar protemas codificadas por tales acidos nucleicos. Ademas de Berger, Ausubel y Sambrook, las referencias generales utiles para el cultivo de celulas animales incluyen Freshney (Culture of Animal Cells, un Manual of Basic Technique, tercera edicion Wiley-Liss, Nueva York (1994)) y las referencias citadas allf, Humason (Animal Tissue Techniques, cuarta edicion WH Freeman and Company (1979)) y Ricciardelli, et al., In Vitro Cell Dev. Biol. 25: 1016 - 1024 (1989). Las referencias para clonacion de celulas vegetales, cultivo y regeneracion incluyen Payne et al. (1992) Cultivo de celulas vegetales y tejidos en sistemas lfquidos John Wiley & Sons, Inc. Nueva York, NY (Payne); y Gamborg y Phillips (eds) (1995) Plant Cell, Tissue and Organ Culture; Fundamental Methods Springer Lab Manual, Springer-Verlag (Berlin Heidelberg, Nueva York) (Gamborg). Una variedad de medios de cultivo celular se describen en Atlas and Parks (eds) The Handbook of Microbiological Media (1993), CRC Press, Boca Raton, FL (Atlas). Se encuentra informacion adicional para el cultivo de celulas vegetales en la literatura comercial disponible tal como el Life Science Research Cell Culture Catalogue (1998) de Sigma-Aldrich, Inc (St Louis, MO) (Sigma- LSRCCC) y, por ejemplo, el Plant Culture Catalogue and supplement (1997) tambien de Sigma-Aldrich, Inc (St Louis, MO) (Sigma-PCCS).
[0220] Ejemplos de tecnicas suficientes para dirigir a personas expertas a traves de metodos de amplificacion in vitro, utiles por ejemplo para amplificar acidos nucleicos recombinados con oligonucleotidos, incluyendo reacciones en cadena de la polimerasa (PCR), reacciones de cadena de ligasa (LCR), amplificaciones de Qp-replicasa y otras tecnicas mediadas por polimerasa ARN (p. ej., NASBA). Estas tecnicas se encuentran en Berger, Sambrook y Ausubel, supra, asf como en Mullis et al., (1987), Patente de los Estados Unidos N° 4.683.202; PCR Protocols A
5
10
15
20
25
30
35
40
45
50
55
60
65
Guide to Methods and Applications (Innis et al., Eds.) Academic Press Inc. San Diego, CA (1990) (Innis); Arnhem y Levinson (1 de octubre de 1990) C & EN 36-47; The Journal Of NIH Research (1991) 3, 81-94; Kwoh et al. (1989) Proc. Natl. Acad. Sci. EE.UU. 86, 1173; Guatelli et al. (1990) Proc. Natl. Acad. Sci. EE.UU. 87, 1874; Lomell et al. (1989) J. Clin. Chem 35, 1826; Landegren et al., (1988) Science 241, 1077 - 1080; Van Brunt (1990) Biotechnology 8, 291 - 294; Wu y Wallace, (1989) Gene 4, 560; Barringer et al. (1990) Gene 89, 117, y Sooknanan y Malek (1995) Biotechnology 13: 563-564. Los metodos mejorados de clonacion de acidos nucleicos amplificados in vitro se describen en Wallace et al., Patente de EE.UU. N° 5.426.039. Los metodos mejorados de amplificacion de acidos nucleicos grandes por PCR se resumen en Cheng et al. (1994) Nature 369: 684-685 y las referencias en las mismas, en las que se generan amplicones de PCR de hasta 40 kb. Un experto apreciara que, esencialmente, cualquier ARN se puede convertir en un ADN bicatenario adecuado para la digestion de restriccion, la expansion de PCR y la secuenciacion usando transcriptasa inversa y una polimerasa. Veanse, Ausubel, Sambrook y Berger, todos supra.
[0221] En un metodo preferido, las secuencias reensambladas se verifican para la incorporacion de oligonucleotidos de recombinacion basados en la familia. Esto se puede hacer clonando y secuenciando los acidos nucleicos, y/o mediante digestion de restriccion, por ejemplo, como se ensena esencialmente en Sambrook, Berger y Ausubel, supra. Ademas, las secuencias pueden amplificarse por PCR y secuenciarse directamente. Por lo tanto, ademas de, por ejemplo, Sambrook, Berger, Ausubel e Innis (supra), las metodologfas de secuenciacion por PCR adicionales tambien son particularmente utiles. Por ejemplo, se ha realizado la secuenciacion directa de amplicones generados por PCR al incorporar selectivamente nucleotidos resistentes a nucleasas embrionarias en los amplicones durante la PCR y la digestion de los amplicones con una nucleasa para producir fragmentos de molde de tamano (Porter et al., 1997) Nucleic Acids Research 25 (8): 1611 - 1617). En los metodos, se realizan cuatro reacciones de PCR en un molde, en cada una de las cuales uno de los nucleotidos trifosfatos en la mezcla de reaccion de PCR esta parcialmente sustituido con un 2'desoxinucleosido 5'-[P-borano]-trifosfato. El nucleotido boronado se incorpora de forma estocastica en productos de PCR en posiciones variables a lo largo del amplicon de PCR en un conjunto anidado de fragmentos de PCR del molde. Una exonucleasa que esta bloqueada por nucleotidos embebidos incorporados se usa para escindir los amplicones de PCR. Los amplicones escindidos se separan luego por tamano usando electroforesis en gel de poliacrilamida, proporcionando la secuencia del amplicon. Una ventaja de este metodo es que utiliza menos manipulaciones bioqumicas que la realizacion de la secuenciacion de estilo estandar de Sanger de amplicones de PCR.
[0222] Los genes sinteticos son susceptibles de clonacion convencional y enfoques de expresion; por lo tanto, las propiedades de los genes y las protemas que codifican pueden examinarse facilmente despues de su expresion en una celula huesped. Los genes sinteticos tambien pueden usarse para generar productos polipepffdicos mediante transcripcion y traduccion in vitro (libre de celulas). Por lo tanto, los polinucleotidos y polipeptidos pueden examinarse para determinar su capacidad de unirse a una variedad de ligandos, moleculas pequenas e iones predeterminados, o sustancias polimericas y heteropolimericas, que incluyen otras protemas y epftopos polipepffdicos, asf como tambien paredes de celulas microbianas, parffculas virales, superficies y membranas.
[0223] Por ejemplo, se pueden usar muchos metodos ffsicos para detectar polinucleotidos que codifican fenotipos asociados con catalisis de reacciones qumicas por cualquiera de los polinucleotidos directamente, o por polipeptidos codificados. Unicamente con fines de ilustracion, y dependiendo de las caracteffsticas espedficas de reacciones qumicas particulares determinadas de interes, estos metodos pueden incluir una multitud de tecnicas conocidas en la tecnica que representan una diferencia ffsica entre sustrato(s) y producto(s), o por cambios en los medios de reaccion asociados con la reaccion qumica (por ejemplo, cambios en las emisiones electromagneticas, adsorcion, disipacion y fluorescencia, ya sea UV, visible o infrarrojo (calor)). Estos metodos tambien pueden seleccionarse de cualquier combinacion de los siguientes: espectrometffa de masas; resonancia magnetica nuclear; materiales marcados isotopicamente, particiones y metodos espectrales que representan la distribucion de isotopos o la formacion de productos etiquetados; metodos espectrales y qumicos para detectar los cambios que acompanan a las composiciones ionicas o elementales de los productos de reaccion (incluidos los cambios en el pH, iones organicos e inorganicos y similares). Otros metodos de ensayos ffsicos, adecuados para uso en los metodos de la presente memoria, pueden basarse en el uso de biosensores espedficos para producto(s) de reaccion, incluidos aquellos que comprenden anticuerpos con propiedades indicadoras, o aquellos basados en reconocimiento de afinidad in vivo junto con expresion y actividad de un gen informador. Los ensayos acoplados a enzimas para la deteccion de productos de reaccion y las selecciones de vida celular-muerte-crecimiento in vivo tambien pueden usarse cuando sea apropiado. Independientemente de la naturaleza espedfica de los ensayos ffsicos, todos se usan para seleccionar una actividad deseada, o una combinacion de actividades deseadas, provistas o codificadas por una biomolecula de interes.
[0224] El ensayo espedfico utilizado para la seleccion dependera de la aplicacion. Se conocen muchos ensayos para protemas, receptores, ligandos, enzimas, sustratos y similares. Los formatos incluyen union a componentes inmovilizados, viabilidad celular u organismal, produccion de composiciones informadoras y similares.
[0225] Los ensayos de alto rendimiento son particularmente adecuados para el cribado de bibliotecas empleadas en la presente invencion. En ensayos de alto rendimiento, es posible detectar hasta varios miles de variantes diferentes en un solo dfa. Por ejemplo, cada pocillo de una placa de microtitulacion se puede usar para realizar un ensayo por separado o, si se van a observar los efectos del tiempo de concentracion o incubacion, cada 5-10 pocillos puede
5
10
15
20
25
30
35
40
45
50
55
60
65
analizar una unica variante (por ejemplo, a diferentes concentraciones). Por lo tanto, una unica placa de microtitulacion estandar puede analizar aproximadamente 100 (por ejemplo, 96) reacciones. Si se usan placas de 1.536 pocillos, entonces una sola placa puede analizar facilmente de aproximadamente 100 a aproximadamente 1.500 reacciones diferentes. Es posible analizar varias placas diferentes por dfa; Las pantallas de ensayo para hasta aproximadamente 6.000-20.000 ensayos diferentes (es decir, que implican diferentes acidos nucleicos, protemas codificadas, concentraciones, etc.) son posibles usando los sistemas integrados de la invencion. Mas recientemente, se han desarrollado enfoques microflmdicos para la manipulacion de reactivos, por ejemplo, por Caliper Technologies (Mountain View, CA) que puede proporcionar metodos de ensayo de microfluidos de muy alto rendimiento.
[0226] Los sistemas de seleccion de alto rendimiento estan disponibles comercialmente (veanse, por ejemplo, Zymark Corp., Hopkinton, MA; Air Technical Industries, Mentor, OH; Beckman Instruments, Inc. Fullerton, CA; Precision Systems, Inc., Natick, MA, etc.). Estos sistemas tfpicamente automatizan procedimientos completos que incluyen todas las muestras y pipeteo de reactivos, dispensacion de lfquidos, incubaciones programadas y lecturas finales de la microplaca en detector(es) apropiado(s) para el ensayo. Estos sistemas configurables proporcionan un alto rendimiento y un inicio rapido, asf como un alto grado de flexibilidad y personalizacion.
[0227] Los fabricantes de tales sistemas proporcionan protocolos detallados para varios ensayos de seleccion de alto rendimiento. De este modo, por ejemplo, Zymark Corp. proporciona boletines tecnicos que describen sistemas de exploracion para detectar la modulacion de la transcripcion de genes, union de ligandos, y similares.
[0228] Se encuentra disponible una variedad de equipos y software perifericos disponibles comercialmente para digitalizar, almacenar y analizar un video digitalizado o imagenes opticas digitalizadas u otras imagenes de ensayo, por ejemplo, usando PC (Intel x86 o MAC OS compatible con chips pentium, familia WINDOWS™, o Equipos basados en UNIX (por ejemplo, estacion de trabajo SUN™).
[0229] Los sistemas para el analisis generalmente incluyen una computadora digital espedficamente programada para realizar algoritmos especializados que usan software para dirigir uno o mas pasos de uno o mas de los metodos de este documento, y, opcionalmente, tambien incluyen, por ejemplo, software de control de plataforma de secuenciacion de proxima generacion, software de control de lfquidos de alto rendimiento, software de analisis de imagenes, software de interpretacion de datos, armadura robotica de control de lfquidos para transferir soluciones desde una fuente a un destino operativamente vinculado a la computadora digital. Un dispositivo de entrada (por ejemplo, un teclado de computadora) para ingresar datos a la computadora digital para controlar las operaciones o transferencia de lfquidos de alto rendimiento por parte del armadura robotica de control de lfquido y, opcionalmente, un escaner de imagen para digitalizar las senales de etiqueta de los componentes de ensayo etiquetados. El escaner de imagenes puede interactuar con el software de analisis de imagenes para proporcionar una medicion de la intensidad de la etiqueta de la sonda. Tfpicamente, el software de interpretacion de datos interpreta la medicion de la intensidad de la etiqueta de la sonda para mostrar si la sonda marcada se hibrida con el ADN en el soporte solido.
[0230] En algunas realizaciones, las celulas, placas virales, esporas o similares, que comprenden productos de recombinacion mediados por oligonucleotidos in vitro o realizaciones ffsicas de acidos nucleicos recombinados in silico, pueden separarse en medios solidos para producir colonias (o placas) individuales. Utilizando un selector automatico de colonias (por ejemplo, Q-bot, Genetix, Reino Unido), se identifican colonias o placas, se recogen y hasta 10.000 mutantes diferentes inoculados en placas de microtitulacion de 96 pocillos que contienen dos bolas de vidrio de 3 mm/pocillo. El Q-bot no selecciona una colonia completa, sino que inserta un alfiler en el centro de la colonia y sale con una pequena muestra de celulas (o micelios) y esporas (o virus en aplicaciones de placa). El tiempo que el pasador esta en la colonia, el numero de inmersiones para inocular el medio de cultivo, y el tiempo en que el pasador esta en ese medio, cada tamano de inoculo de efecto, y cada parametro se puede controlar y optimizar.
[0231] El proceso uniforme de recogida de colonia automatizada como la Q-bot disminuye el error de manipulacion humana y aumenta la velocidad de establecimiento de cultivos (aproximadamente 10.000/4 horas). Estos cultivos se agitan opcionalmente en una incubadora con control de temperatura y humedad. Las bolas de vidrio opcionales en las placas de microtitulacion actuan para promover la aireacion uniforme de las celulas y la dispersion de fragmentos celulares (por ejemplo, miceliales) similares a las cuchillas de un fermentador. Los clones de cultivos de interes se pueden aislar mediante dilucion limitante. Como tambien se ha descrito anteriormente, las placas o celulas que constituyen bibliotecas tambien se pueden cribar directamente para la produccion de protemas, ya sea detectando la hibridacion, la actividad de protemas, la union de protemas a anticuerpos o similares. Para aumentar las posibilidades de identificar un grupo de tamano suficiente, se puede usar un precribado que aumenta el numero de mutantes procesados por 10 veces. El objetivo del cribado principal consiste en identificar rapidamente mutantes que tengan tttulos de producto iguales o mejores que las cepas parentales y mover estos mutantes solo hacia adelante para el cultivo de celulas lfquidas para su posterior analisis.
[0232] Un enfoque para seleccionar bibliotecas diversas consiste en usar un procedimiento de fase solida masivamente paralelo para seleccionar celulas que expresan variantes de polinucleotidos, por ejemplo, polinucleotidos que codifican variantes de enzimas. Estan disponibles aparatos de cribado de fase solida
5
10
15
20
25
30
35
40
45
50
55
60
65
masivamente paralelos que utilizan absorcion, fluorescencia o FRET. Vease, por ejemplo, la patente de EE.UU. N° 5.914.245 de Bylina, et al. (1999); veanse tambien,
http://www|.|kairos-scientific.com/; Youvan et al. (1999) " Fluorescence Imaging Micro-Spectrophotometer (FIMS)" Biotechnology et alia, <www|.Et-al.com> 1:1-16; Yang et al. (1998) "High Resolution Imaging Microscope (HIRIM)" Biotechnology et alia, <www|.|Et-al.com> 4: 1-20; y Youvan et al. (1999) "Calibration of Fluorescence Resonance Energy Transfer in Microscopy Using Genetically Engineered GFP Derivatives on Nickel Chelating Beads" publicado en www|.|Kairos-scientific.com. Despues del escrutinio mediante estas tecnicas, las moleculas de interes se afslan tipicamente, y opcionalmente se secuencian usando metodos que son conocidos en la tecnica. La informacion de la secuencia se usa a continuacion como se establece en este documento para disenar una nueva biblioteca de variantes de protemas.
[0233] Del mismo modo, un numero de sistemas roboticos bien conocidos tambien se han desarrollado para la qmmica en fase de disolucion utiles en sistemas de ensayo. Estos sistemas incluyen estaciones de trabajo automatizadas como el aparato de smtesis automatizado desarrollado por Takeda Chemical Industries, LTD. (Osaka, Japon) y muchos sistemas roboticos que utilizan brazos roboticos (Zymate II, Zymark Corporation, Hopkinton, Massachusetts, Orca, Beckman Coulter, Inc. (Fullerton, CA)) que imitan las operaciones sinteticas manuales realizadas por un cientifico. Cualquiera de los dispositivos anteriores es adecuado para su uso con la presente invencion, por ejemplo, para el cribado de alto rendimiento de moleculas codificadas por acidos nucleicos desarrolladas como se describe en este documento. La naturaleza y la implementacion de las modificaciones a estos dispositivos (si existen) para que puedan funcionar como se describe en este documento seran evidentes para las personas expertas en la tecnica relevante.
VII. APARATOS Y SISTEMAS DIGITALES
[0234] Como debena ser evidente, las realizaciones descritas en este documento emplean procesos que actuan bajo el control de instrucciones y/o datos almacenados en o transferidos a traves de uno o mas sistemas informaticos. Las realizaciones descritas en este documento tambien se refieren a sistemas y aparatos (por ejemplo, equipos) para realizar estas operaciones. En algunas realizaciones, el aparato esta especialmente disenado y/o construido para los fines requeridos, o puede ser una computadora de proposito general activada selectivamente o reconfigurada por un programa informatico y/o una estructura de datos almacenada en la computadora. Los procesos proporcionados por la presente divulgacion no estan intrmsecamente relacionados con ninguna computadora particular u otro aparato espedfico. En particular, diversas maquinas de uso general encuentran uso con programas escritos de acuerdo con las ensenanzas de este documento. Sin embargo, en algunas realizaciones, se construye un aparato especializado para realizar las operaciones de metodo requeridas. Una forma de realizacion de una estructura particular para una variedad de estas maquinas se describe a continuacion.
[0235] Ademas, ciertas realizaciones de la presente divulgacion se refieren a medios legibles por computadora o productos de programas informaticos que incluyen instrucciones y/o datos de programas (que incluyen estructuras de datos) para realizar diversas operaciones implementadas por computadora. Los ejemplos de medios legibles por computadora incluyen, pero no se limitan a, medios magneticos tales como discos duros; medios opticos tales como dispositivos de CD-ROM y dispositivos holograficos; medios magneto-opticos; y dispositivos de memoria semiconductores, como memoria flash. Los dispositivos de hardware tales como los dispositivos de memoria de solo lectura (ROM) y los dispositivos de memoria de acceso aleatorio (RAM) se pueden configurar para almacenar las instrucciones del programa. Los dispositivos de hardware tales como los circuitos integrados espedficos de la aplicacion (ASIC) y los dispositivos logicos programables (PLD) pueden configurarse para ejecutar y almacenar las instrucciones del programa. No se pretende que la presente divulgacion se limite a ningun medio en particular legible por computadora o cualquier otro producto de programa informatico que incluya instrucciones y/o datos para realizar operaciones implementadas por computadora.
[0236] Ejemplos de instrucciones de programa incluyen, pero no se limitan a, codigo de bajo nivel tal como el producido por un compilador, y archivos que contienen un codigo de nivel superior que puede ser ejecutado por la computadora usando un interprete. Ademas, las instrucciones del programa incluyen, entre otras, codigo de maquina, codigo fuente y cualquier otro codigo que controle directa o indirectamente el funcionamiento de una maquina informatica de acuerdo con la presente descripcion. El codigo puede especificar entrada, salida, calculos, condicionales, ramas, bucles iterativos, etc.
[0237] En un ejemplo ilustrativo, los metodos de incorporacion de codigo descritos en este documento estan incorporados en un medio fijo o componente de programa transmisible que contiene instrucciones logicas y/o datos que cuando se cargan en un dispositivo informatico configurado apropiadamente hacen que el dispositivo realice una deteccion virtual de una o mas variantes de biomoleculas que interactuan con uno o mas ligandos. La Figura 4 muestra un ejemplo de dispositivo digital 800 que es un aparato logico que puede leer instrucciones desde el medio 817, el puerto de red 819, el teclado de entrada de usuario 809, la entrada de usuario 811 u otros medios de entrada. El aparato 800 puede utilizar despues esas instrucciones para dirigir operaciones estadfsticas en el espacio de datos, por ejemplo, para evaluar una relacion geometrica entre un resto ligando y una o mas caractensticas de un sitio activo, cofactor, etc. (por ejemplo, para determinar una distancia entre la posicion de un sustrato nativo en un sitio activo y la posicion de un sustrato considerado en el sitio activo de una variante de protema). Un tipo de aparato logico que puede incorporar realizaciones divulgadas es un sistema informatico como en el sistema informatico 800
5
10
15
20
25
30
35
40
45
50
55
60
65
que comprende la CPU 807, el teclado 809 de dispositivos de entrada de usuario opcional y el dispositivo senalador GUI 811, as^ como componentes perifericos tales como unidades de disco 815 y pantalla 805 (que muestra cadenas de caracteres GO modificadas y proporciona una seleccion simplificada de subconjuntos de tales cadenas de caracteres por un usuario. El medio fijo 817 se utiliza opcionalmente para programar el sistema general y puede incluir, por ejemplo, un medio optico o magnetico de disco u otro elemento de almacenamiento de memoria electronica. El puerto de comunicacion 819 se puede usar para programar el sistema y puede representar cualquier tipo de conexion de comunicacion.
[0238] Ciertas realizaciones tambien pueden incorporarse dentro de la circuitena de un circuito integrado espedfico de la aplicacion (ASIC) o un dispositivo logico programable (PLD). En tal caso, las realizaciones se implementan en un lenguaje descriptivo legible por computadora que se puede usar para crear un ASIC o PLD. Algunas realizaciones de la presente divulgacion se implementan dentro del circuito o procesadores logicos de una variedad de otros aparatos digitales, tales como PDA, sistemas de computadora portatil, pantallas, equipos de edicion de imagenes, etc.
[0239] En algunas realizaciones, la presente divulgacion se refiere a un producto de programa informatico que comprende uno o mas medios de almacenamiento legibles por ordenador que tienen almacenadas en el instrucciones ejecutables por computadora que, cuando son ejecutadas por uno o mas procesadores de un sistema informatico, dan lugar a que el sistema informatico implemente un metodo para el cribado virtual de variantes de protemas y/o la evolucion dirigida in silico de protemas que tienen actividad deseada. Tal metodo puede ser cualquier metodo descrito en la presente memoria, tal como los abarcados por las figuras y el pseudocodigo. En algunas realizaciones, por ejemplo, el metodo recibe datos de secuencia para una pluralidad de enzimas, crea modelos de homologfa tridimensional de moleculas biologicas, acopla los modelos de homologfa de enzimas con una o mas representaciones computacionales de sustratos, y selecciona enzimas que tienen actividad catalrtica deseada y selectividad. En algunas realizaciones, el metodo puede desarrollar adicionalmente bibliotecas variantes a partir de variantes que han sido altamente clasificadas por el proceso de seleccion. Las bibliotecas variantes se pueden usar en la evolucion y cribado dirigidos reiteradamente, que pueden dar como resultado enzimas de propiedades beneficiosas deseadas.
[0240] En algunas realizaciones, el acoplamiento de los modelos de homologfa de enzimas con una o mas representaciones computacionales de sustratos se realiza mediante un programa de acoplamiento en un sistema informatico que utiliza una representacion computacional de un ligando y representaciones computacionales de los sitios activos de una pluralidad de variantes como se describe en este documento. En diversas realizaciones, los metodos para determinar el acoplamiento implican evaluar la energfa de enlace entre una posicion del sustrato y la enzima. Para una variante de protema que se acopla satisfactoriamente con el ligando, el sistema de seleccion de protema virtual considera una pluralidad de posiciones de la representacion computacional del ligando en el sitio activo de la variante protemica en consideracion, y determina cual de las posiciones es activa. En diversas realizaciones, los metodos para determinar las posiciones activas implican evaluar las restricciones geograficas que definen un rango de posiciones relativas de uno o mas atomos en el ligando y uno o mas atomos en la protema y/o cofactor asociados con la protema.
VIM. MODALIDADES EN SITIOS WEB Y COMPUTACION EN LA NUBE
[0241] Internet incluye computadoras, dispositivos de informacion y redes de computadoras que estan interconectadas a traves de enlaces de comunicacion. Las computadoras interconectadas intercambian informacion utilizando diversos servicios, como el correo electronico, ftp, la World Wide Web ("WWW') y otros servicios, incluidos los servicios de seguridad. Se puede entender que el servicio WWW permite que un sistema informatico servidor (por ejemplo, un servidor web o un sitio web) envfe paginas web de informacion a un dispositivo remoto de informacion del cliente o sistema informatico. El sistema informatico del cliente remoto puede mostrar las paginas web. Generalmente, cada recurso (p. ej., computadora o pagina web) de la WWW es identificable de manera unica por un Localizador Uniforme de Recursos ("URL"). Para ver o interactuar con una pagina web espedfica, un sistema de computadora cliente especifica una URL para esa pagina web en una solicitud. La solicitud se reenvfa a un servidor que admite esa pagina web. Cuando el servidor recibe la solicitud, envfa esa pagina web al sistema de informacion del cliente. Cuando el sistema de computadora del cliente recibe esa pagina web, puede mostrar la pagina web usando un navegador o puede interactuar con la pagina web o la interfaz de otra manera. Un navegador es un modulo logico que efectua la solicitud de paginas web y muestra o interactua con paginas web.
[0242] Actualmente, las paginas web que se pueden visualizar se definen tfpicamente usando un Lenguaje de Marcado de Hipertexto ("HTML"). HTML proporciona un conjunto estandar de etiquetas que definen como se mostrara una pagina web. Un documento HTML contiene varias etiquetas que controlan la visualizacion de texto, graficos, controles y otras caractensticas. El documento HTML puede contener URL de otras paginas web disponibles en ese sistema informatico servidor u otros sistemas informaticos servidores. Las URL tambien pueden indicar otros tipos de interfaces, incluidos los scripts CGI o las interfaces ejecutables, que los dispositivos de informacion utilizan para comunicarse con dispositivos o servidores de informacion remota sin mostrar necesariamente la informacion a un usuario.
5
10
15
20
25
30
35
40
45
50
55
60
65
[0243] Internet es especialmente propicio para proporcionar servicios de informacion a uno o mas clientes remotos. Los servicios pueden incluir elementos (p. ej., musica o cotizaciones bursatiles) que se envfan electronicamente a un comprador a traves de Internet. Los servicios tambien pueden incluir el manejo de pedidos de artmulos (por ejemplo, comestibles, libros o compuestos qmmicos o biologicos, etc.) que pueden ser administrados a traves de canales de distribucion convencionales (por ejemplo, un proveedor comun). Los servicios tambien pueden incluir el manejo de pedidos de artmulos, tales como reservas de aerolmeas o teatros, a los que un comprador accede en un momento posterior. Un sistema de computadora de servidor puede proporcionar una version electronica de una interfaz que enumera elementos o servicios que estan disponibles. Un usuario o un posible comprador puede acceder a la interfaz mediante un navegador y seleccionar varios elementos de interes. Cuando el usuario haya completado la seleccion de los elementos deseados, el sistema informatico del servidor puede solicitar al usuario la informacion necesaria para completar el servicio. Esta informacion de orden espedfica de la transaccion puede incluir el nombre del comprador u otra identificacion, una identificacion para el pago (como un numero de orden de compra corporativa o numero de cuenta) o informacion adicional necesaria para completar el servicio, como informacion de vuelo.
[0244] Entre los servicios de particular interes que se pueden proporcionar a traves de Internet y sobre otras redes se encuentran datos biologicos y bases de datos biologicos. Dichos servicios incluyen una variedad de servicios provistos por el Centro Nacional de Informacion Biotecnologica (NCBI) de los Institutos Nacionales de Salud (NIH). NCBI se encarga de crear sistemas automatizados para almacenar y analizar el conocimiento sobre biologfa molecular, bioqmmica y genetica; facilitar el uso de tales bases de datos y software por parte de la comunidad medica y de investigacion; coordinar los esfuerzos para recopilar informacion sobre biotecnologfa tanto a nivel nacional como internacional; y realizar investigaciones sobre metodos avanzados de procesamiento de informacion basado en computadora para analizar la estructura y funcion de moleculas biologicamente importantes.
[0245] NCBI es responsable de la base de datos de secuencias de ADN GenBank®. La base de datos ha sido construida a partir de secuencias enviadas por laboratorios individuales y por intercambio de datos con las bases de datos internacionales de secuencias de nucleotidos, el Laboratorio de Biologfa Molecular Europeo (EMBL) y la Base de Datos de ADN de Japon (DDBJ), e incluye datos de secuencia de patentes y la Oficina de Marcas. Ademas de GenBank®, NCBI apoya y distribuye una variedad de bases de datos para las comunidades medicas y cientfficas. Incluyen la herencia mendeliana en lmea en el hombre (OMIM), la base de datos de modelado molecular (MMDB) de las estructuras de protemas 3D, la coleccion de secuencias geneticas humanas unicas (UniGene), un mapa genetico del genoma humano, el navegador taxonomico y el proyecto de anatoirna de genoma de cancer (CGAP), en colaboracion con el National Cancer Institute. Entrez es el sistema de busqueda y recuperacion de NCBI que proporciona a los usuarios acceso integrado a secuencia, mapeo, taxonomfa y datos estructurales. Entrez tambien proporciona vistas graficas de secuencias y mapas cromosomicos. Una caractenstica de Entrez es la capacidad de recuperar secuencias, estructuras y referencias relacionadas. BLAST, como se describe en este documento, es un programa de busqueda de similitud de secuencia desarrollado en NCBI para identificar genes y caractensticas geneticas que pueden ejecutar busquedas de secuencias contra la base de datos de ADN completa. Las herramientas de software adicionales proporcionadas por NCBI incluyen: Buscador de marco de lectura abierto (ORF Finder), PCR electronica y las herramientas de envm de secuencias, Sequin y BankIt. Las diversas bases de datos y herramientas de software de NCBI estan disponibles en la WWW o en FTP o en servidores de correo electronico. Mas informacion esta disponible en www|.|Ncbi.nlm.nih.gov.
[0246] Algunos datos biologicos disponibles a traves de Internet son datos que generalmente se ven con un "complemento" de navegador especial u otro codigo ejecutable. Un ejemplo de este tipo de sistema es CHIME, un complemento de navegador que permite una visualizacion interactiva tridimensional de estructuras moleculares, incluidas las estructuras biologicas moleculares. Se puede encontrar mas informacion sobre CHIME en www|.|mdlchime.com/chime/.
[0247] Varias compares e instituciones proporcionan sistemas en lmea para ordenar compuestos biologicos. Ejemplos de tales sistemas se pueden encontrar en www|.|Genosys.com/oligo_custinfo.cfm o www|.|Genomictechnologies.com/Qbrowser2_FP.html. Tfpicamente, estos sistemas aceptan algun descriptor de un compuesto biologico deseado (tal como un oligonucleotido, cadena de ADN, cadena de ARN, secuencia de aminoacidos, etc.) y luego el compuesto solicitado se fabrica y se envfa al cliente en una solucion lfquida u otra forma apropiada.
[0248] Ya que los metodos proporcionados en el presente documento pueden implementarse en un sitio web como se describe adicionalmente a continuacion, los resultados de calculo o resultados ffsicos que implican polipeptidos o polinucleotidos producidos por algunas realizaciones de la divulgacion se pueden proporcionar a traves de Internet de una manera similar a la informacion biologica y compuestos descritos anteriormente.
[0249] Para ilustrar adicionalmente, los metodos de esta invencion se pueden implementar en un entorno informatico localizado o distribuido. En un entorno distribuido, los metodos pueden implementarse en una sola computadora que comprende multiples procesadores o en una multiplicidad de computadoras. Las computadoras se pueden vincular, por ejemplo, a traves de un bus comun, pero mas preferiblemente las computadoras son nodos en una red. La red puede ser una red generalizada o local dedicada o de area amplia y, en ciertas realizaciones preferidas, las
5
10
15
20
25
30
35
40
45
50
55
60
65
computadoras pueden ser componentes de Intranet o Internet.
[0250] En una realizacion de Internet, un sistema cliente tipicamente ejecuta un navegador web y esta acoplado a una computadora de servidor que ejecuta un servidor web. El navegador web suele ser un programa como el Web Explorer de IBM, el explorador de Internet de Microsoft, NetScape, Opera o Mosaic. El servidor web suele ser, pero no necesariamente, un programa como HTTP Daemon de IBM u otro daemon de www (por ejemplo, formas del programa basadas en LINUX). La computadora del cliente esta acoplada bidireccionalmente con la computadora del servidor a traves de una lmea o a traves de un sistema inalambrico. A su vez, la computadora de servidor esta acoplada bidireccionalmente con un sitio web (servidor que aloja el sitio web) que proporciona acceso al software que implementa los metodos de esta invencion.
[0251] Como se menciono, un usuario de un cliente conectado a Intranet o Internet puede hacer que el cliente solicite recursos que son parte del sitio o sitios web que aloja(n) la(s) aplicacion(es) proporcionando una implementacion de los metodos de esta invencion. Los programas del servidor procesan la solicitud para devolver los recursos especificados (suponiendo que esten disponibles actualmente). La convencion de nomenclatura estandar (es decir, el localizador uniforme de recursos ("URL")) abarca varios tipos de nombres de ubicacion, actualmente incluye subclases como el protocolo de transporte de hipertexto ("http"), el protocolo de transporte de archivos ("ftp"), el gopher y el servicio de informacion de area amplia ("WAIS"). Cuando se descarga un recurso, puede incluir las URL de recursos adicionales. Por lo tanto, el usuario del cliente puede aprender facilmente de la existencia de nuevos recursos que no habfa solicitado espedficamente.
[0252] El software que implementa el (los) metodo(s) de esta invencion puede ejecutarse localmente en el servidor que aloja el sitio web en una verdadera arquitectura cliente-servidor. Por lo tanto, la computadora del cliente envfa las solicitudes al servidor que ejecuta los procesos solicitados localmente y luego descarga los resultados nuevamente al cliente. Alternativamente, los metodos de esta invencion se pueden implementar en un formato de "multiples niveles" en el que un componente del (de los) metodo(s) se realiza(n) localmente por el cliente. Esto puede implementarse mediante software descargado del servidor a peticion del cliente (por ejemplo, una aplicacion Java) o puede implementarse mediante un software "permanentemente" instalado en el cliente.
[0253] En una realizacion, la(s) aplicacion(es) que implementa(n) los metodos de esta invencion se dividen en marcos. En este paradigma, es util ver una aplicacion no tanto como una coleccion de funciones o funcionalidades sino, en cambio, como una coleccion de marcos o vistas discretas. Una aplicacion tfpica, por ejemplo, generalmente incluye un conjunto de elementos de menu, cada uno de los cuales invoca un marco particular, es decir, un formulario que manifiesta cierta funcionalidad de la aplicacion. Con esta perspectiva, una aplicacion se ve no como un cuerpo monolftico de codigo sino como una coleccion de applets o paquetes de funcionalidad. De esta manera, desde un navegador, un usuario seleccionana un enlace de pagina web que, a su vez, invocana un marco particular de la aplicacion (es decir, una subaplicacion). Asf, por ejemplo, uno o mas cuadros pueden proporcionar funcionalidad para introducir y/o codificar molecula(s) biologica(s) en uno o mas espacios de datos, mientras que otro cuadro proporciona herramientas para refinar un modelo del espacio de datos.
[0254] En ciertas realizaciones, los metodos de esta invencion se implementan como uno o mas marcos que proporcionan, por ejemplo, las siguientes funcionalidades: funcion(es) para codificar dos o mas moleculas biologicas en cadenas de caracteres para proporcionar una coleccion de dos o mas cadenas de caracteres iniciales diferentes en las que cada una de dichas moleculas biologicas comprende un conjunto seleccionado de subunidades; funciones para seleccionar al menos dos subcadenas de las cadenas de caracteres; funciones para concatenar las subcadenas para formar una o mas cadenas de producto de la misma longitud que una o mas de las cadenas de caracteres iniciales; funciones para agregar (colocar) las cadenas de producto a una coleccion de cadenas; funciones para crear y manipular representacion computacional/modelos de enzimas y sustratos, funciones para acoplar una representacion computacional de un sustrato (por ejemplo, un ligando) con la representacion computacional de una enzima (por ejemplo, una protema); funciones para aplicar la dinamica molecular a modelos moleculares; funciones para calcular diversas restricciones entre las moleculas que afectan las reacciones qmmicas que implican las moleculas (por ejemplo, la distancia o el angulo entre un resto del sustrato y un sitio activo de la enzima); y funciones para implementar cualquier caractenstica establecida aqrn.
[0255] Una o mas de estas funcionalidades tambien pueden implementarse exclusivamente en un servidor o en una computadora cliente. Estas funciones, por ejemplo, funciones para crear o manipular modelos computacionales de moleculas biologicas, pueden proporcionar una o mas ventanas en las que el usuario puede insertar o manipular representaciones de moleculas biologicas. Ademas, las funciones tambien, opcionalmente, proporcionan acceso a bases de datos privadas y/o publicas accesibles a traves de una red local y/o la intranet por lo que una o mas secuencias contenidas en las bases de datos pueden introducirse en los metodos de esta invencion. Asf, por ejemplo, en una realizacion, el usuario puede, opcionalmente, tener la capacidad de solicitar una busqueda de GenBank® e ingresar una o mas de las secuencias devueltas por dicha busqueda a una funcion de codificacion y/o de generacion de diversidad.
[0256] Los metodos para implementar realizaciones de intranet y/o intranet de procesos de acceso informatico y/o informatico son bien conocidos por los expertos en la tecnica y estan documentados con gran detalle (veanse, por
5
10
15
20
25
30
35
40
45
50
55
60
65
ejemplo, Cluer et al., (1992) "A General Framework for the Optimization of Object-Oriented Queries," Proc SIGMOD International Conference on Management of Data, San Diego, California, 2-5 de junio de 1992, SIGMOD Record, volumen 21, edicion 2, junio de 1992; Stonebraker, M., Editor; ACM Press, pp. 383-392; ISO-ANSI, Working Draft, "Information Technology-Database Language SQL", Jim Melton, Editor, International Organization for Standardization and American National Standards Institute, julio de 1992; Microsoft Corporation, "ODBC 2.0 Programmer's Reference and SDK Guide. Microsoft Open Database Standard for Microsoft Windows™ y Windows NTTM, Microsoft Open Database Connectivity.TM. Software Development Kit," 1992, 1993, 1994 Microsoft Press, pp. 3- 30 y 41-56; iSo Working Draft, "SQL-Database Language-Part" 2: Foundation (SQL/Foundation), "CD9075-2: 199.chi.SQL, 11 de septiembre de 1997, y similares). En el documento WO 00/42559 titulado "METHODS OF POPULATING DATA STRUCTURES FOR USE IN EVOLU- TIONARY SIMULATIONS", de Selifonov y Stemmer, se encuentran detalles relevantes adicionales sobre las aplicaciones basadas en la web.
[0257] En algunas realizaciones, los metodos para explorar, seleccionar y/o desarrollar secuencias polinucleotfdicas o polipeptfdicas pueden implementarse como un sistema multiusuario en un sistema informatico con una pluralidad de unidades de procesamiento y memorias distribuidas a traves de una red informatica, en donde la red puede incluir intranet en LAN y/o Internet. En algunas realizaciones, la arquitectura de computacion distribuida implica una "nube", que es una coleccion de sistemas informaticos disponibles a traves de una red informatica para el calculo y el almacenamiento de datos. El entorno informatico que involucra una nube se conoce como un entorno de computacion en la nube. En algunas realizaciones, uno o mas usuarios pueden acceder a las computadoras de la nube distribuidas a traves de intranet y/o Internet. En algunas realizaciones, un usuario puede acceder remotamente, a traves de un cliente web, computadoras de servidor que implementan los metodos para seleccionar y/o desarrollar variantes de protemas descritas anteriormente.
[0258] En algunas realizaciones que implican un entorno de computacion en la nube, las maquinas virtuales (VM) se aprovisionan en las computadoras del servidor, y los resultados de las maquinas virtuales se pueden devolver al usuario. Una maquina virtual (VM) es una emulacion basada en software de una computadora. Las maquinas virtuales pueden basarse en las especificaciones de una computadora hipotetica o emular la arquitectura de la computadora y las funciones de una computadora del mundo real. La estructura y funciones de las maquinas virtuales son bien conocidas en la tecnica. Normalmente, una VM esta instalada en una plataforma que incluye hardware del sistema, y la VM en sf misma incluye hardware de sistema virtual y software invitado.
[0259] El hardware del sistema para una VM incluye una o mas Unidades de Procesamiento Central (CPU), memoria, uno o mas discos duros y varios otros dispositivos. El hardware del sistema virtual de la VM incluye una o mas CPU virtuales, memoria virtual, uno o mas discos duros virtuales y uno o mas dispositivos virtuales. El software invitado de la VM incluye software de sistema invitado y aplicaciones de invitado. En algunas implementaciones, el software del sistema invitado incluye un sistema operativo invitado con controladores para dispositivos virtuales. En algunas implementaciones, las aplicaciones de invitados de la VM incluyen al menos una instancia de un sistema de deteccion de protemas virtual como se describio anteriormente.
[0260] En algunas realizaciones, el numero de maquinas virtuales aprovisionadas se puede escalar a la carga computacional del problema a resolver. En algunas realizaciones, un usuario puede solicitar una maquina virtual desde una nube, incluyendo la maquina virtual un sistema de exploracion virtual. En algunas realizaciones, el entorno de computacion en la nube puede aprovisionar una VM en base a la solicitud del usuario. En algunas realizaciones, puede existir una VM en una imagen VM previamente almacenada, que puede almacenarse en un deposito de imagenes. El entorno de computacion en la nube puede buscar y transferir la imagen a un servidor o a un sistema de usuario. El entorno de computacion en la nube puede entonces iniciar la imagen en el servidor o sistema del usuario.
IX. EJEMPLOS
Ejemplo 1
[0261] El siguiente ejemplo ilustra un proceso de seleccion virtual de variantes de enzimas y enzimas en desarrollo de actividad catalftica deseada y selectividad implementando diversas realizaciones.
[0262] En resumen, el proceso implico la creacion de modelos de homologfa en 3 dimensiones de un panel real de enzimas y cribando practicamente los miembros del panel de enzima para seleccionar una primera variante que (a) se acoplo con el sustrato en una posicion activa, (b) atracado en una conformacion pro-S, y (c) tema la energfa de enlace total mas baja (o puntaje de atraque) entre los que atracaron en posiciones activas y en una conformacion pro-S. Luego, el proceso utilizo la primera variante como una cadena principal de la ronda 1, o secuencia parental, para crear una biblioteca de variante virtual de la ronda 1 usando tecnicas de mutagenesis virtual para la evolucion dirigida virtual. Luego, el proceso creo modelos de miembros de la biblioteca de variantes virtuales de la ronda 1, selecciono la biblioteca de variante virtual de la ronda 1 y selecciono una segunda variante como la red troncal de la ronda 2 utilizando metodos de seleccion similares a la seleccion de la red troncal de la ronda 1. El proceso tambien selecciono variantes adicionales de la biblioteca de variantes virtuales de la ronda 1. Las variantes adicionales (a) acopladas con el sustrato en posiciones activas, y (b) teman baja energfa de enlace total (o puntuacion de atraque)
5
10
15
20
25
30
35
40
45
50
55
60
entre las que atracan en posiciones activas. El proceso luego recombino la red troncal de ronda 2 con las variantes adicionales para introducir la diversidad en una biblioteca de variantes de ronda 2. Finalmente, el proceso modelo computacionalmente, y selecciono variantes, produciendo variantes de enzimas virtuales con actividad y selectividad mejoradas en comparacion con las cadenas principales de ronda 1 y ronda 2.
[0263] Mas espedficamente, el proceso de ejemplo se inicio mediante la creacion de 194 modelos de homologfa de un panel real de enzimas. Estas enzimas catalizan un sustrato nativo que esta relacionado estructural o funcionalmente con un sustrato deseado. El proceso conecto el sustrato deseado a los modelos de homologfa, y virtualmente selecciono miembros del panel de enzima real para encontrar solo una variante que (a) se acoplo con el sustrato deseado en una posicion activa, y (b) atraco en una conformacion pro-S. El enlace exitoso en una posicion activa sugirio que era probable que el ligando experimentara una transformacion catalftica o realizara alguna funcion deseada tal como la union covalente con el sitio de union. El acoplamiento del sustrato deseado y los miembros del panel se realizo mediante metodos de acoplamiento descritos en los detalles anteriores. Los restos funcionalmente relevantes del sustrato deseado se compararon con el sustrato nativo colocando los dos sustratos en las mismas coordenadas X, Y, Z en un espacio de acoplamiento. Si una posicion del sustrato deseado estaba activa, pro-S o pro-R, se determino por la distancia entre los restos del sustrato deseado y el sustrato nativo. El criterio de distancia se establecio en 1,25 A para este ejemplo. El valor del criterio y las reglas (que requieren que la media, el mmimo, el maximo, etc. de las distancias sean menores que el criterio) pueden ajustarse en diferentes aplicaciones y en varias rondas de evolucion dirigida.
[0264] Se encontro que esta variante se podna enlazar el sustrato en ambas conformaciones pro-R y pro-S. Se sospechaba que la variante podna no ser muy selectiva. Para derivar una enzima activa y selectiva S para el sustrato deseado, esta variante se selecciono como una cadena principal ronda 1 para crear una biblioteca de variantes de ronda 1 mediante mutagenesis en la primera ronda de evolucion dirigida in silico. Hubo 15 posiciones del sitio activo identificadas en esta cadena principal de la ronda 1, y 19 aminoacidos posibles para cada posicion que senan diferentes de la variante de la cadena principal de la ronda 1, lo que equivale a 285 diferentes mutaciones puntuales posibles. En la evolucion de la ronda 1, se generaron 1.000 mutantes para la biblioteca de variantes de la ronda 1, teniendo cada mutante un numero aleatorio de mutaciones, seleccionandose el numero aleatorio de una distribucion gaussiana de la media = 4 y SD = 2. Las mutaciones fueron elegidas al azar de las 285 posibles mutaciones puntuales.
[0265] Luego, el proceso uso metodos de atraque y deteccion similares a los descritos anteriormente para el panel de enzimas real, con la excepcion de que el criterio para determinar la actividad y la selectividad de las posiciones se establecio en un valor mas estricto de 1 A a diferencia de 1,25 A. El proceso identifico una variante como la que comprende la mutacion que tiene la energfa de enlace total mas baja entre todos los mutantes que se uninan en posiciones activas y pro-S. De hecho, la mutacion en esta variante evito que el sustrato se uniera en una conformacion pro-R no deseada, que representa una mutacion beneficiosa para la selectividad. El proceso, por lo tanto, selecciono esta variante como la columna vertebral para una evolucion dirigida a la ronda 2.
[0266] Sin embargo, la energfa de union de la cadena principal de la ronda 2 a 0,38303 kcal/mol era relativamente alta incluso en comparacion con la determinada para la cadena principal de la ronda 1 (-4,005 kcal/mol), sugiriendo que la evolucion podna mejorar las propiedades beneficiosas de la enzima. Una evolucion dirigida a la ronda 2 se llevo a cabo in silico introduciendo 29 mutaciones en la red troncal de la ronda 2. Las 29 mutaciones se derivaron de 29 variantes de la biblioteca de la ronda 1 que tienen la energfa de union mas baja entre todas las variantes obtenidas a partir de la evolucion de la ronda 1. En la evolucion de la ronda 2, se generaron 1.000 mutantes para producir la biblioteca de variantes de la ronda 2, teniendo cada mutante un numero aleatorio de mutaciones, seleccionandose el numero aleatorio de una distribucion gaussiana de la media = 6 y SD = 4. Las mutaciones fueron elegidas al azar de las 29 posibles mutaciones derivadas de 29 variantes.
[0267] Entonces, el proceso utilizo metodos de atraque y deteccion similares a los descritos anteriormente para determinar que la mayona de las variantes favoredan la union del sustrato en una conformacion pro-S deseada solamente, y al menos 10 variantes teman una mejor energfa de union que las columnas de la ronda 1 y de la ronda 2. Veanse la Tabla 1 para las energfas de enlace de las variantes mejoradas de la evolucion de la ronda 2 y las columnas de la ronda 1 y ronda 2. Ademas de mostrar los datos de la Tabla 1, la Figura 5 muestra la selectividad de las 10 variantes mejoradas de la evolucion de la ronda 2, asf como las cadenas principales de la ronda 1 y de la ronda 2. La Figura ilustra que el cribado virtual del panel de enzima identifico primero la cadena principal de la ronda 1 que tema una baja energfa de union, pero no era selectiva para S. El proceso luego mejoro la selectividad S usando la evolucion dirigida in silico (mutagenesis), para obtener la cadena principal de la ronda 2. El proceso finalmente mejoro la union del sustrato en la evolucion de la ronda 2 a traves de la recombinacion, produciendo variantes de la enzima que teman una alta afinidad con el sustrato deseado y que eran enantioselectivas.
5
10
15
20
25
30
35
40
45
50
55
60
65
Tabla 1. Energias de enlace de variantes de la evolucion de la ronda 2
Variantes
Energia de enlace (kcal/mol)
Rd2 Variante 10
-11,9
Rd2 Variante 9
-11,7
Rd2 Variante 8
-9,2
Rd2 Variante 7
-9,0
Rd2 Variante 6
-7,3
Rd2 Variante 5
-6,4
Rd2 Variante 4
-6,0
Rd2 Variante 3
-5,7
Rd2 Variante 2
-5,3
Rd2 Variante 1
-5,2
Rd2BB
0,4
Rd1BB
-4,0
[0268] La diversidad proporcionada en las dos rondas de evolucion se genero mediante mutagenesis y recombinacion, inspirada en operaciones geneticas biologicas. En algunas aplicaciones, el metodo de deteccion de protema virtual se puede combinar con modelos de actividad de secuencia que gman los metodos de evolucion dirigida. Se construyo un modelo de actividad de secuencia con tecnicas de regresion lineal multiple de acuerdo con los metodos descritos en la Patente de Estados Unidos N° 7.783.428. En la Figura 6A, la energfa de union predicha del modelo de actividad de secuencia se traza frente a la energfa observada obtenida por el sistema de exploracion virtual para un conjunto de prueba de secuencias. La validacion cruzada del modelo de actividad de secuencia se realizo al probar un conjunto de validacion de secuencias omitidas del conjunto de prueba. El modelo representa el 90,9% de la varianza en el conjunto de prueba (R2 = 0,909). Los datos de validacion cruzada en la Figura 6B muestran que el modelo de actividad de secuencia fue preciso para predecir la energfa de union de las secuencias de mutaciones particulares en posiciones particulares, representando el 82,9% de la varianza en el conjunto de validacion (R2 = 0,829).
[0269] El modelo se puede usar para identificar aminoacidos para la mutagenesis. Entre otras formas de utilizar un modelo de actividad de secuencia para guiar la evolucion dirigida, una forma se basa en los coeficientes de regresion para una mutacion particular de un residuo espedfico en una posicion espedfica, que refleja la contribucion de la mutacion a la actividad de la protema. Espedficamente, un proceso de evolucion dirigida podna seleccionar las posiciones para la mutacion evaluando los coeficientes de los terminos del modelo de actividad de secuencia para identificar uno o mas de los aminoacidos que contribuyen a la energfa de union sustancial calculada por el sistema de exploracion virtual. Por ejemplo, en este ejemplo, la mutacion 1 tiene un gran coeficiente positivo, lo que indica que la mutacion 1 aumenta la actividad en gran medida. Veanse la Figura 6C. Por el contrario, la mutacion 27 tiene un gran coeficiente negativo, lo que sugiere que esta mutacion debe evitarse para obtener una actividad alta medida en la Figura 6C.
Ejemplo 2
[0270] El ejemplo 2 proporciona una validacion experimental de filtrar virtualmente variantes de cetoreductasa para el enantiomero R de un alcohol quiral de una cetona pro-quiral, como la reaccion mostrada en la parte superior de la Figura 7.
[0271] El proceso involucro la creacion de modelos de homologfa tridimensional de dos paneles existentes de variantes de la enzima de cetoreductasa (formato de 96 pocillos para cada panel) y la deteccion virtual de los 192 miembros de los paneles de cetoreductasa para seleccionar variantes que (a) atracaran con el sustrato en una posicion activa, (b) atracado en una conformacion pro-R, y (c) tuvo puntaje de atraque favorable.
[0272] El proceso identifico 24 variantes que pueden conducir a posiciones activas y energicamente favorables, que pueden ser priorizadas para un mayor desarrollo y cribado. Para validar la utilidad y validez de los resultados de cribado in silico virtual, el proceso tambien realizo un cribado in vitro para los 192 miembros con un protocolo estandar, y los sustratos/productos se detectaron con cromatograffa lfquida de alta resolucion (HPLC).
[0273] Los resultados se muestran en la Figura 7, donde el eje x es % de conversion calculado como (AreaPico^. alcohol + AreaPico(S)-alcohol) (AreaPico(R)-alcohol + AreaPico(S)-alcohol + AreaPicocetona) X 100% y el eje y es % e.e. hacia el producto R deseado (un mdice de enantioselectividad) calculado como (AreaPico^.alcohol - AreaPico(S)-alcohol) (AreaPico(R).alcohol + AreaPico(S)-alcohol) X 100%. Las 24 variantes priorizadas por el cribado virtual se destacaron como Red Square y las variantes restantes se destacaron como Blue Diamond. Los resultados sugieren: 1) el cribado virtual puede ayudar a determinar si una conversion deseada es factible con un conjunto de variantes de enzimas antes de cualquier cribado in vitro; 2) una buena cantidad de variantes predichas de hecho dieron una alta actividad
5
10
15
20
25
30
35
40
45
50
55
60
65
(% de conversion) y enantioselectividad (% e.e.), a pesar del hecho de que un sustrato tan pequeno y flexible se considera habitualmente como un desaffo para el modelado. Por lo tanto, el cribado virtual puede filtrar reacciones muy poco probables para el cribado in vitro y seleccionar menos muestras para analisis (24 frente a 192 en este caso), lo que puede llevar a ahorros significativos en tiempo y costes.
Ejemplo 3
[0274] Ejemplo 3 proporciona una validacion experimental de evolucion dirigida virtual de transaminasa para reduccion C=O estereoselectiva a CH-NH2, como la reaccion que se muestra en la parte superior de la Figura 8.
[0275] El proceso implico la creacion de modelos en 3 dimensiones de homologfa de 228 secuencias virtuales de mutagenesis saturada in silico de 12 posiciones del sitio activo de la columna (12 posiciones X 19 AA/posicion = 228 variantes, 1 mutacion/variante) y virtualmente seleccionando las 228 variantes virtuales para seleccionar variantes que (a) se acoplaron con el sustrato en una posicion activa, (b) se acoplaron en una conformacion que conduce a la estereoselectividad deseada, y (c) tema la energfa de union total mas baja entre los que se acoplaron en posiciones activas y en una conformacion espedfica.
[0276] El proceso identifico 12 variantes o 12 mutaciones que pueden conducir a posiciones activas y energeticamente favorables. Las 12 mutaciones se usaron para sintetizar una biblioteca, que se exploro in vitro. El cribado in vitro se llevo a cabo para 360 variantes (una o mas mutaciones por variante) con un protocolo patentado. El sustrato/productos se detectaron con HPLC.
[0277] Los resultados para las mejores variantes de cribado in vitro se muestran en la Figura 8, donde el eje x es las
muestras filtradas, y el eje y es FIOPC definido como mejora de pliegue sobre control positivo y se calculo como (%Conversionvariante - %ConversioncontrolNegativo) (%ConversioncontrolPositivo - %ConversioncontrolNegativo) X 100%. El
Control Positivo es la columna del cribado virtual y el cribado in vitro, y el Control Negativo es el vector vacfo sin enzima.
[0278] La filtracion de la biblioteca in vitro dio como resultado que el 13% de las variantes tema un FIOPC >1,5 y 5,3% con un FIOPC >2. El resultado mas alto tema un FIOPC de 2,4. El cribado virtual puede, por lo tanto, filtrar las mutaciones perjudiciales para el cribado in vitro y ayudar a disenar bibliotecas mas espedficas, lo que puede llevar a ahorros significativos en tiempo y costes. Por ejemplo, si tuvieramos que hacer la etapa de mutagenesis saturada in vitro, al menos se tendra que explorar otras 800 variantes.

Claims (15)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    65
    REIVINDICACIONES
    1. Un metodo, implementado usando un sistema informatico que incluye uno o mas procesadores y memoria del sistema, para seleccionar una pluralidad de diferentes variantes de enzima para actividad con un sustrato, donde la pluralidad de diferentes variantes de enzima comprende al menos diez variantes diferentes, y las variantes de enzima comprenden sitios activos que difieren de otro por al menos una mutacion en la secuencia de aminoacidos del sitio activo, comprendiendo el metodo:
    (a) crear o recibir un modelo estructural para cada una de la pluralidad de diferentes variantes de enzima, en donde cada modelo estructural contiene una representacion computacional tridimensional de un sitio activo de una variante de enzima;
    (b) para cada variante enzimatica, acoplamiento, por el sistema informatico, una representacion computacional del sustrato a la representacion computacional tridimensional del sitio activo de la variante enzimatica, en donde el acoplamiento (i) genera una pluralidad de posiciones del sustrato en el sitio activo, en donde una posicion comprende una posicion u orientacion del sustrato con respecto al sitio activo de la variante enzimatica, e (ii) identifica posiciones energeticamente favorables del sustrato en el sitio activo, en donde una posicion energeticamente favorable es una posicion que tiene una energfa que sea favorable para la union entre el sustrato y la variante enzimatica;
    (c) para cada posicion energeticamente favorable, determinar si la posicion esta activa, en donde una posicion activa cumple una o mas restricciones para que el sustrato experimente una reaccion catalttica en el sitio activo; y
    (d) seleccionar al menos una de las variantes de enzima que tiene un sitio activo en el que el sustrato tiene una o mas posiciones activas como se determina en (c).
  2. 2. El metodo de la reivindicacion 1, que comprende ademas:
    (i) seleccionar al menos una variante de enzima seleccionada en (d) contra el sustrato produciendo una reaccion qmmica; o
    (ii) sintetizar al menos una variante de enzima seleccionada en (d).
  3. 3. El metodo de cualquiera de las reivindicaciones precedentes, en el que la representacion computacional del sustrato:
    (i) representa una especie a lo largo de la coordenada de reaccion para la actividad de la enzima, seleccionandose la especie del sustrato, una reaccion intermedia del sustrato, o un estado de transicion del sustrato; o
    (ii) es un modelo tridimensional del sustrato.
  4. 4. El metodo de cualquiera de las reivindicaciones precedentes, en el que la pluralidad de variantes de enzima:
    (i) comprende un panel de enzimas que puede convertir multiples sustratos y en donde los miembros del panel poseen al menos una mutacion con respecto a una secuencia de referencia, y opcionalmente donde al menos una mutacion es una mutacion de unico residuo en el sitio activo de la enzima; o
    (ii) comprende una o mas enzimas que pueden catalizar una reaccion qmmica seleccionada entre la oxidorreduccion, la transfeccion, la hidrolisis, la isomerizacion, la ligacion y la ruptura del enlace qmmico mediante una reaccion distinta a la hidrolisis, oxidacion o reduccion.
  5. 5. El metodo de la reivindicacion 4 (ii), en el que:
    (i) la enzima se selecciona de oxidorreductasa, transferasa, hidrolasa, isomerasa, ligasa y liasa; o
    (ii) la pluralidad de variantes comprende una o mas enzimas que pueden catalizar una reaccion qmmica seleccionada entre reduccion de cetona, transaminacion, oxidacion, hidrolisis de nitrilo, reduccion de imina, reduccion de enona, hidrolisis de acilo y deshalogenacion de halohidrina, y en donde opcionalmente se selecciona la enzima de reductasa de cetona, transaminasa, citocromo P450, monooxigenasa Baeyer-Villiger, monoaminooxidasa, nitrilasa, reductasa de imina, reductasa de enona, acilasa y deshalogenasa de halohidrina.
  6. 6. El metodo de cualquiera de las reivindicaciones precedentes, en el que la pluralidad de variantes comprende al menos aproximadamente cien variantes diferentes o al menos aproximadamente mil variantes diferentes.
  7. 7. El metodo de cualquiera de las reivindicaciones precedentes, en el que las representaciones computacionales de sitios activos se proporcionan a partir de modelos de homologfa tridimensional para la pluralidad de variantes, comprendiendo el metodo opcionalmente ademas la produccion de dichos modelos de homologfa tridimensional para la pluralidad de variantes.
  8. 8. El metodo de cualquiera de las reivindicaciones precedentes, en el que el metodo se aplica para seleccionar una pluralidad de sustratos.
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    65
  9. 9. El metodo de cualquiera de las reivindicaciones precedentes, que comprende ademas la identificacion de las restricciones para que el sustrato experimente la transformacion qmmica catalizada identificando una o mas posiciones de un sustrato nativo, un intermedio de reaccion del sustrato nativo, o un estado de transicion del sustrato nativo cuando el sustrato nativo se somete a la transformacion qmmica catalizada por una enzima de tipo salvaje.
  10. 10. El metodo de cualquiera de las reivindicaciones precedentes, en el que:
    (i) las restricciones comprenden uno o mas de los siguientes: restricciones de posicion, distancia, angulo y torsion;
    (ii) las restricciones comprenden una distancia entre un resto particular en el sustrato y un resto particular o resto en el sitio activo;
    (iii) las restricciones comprenden una distancia entre un resto particular en el sustrato y un resto particular o resto en un cofactor; y/o
    (iv) las restricciones comprenden una distancia entre un resto particular en el sustrato y un sustrato nativo posicionado idealmente en el sitio activo.
  11. 11. El metodo de cualquiera de las reivindicaciones precedentes, comprendiendo el metodo ademas la aplicacion de un conjunto de una o mas restricciones enzimaticas a la pluralidad de variantes enzimaticas, donde una o mas restricciones enzimaticas son similares a las restricciones de una enzima natural cuando un sustrato nativo se somete a una transformacion qmmica catalizada en presencia de la enzima de tipo salvaje.
  12. 12. El metodo de cualquiera de las reivindicaciones precedentes, en el que:
    (i) la pluralidad de posiciones del sustrato se obtiene mediante una o mas operaciones de acoplamiento seleccionadas del grupo que consiste en: dinamica molecular de alta temperatura, rotacion aleatoria, refinamiento por anillado simulado basado en grillas, minimizacion de campos de fuerza completa o de grilla, y cualquier combinacion de los mismos;
    (ii) la pluralidad de posiciones del ligando comprende al menos aproximadamente 10 posiciones, al menos aproximadamente 20 posiciones, al menos aproximadamente 50 posiciones, o al menos aproximadamente 100 posiciones, del sustrato en el sitio activo; o
    (iii) al menos una variante enzimatica tiene actividad catalftica y/o selectividad deseadas.
  13. 13. El metodo de cualquiera de las reivindicaciones precedentes, en el que la seleccion en (d) comprende:
    (i) identificar variantes que se determina que tienen un gran numero de posiciones activas en comparacion con otras variantes; o
    (ii) clasificar las variantes por una o mas de las siguientes: el numero de posiciones activas que tienen las variantes, puntajes de atraque de las posiciones activas, donde opcionalmente los puntajes de atraque se basan en la fuerza de van de Waals y la interaccion electrostatica, y energfas de enlace de las posiciones activas, en donde opcionalmente las energfas de enlace se basan en una o mas de las siguientes: fuerza de van der Waals, interaccion electrostatica y energfa de solvatacion; y
    seleccionar variantes basadas en sus rangos.
  14. 14. Un producto de programa de computadora que comprende uno o mas medios de almacenamiento no transitorios legibles por computadora, estando instrucciones ejecutables por computadora almacenadas en ellos, ejecutadas por uno o mas procesadores de un sistema informatico, dan lugar a que el sistema informatico aplique un metodo como se ha indicado en las reivindicaciones 1-13.
  15. 15. Un sistema que comprende:
    uno o mas procesadores; memoria del sistema; y
    en donde uno o mas procesadores y memoria estan configurados para implementar un metodo segun se enumera en cualquiera de las reivindicaciones 1-13.
ES14781426.3T 2013-09-27 2014-09-26 Filtración automática de variantes de enzimas Active ES2693150T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361883838P 2013-09-27 2013-09-27
US201361883838P 2013-09-27
PCT/US2014/057899 WO2015048572A1 (en) 2013-09-27 2014-09-26 Automated screening of enzyme variants

Publications (1)

Publication Number Publication Date
ES2693150T3 true ES2693150T3 (es) 2018-12-07

Family

ID=51662390

Family Applications (2)

Application Number Title Priority Date Filing Date
ES18187438T Active ES2857711T3 (es) 2013-09-27 2014-09-26 Filtración automática de variantes de enzimas
ES14781426.3T Active ES2693150T3 (es) 2013-09-27 2014-09-26 Filtración automática de variantes de enzimas

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES18187438T Active ES2857711T3 (es) 2013-09-27 2014-09-26 Filtración automática de variantes de enzimas

Country Status (15)

Country Link
US (3) US10696964B2 (es)
EP (2) EP3418929B1 (es)
JP (3) JP6857029B2 (es)
KR (1) KR102342205B1 (es)
CN (1) CN105765592B (es)
AU (1) AU2014324669B2 (es)
BR (1) BR112016006285B1 (es)
CA (1) CA2923755C (es)
DK (2) DK3049973T3 (es)
ES (2) ES2857711T3 (es)
HU (2) HUE053049T2 (es)
IL (1) IL244457B (es)
RU (2) RU2019140645A (es)
SG (1) SG11201601695WA (es)
WO (1) WO2015048572A1 (es)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
HUE048104T2 (hu) 2013-09-27 2020-05-28 Codexis Inc Szerkezet alapú prediktív modellezés
CN105765592B (zh) 2013-09-27 2019-12-17 科德克希思公司 用于酶变体的自动筛选的方法、装置和系统
WO2015073971A1 (en) * 2013-11-15 2015-05-21 InfiniteBio Computer-assisted modeling for treatment design
HUE053363T2 (hu) 2014-11-25 2021-06-28 Codexis Inc Módosított iminreduktázok és eljárások keton- és aminvegyületek reduktív aminálására
EP4234699A1 (en) 2014-12-22 2023-08-30 Codexis, Inc. Human alpha-galactosidase variants
US10542961B2 (en) 2015-06-15 2020-01-28 The Research Foundation For The State University Of New York System and method for infrasonic cardiac monitoring
WO2017155945A1 (en) * 2016-03-09 2017-09-14 President And Fellows Of Harvard College Methods and systems of cell-free enzyme discovery and optimization
NZ755628A (en) 2017-02-13 2023-09-29 Codexis Inc Engineered phenylalanine ammonia lyase polypeptides
JP6917050B2 (ja) * 2017-03-06 2021-08-11 学校法人早稲田大学 最適特性を有する非天然型タンパク質の製造方法
WO2018200214A2 (en) 2017-04-27 2018-11-01 Codexis, Inc. Ketoreductase polypeptides and polynucleotides
BR112019023337A2 (pt) * 2017-05-08 2020-06-16 Codexis, Inc. Ligase engenheirada, sequência de polinucleotídeo, vetor de expressão, célula hospedeira, métodos para produzir um polipeptídeo da ligase engenheirada, um produto de ligação, uma biblioteca de dna e uma pluralidade de fragmentos de dna adequados para sequenciamento, e, composição
EP3404567A1 (en) * 2017-05-19 2018-11-21 Fujitsu Limited A system and a method for discovery of predicted site-specific protein phosphorylation candidates
US20180365372A1 (en) * 2017-06-19 2018-12-20 Jungla Inc. Systems and Methods for the Interpretation of Genetic and Genomic Variants via an Integrated Computational and Experimental Deep Mutational Learning Framework
WO2019005539A1 (en) 2017-06-30 2019-01-03 Codexis, Inc. T7 POLYMERASE RNA VARIANTS
US10793841B2 (en) 2017-06-30 2020-10-06 Codexis, Inc. T7 RNA polymerase variants
EP3652328A1 (en) * 2017-07-14 2020-05-20 c-LEcta GmbH Ketoreductases
CN107832577B (zh) * 2017-10-30 2021-07-13 中国农业大学 一种筛选几丁质酶OfChtⅠ抑制剂的方法
CN107974484A (zh) * 2017-11-10 2018-05-01 嘉兴欣贝莱生物科技有限公司 根皮素生物合成过程中查尔酮合成酶建模方法
CN112204402B (zh) * 2018-03-05 2024-05-03 斯坦福大学托管董事会 基于机器学习和分子模拟的用于增强结合和活性预测的方法
EP3613855A1 (en) * 2018-08-23 2020-02-26 Clariant Produkte (Deutschland) GmbH Method for the production of a nucleic acid library
EP3640864A1 (en) 2018-10-18 2020-04-22 Fujitsu Limited A computer-implemented method and apparatus for inferring a property of a biomedical entity
AU2019373208A1 (en) 2018-10-29 2021-05-13 Codexis, Inc. Engineered DNA polymerase variants
AU2019397401A1 (en) 2018-12-14 2021-06-17 Codexis, Inc. Engineered tyrosine ammonia lyase
EP3898960A4 (en) 2018-12-20 2022-11-30 Codexis, Inc. VARIANTS OF HUMAN ALPHA GALACTOSIDASE
CN109841263B (zh) * 2019-02-22 2023-08-15 成都分迪科技有限公司 蛋白降解药物分子库及其构建方法
JP7344509B2 (ja) * 2019-09-20 2023-09-14 公立大学法人 富山県立大学 光学活性フルオロアルコールおよび光学活性クロロフルオロアルコールの製造方法
EP4053269A4 (en) * 2019-10-28 2022-11-02 Asymchem Laboratories (Tianjin) Co., Ltd TRANSAMINASE MUTANT AND USE THEREOF
US11970722B2 (en) 2019-12-20 2024-04-30 Codexis, Inc. Engineered acid alpha-glucosidase variants
CN111681703A (zh) * 2020-05-09 2020-09-18 北京纽伦智能科技有限公司 一种蛋白结构的对接方法及分布式蛋白结构对接系统
CN114822717A (zh) * 2021-01-28 2022-07-29 腾讯科技(深圳)有限公司 基于人工智能的药物分子处理方法、装置、设备及存储介质
WO2023022783A1 (en) * 2021-08-17 2023-02-23 University Of Southern California System and method for computational enzyme design based on maximum entropy
CN113921082B (zh) * 2021-10-27 2023-04-07 云舟生物科技(广州)股份有限公司 基因搜索权重调整方法、计算机存储介质及电子设备

Family Cites Families (89)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
JPH04179495A (ja) 1990-11-14 1992-06-26 M D Res Kk 融合蛋白質、およびペプチド又は蛋白質の製造方法
US5426039A (en) 1993-09-08 1995-06-20 Bio-Rad Laboratories, Inc. Direct molecular cloning of primer extended DNA containing an alkane diol
US6117679A (en) 1994-02-17 2000-09-12 Maxygen, Inc. Methods for generating polynucleotides having desired characteristics by iterative selection and recombination
US6165793A (en) 1996-03-25 2000-12-26 Maxygen, Inc. Methods for generating polynucleotides having desired characteristics by iterative selection and recombination
US5834252A (en) 1995-04-18 1998-11-10 Glaxo Group Limited End-complementary polymerase reaction
US5605793A (en) 1994-02-17 1997-02-25 Affymax Technologies N.V. Methods for in vitro recombination
US6309883B1 (en) 1994-02-17 2001-10-30 Maxygen, Inc. Methods and compositions for cellular and metabolic engineering
US6995017B1 (en) 1994-02-17 2006-02-07 Maxygen, Inc. Methods for generating polynucleotides having desired characteristics by iterative selection and recombination
US6335160B1 (en) 1995-02-17 2002-01-01 Maxygen, Inc. Methods and compositions for polypeptide engineering
US6406855B1 (en) 1994-02-17 2002-06-18 Maxygen, Inc. Methods and compositions for polypeptide engineering
US5928905A (en) 1995-04-18 1999-07-27 Glaxo Group Limited End-complementary polymerase reaction
US20060257890A1 (en) 1996-05-20 2006-11-16 Maxygen, Inc. Methods and compositions for cellular and metabolic engineering
US5837458A (en) 1994-02-17 1998-11-17 Maxygen, Inc. Methods and compositions for cellular and metabolic engineering
US6395547B1 (en) 1994-02-17 2002-05-28 Maxygen, Inc. Methods for generating polynucleotides having desired characteristics by iterative selection and recombination
US6096548A (en) 1996-03-25 2000-08-01 Maxygen, Inc. Method for directing evolution of a virus
US6506602B1 (en) 1996-03-25 2003-01-14 Maxygen, Inc. Methods for generating polynucleotides having desired characteristics by iterative selection and recombination
US7148054B2 (en) 1997-01-17 2006-12-12 Maxygen, Inc. Evolution of whole cells and organisms by recursive sequence recombination
US6326204B1 (en) 1997-01-17 2001-12-04 Maxygen, Inc. Evolution of whole cells and organisms by recursive sequence recombination
DE69835360T2 (de) 1997-01-17 2007-08-16 Maxygen, Inc., Redwood City EVOLUTION Prokaryotischer GANZER ZELLEN DURCH REKURSIVE SEQUENZREKOMBINATION
US5914245A (en) 1998-04-20 1999-06-22 Kairos Scientific Inc. Solid phase enzyme kinetics screening in microcolonies
US6365408B1 (en) 1998-06-19 2002-04-02 Maxygen, Inc. Methods of evolving a polynucleotides by mutagenesis and recombination
JP4221100B2 (ja) 1999-01-13 2009-02-12 エルピーダメモリ株式会社 半導体装置
WO2000042559A1 (en) 1999-01-18 2000-07-20 Maxygen, Inc. Methods of populating data structures for use in evolutionary simulations
US6436675B1 (en) 1999-09-28 2002-08-20 Maxygen, Inc. Use of codon-varied oligonucleotide synthesis for synthetic shuffling
US6917882B2 (en) 1999-01-19 2005-07-12 Maxygen, Inc. Methods for making character strings, polynucleotides and polypeptides having desired characteristics
US6368861B1 (en) 1999-01-19 2002-04-09 Maxygen, Inc. Oligonucleotide mediated nucleic acid recombination
US6376246B1 (en) 1999-02-05 2002-04-23 Maxygen, Inc. Oligonucleotide mediated nucleic acid recombination
US7702464B1 (en) 2001-08-21 2010-04-20 Maxygen, Inc. Method and apparatus for codon determining
US6961664B2 (en) 1999-01-19 2005-11-01 Maxygen Methods of populating data structures for use in evolutionary simulations
IL138002A0 (en) 1999-01-19 2001-10-31 Maxygen Inc Methods for making character strings, polynucleotides and polypeptides having desired characteristics
US7024312B1 (en) 1999-01-19 2006-04-04 Maxygen, Inc. Methods for making character strings, polynucleotides and polypeptides having desired characteristics
US20070065838A1 (en) 1999-01-19 2007-03-22 Maxygen, Inc. Oligonucleotide mediated nucleic acid recombination
WO2000052155A2 (en) 1999-03-05 2000-09-08 Maxygen, Inc. Recombination of insertion modified nucleic acids
US6969763B1 (en) * 1999-05-12 2005-11-29 Isis Pharmaceuticals, Inc. Molecular interaction sites of interleukin-2 RNA and methods of modulating the same
US7430477B2 (en) 1999-10-12 2008-09-30 Maxygen, Inc. Methods of populating data structures for use in evolutionary simulations
US6519065B1 (en) 1999-11-05 2003-02-11 Jds Fitel Inc. Chromatic dispersion compensation device
AU2001250955A1 (en) * 2000-03-23 2001-10-03 California Institute Of Technology Method and apparatus for predicting ligand binding interactions
WO2001075767A2 (en) 2000-03-30 2001-10-11 Maxygen, Inc. In silico cross-over site selection
US20020133297A1 (en) * 2001-01-17 2002-09-19 Jinn-Moon Yang Ligand docking method using evolutionary algorithm
EP1470219A4 (en) 2001-04-16 2005-10-05 California Inst Of Techn PEROXIDE MOLDED CYTOCHROME OXYGENASE P450 OXYGENASE VARIANTS
WO2003008563A2 (en) 2001-07-20 2003-01-30 California Institute Of Technology Improved cytochrome p450 oxygenases
US20050084907A1 (en) 2002-03-01 2005-04-21 Maxygen, Inc. Methods, systems, and software for identifying functional biomolecules
DK2278509T3 (en) 2002-03-01 2014-12-15 Codexis Mayflower Holdings Llc Methods, systems and software for identification of functional biomolecules
US7747391B2 (en) 2002-03-01 2010-06-29 Maxygen, Inc. Methods, systems, and software for identifying functional biomolecules
US7620500B2 (en) 2002-03-09 2009-11-17 Maxygen, Inc. Optimization of crossover points for directed evolution
US20060099667A1 (en) * 2002-10-28 2006-05-11 Francois Andre Method for performing restrained dynamics docking of one or multiple substrates on multi-specific enzymes
US20060121455A1 (en) * 2003-04-14 2006-06-08 California Institute Of Technology COP protein design tool
CN1468959A (zh) * 2003-06-02 2004-01-21 复旦大学 非典型性肺炎冠状病毒蛋白质空间构象模型及其应用
EP1639091B1 (en) 2003-06-17 2012-12-05 California University Of Technology Regio- and enantioselective alkane hydroxylation with modified cytochrome p450
US8005620B2 (en) 2003-08-01 2011-08-23 Dna Twopointo Inc. Systems and methods for biopolymer engineering
US7435570B2 (en) 2003-08-11 2008-10-14 California Institute Of Technology Thermostable peroxide-driven cytochrome P450 oxygenase variants and methods of use
JP2005309877A (ja) 2004-04-22 2005-11-04 National Institute Of Advanced Industrial & Technology 機能性生体分子の配列解析方法
WO2006044378A2 (en) 2004-10-12 2006-04-27 University Of Iowa Research Foundation Rapid computational identification of targets
WO2006121455A1 (en) 2005-05-10 2006-11-16 The Salk Institute For Biological Studies Dynamic signal processing
KR101535678B1 (ko) * 2006-01-23 2015-07-09 조셉 피. 에리코 표적 약물 개발의 방법 및 조성물
RU2008140858A (ru) 2006-03-15 2010-04-20 Ксир (Za) Способ скрининга соединений, обладающих активностью ингибитора глутамин синтетазы
KR20090031938A (ko) 2006-07-05 2009-03-30 더 스크립스 리서치 인스티튜트 방향성 진화로 촉매 작용을 최적화시킨 키메라 징크 핑거 리컴비나제
US7814234B2 (en) 2006-10-30 2010-10-12 Microsoft Corporation Offline execution of web based applications
WO2008103248A1 (en) 2007-02-08 2008-08-28 Codexis, Inc. Ketoreductases and uses thereof
US20090118130A1 (en) 2007-02-12 2009-05-07 Codexis, Inc. Structure-activity relationships
WO2009029554A2 (en) 2007-08-24 2009-03-05 Codexis, Inc. Improved ketoreductase polypeptides for the stereoselective production of (r)-3-hydroxythiolane
WO2009036404A2 (en) 2007-09-13 2009-03-19 Codexis, Inc. Ketoreductase polypeptides for the reduction of acetophenones
KR20100061571A (ko) 2007-09-28 2010-06-07 코덱시스, 인코포레이티드 케토리덕타제 폴리펩티드 및 이의 용도
CN101883846A (zh) 2007-10-01 2010-11-10 科德克希思公司 用于生成氮杂环丁酮的还原酶多肽
JP2010539991A (ja) 2007-10-04 2010-12-24 ハルシオン モレキュラー 電子顕微鏡を用いた核酸ポリマーの配列決定
WO2009064015A1 (ja) 2007-11-12 2009-05-22 In-Silico Sciences, Inc. インシリコスクリーニング装置、および、インシリコスクリーニング方法
CA2726850C (en) 2008-06-13 2015-06-02 Codexis, Inc. Method of synthesizing polynucleotide variants
US8383346B2 (en) 2008-06-13 2013-02-26 Codexis, Inc. Combined automated parallel synthesis of polynucleotide variants
CN102131813B (zh) 2008-06-24 2014-07-30 科德克希思公司 用于制备基本上立体异构纯的稠合二环脯氨酸化合物的生物催化方法
ES2602430T3 (es) 2008-07-25 2017-02-21 Glaxosmithkline Biologicals S.A. Polipéptidos, polinucleótidos y composiciones para uso en el tratamiento de tuberculosis latente
ES2560459T3 (es) 2008-08-27 2016-02-19 Codexis, Inc. Polipéptidos cetorreductasa para la producción de una 3-aril-3-hidroxipropanamina a partir de una 3-aril-3-cetopropanamina
WO2010054319A2 (en) 2008-11-10 2010-05-14 Codexis, Inc. Penicillin-g acylases
WO2010077470A2 (en) * 2008-11-19 2010-07-08 University Of Washington Enzyme catalysts for diels-alder reactions
SG172231A1 (en) 2008-12-18 2011-07-28 Codexis Inc Recombinant halohydrin dehalogenase polypeptides
WO2010075574A2 (en) 2008-12-25 2010-07-01 Codexis, Inc. Enone reductases
EP3354727B1 (en) 2009-01-08 2020-10-07 Codexis, Inc. Transaminase polypeptides
ES2448816T3 (es) 2009-02-26 2014-03-17 Codexis, Inc. Biocatalizadores de transaminasa
WO2011011630A2 (en) 2009-07-23 2011-01-27 Codexis, Inc. Nitrilase biocatalysts
SG181535A1 (en) 2009-12-08 2012-07-30 Codexis Inc Synthesis of prazole compounds
CN102939383B (zh) 2009-12-30 2015-04-29 先锋国际良种公司 用于靶向多核苷酸修饰的方法和组合物
US9267159B2 (en) 2010-12-08 2016-02-23 Codexis, Inc. Biocatalysts and methods for the synthesis of armodafinil
CN102156823B (zh) * 2011-02-18 2015-04-22 复旦大学 一种靶向作用于蛋白激酶非活性构象的化合物筛选方法
NZ703347A (en) 2012-06-29 2016-05-27 Wisconsin Alumni Res Found Use of 2-methylene-19-nor-(20s)-1α,25-dihydroxyvitamin d3 to treat secondary hyperparathyroidism
US20140303952A1 (en) 2013-04-08 2014-10-09 City University Of Hong Kong Protein-ligand docking
CN103265635A (zh) * 2013-04-28 2013-08-28 中山大学附属第一医院 一种通用的靶向蛋白嵌合型分子化合物的构建方法
CN103324861B (zh) 2013-07-10 2016-07-20 南京大学 基于分子动力学模拟的核受体介导内分泌干扰物质的虚拟筛选方法
CN105765592B (zh) 2013-09-27 2019-12-17 科德克希思公司 用于酶变体的自动筛选的方法、装置和系统
HUE048104T2 (hu) 2013-09-27 2020-05-28 Codexis Inc Szerkezet alapú prediktív modellezés

Also Published As

Publication number Publication date
DK3418929T3 (da) 2021-02-01
EP3418929B1 (en) 2020-12-09
HUE053049T2 (hu) 2021-06-28
KR20160057482A (ko) 2016-05-23
US20150133307A1 (en) 2015-05-14
BR112016006285B1 (pt) 2022-09-06
HUE039618T2 (hu) 2019-01-28
CA2923755A1 (en) 2015-04-02
JP6857029B2 (ja) 2021-04-14
CN105765592A (zh) 2016-07-13
NZ717658A (en) 2020-11-27
EP3418929A1 (en) 2018-12-26
EP3049973A1 (en) 2016-08-03
SG11201601695WA (en) 2016-04-28
JP2021131901A (ja) 2021-09-09
JP2019083025A (ja) 2019-05-30
AU2014324669A1 (en) 2016-03-24
BR112016006285A2 (pt) 2017-08-01
CA2923755C (en) 2023-03-14
RU2016116253A (ru) 2017-11-01
JP2016537700A (ja) 2016-12-01
US20230048421A1 (en) 2023-02-16
ES2857711T3 (es) 2021-09-29
DK3049973T3 (en) 2018-10-22
IL244457B (en) 2021-05-31
US11535845B2 (en) 2022-12-27
IL244457A0 (en) 2016-04-21
KR102342205B1 (ko) 2021-12-21
EP3049973B1 (en) 2018-08-08
AU2014324669B2 (en) 2020-06-04
US10696964B2 (en) 2020-06-30
WO2015048572A1 (en) 2015-04-02
RU2019140645A (ru) 2020-01-27
CN105765592B (zh) 2019-12-17
US20200277597A1 (en) 2020-09-03

Similar Documents

Publication Publication Date Title
ES2693150T3 (es) Filtración automática de variantes de enzimas
US11342046B2 (en) Methods and systems for engineering biomolecules
Goble et al. Discovery of a cytokinin deaminase
Zhang et al. A preorganization oriented computational method for de novo design of Kemp elimination enzymes
NZ717658B2 (en) Automated screening of enzyme variants
Simmons et al. Three-dimensional structures reveal multiple ADP/ATP binding modes for a synthetic class of artificial proteins
Mills Functional Characterization of Structural Genomics Proteins through Computed Chemical Properties, Graph Representation of Active Sites, and Biochemical Validation