ES2353959T3

ES2353959T3 - Métodos de producción de polimerasas híbridas y composiciones.

Info

Publication number: ES2353959T3
Application number: ES03771830T
Authority: ES
Inventors: Peter Vander Horn; Yan Wang
Original assignee: Bio Rad Laboratories Inc
Current assignee: Bio Rad Laboratories Inc
Priority date: 2002-07-25
Filing date: 2003-07-25
Publication date: 2011-03-08
Anticipated expiration: 2023-07-25

Abstract

Una polimerasa híbrida que tiene actividad polimerasa, donde la polimerasa tiene una identidad de al menos 94% con una secuencia de aminoácidos seleccionada entre los SEQ ID NO: 2, SEQ ID NO: 12, los aminoácidos 1 a 775 del SEQ ID NO: 6, los aminoácidos 1 a 775 del SEQ ID NO: 8 y los aminoácidos 1 a 775 del SEQ ID NO: 10; donde la polimerasa híbrida comprende posiciones que están mutadas a partir del residuo nativo del SEQ ID NO: 24 o el SEQ ID NO: 25 al correspondiente residuo del SEQ ID NO: 25 o el SEQ ID NO: 24 respectivamente; y tiene una razón de actividad polimerasa con respecto a exonucleasa incrementada en relación con la polimerasa Pfu parental.

Description

Métodos de producción de polimerasas híbridas y composiciones.

Campo de la invención

Esta invención se refiere a métodos para facilitar la evolución de proteínas y a los polipéptidos novedosos obtenidos utilizando los métodos.

Antecedentes de la invención

Esta invención se refiere a métodos para crear proteínas híbridas para identificar proteínas con una actividad mejorada. Se conocen numerosos métodos para generar secuencias híbridas para potenciar la función de una proteína (véase, p. ej., la Patente de los Estados Unidos Núm. 6.132.970). No obstante, estos métodos cuentan con las técnicas recombinatorias que barajan las secuencias para crear nuevas proteínas. Existe la necesidad adicional de facilitar la identificación de proteínas con una función mejorada. Esta invención trata esa necesidad y adicionalmente, proporciona polipéptidos, p. ej., polimerasas, que son obtenidas utilizando el método.

Las polimerasas catalizan la formación de polímeros biológicos. Las polimerasas son útiles para la síntesis de ADN a partir de desoxirribonucleósidos trifosfato en presencia de un molde de ácido nucleico y un cebador de ácido nucleico; la síntesis de ARN a partir de ribonucleótidos y un molde de ADN o ARN; la replicación y reparación del ADN; y la amplificación de ADN o ARN in vitro.

La actividad exonucleasa 3' a 5', comúnmente referida como actividad "correctora", es una importante característica de algunas ADN polimerasas y está presente en polimerasas de la familia B de especies de Pyrococcus tales como PolI de Pyrococcus furiosus (referida en la presente memoria como "Pfu" y descrita en la Patente de los Estados Unidos 5.948.663; asequible comercialmente de Stratagene, San Diego, CA) y PoliI de la cepa Pyrococcus GB-D (referida en la presente memoria como "Deep Vent®" y descrita en la Patente de los Estados Unidos 5.834.285; asequible comercialmente de New England Biolabs, Beverly MA). La función esencial de la exonucleasa 3' a 5' es reconocer y escindir un extremo sin bases emparejadas. Las enzimas con una elevada actividad exonucleasa, sin embargo, no se utilizan comúnmente en reacciones que cuentan con la actividad polimerasa debido a que tienen una escasa capacidad de procesamiento. Por ejemplo, si se utiliza en la PCR, a menudo es combinada con la ADN PolI de Thermus aquaticus, (Taq), una enzima con una capacidad de procesamiento superior pero sin actividad exonucleasa 3' a 5', con el fin de mejorar la fidelidad de la reacción de PCR. La capacidad de procesamiento mejorada en las polimerasas con una elevada actividad exonucleasa 3' a 5' aumentaría enormemente la fiabilidad de las reacciones que cuentan con el uso de polimerasas y eliminaría, en algunos casos, la necesidad de polimerasa Taq. Por consiguiente, existe la necesidad de crear polimerasas mejoradas con actividad exonucleasa 3' a 5'.

En el documento WO 01/92501 se informa de una fusión de un dominio de unión de ácido nucleico de secuencia no específica a una enzima modificadora de ácido nucleico con el fin de intensificar la capacidad de la enzima para unirse a y modificar el ácido nucleico. El documento WO 01/61015 describe polimerasas de ácido nucleico quiméricas construidas utilizando dominios enzimáticamente activos aislados de diferentes proteínas.

El número de acceso Uniprot Q9HH98 registra una secuencia de un fragmento de ADN polimerasa de Pyrococcus sp. (cepa ST700). En el documento US 5.489.523 se describe una ADN polimerasa de Pyrococcus furiosus termoestable recombinante carente de actividad exonucleasa 3' a 5'. Evans et al. (2000) Nucleic Acids Research 28: 1059-1066 informan sobre mutaciones en un gen que codifica la ADN polimerasa de la familia PolII de Pyrococcus furiosus para intentar mejorar la utilización de ddNTP.

Esta invención se dirige a esta y otras necesidades proporcionando composiciones de polimerasa novedosas.

Breve resumen de la invención

Se describen en la presente memoria métodos para generar polipéptidos con una función mejorada. El método comprende crear proteínas híbridas que tienen una actividad biológica común que comprende las etapas de: (a) crear una genoteca de 32 o más ácidos nucleicos que codifican una pluralidad de miembros de proteínas híbridas, donde los miembros difieren de un grupo de al menos dos proteínas de partida con los correspondientes aminoácidos, e i) donde las proteínas de partida son proteínas homólogas que tienen una similitud por pares de aminoácidos de más del 60% entre si y que tienen al menos una actividad biológica común, ii) donde una mayoría de los miembros de la genoteca codificante tienen una similitud de aminoácidos de más del 60% con cualquiera de las proteínas de partida, y iii) donde la mayoría de las diferencias entre los miembros de la genoteca codificada y las proteínas de partida están restringidas a aquellas que corresponden a los aminoácidos que difieren entre las proteínas de partida; (b) expresar la proteína a partir de al menos un miembro de la genoteca para crear al menos una proteína híbrida; y (c) seleccionar al menos una proteína que tiene una actividad biológica común de las proteínas de partida.

Asimismo se describe en la presente memoria una genoteca de ácidos nucleicos que codifican una pluralidad de miembros de proteínas híbridas, donde los miembros difieren de un grupo de al menos dos proteínas de partida con los correspondientes aminoácidos, e i) donde las proteínas de partida son proteínas homólogas que tienen una similitud en la secuencia de aminoácidos de más del 60% entre si y que tienen al menos una actividad biológica común, ii) donde la mayoría de los miembros de la genoteca tienen una similitud de aminoácidos de más del 60% con cualquiera de las proteínas parentales, y iii) donde la mayoría de las diferencias entre los miembros de la genoteca y las proteínas de partida están restringidas a aquellas que corresponden a los aminoácidos que difieren de las proteínas de partida. Las proteínas parentales pueden ser enzimas, p. ej., polimerasas, enzimas biosintéticas y catabólicas. Las enzimas parentales también pueden ser isozimas. Las proteínas parentales también pueden ser proteínas no enzimáticas, p. ej., proteínas que se unen a otra molécula, con o sin efecto alostérico, tales como hormonas, receptores, anticuerpos y similares. A menudo, las proteínas parentales tienen una similitud de aminoácidos de más del 80% entre sí y la mayoría de los miembros de la genoteca tienen una similitud de aminoácidos de más del 80% con cualquiera de las proteínas de partida.

Una proteína híbrida sintética puede comprender una similitud de aminoácidos de más del 60% entre cada miembro de un grupo de al menos dos proteínas de partida, donde cada proteína de partida del grupo comparte una similitud de aminoácidos de más del 60% y al menos una actividad biológica común con cada miembro del grupo, y donde la proteína híbrida: (a) comparte al menos una actividad biológica con todos los miembros del grupo; (b) tiene un mínimo de 5 diferencias de residuos de aminoácido con cualquier miembro del grupo; y (c) comprende no más del 24% de aminoácidos que no corresponden a ningún miembro del grupo.

Las proteínas parentales de partida pueden ser enzimas, p. ej. polimerasas. Las proteínas parentales también pueden ser isozimas.

A menudo, las proteínas parentales tienen una similitud de más del 80% con cada una de las otras y la mayoría de los miembros de la genoteca tienen una similitud de más del 80% con cualquiera de las proteínas parentales. Proteína híbrida.

El grupo de proteínas parentales puede comprender la ADN polimerasa de la familia B de Pyrococcus furiosus (Pfu) y la ADN Polimerasa Deep Vent® y las diferencias entre cada miembro del grupo pueden comprender al menos 10 de los emparejamientos erróneos seleccionados del grupo mostrado en la Figura 2.

La invención se refiere a la generación de polipéptidos híbridos que comprenden alteraciones en regiones menos conservadas de las proteínas parentales y, sorprendentemente, proporciona proteínas híbridas que presentan una mejora en las propiedades deseadas con respecto a las proteínas parentales. Se puede diseñar una proteína de la invención como una proteína híbrida alterada de residuos variables (VRAHP), como se describe en términos generales. Más específicamente, una VRAHP contiene alteraciones en posiciones no conservadas de las proteínas parentales, esto es, residuos variables, donde el residuo variable es un aminoácido que existe en esa posición en una de las proteínas parentales. Tales alteraciones están típicamente presentes en toda la proteína, existiendo por ejemplo en al menos 1 de cada 30 o 50 residuos de aminoácido, en lugar de concentradas en una región de la proteína.

Típicamente, cada proteína parental de un grupo de al menos dos proteínas parentales comparte una similitud de aminoácidos mayor del 60% y al menos una actividad biológica común con cada miembro del grupo. Una proteína híbrida típica comprenderá una similitud de aminoácidos de más del 60% con cada miembro de un grupo de al menos dos proteínas parentales, y compartirá al menos una actividad biológica con todos los miembros del grupo.

Además, el grupo mencionado anteriormente de proteínas parentales comprende necesariamente un subgrupo de aminoácidos invariables que son idénticos entre todos los miembros del grupo. Una proteína híbrida típica comprende al menos el 95% del subgrupo de aminoácidos invariables.

Finalmente, el grupo de proteínas parentales comprende necesariamente un subgrupo de aminoácidos variables que difieren de al menos algunos miembros del grupo. Una proteína híbrida típica comprenderá un mínimo de 5 diferencias de residuos aminoácido de cualquier miembro del grupo, correspondientes a los miembros del subgrupo de aminoácidos variables. Una proteína híbrida típica también comprenderá un subgrupo de al menos 5 residuos de aminoácido del subgrupo de aminoácidos variables, donde cada uno de los al menos 5 aminoácidos es idéntico a un aminoácido correspondiente en al menos uno de los miembros del grupo parental, y cada uno de los subgrupos de al menos 5 aminoácidos, en orden desde el extremo N al extremo C, es idéntico a un aminoácido correspondiente de uno diferente del grupo de proteínas parentales del miembro previo del subgrupo de al menos 5 residuos de aminoácido variables. En otras palabras, la proteína híbrida típica contiene al menos 5 residuos de aminoácido variables correspondientes a las proteínas parentales alternas.

La invención proporciona polipéptidos de polimerasa híbridos que tienen residuos de múltiples polimerasas parentales. La invención también proporciona ácidos nucleicos que codifican tales proteínas. De este modo, la invención proporciona una polimerasa híbrida que tiene actividad polimerasa, donde la polimerasa tiene una identidad de al menos 94% con una secuencia de aminoácidos seleccionada del SEQ ID NO:2, SEQ ID NO:12, los aminoácidos 1 a 775 del SEQ ID NO:6, los aminoácidos 1 a 775 del SEQ ID NO:8 y los aminoácidos 1 a 775 del SEQ ID NO:10; donde la polimerasa híbrida comprende las posiciones que están mutadas del residuo nativo del SEQ ID NO: 24 o el SEQ ID NO: 25 al correspondiente residuo del SEQ ID NO: 25 o el SEQ ID NO: 24 respectivamente; y tiene una razón de actividad polimerasa a exonucleasa incrementada con respecto a la polimerasa Pfu parental. La polimerasa puede comprender el SEQ ID NO:23 y puede ser idéntica al menos en un 80% a lo largo de 700 aminoácidos contiguos de la secuencia de Pyrococcus furiosus (Pfu) mostrada en el SEQ ID NO: 24 o idéntica al menos en 80% a lo largo de 700 aminoácidos contiguos de Deep Vent®; la secuencia mostrada en el SEQ ID NO: 25, con la condición de que (a) cuando la polimerasa es idéntica al menos en un 80% al SEQ ID NO: 24, la secuencia comprende al menos una posición híbrida que está mutada a partir del residuo nativo de Pfu al residuo que existe en la correspondiente posición del SEQ ID NO: 25, donde la posición híbrida es uno de los residuos designados como "X" en el SEQ ID NO: 26; o (b) cuando la polimerasa es idéntica al menos en un 85% al SEQ ID NO: 25, la secuencia comprende al menos una posición híbrida que está mutada desde el residuo de Deep Vent® nativo al residuo que existe en la correspondiente posición del SEQ ID NO: 24, donde la posición híbrida es uno de los residuos designados como "X" en el SEQ ID NO: 26. La polimerasa puede ser al menos idéntica en un 90% a lo largo de los 700 aminoácidos contiguos de la secuencia de Pfu mostrada en el SEQ ID NO: 24 o idéntica al menos en un 90% a lo largo de los 700 aminoácidos contiguos de la secuencia Deep Vent® mostrada en el SEQ ID NO: 25.

En algunas realizaciones, la polimerasa híbrida comprende al menos diez posiciones híbridas, típicamente veinte posiciones híbridas, treinta posiciones híbridas, cuarenta posiciones híbridas, o cincuenta o más posiciones híbridas, que están mutadas a partir del residuo nativo del SEQ ID NO: 24 o el SEQ ID NO: 25 al correspondiente residuo del SEQ ID NO: 25 o el SEQ ID NO: 24, respectivamente.

En otras realizaciones, la polimerasa híbrida comprende una secuencia de aminoácidos del SEQ ID NO: 2, el SEQ ID NO: 12; o la región de la polimerasa del SEQ ID NO: 6, el SEQ ID NO: 8 o el SEQ ID NO: 10.

La invención también incluye realizaciones en las cuales la polimerasa híbrida comprende adicionalmente un dominio de unión a ADN, a menudo Sso7d, Sac7d, y Sac7e. A menudo, el dominio de unión a ADN está conjugado con la polimerasa. En algunas realizaciones, el producto conjugado con el dominio de unión a ADN de la polimerasa comprende una secuencia de aminoácidos del SEQ ID NO: 4, el SEQ ID NO: 6, el SEQ ID NO: 8, el SEQ ID NO: 10 o el SEQ ID NO: 14.

La invención también proporciona ácidos nucleicos aislados que codifican las polimerasas híbridas, y productos conjugados que comprenden la polimerasa híbrida conectada a un dominio de unión a ADN; y vectores de expresión y células anfitrionas que comprenden los ácidos nucleicos.

En otro aspecto, la invención proporciona un ácido nucleico aislado que codifica un polipéptido que comprende una secuencia de aminoácidos idéntica al menos en un 94% al SEQ ID NO: 2, donde el polipéptido muestra actividad polimerasa. En realizaciones típicas, el polipéptido comprende el SEQ ID NO: 2. En algunas realizaciones, el ácido nucleico aislado comprende el SEQ ID NO: 1.

La invención también proporciona realizaciones, donde el polipéptido codificado por el ácido nucleico comprende adicionalmente un dominio de unión a ADN, que se selecciona a menudo del grupo que consiste en Sso7d, Sac7d, y Sac7e. El ácido nucleico puede codificar un polipéptido que comprende el SEQ ID NO: 4. En una realización, el ácido nucleico comprende el SEQ ID NO: 3.

En otros aspectos, la invención proporciona vectores de expresión y células anfitrionas que comprenden los ácidos nucleicos.

En otro aspecto, la invención proporciona un polipéptido aislado que comprende una secuencia de aminoácidos idéntica al menos en un 94% al SEQ ID NO: 2, donde el polipéptido tiene actividad polimerasa. En una realización, el polipéptido comprende el SEQ ID NO: 2.

En algunas realizaciones, el polipéptido comprende adicionalmente un dominio de unión a ADN, p. ej., Sso7d, Sac7d, o Sac7e. El dominio de unión a ADN puede ser fusionado al extremo carboxi del polipéptido. En una realización, el polipéptido comprende el SEQ ID NO: 4.

La invención proporciona un ácido nucleico aislado que codifica un polipéptido que comprende una secuencia de aminoácidos idéntica al menos en un 94% al SEQ ID NO: 12; o la región polimerasa del SEQ ID NO: 6, el SEQ ID NO: 8, o el SEQ ID NO: 10, donde el polipéptido muestra actividad polimerasa. En realizaciones típicas, el polipéptido comprende el SEQ ID NO: 12, o la región polimerasa del SEQ ID NO: 6, el SEQ ID NO: 8, o el SEQ ID NO: 10. En algunas realizaciones, el ácido nucleico aislado comprende el SEQ ID NO: 11; o la región polimerasa del SEQ ID NO: 5, el SEQ ID NO: 7 o el SEQ ID NO: 9.

La invención también proporciona realizaciones, donde el polipéptido codificado por el ácido nucleico comprende adicionalmente un dominio de unión a ADN, que se selecciona a menudo del grupo que consiste en Sso7d, Sac7d, y Sac7e. El ácido nucleico puede codificar un polipéptido que comprende el SEQ ID NO: 6, el SEQ ID NO: 8, el SEQ ID NO: 10, o el SEQ ID NO: 14. En una realización, el ácido nucleico comprende el SEQ ID NO: 5, el SEQ ID NO: 7, el SEQ ID NO: 9, el SEQ ID NO: 13, o el SEQ ID NO: 1.

En otro aspecto, la invención proporciona un polipéptido aislado que comprende una secuencia de aminoácidos idéntica al menos en un 94% al SEQ ID NO: 12, o la región polimerasa del SEQ ID NO: 6, el SEQ ID NO: 8, o el SEQ ID NO: 10, donde el polipéptido tiene actividad polimerasa. En una realización, el polipéptido comprende el SEQ ID NO: 12, o la región polimerasa del SEQ ID NO: 6, el SEQ ID NO: 8, o el SEQ ID NO: 10.

En algunas realizaciones, comprende adicionalmente un dominio de unión a ADN, p. ej., Sso7d, Sac7d, o Sac7e. El dominio de unión a ADN puede ser fusionado al extremo carboxi del polipéptido. En una realización, el polipéptido comprende el SEQ ID NO: 6, el SEQ ID NO: 8, el SEQ ID NO: 10, o el SEQ ID NO: 14.

Breve descripción de los dibujos

La Figura 1 muestra un alineamiento BlastP de la polimerasa de Pyrococcus furiosus (Pfu) (problema 1) frente a la polimerasa GB-D de Pyrococcus sp. (Deep Vent®) (sujeto 1).

La Figura 2 muestra un alineamiento de las secuencias de polimerasa Pfu parental y Deep Vent®. La secuencia de polimerasa de diseño de la proteína híbrida muestra las posiciones que varían, entre las dos secuencias parentales, que están designadas por una X. Los "residuos correspondientes" de las secuencias son aquellos residuos que existen en la misma posición mostrada en el alineamiento.

La Figura 3 muestra un ejemplo de PCR de ensamblaje. En este ejemplo, se someten oligonucleótidos degenerados de 100 pares de bases a rondas de hibridación y extensión del cebador hasta obtener fragmentos de aproximadamente 500 pares de bases. Estas genotecas de fragmentos tienen un tamaño suficientemente grande para ser fácilmente manipuladas y ensambladas en clones completos o genotecas de clones completos mediante técnicas de clonación molecular convencionales.

La Figura 4 muestra las secuencias de las proteínas Dut parentales y el alineamiento BLASTP de las secuencias parentales.

La Figura 5 muestra las degeneraciones en las posiciones que difieren en las proteínas Dut parentales. 5A.: Secuencia parental alineada que muestra todos los posibles codones en el orden de su frecuencia de uso por E. coli. SB: La secuencia consenso se obtiene encontrando los codones que codificarán ambas secuencias con un número mínimo de degeneraciones. Se prefieren los codones utilizados frecuentemente por E. coli. 5C: Las degeneraciones de ácido nucleico que incorporan secuencias de aminoácidos no similares (el número BLOSUM 62 es <0) a cualquier secuencia de aminoácidos parental son eliminadas; en este ejemplo se utiliza en su lugar el ácido nucleico que codifica la secuencia de proteína térmicamente estable, AAD. Éstas se indican en negrita. La secuencia de la enzima térmicamente estable también se utiliza para decidir la conservación de un espacio y eliminar los 2 casos en los que se podrían incorporar codones de terminación a la secuencia.

La Figura 6 muestra los sitios de cebado y restricción (negrita) que fueron añadidos a los extremos de la secuencia. En dos casos, se cambió el uso de codones para añadir sitios de restricción (subrayados y en cursiva). Los aminoácidos codificados por la secuencia se indican bajo los codones.

La Figura 7 muestra la secuencia de oligonucleótidos codificante mínima que se va a sintetizar para ensamblar la genoteca híbrida de Dut. La secuencia de ADN se convirtió en un código de nucleótidos de una sola letra utilizando las designaciones convencionales y se seleccionaron las secuencias de nucleótidos (debajo en negrita). Las selecciones se hicieron de manera que existen degeneraciones mínimas donde se espera que los cebadores hibriden entre sí durante el ensamblaje. En un tramo de la secuencia no había región en la que se pudieran seleccionar secuencias de oligonucleótidos hibridables de tamaño razonable. En este ejemplo, el sitio ClaI (subrayado) insertado en la etapa previa se utilizó para ensamblar una genoteca codificante de proteínas completas a partir de 2 fragmentos de restricción.

La Figura 8 muestra la secuencia codificante mínima utilizada para generar oligonucleótidos que codifican una ADN polimerasa Híbrida Pfu/Deep Vent® como se explica en el ejemplo 2. Los nucleótidos degenerados están entre paréntesis. Se indican las secuencias de aminoácidos que difieren entre las proteínas parentales (los "emparejamientos erróneos"). Los aminoácidos no parentales se indican en negrita. Los ejemplos mencionados en el texto están numerados.

La Figura 9 muestra una comparación de las razones de polimerasa con respecto a exonucleasa 3' para varias enzimas asequibles comercialmente, incluyendo las proteínas parentales, y los productos aislados de la genoteca de híbridos.

La Figura 10 muestra los resultados de una comparación de polimerasas híbridas y parentales. Las enzimas se sometieron a ensayo en busca de la capacidad para amplificar amplicones de ADN del bacteriófago lambda de una gama de tamaños, dado un tiempo de extensión de 30 seg o 1 min. Los tamaños de los amplicones, en kilobases, se enumeran en las partes inferiores de las calles. Se utilizaron 20 unidades de enzima por ml a menos que se indicara de otro modo.

La Figura 11 muestra una comparación de las secuencias de proteínas polimerasa parentales e híbridas.

La Figura 12 muestra un elemento de secuencia que es común a las secuencias parentales e híbridas.

Descripción detallada de la invención A. Visión General

En la presente memoria se describen métodos para crear proteínas híbridas que tienen un fenotipo deseado. En general a menudo es deseable crear nuevas proteínas con funciones que son similares a, pero alteradas a partir de, las funciones de proteínas existentes conocidas, p. ej., puede ser deseable para crear proteínas con una estabilidad mejorada, una actividad enzimática mejorada o disminuida hacia sustratos concretos, afinidad mejorada o disminuida por ligandos concretos, etc. Por ejemplo, una enzima ADN polimerasa puede tener actividades tanto polimerasa como exonucleasa, y puede ser útil para crear nuevas enzimas con diferentes proporciones de esas dos actividades. Tales métodos pueden producir grandes números de proteínas que pueden ser escrutadas en busca de propiedades deseables.

Con la secuenciación de los genomas humano, de ratón, y muchos invertebrados y microbianos sustancialmente completa, se encuentran disponibles una gran variedad de genes y secuencias de proteínas deducidas. Se puede utilizar la información de secuencias brutas sobre variaciones de proteínas como fuente para generar proteínas variantes útiles.

En particular, se puede sintetizar una genoteca de ácido nucleico que codifica híbridos de dos o más proteínas parentales y proteínas híbridas que tienen un fenotipo o actividad deseados. Típicamente, la genoteca comprenderá 32 o más proteínas híbridas. Una genoteca de ácidos nucleicos híbridos puede codificar una pluralidad de proteínas híbridas y proteínas híbridas sintéticas que comprenden una similitud de aminoácidos de más del 60%, a menudo una identidad de más del 60%, con cada miembro de un grupo de al menos dos proteínas parentales.

La práctica de esta invención implica la construcción de proteínas recombinantes y su expresión en células anfitrionas. Las técnicas de clonación molecular para lograr estos fines son conocidas en la técnica. Una amplia variedad de métodos de clonación y amplificación in vitro adecuados para la construcción de ácidos nucleicos recombinantes tales como vectores de expresión son bien conocidos por los expertos en la técnica. Los textos generales que describen técnicas de biología molecular, útiles en la presente memoria, incluyen Sambrook & Russell, Molecular Cloning, A Laboratory Manual (3ª Ed, 2001) ("Sambrook"); Kriegler, Gene Transfer and Expression: A Laboratory Manual (1990); y Current Protocols in Molecular Biology, Ausubel et al., eds., 1994-1999, John Wiley & Sons, Inc ("Ausubel").

Las secuencias parentales para generar proteínas híbridas para una proteína de interés pueden ser identificadas por diferentes métodos de comparación de secuencias de aminoácidos. Utilizando estas técnicas, un experto en la técnica puede identificar regiones conservadas en los ácidos nucleicos que codifican las proteínas de la invención para preparar oligonucleótidos apropiados que pueden ser utilizados para generar las proteínas híbridas.

Los oligonucleótidos pueden ser elaborados a la medida y pedidos a una variedad de fuentes comerciales conocidas en la técnica. Aquellos que no son asequibles comercialmente pueden ser sintetizados químicamente utilizando una variedad de métodos químicos, p. ej., el método del triéster de fosforamidita en fase sólida descrito primero por Beaucage & Caruthers, Tetrahedron Letts. 22:1859-1862 (1981), utilizando un sintetizador automático, como describen Van Devanter et. al., en Nucleic Acids Res. 12:6159-6168 (1984). La purificación de oligonucleótidos se realiza utilizando métodos conocidos, p. ej., mediante electroforesis en gel de acrilamida nativa o mediante HPLC de intercambio aniónico como describen Pearson & Reanier, J. Chrom. 255:137-149 (1983).

Los ácidos nucleicos que codifican las proteínas híbridas o los segmentos de las proteínas híbridas pueden ser amplificados a partir de muestras de ácido nucleico, p. ej., segmentos de oligonucleótidos, utilizando diferentes técnicas de amplificación/extensión. Por ejemplo, se puede utilizar la tecnología de reacción en cadena de la polimerasa (PCR) para obtener secuencias de ácido nucleico que codifican proteínas híbridas que van a ser expresadas, para elaborar ácidos nucleicos para utilizarlos como sondas para detectar la presencia de las secuencias de ácido nucleico deseadas en muestras, para la secuenciación de ácidos nucleicos, o para otros fines. Para una visión general de la PCR véase PCR Protocols: A Guide to Methods and Applications. (Innis, M, Gelfand, D., Sninsky, J. y White, T., eds.), Academic Press, San Diego (1990).

Las secuencias de ácido nucleico que codifican las proteínas híbridas de la invención pueden ser clonadas en vectores de expresión para generar una genoteca de secuencias que codifican proteínas híbridas individuales.

El siguiente estudio proporciona detalles sobre cómo seleccionar y alinear las proteínas de partida parentales, cómo crear la genoteca de ácidos nucleicos que codifica polipéptidos híbridos derivados de las proteínas parentales, y cómo evaluar las proteínas obtenidas de la genoteca.

La presente invención también proporciona polipéptidos de polimerasas híbridas y secuencias de ácido nucleico que fueron generadas utilizando los métodos descritos en la presente memoria. En algunas realizaciones, los polipéptidos comprenden adicionalmente un dominio de unión a ADN, p. ej., una proteína básica pequeña Archaeal, tal como un dominio de unión a ADN Sso7d, Sac7d, o Sac7e, que es fusionado al polipéptido. El dominio de unión a ADN típicamente aumenta la afinidad de unión de la enzima al ácido nucleico y puede aumentar la capacidad de procesamiento de las polimerasas.

\newpage

Las polimerasas de la invención incluyen polimerasas idénticas o sustancialmente idénticas a las secuencias de polimerasa descritas en los SEQ ID NO: 2, SEQ ID NO: 4, SEQ ID NO: 6, SEQ ID NO: 8, SEQ ID NO: 10, SEQ ID NO: 12 o, SEQ ID NO: 14. Tales polimerasas a menudo muestran una actividad alterada en comparación con la de la polimerasa Pfu de tipo salvaje o Deep Vent®.

\vskip1.000000\baselineskip

B. Definiciones

El término "proteína híbrida" se utiliza en la presente memoria para describir un polipéptido que comprende residuos de aminoácido de múltiples secuencias de polipéptidos parentales.

El término "posición híbrida" hace referencia a una posición que difiere entre las secuencias de polipéptidos parentales, o subsecuencias.

El término "amplificación" hace referencia a un procedimiento por medio del cual aumenta el número de copias de un fragmento de ácido nucleico.

Una "secuencia parental" indica una secuencia de aminoácidos o de ácido nucleico de partida o de referencia antes de la manipulación de la invención. El término se utiliza indistintamente con "secuencia de partida". Las secuencias parentales pueden ser proteínas de tipo salvaje, proteínas híbridas, proteínas que contienen mutaciones, u otras proteínas diseñadas. Las secuencias parentales pueden ser proteínas completas, subunidades de proteínas, dominios de proteínas, motivos de aminoácidos, sitios activos de proteínas, o cualquier secuencia de polipéptidos o subgrupo de secuencias de polipéptidos, ya sea continua o interrumpida por otras secuencias de polipéptidos.

El término "de tipo salvaje" hace referencia a una secuencia de polinucleótidos o polipéptidos que no comprende mutaciones. Una proteína "de tipo salvaje" hace referencia a una proteína activa a un nivel de actividad encontrado en la naturaleza y que comprende típicamente la secuencia de aminoácidos encontrada en la naturaleza.

Una secuencia de polipéptidos "nativa" hace referencia a una secuencia de polipéptidos parental, típicamente una secuencia "de tipo salvaje".

El término "mutaciones" hace referencia a cambios en la secuencia de una secuencia de ácido nucleico de tipo salvaje o cambios en las secuencias de un péptido. Tales mutaciones pueden ser mutaciones puntuales tales como transiciones o transversiones, o deleciones, inserciones, o duplicaciones.

El término "de origen natural" según se utiliza en la presente memoria hace referencia a un ácido nucleico o polipéptido que puede ser encontrado en la naturaleza. Por ejemplo, una secuencia de polipéptidos o polinucleótidos que está presente en un organismo que puede ser aislado de una fuente en la naturaleza y que no ha sido modificada intencionadamente en un laboratorio es de origen natural.

Una actividad "biológica común" hace referencia a una actividad que es compartida por dos o más proteínas donde la actividad biológica común es una actividad que se encuentra en la naturaleza. La actividad biológica de una proteína puede ser evaluada utilizando métodos convencionales conocidos en la técnica para determinar la función de una proteína.

El término "dominio de unión a ADN" hace referencia a un dominio de proteína que se une con una afinidad significativa a ADN, para el cual no se conoce un ácido nucleico que se una al dominio de la proteína con más de 100 veces más afinidad que otro ácido nucleico con la misma composición de nucleótidos pero con una secuencia de nucleótidos diferente.

El término "Sso7d" o "dominio de unión a ADN Sso7d" o "dominio de unión a ADN de tipo Sso7d" o "proteína de unión a Sso7d" hace referencia a variantes polimórficas de ácido nucleico y polipéptido, alelos, mutantes, e interespecies homólogas que: (1) tienen una secuencia de aminoácidos que tiene una identidad de secuencia de aminoácidos de más de aproximadamente el 60%, 65%, 70%, 75%, 80%, 85%, 90%, preferiblemente 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% o 99% o una identidad de secuencia de aminoácidos mayor, preferiblemente a lo largo de una región de al menos aproximadamente 15, 25, 35, 50, o más aminoácidos, con una secuencia Sso7d de SEQ ID NO: 22; (2) se unen a anticuerpos, p. ej., anticuerpos policlonales, originados contra un inmunógeno que comprende una secuencia de aminoácidos del SEQ ID NO: 22 y sus variantes modificadas conservativamente; (3) hibridan específicamente en condiciones de hibridación restrictivas con una secuencia de ácido nucleico Sso7d de SEQ ID NO: 21 y sus variantes modificadas conservativamente; o (4) tienen una secuencia de ácido nucleico que tiene una identidad de secuencia de nucleótidos de más de aproximadamente 90%, preferiblemente más de aproximadamente 96%, 97%, 98%, 99%, o superior, preferiblemente a lo largo de una región de al menos aproximadamente 50, 100, 150, o más nucleótidos, con el SEQ ID NO: 21. El término incluye tanto polipéptidos Sso7d completos como fragmentos de los polipéptidos que tienen actividad de unión a la doble hebra no específica de la secuencia. Las proteínas de tipo Sso7d incluyen Sac7d y Sac7e.

"Dominio" hace referencia a una unidad de una proteína o complejo de proteína, que comprende una subsecuencia de un polipéptido, una secuencia de polipéptido completa, o una pluralidad de secuencias de polipéptidos donde esa unidad tiene una función definida. Se entiende que la función está ampliamente definida y puede ser la unión a un ligando, una actividad catalítica o puede tener un efecto estabilizante sobre la estructura de la proteína.

Un "producto conjugado de polimerasa Sso7d" hace referencia a una polimerasa modificada que comprende al menos un dominio de unión a ADN Sso7D acoplado a un dominio polimerasa, o una subunidad catalítica del dominio polimerasa.

"Potencia" en el contexto de una enzima hace referencia a la mejora de la actividad de la enzima, esto es, incremento de la cantidad de producto por unidad de enzima por unidad de tiempo.

"Fusionado" hace referencia a una conexión por medio de un enlace covalente.

"Heterólogo", cuando se utiliza en referencia a porciones de una proteína, indica que la proteína comprende dos o más dominios que no se encuentran en la misma relación entre sí en la naturaleza. Semejante proteína, p. ej., una proteína de fusión, contiene dos o más dominios de proteínas no relacionadas dispuestas para formar una nueva proteína funcional.

Una secuencia de polinucleótidos es "heteróloga con respecto a" un organismo o una segunda secuencia de polinucleótidos si se origina a partir de una especie foránea, o, si es a partir de la misma especie, está modificada a partir de su forma original. Por ejemplo, un promotor conectado operablemente a una secuencia codificante heteróloga hace referencia a una secuencia codificante de una especie diferente de aquella de la cual se obtuvo el promotor, o, si es de la misma especie, una secuencia codificante que es diferente de cualquiera de las variantes alélicas de origen natural.

"Empalme" hace referencia a cualquier método conocido en la técnica para conectar funcionalmente dominios de proteína, incluyendo sin limitación la fusión recombinante con o sin dominios intermedios, fusión mediada por inteína, asociación no covalente, y enlace covalente, incluyendo enlace disulfuro; enlace de hidrógeno; enlace electrostático; y enlace conformacional, p. ej., asociaciones anticuerpo-antígeno, y biotina-avidina.

"Polimerasa" hace referencia a una enzima que realiza la síntesis de polinucleótidos dirigida por un molde. El término abarca tanto el polipéptido completo como un dominio que tiene actividad polimerasa.

"Eficacia" en el contexto de una polimerasa de esta invención hace referencia a la capacidad de la enzima para realizar su función catalítica en condiciones de reacción específicas. Típicamente, la "eficacia" según se define en la presente memoria está indicada por la cantidad de producto generado en condiciones de reacción dadas.

"Capacidad de procesamiento" hace referencia a la capacidad de una polimerasa para permanecer unida al molde o sustrato y realizar la síntesis de polinucleótidos. La capacidad de procesamiento se mide por el número de eventos catalíticos que tienen lugar por evento de unión.

"Polimerasa térmicamente estable" según se utiliza en la presente memoria hace referencia a cualquier enzima que cataliza la síntesis de polinucleótidos mediante la adición de unidades de nucleótido a una cadena de nucleótidos utilizando ADN o ARN como molde y tiene una actividad óptima a una temperatura superior a 45ºC.

"Reacción en cadena de la polimerasa" o "PCR" hace referencia a un método por medio del cual un segmento específico o subsecuencia de un ADN de doble hebra diana, es amplificado en progresión geométrica. La PCR es bien conocida por los expertos en la técnica; véanse, p. ej., las Patentes de los Estados Unidos 4.683.195 y 4.683.202; y PCR Protocols: A Guide to Methods and Applications, Innis et al., eds, 1990. Las condiciones de reacción de PCR ilustrativas comprenden típicamente ciclos de dos o tres etapas. Los ciclos de dos etapas tienen una etapa de desnaturalización seguida de una etapa de hibridación/elongación. Los ciclos de tres etapas comprenden una etapa de desnaturalización seguida de una etapa de hibridación separada.

"Amplificar" hace referencia a una etapa en la que una solución se somete a condiciones suficientes para permitir la amplificación de un polinucleótido si todos los componentes de la reacción están intactos. Los componentes de una reacción de amplificación incluyen, por ejemplo, cebadores, un molde polinucleotídico, polimerasa, nucleótidos, y similares. El término "amplificar" hace referencia típicamente a un incremento "exponencial" en un ácido nucleico diana. No obstante, "amplificar" según se utiliza en la presente memoria también puede hacer referencia a incrementos lineales en el número de una secuencia diana de ácido nucleico seleccionada, tal como se obtiene con la secuenciación por ciclos.

El término "mezcla de reacción para amplificación" hace referencia a una solución acuosa que comprende los diferentes reactivos utilizados para amplificar un ácido nucleico diana. Estos incluyen enzimas, tampones acuosos, sales, cebadores de amplificación, ácido nucleico diana, y nucleósidos trifosfato. Dependiendo del contexto, la mezcla puede ser una mezcla de reacción de amplificación completa o incompleta.

La "PCR larga" hace referencia a la amplificación de un fragmento de ADN de 5 kb o más de longitud. La PCR larga se realiza típicamente utilizando polimerasas o mezclas de polimerasas especialmente adaptadas (véanse, p. ej., las Patentes de los Estados Unidos Núms. 5.436.149 y 5.512.462) que son distintas de las polimerasas utilizadas convencionalmente para amplificar productos más cortos.

La "sensibilidad" de la PCR hace referencia a la capacidad para amplificar un ácido nucleico diana que está presente en un número de copias bajo. "Número de copias bajo" hace referencia a 10^{5}, a menudo 10^{4}, 10^{3}, 10^{2}, 10^{1} o menos, copias de la secuencia diana en la muestra de ácido nucleico que se va a amplificar.

El término "especificidad cebador/molde de la polimerasa" según se utiliza en la presente memoria hace referencia a la capacidad de una polimerasa para discriminar entre cebador/moldes correctamente emparejados y cebador/moldes emparejados erróneamente. Un "incremento en la especificidad de unión cebador/molde de la polimerasa" en este contexto hace referencia a un incremento de la capacidad de una polimerasa de la invención para discriminar entre cebador/molde emparejado en comparación con una proteína polimerasa de tipo salvaje.

"Ácido nucleico" y "polinucleótido" se utilizan indistintamente en la presente memoria para hacer referencia a desoxirribonucleótidos o ribonucleótidos y polímeros de los mismos en forma de hebra sencilla o de doble hebra. El término incluye ácidos nucleicos que contienen análogos de nucleótidos conocidos o residuos de esqueleto modificado o conexiones, que son sintéticos, de origen natural, y de origen no natural, que tienen propiedades de unión similares a las del ácido nucleico de referencia, y que son metabolizados de una manera similar a los nucleótidos de referencia. Los ejemplos de tales análogos incluyen, sin limitación, fosforotioatos, fosforamiditas, metilfosfonatos, metil-fosfonatos quirales, 2-O-metil-ribonucleótidos, y ácidos péptido-nucleicos (PNA).

"Polipéptido", "péptido" y "proteína" se utilizan indistintamente en la presente memoria para hacer referencia a un polímero de residuos de aminoácido. Los términos se aplican a polímeros de aminoácido de origen natural, así como polímeros de aminoácido en los cuales uno o más residuos de aminoácidos son un mimético químico artificial de un aminoácido de origen natural correspondiente.

El término "aminoácido" hace referencia a aminoácidos naturales y sintéticos, así como análogos de aminoácidos y miméticos de aminoácidos que funcionan de una manera similar a los aminoácidos de origen natural. Los aminoácidos de origen natural son aquellos codificados por el código genético, así como aquellos aminoácidos que se modifican más tarde, p. ej., hidroxiprolina, \gamma-carboxiglutamato, y O-fosfoserina. Los análogos de aminoácido hacen referencia a compuestos que tienen la misma estructura química básica que el aminoácido de origen natural, esto es, un carbono \alpha que está unido a un hidrógeno, un grupo carboxilo, un grupo amino, y un grupo R, p. ej., homoserina, norleucina, metionin-sulfóxido, metionin-metil-sulfonio. Tales análogos tienen grupos R modificados (p. ej., norleucina) o esqueletos peptídicos modificados, pero conservan la misma estructura química básica que un aminoácido de origen natural. Los miméticos de aminoácidos hacen referencia a compuestos químicos que tienen una estructura que es diferente de la estructura química general de un aminoácido, pero que funciona de una manera similar a la de un aminoácido de origen natural.

Los aminoácidos pueden ser referidos en la presente memoria por sus símbolos de tres letras comúnmente conocidos o por los símbolos de una letra recomendados por la Comisión de Nomenclatura Química IUPAC-IUB. Los nucleótidos, del mismo modo, pueden ser referidos por sus códigos de una sola letra comúnmente aceptados.

"Variantes modificadas conservativamente" se aplica a secuencias tanto de aminoácidos como de ácidos nucleicos. Con respecto a secuencias de ácido nucleico concretas, las variantes modificadas conservativamente hacen referencia a aquellos ácidos nucleicos que codifican secuencias de aminoácidos idénticas o sustancialmente idénticas, o cuando el ácido nucleico no codifica una secuencia de aminoácidos, a secuencias sustancialmente idénticas. Debido a la degeneración del código genético, un gran número de ácidos nucleicos funcionalmente idénticos codifican cualquier proteína dada. Por ejemplo, los codones GCA, GCC, GCG y GCU codifican todos el aminoácido alanina. De este modo, en cada posición en la que una alanina es especificada por un codón, el codón puede ser alterado a cualquiera de los codones correspondientes descritos sin alterar el polipéptido codificado. Tales variaciones de ácidos nucleicos son "variaciones silenciosas", que son una especie de variaciones modificadas conservativamente. Cada secuencia de ácido nucleico de la presente memoria que codifica un polipéptido también describe cada posible variación silenciosa del ácido nucleico. Un experto reconocerá que cada codón de un ácido nucleico (excepto AUG, que es normalmente el único codón para metionina, y TGG, que es normalmente el único codón para triptófano) puede ser modificado para rendir una molécula funcionalmente idéntica. Por consiguiente, cada variación silenciosa de un ácido nucleico que codifica un polipéptido está implícita en cada secuencia
descrita.

En cuanto a las secuencias de aminoácidos, un experto en la técnica reconocerá que las sustituciones, deleciones o adiciones individuales a una secuencia de ácido nucleico, péptido, polipéptido, o proteína que altera, añade o suprime un único aminoácido o un pequeño porcentaje de aminoácidos de la secuencia codificada es una "variante modificada conservativamente" donde la alteración da como resultado la sustitución de un aminoácido por un aminoácido químicamente similar. Las tablas de sustituciones conservativas que proporcionan aminoácidos funcionalmente similares son bien conocidas en la técnica. Tales variantes modificadas conservativamente son además de, y sin excluir, las variantes polimórficas, los homólogos interespecie, y los alelos de la invención.

Por ejemplo, se pueden realizar sustituciones en las que un aminoácido alifático (G, A, I, L, o V) es sustituido por otro miembro del grupo. De un modo similar, un grupo no cargado polar alifático tal como C, S, T, M, N, o Q, puede ser sustituido por otro miembro del grupo; y los residuos alcalinos, p. ej., K, R, o H, pueden ser sustituidos unos por otros. En algunas realizaciones, un aminoácido con una cadena lateral ácida, E o D, puede ser sustituido por su contraparte no cargada, Q o N, respectivamente; o viceversa. Cada uno de los ocho grupos siguientes contiene otros aminoácidos ilustrativos que son sustituciones conservativas entre sí:

1): Alanina (A), Glicina (G);

2): Ácido aspártico (D), Ácido glutámico (E);

3): Asparagina (N), Glutamina (Q);

4): Arginina (R), Lisina (K);

5): Isoleucina (I), Leucina (L), Metionina (M), Valina (V);

6): Fenilalanina (F), Tirosina (Y), Triptófano (W);

7): Serina (S), Treonina (T); y

8): Cisteína (C), Metionina (M)

(véase, p. ej., Creighton, Proteins (1984)).

\vskip1.000000\baselineskip

Un "ácido nucleico de polimerasa" o "polinucleótido de polimerasa" es una secuencia o subsecuencia de polinucleótidos que codifica una proteína que comprende un dominio de polimerasa. Los ácidos nucleicos que codifican realizaciones ilustrativas de las polimerasas de la invención son idénticos o sustancialmente idénticos a un ácido nucleico que codifica una polimerasa descrita en la presente memoria, p. ej., una secuencia mostrada en los SEQ ID NO: 1, SEQ ID NO: 3, SEQ ID NO: 5, SEQ ID NO: 7, SEQ ID NO: 9, SEQ ID NO: 11 o, SEQ ID NO: 13; que codifica un polipéptido de polimerasa idéntico o sustancialmente idéntico a los SEQ ID NO: 2, SEQ ID NO: 4, SEQ ID NO: 6, SEQ ID NO: 8, SEQ ID NO: 10, SEQ ID NO: 12, o SEQ ID NO: 14.

Un "polipéptido de polimerasa" de la presente invención es una proteína que comprende un dominio polimerasa. El polipéptido de polimerasa también puede comprender dominios adicionales incluyendo un dominio de unión a ADN, p. ej., Sso7D. Las ADN polimerasas son bien conocidas en la técnica, p. ej., Pyrococcus furiosus, Thermococcus litoralis, y Thermotoga maritima. Incluyen tanto polimerasas dependientes de ADN como polimerasas dependientes de ARN tales como la transcriptasa inversa. Se conocen al menos cinco familias de polimerasas dependientes de ADN, aunque la mayoría se encuentran en las familias A, B y C. Existe poca o ninguna similitud de secuencia entre las diferentes familias. La mayor parte de las polimerasas de la familia A son proteínas de cadena sencilla que pueden contener múltiples funciones enzimáticas incluyendo actividad polimerasa, actividad exonucleasa 3' a 5' y actividad exonucleasa 5' a 3'. Las polimerasas de la familia B tienen típicamente un único dominio catalítico con actividad polimerasa y exonucleasa 3' a 5', así como factores accesorios. Las polimerasas de la familia C son típicamente proteínas de múltiples subunidades con actividad polimerizante y exonucleasa 3' a 5'. En E. coli, se han encontrado tres tipos de ADN polimerasas, ADN polimerasa I (familia A), II (familia B), y III (familia C). En células eucarióticas, tres polimerasas de la familia B diferentes, las ADN polimerasas \alpha, \delta, y \varepsilon, están implicadas en la replicación nuclear, y una polimerasa de la familia A, la polimerasa \gamma, se utiliza para la replicación de ADN mitocondrial. Otros tipos de ADN polimerasas incluyen las polimerasas de fagos. De un modo similar, las ARN polimerasas incluyen típicamente las ARN polimerasas eucarióticas I, II, y III, y las ARN polimerasas bacterianas así como las polimerasas de fagos y virales. Las ARN polimerasas pueden ser dependientes de ADN y dependientes de ARN.

Las realizaciones ilustrativas de las polimerasas de la presente invención incluyen una polimerasa idéntica o sustancialmente idéntica al SEQ ID NO: 2, SEQ ID NO: 4, SEQ ID NO: 6, SEQ ID NO: 8, SEQ ID NO: 10, SEQ ID NO: 12, o SEQ ID NO: 14. Un profesional experto comprenderá que los residuos de aminoácido específicos de las polimerasas pueden ser modificados, p. ej., modificados conservativamente, sin afectar significativamente a la capacidad polimerasa mejorada. Como media, existen al menos 6 aminoácidos por 100 que pueden ser modificados. Incluyen, por ejemplo, sustituir la Glicina de la posición 12 por alanina, la metionina de la posición 1 por valina, la isoleucina de la posición 2 por leucina, la isoleucina de la posición 8 por valina, o la treonina de la posición 33 por serina. (Las posiciones se indican con referencia al SEQ ID NO: 26).

Las polimerasas de la presente invención pueden ser identificadas por su capacidad para unirse a anticuerpos, p. ej., anticuerpos policlonales, originados contra un inmunógeno que comprende una secuencia de aminoácidos de los SEQ ID NO: 2, SEQ ID NO: 4, SEQ ID NO: 6, SEQ ID NO: 8, SEQ ID NO: 10, SEQ ID NO: 12, o SEQ ID NO: 14, y sus variantes modificadas conservativamente.

Las polimerasas polipeptídicas de la presente invención tienen actividad polimerasa. Utilizando los análisis descritos en la presente memoria, se puede medir la actividad de los polipéptidos de la presente invención. Algunos polipéptidos de polimerasa de la invención muestran una actividad polimerasa mejorada en comparación con las polimerasas de tipo salvaje en los análisis descritos en la presente memoria.

Se dice que dos secuencias de ácido nucleico o polipéptidos son idénticas si las secuencias de nucleótidos o los residuos de aminoácido, respectivamente, de las dos secuencias son las mismas cuando se alinean para una correspondencia máxima como se describe más abajo. Los términos "idéntico" o porcentaje de "identidad", en el contexto de dos o más secuencias de ácido nucleico o polipéptidos, hacen referencia a dos o más secuencias o subsecuencias que son iguales o tienen un porcentaje especificado de residuos de aminoácido o nucleótidos que son iguales, cuando se comparan y se alinean para una correspondencia máxima a lo largo de una ventana de comparación, medidos utilizando uno de los algoritmos de comparación de la secuencia descritos más adelante o mediante alineamiento manual e inspección visual.

Cuando se hace referencia a proteínas o péptidos y con el fin de alinear polipéptidos, se reconoce que las posiciones de los residuos que no son idénticos a menudo difieren en sustituciones de aminoácidos conservativas, donde los residuos de aminoácidos son sustituidos por otros residuos de aminoácido con propiedades químicas similares (p. ej. carga o carácter hidrófobo) y no cambian necesariamente las propiedades funcionales de la molécula. La puntuación de las sustituciones conservativas para los fines de esta patente se basa en la matriz BLOSUM62 (Henikoff & Henikoff, Proc. Natl. Acad. Sci. USA 89:10915, 1989).

El término "similitud de secuencia" o "similar" también se puede utilizar con respecto a secuencias de aminoácidos. Este término incluye sustituciones conservativas, como se ha descrito antes. Con el fin de determinar el porcentaje de similitud, se considera que dos aminoácidos son similares si se les da un valor mayor de cero (0) en la matriz de sustitución BLOSUM62. El alineamiento óptimo para determinar el porcentaje de similitud de secuencia se puede realizar utilizando diferentes algoritmos como se explica adicionalmente en la presente memoria más abajo. En los casos en los que el alineamiento óptimo de dos secuencias requiere la inserción de un espacio en una o ambas secuencias, un residuo de aminoácido que se alinea con un espacio de la otra secuencia se cuenta como emparejamiento erróneo con el propósito de determinar el porcentaje de identidad. Los espacios pueden ser internos o externos, esto es, un truncamiento.

El término "porcentaje de identidad absoluto" hace referencia a un porcentaje de identidad de secuencia determinado puntuando los aminoácidos idénticos como 1 y cualquier sustitución como cero, con independencia de la similitud de los aminoácidos emparejados erróneamente. En un alineamiento de secuencia típico, p. ej., un alineamiento BLAST, el "porcentaje de identidad absoluto" de dos secuencias se presenta como el porcentaje de "identidades" de aminoácidos. Según se utiliza en la presente memoria, cuando una secuencia se define por ser "idéntica al menos en un x%" con respecto a una secuencia de referencia, p. ej., "un polipéptido idéntico al menos en un 90% al SEQ ID NO: 2", se debe entender que "idéntico en un X%" hace referencia a un porcentaje de identidad absoluto, a menos que se indique de otro modo. En los casos en los que un alineamiento óptimo de dos secuencias requiere la inserción de un espacio en una o ambas secuencias, un residuo de aminoácido de una secuencia que se alinea con un espacio de la otra secuencia se cuenta como un emparejamiento erróneo con el propósito de determinar el porcentaje de identidad. Los espacios pueden ser internos o externos, esto es, un truncamiento.

El término "identidad sustancial" o "similitud sustancial" de secuencias de polinucleótidos significa que un polinucleótido comprende una secuencia que tiene una identidad de secuencia de al menos 60%, o una similitud de secuencia, respectivamente. Alternativamente, el porcentaje de identidad o el porcentaje de similitud puede ser cualquier número entero de al menos 60% a 100% (p. ej. al menos 60%, 61%, 62%, 63%, 64%, 65%, 66%, 67%, 68%, 69%, 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, 100%).

En algunas realizaciones, p. ej., las secuencias de polimerasa descritas en la presente memoria, secuencias de polimerasa sustancialmente idénticas tienen un 80%, 85%, 90%, 94%, 95%, 96%, 97%, 98%, o 99% en comparación con una secuencia de referencia (p. ej., una polimerasa del SEQ ID NO: 12; o la región de polimerasa del SEQ ID NO: 6, SEQ ID NO: 8, o SEQ ID NO: 10) utilizando los programas descritos en la presente memoria; preferiblemente BLAST utilizando los parámetros y procedimientos convencionales, como se describe más abajo. Un experto en la técnica reconocerá que estos valores se pueden ajustar apropiadamente para determinar la correspondiente identidad o similitud de las proteínas codificadas por dos secuencias de nucleótidos teniendo en cuenta la degeneración de codones, la similitud de aminoácidos, la situación del marco de lectura y similares, como se describe adicionalmente más abajo.

Un experto en la técnica reconocerá que dos polipéptidos también pueden ser "sustancialmente idénticos" si los dos polipéptidos son inmunológicamemte similares. De este modo, la estructura de la proteína global puede ser similar mientras la estructura primaria de los dos polipéptidos presenta una variación significativa. Por lo tanto un método para medir si dos polipéptidos son sustancialmente idénticos implica medir la unión de anticuerpos monoclonales o policlonales a cada polipéptido. Dos polipéptidos son sustancialmente idénticos si los anticuerpos específicos para un primer polipéptido se unen a un segundo polipéptido con una afinidad de al menos un tercio de la afinidad por el primer polipéptido.

Otra indicación de que dos secuencias de ácido nucleico son sustancialmente idénticas es que las dos moléculas o sus complementos hibridan entre sí en condiciones restrictivas, como se describe más abajo. La expresión "hibrida selectivamente (o específicamente) con" hace referencia a la unión, formación de dúplex, o hibridación de una molécula solamente con una secuencia de nucleótidos concreta en condiciones de hibridación restrictivas cuando esa secuencia está presente en una mezcla compleja (p. ej. ADN o ARN celular total o de una genoteca).

La expresión "condiciones de hibridación restrictivas" hace referencia a condiciones en las que una sonda hibridará con su subsecuencia diana, típicamente en una mezcla compleja de ácidos nucleicos, pero no con otras secuencias. Las condiciones restrictivas son dependientes de la secuencia y serán diferentes en las diferentes circunstancias. Las secuencias más largas hibridan específicamente a temperaturas superiores. Una guía exhaustiva para la hibridación de ácidos nucleicos se encuentra en Tijssen, Techniques in Biochemistry and Molecular Biology- -Hybridization with Nucleic Probes, "Overview of principles of hybridization and the strategy of nucleic acid assays" (1993). Generalmente, las condiciones muy restrictivas se seleccionan para que sean aproximadamente 5-10ºC inferiores al punto de fusión térmica (Tm) para la secuencia específica a un pH de fuerza iónica definido. Las condiciones poco restrictivas se seleccionan generalmente para que sean aproximadamente 15-30ºC inferiores a la Tm. La Tm es la temperatura (a una fuerza iónica, pH, y concentración de ácido nucleico definidos) a la cual el 50% de las sondas complementarias a la diana hibridan con la secuencia diana en equilibrio (ya que las secuencias diana están presentes en exceso, a la Tm, el 50% de las sondas están ocupadas en equilibrio). Las condiciones restrictivas serán aquellas en las que la concentración salina de ión sodio es menor de aproximadamente 1,0 M, típicamente una concentración de ión sodio (u otras sales) de aproximadamente 0,01 a 1,0 M a pH 7,0 a 8,3 y la temperatura es de al menos aproximadamente 30ºC para las sondas cortas (p. ej., 10 a 50 nucleótidos) y al menos aproximadamente 60ºC para las sondas largas (p. ej. mayor de 50 nucleótidos). Las condiciones restrictivas también se pueden lograr con la adición de agentes desestabilizantes tales como formamida. Para la hibridación selectiva o específica, una señal positiva es al menos dos veces el fondo, preferiblemente 10 veces la hibridación del fondo.

En la presente invención, los ácidos nucleicos que codifican los polipéptidos de la invención pueden ser identificados en transferencias Southern convencionales en condiciones restrictivas utilizando las secuencias de ácido nucleico descritas aquí. Para los fines de esta descripción, las condiciones restrictivas adecuadas para tales hibridaciones son aquellas que incluyen una hibridación en un tampón de formamida al 40%, NaCl 1 M, SDS al 1% a 37ºC, y al menos un lavado en 0,2X SSC a una temperatura de al menos aproximadamente 50ºC, normalmente de aproximadamente 55ºC a aproximadamente 60ºC o 60ºC, durante 20 minutos, o condiciones equivalentes. Una hibridación positiva es al menos dos veces el fondo. Los expertos en la técnica reconocerán fácilmente que se pueden utilizar condiciones de hibridación y lavado alternativas para proporcionar condiciones de restricción similares.

Una indicación adicional de que dos polinucleótidos son sustancialmente idénticos es que la secuencia de referencia, amplificada por un par de cebadores oligonucleotídicos, se pueda utilizar después como sonda en condiciones de hibridación restrictivas para aislar la secuencia de ensayo de una genoteca de ADNc o genómica, o para identificar la secuencia de ensayo p. ej. en una transferencia northern o Southern.

Los términos "miembros de la genoteca", "miembros de una genoteca" y similares hacen referencia a aquellos ácidos nucleicos presentes en una genoteca de ácido nucleico que tienen las características pretendidas descritas en la presente memoria; esto es, ácidos nucleicos que codifican polipéptidos híbridos. Los miembros pequeños de las genotecas, p. ej., que comprenden secuencias que codifican dominios polipeptídicos, se pueden unir por supuesto con otros miembros de la genoteca o secuencias parentales o no parentales para codificar proteínas completas. Se reconoce que las genotecas pueden contener además otros ácidos nucleicos, ya sea como adiciones intencionadas o como contaminantes no pretendidos; estos ácidos nucleicos adicionales no se consideran "miembros".

Los términos "secuencia codificante mínima", "secuencia de oligonucleótidos codificante mínima", y "secuencia de nucleótidos codificante mínima" hacen referencia a secuencias de nucleótidos que codifican una genoteca de secuencias híbridas. Esto es el resultado de examinar dos o más secuencias de aminoácidos diferentes y deducir una única secuencia de nucleótidos degenerada que codificará una genoteca de proteínas que incluya proteínas híbridas derivadas de las dos secuencias de aminoácidos diferentes. Las secuencias codificantes mínimas pueden hacer referencia a un único codón, a varios codones o a codones suficientes para codificar una proteína completa. No es necesario que las secuencias codificantes mínimas sean continuas. Las secuencias codificantes mínimas pueden codificar aminoácidos no parentales tanto similares como distintos de las secuencias parentales. A menudo, es posible deducir secuencias codificantes mínimas múltiples que codifiquen los mismos aminoácidos parentales.

\vskip1.000000\baselineskip

C. Selección de Proteínas Parentales y alineamiento de secuencias

En los métodos descritos en la presente memoria, al menos dos secuencias de polinucleótidos que codifican polipéptidos con una actividad biológica común (p. ej. desoxiuridina trifosfato nucleotidohidrolasas, o ADN polimerasas) se recombinan para producir una genoteca de polinucleótidos híbridos. La genoteca se escruta después para identificar proteínas híbridas funcionales con un fenotipo alterado con respecto a los polipéptidos parentales.

Las proteínas parentales pueden mostrar una similitud de secuencia sustancial o de estructura secundaria entre sí, pero también deben diferir en al menos 5 posiciones y pueden diferir en tanto como 100, 200, o más posiciones. El porcentaje de similitud o el porcentaje de identidad entre las proteínas parentales puede ser cualquier número de al menos 60% a 99%. Al comparar las secuencias iniciales, puede haber más de dos parentales. Las secuencias múltiples pueden ser divergentes en una única posición o en diferentes posiciones. Por ejemplo, puede haber tres secuencias relacionadas que sean parentales para generar moléculas híbridas. Una secuencia puede diferir de la segunda en una única posición, y la segunda puede diferir de la tercera en una única posición diferente.

\newpage

La mayoría de las diferencias, p. ej., más del 50%, a menudo más del 75% o 90% de las diferencias, entre los miembros de la genoteca se restringen típicamente a los aminoácidos correspondientes que difieren entre las proteínas parentales. Un aminoácido correspondiente hace referencia a un residuo de aminoácido de una secuencia parental que existe en una posición concreta cuando las secuencias parentales están máximamente alineadas. Se debe entender que tales designaciones de la posición no indican el número de aminoácidos de las secuencias parentales per se, pero indican dónde se presentan los residuos en la secuencia parental. El alineamiento se puede realizar manualmente o utilizando un algoritmo de comparación de secuencia, como se explica adicionalmente más abajo. Por ejemplo, la Figura 1 muestra las secuencias de aminoácidos de dos proteínas de tipo salvaje, las polimerasas Pfu y Deep Vent®. La Figura 2 indica las posiciones de los aminoácidos que difieren entre las dos proteínas parentales. Típicamente, las proteínas híbridas diferirán entre sí en las posiciones que difieren entre sus parentales.

Las diferencias iniciales en la secuencia entre las proteínas parentales son típicamente, pero no necesariamente, el resultado de la variación natural. Por ejemplo, las proteínas parentales pueden ser formas variantes que se obtienen de diferentes individuos o cepas de un organismo, p. ej., las proteínas parentales pueden ser secuencias relacionadas del mismo organismo (p. ej., parálogos o variaciones alélicas), o pueden ser homólogos de diferentes organismos (homólogos interespecie).

Por consiguiente, los polipéptidos parentales son cualquiera de dos o más proteínas homólogas que comparten una actividad biológica común. La actividad biológica no siempre se muestra directamente, si no que puede ser inferida de la similitud o identidad de secuencia con proteínas conocidas de actividad demostrada. La actividad biológica puede hacer referencia a una única actividad enzimática incluso si una proteína concreta puede tener más de una actividad enzimática. Asimismo, la actividad biológica puede hacer referencia a actividades no enzimáticas tales como la unión a otra molécula con efecto alostérico, como una hormona o un receptor, o la unión a otra molécula sin efecto alostérico, como ciertos anticuerpos; o la unión a otra molécula con el efecto de neutralización o secuestro.

La actividad biológica de una proteína puede ser evaluada utilizando medios convencionales conocidos en la técnica para determinar la función de una proteína. Por ejemplo, las proteínas parentales pueden ser enzimas y compartirán una actividad enzimática común. Las enzimas ilustrativas incluyen polimerasas, ligasas, lipasas, deshidrogenasas, ARNasas, ADNasas, proteasas, quinasas, caspasas, metilasas, factores de transcripción, y endonucleasas de restricción. Las proteínas parentales pueden ser otras proteínas, p. ej., receptores, hormonas, inmunoglobulinas, o cromóforos. La actividad biológica de estos tipos de proteínas puede ser evaluada utilizando análisis conocidos. El profesional experto comprenderá que se puede utilizar cualquier grupo de proteínas, donde las proteínas miembro son proteínas homólogas que tienen una similitud de aminoácidos de al menos 60%, y a menudo una identidad de al menos 60%, entre sí y que tienen una actividad biológica común, como polipéptidos parentales.

Las secuencias parentales se alinean de acuerdo con los métodos de alineamiento convencionales. Las secuencias se comparan y se alinean para una máxima correspondencia a lo largo de una ventana de comparación, o región designada medida utilizando uno de los algoritmos de comparación de secuencias descritos más abajo o mediante alineamiento manual e inspección visual. Las secuencias de proteínas parentales se pueden alinear utilizando cualquiera de los algoritmos conocidos adecuados para determinar el porcentaje de identidad de las secuencias y la similitud de las secuencias. Para los fines de esta patente, el porcentaje de identidad de aminoácidos y el porcentaje de similitud de aminoácidos se determinan por medio de los parámetros por defecto de BLASTP utilizando la matriz de similitud Blosum62, una esperanza de 10, un tamaño de palabra de 3, y un ajuste de coste de espacio de existencia 11/extensión 1 (Altschul et al., Nuc. Acids Res. 25:3389-3402 (1977)).

Para la comparación de secuencias, ya sea ácido nucleico o proteína, típicamente una secuencia actúa como secuencia de referencia, con la cual se comparan las secuencias de ensayo. Cuando se utiliza un algoritmo de comparación de secuencias, se introducen las secuencias de ensayo y de referencia en un ordenador, se designan las coordenadas de la subsecuencia, si fuera necesario, y se designan los parámetros del programa del algoritmo de secuencias. Se pueden utilizar los parámetros del programa por defecto, o se pueden designar parámetros alternativos. El algoritmo de comparación de secuencias calcula después el porcentaje de identidad de la secuencia o de similitud de la secuencia para las secuencias de ensayo con respecto a la secuencia de referencia, basándose en los parámetros del programa.

La ventana de comparación incluye la referencia a un segmento de una cualquiera de las numerosas posiciones contiguas seleccionadas del grupo que consiste en 10 a 600, normalmente de aproximadamente 50 a aproximadamente 200, más normalmente de aproximadamente 100 a aproximadamente 150 en el cual se puede comparar una secuencia con una secuencia de referencia del mismo número de posiciones contiguas después de que las dos secuencias estén alineadas óptimamente. Los métodos de alineamiento de secuencias para la comparación son bien conocidos en la técnica. El alineamiento óptimo de secuencias para la comparación se puede llevar a cabo, p. ej. mediante el algoritmo de homología local de Smith & Waterman, Adv. Appl. Math. 2:482 (1981), mediante el algoritmo de alineamiento de homología de Needleman & Wunsch, J. Mol. Biol. 48:443 (1970), mediante la búsqueda para el método de similitud de Pearson & Lipman, Proc. Natl. Acad. Sci. USA 85:2444 (1988), mediante implementaciones computarizadas de estos algoritmos (GAP, BESTFIT, FASTA, y TFASTA en el Paquete de Soporte Lógico de Wisconsin Genetics, Genetics Computer Group, 575 Science Dr., Madison, WI), o mediante alineamiento manual e inspección visual (véase, p. ej. Current Protocols in Molecular Biology (Ausubel et al., eds. 1995 suplemento)).

Un ejemplo de un algoritmo que es adecuado para determinar el porcentaje de identidad de secuencia y de similitud de secuencia son los algoritmos BLAST y BLAST 2.0, que son descritos por Altschul et al., en Nuc. Acids Res. 25:3389-3402 (1977) y por Altschul et al., en J. Mol. Biol. 215:403-410 (1990), respectivamente. El soporte lógico para realizar estos análisis BLAST está disponible al público a través del National Center for Biotechnology Information (http://www.ncbi.nlrn.nih. gov/). Este algoritmo implica identificar primero pares de secuencia de alta puntuación (HSP) identificando palabras cortas de longitud W en la secuencia problema, que coinciden o satisfacen cierto valor T umbral valorado positivamente con una palabra de la misma longitud en una secuencia de la base de datos. T es referido como el umbral de puntuación de la palabra vecina (Altschul et al., más arriba). Estos éxitos de palabra vecina iniciales actúan como semillas para iniciar búsquedas para encontrar HSP más largos que los contengan. Los éxitos de palabra se extienden en ambas direcciones a lo largo de cada secuencia tanto como se pueda incrementar la puntuación de alineamientos cumulativa. Las puntuaciones cumulativas se calculan utilizando, para las secuencia de nucleótidos, los parámetros M (puntuación de recompensa para un par de residuos emparejados; siempre > 0) y N (puntuación de penalización para residuos de emparejamientos erróneos; siempre < 0). Para secuencias de aminoácidos, se utiliza una matriz de puntuación para calcular la puntuación cumulativa. La extensión de los éxitos de palabras en cada dirección se detiene cuando: la puntuación de alineamiento cumulativo cae en una cantidad X desde su valor máximo alcanzado; la puntuación cumulativa tiende a cero o menos, debido a la acumulación de uno o más alineamientos de residuos de puntuación negativa; o se alcanza el extremo de cualquiera de las secuencias. Los parámetros del algoritmo BLAST W, T, y X determinan la sensibilidad y la velocidad del alineamiento. El programa BLASTN (para secuencias de nucleótido) utiliza por defecto una longitud de palabra (W) de 11, una esperanza (E) de 10, M=5, N=-4 y una comparación de ambas hebras. Para las secuencias de aminoácidos, el programa BLASTP utiliza por defecto una longitud de palabra de 3, y una esperanza (E) de 10, y los alineamientos de la matriz de puntuación (BLOSUM62 (véase Henikoff & Henikoff, Proc. Natl. Acad. Sci. USA 89:10915 (1989)) (B) de 50, esperanza (E) de 10, M=5, N=-4, y una comparación de ambas hebras.

El algoritmo BLAST también realiza un análisis estadístico de la similitud entre dos secuencias (véase, p. ej. Karlin & Altschul, Proc. Natl. Acad. Sci. USA 90:5873-5787 (1993)). Una medida de la similitud proporcionada por el algoritmo BLAST es la probabilidad de la suma más pequeña (P(N)), que proporciona una indicación de la probabilidad por la cual un emparejamiento entre dos secuencias de nucleótidos o aminoácidos ocurriría por casualidad. Por ejemplo, un ácido nucleico se considera similar a una secuencia de referencia si la probabilidad de la suma más pequeña en una comparación del ácido nucleico de ensayo con el ácido nucleico de referencia es menor de aproximadamente 0,2, más preferiblemente menor de aproximadamente 0,01, y muy preferiblemente menor de aproximadamente 0,001.

Las proteínas que son útiles como proteínas parentales para generar híbridos de proteína tienen típicamente una similitud de aminoácidos de más del 60%, a menudo una identidad de más del 60%, entre sí. Las secuencias parentales seleccionadas se pueden alinear sin espacios. Alternativamente el alineamiento se puede adaptar a la presencia de un espacio o una deleción en la secuencia de aminoácidos de una de las proteínas parentales.

Los métodos de alineamiento de proteínas que contienen espacios o deleciones son conocidos en la técnica. El espacio puede ser el resultado de un bucle que se une a hélices alfa o un giro en láminas beta. Típicamente, el espacio o deleción no afectará a la actividad enzimática compartida entre las dos proteínas parentales. Las secuencias de partida se pueden alinear de tal manera que incluyan el espacio o deleción. Los programas convencionales para el modelado de la estructura de proteínas pueden ser utilizados para ayudar a determinar si se omite o se incluye un aminoácido donde existe un espacio en el alineamiento, p. ej. BLASTP.

Por ejemplo, después de introducir una secuencia de proteína en BLASTP, se crea una lista de proteínas con los porcentajes de identidad, las similitudes, y los espacios indicados a lo largo de cada comparación por pares. Si se indica un espacio, se puede elaborar una genoteca para que tenga algunos representativos con el espacio y algunos sin el espacio.

El espacio puede tener un tamaño significativo, p. ej. 2-50 aminoácidos, o tener un bucle con un papel enzimático. Alineando las dos proteínas parentales para que incluyan la diversidad de un espacio o un bucle, se puede lograr una diversidad más grande.

Las proteínas relacionadas tienen frecuentemente diferentes longitudes en sus extremos amino y carboxilo. De este modo, las secuencias de proteínas parentales pueden tener diferentes longitudes en sus extremos amino y carboxilo. Los aminoácidos adicionales en cualquier extremo pueden contener o no un motivo esencial para la función. Por ejemplo, el extremo carboxilo de algunos tipos de polimerasas B contienen motivos de unión a antígenos nucleares de células en proliferación (PCNA). Una o más de las proteínas parentales pueden conservar su motivo del extremo C o N. Se puede elaborar una genoteca para que tenga algunos representativos con una cola en el extremo C o N y algunos sin una cola en el extremo C o N.

Por consiguiente, las secuencias parentales pueden ser alineadas con o sin espacios, deleciones, o diferencias en sus extremos amino y carboxi y combinarse para construir una genoteca de proteínas híbridas y proteínas híbridas.

\vskip1.000000\baselineskip

D. Creación de Híbridos de Polinucleótidos

Después de haber sido seleccionadas y alineadas las proteínas parentales, se identifican los emparejamientos erróneos entre las secuencias. Después se generan secuencias de oligonucleótidos híbridos que contienen una mezcla de residuos parentales en los sitios de los emparejamientos erróneos, esto es, para cualquiera de las secuencias híbridas dadas, algunos de los residuos en algunos de los sitios de emparejamientos erróneos son de uno de los parentales; los residuos de otro de los sitios de emparejamiento erróneo son del otro parental. De ese modo se puede crear una genoteca que comprende secuencias híbridas. Más abajo se muestran las consideraciones para la generación de genotecas de moléculas híbridas.

Selección de Codones

Una vez que las secuencias de aminoácidos de las proteínas parentales homólogas están alineadas, se identifican los residuos de aminoácido que son diferentes entre las secuencias. Para cada grupo de residuos de aminoácido diferente, se comparan los codones que codifican los diferentes residuos y se obtiene una secuencia codificante mínima. Preferiblemente, se seleccionan después los codones que codifican los diferentes residuos y solamente difieren en un nucleótido como punto de degeneración, esto es, un punto en el que la variación de nucleótidos da como resultados codones que codifican solamente uno aminoácido parental o el otro.

Típicamente, la derivación de la secuencia codificante mínima también está determinada por el uso codónico de un anfitrión concreto. Por ejemplo, si se va a expresar un ácido nucleico que codifica una proteína híbrida en E. coli, se puede emplear el uso codónico de E. coli para obtener una secuencia de polinucleótidos que comprende codones de E. coli preferidos. De este modo se puede utilizar una tabla de uso codónico de E. coli para comparar los diferentes codones que pueden codificar dos aminoácidos que difieren.

En el caso más simple, y típicamente más común, una única degeneración de ácido nucleico puede codificar ambos aminoácidos que difieren en una posición concreta en las secuencias parentales. Por ejemplo, dos proteínas homólogas pueden diferir en una posición concreta en la que un parental tiene una valina en la posición y el otro tiene un residuo de isoleucina. La valina puede estar codificada por numerosos codones diferentes, uno de los cuales es GTT. La isoleucina puede estar codificada por numerosos residuos diferentes, uno de los cuales es ATT. Por lo tanto una secuencia codificante mínima es (G/A)TT (o RTT utilizando el código de una sola letra convencional). El primer nucleótido del codón es el sitio de degeneración. Las máquinas de síntesis de oligonucleótidos se pueden dirigir fácilmente a la elaboración de un producto con la mitad de G y la mitad de A en una posición concreta. Las moléculas de ácido nucleico individuales generadas durante la síntesis tendrán por lo tanto G o A en ese sitio concreto y la genoteca de secuencias híbridas tendrá algunas secuencias con G para este codón y algunas con A. Por consiguiente, las proteínas codificadas por los miembros de la genoteca individuales tendrán una valina o una isoleucina en ese sitio. La degeneración creada en ese sitio es independiente de las degeneraciones creadas en otros sitios. Esto da como resultado una genoteca con un gran número de variantes, pero que está constreñida por las secuencias de los polipéptidos parentales.

Al comparar algunas de las diferencias en las que una posición de las secuencias alineadas tiene dos aminoácidos diferentes, una secuencia codificante mínima puede requerir cambiar dos nucleótidos con el fin de codificar los dos residuos parentales en esa posición. Esto puede dar como resultado una situación en la que dos secuencias de aminoácido no parentales también pueden estar codificadas por el codón degenerado. Por ejemplo, dos secuencias parentales pueden diferir en una posición concreta, donde un residuo es una lisina y el otro residuo parental es una alanina. La lisina está codificada por AAR y la Ala por GCN. La secuencia codificante mínima (A/G)(A/C)G puede ser utilizada por lo tanto para codificar tanto lisina como alanina. Sin embargo, semejante codón degenerado también puede codificar treonina (ACN) y glutamina (GAR) además de Lys y Ala. En algunos casos, una proteína híbrida puede tolerar un residuo de aminoácido que no es está en ninguno de los parentales, especialmente si el aminoácido no parental es similar a uno de los aminoácidos parentales. En otros casos, por ejemplo, si la secuencia aparece en un dominio que es conocido por ser importante para la actividad de la proteína, puede no ser deseable introducir residuos de aminoácido no parentales. Por otra parte, en algunos casos, el codón degenerado podría dar como resultado la introducción de un codón de terminación, lo que podría producir una genoteca en la cual una porción de las secuencias no fueran útiles. Típicamente, uno de los residuos parentales se selecciona para esta posición.

El propósito de producir la genoteca híbrida debe ser considerado al tomar la decisión en cuanto a qué residuo parental elegir. Por ejemplo, si una función deseada tal como la estabilidad térmica, o el nivel de actividad exonucleasa, es mayor en un parental que en otro, la elección debe favorecer al parental con la característica deseada. En igualdad de condiciones, en todos los casos en los que hay más de dos secuencias de proteínas parentales o hay isoenzimas adicionales, homólogos, o secuencias relacionadas, las decisiones sobre si incluir un aminoácido concreto se pueden tomar por "votación" - por ejemplo, si menos de una fracción umbral de las secuencias parentales difieren en una posición de los aminoácidos presentes en la mayoría de las secuencias, se puede ignorar el aminoácido raro.

Esta situación también puede ser tratada generando dos secuencias de ácido nucleico diferentes, p. ej., sintetizando dos oligonucleótidos diferentes, uno de los cuales codifica uno de los residuos parentales, el otro de los cuales codifica el residuo parental diferente. Con el propósito de generar una genoteca, la mezcla de los dos oligonucleótidos en cantidades iguales producirá eficazmente un oligonucleótido degenerado que codifica los dos aminoácidos exclusivamente. Esta secuencia de ácidos nucleicos mezclados se puede utilizar después para el ensamblaje de ácidos nucleicos que codifican una genoteca de proteínas.

En algunos casos, es más probable que la secuencia codificante mínima codifique secuencias de aminoácido no parentales porque no comparten secuencias codónicas en común (p. ej., Met y Asp). En este caso de nuevo, se pueden aceptar aminoácidos no parentales como mutaciones en la genoteca, o se puede seleccionar una de las secuencias codónicas parentales para la incorporación en la genoteca de proteínas híbridas en esta posición, o se pueden construir dos genotecas y combinarlas como se ha descrito más arriba, o, si se utilizan más de dos secuencias parentales, o se conocen homólogos, la decisión se puede tomar por "votación".

Al comparar dos secuencias homólogas, también pueden existir espacios y deleciones. Como las proteínas parentales comparten una actividad común, los espacios típicamente no afectan significativamente a la actividad. Por ejemplo, las proteínas homólogas pueden incluir bucles que conectan hélices alfa o giros en láminas beta. El tamaño absoluto de estas conexiones y giros a menudo no son trascendentales. En general, se puede acomodar un espacio en la generación de la genoteca híbrida generando dos versiones de la secuencia de ácido nucleico, p. ej. sintetizando dos oligonucleótidos, mezclando las dos secuencias, y utilizando la mezcla para construir la genoteca. Alternativamente, la genoteca híbrida se puede construir de manera que el espacio esté presente en todos los miembros o ausente en todos los miembros. De un modo similar, las proteínas relacionadas frecuentemente tienen diferentes longitudes en sus extremos amino y carboxilo. De nuevo, se pueden generar dos secuencias, una con un extremo más largo y una sin el extremo más largo, y después combinarlas; o se puede generar una genoteca que incluya la longitud adicional u omita la longitud adicional; o, si se utilizan más de dos secuencias parentales, la decisión se puede tomar por "votación".

A menudo, puede ser deseable introducir sitios para endonucleasas de restricción en las secuencias de la genoteca, por ejemplo, con el fin de facilitar el ensamblaje de la secuencia que codifica la proteína, o el intercambio de dominios. Un experto en la técnica comprende que tales sitios son por lo general relativamente poco frecuentes, p. ej., tienen un sitio de reconocimiento de 6 pares de bases. Los sitios de restricción se introducen a menudo en los ácidos nucleicos modificando los codones sin cambiar el aminoácido codificado por el codón. Los sitios de restricción son introducidos típicamente en regiones de las dos secuencias parentales que son idénticas, aunque esto no sea necesario.

Preparación de secuencias híbridas y producción de la genoteca

Una vez seleccionada la secuencia codificante mínima, se construye la genoteca utilizando los mecanismos bien conocidos en la técnica. Típicamente, los ácidos nucleicos que se van a incorporar a la genoteca se sintetizan en forma de oligonucleótidos que son ensamblados para formar una secuencia que codifica el polipéptido híbrido. Los procedimientos para realizar esto son bien conocidos en la técnica. Típicamente se sintetizan oligonucleótidos de aproximadamente 50-100 bases. Los oligonucleótidos se diseñan de manera que se solapan, p. ej., en 10 a 50 bases, para proporcionar el recocido y la especificidad adecuados a pesar de las diferencias de secuencia. Como apreciará un experto, los extremos 3' a menudo están en regiones en las cuales hay diferencias mínimas o nulas entre las secuencias parentales.

Después se ensambla el gen completo, p. ej., mediante extensión del cebador (véase, p. ej., la Figura 3). En semejante procedimiento de ensamblaje los oligonucleótidos solapantes se recuecen entre sí y se extienden utilizando una polimerasa termoestable de alta fidelidad. Se utilizan grandes cantidades de cebador y ciclos mínimos (normalmente entre 0 y 5) en los segmentos de ensamblaje. Después se purifican los productos y se utilizan para el siguiente ciclo de emparejamiento y extensión del cebador.

El polinucleótido re-ensamblado resultante puede tener diferentes longitudes. Preferiblemente las secuencias re-ensambladas tienen de aproximadamente 50 pb a aproximadamente 10 kb.

Como apreciará un experto en la técnica, el gen codificante del polipéptido híbrido también puede ser ensamblado ligando los fragmentos apropiados. Adicionalmente, el polipéptido híbrido completo puede ser ensamblado ligando entre sí los fragmentos más pequeños apropiados. Si los polipéptidos híbridos son una porción de una proteína más grande, la incorporación a la proteína más grande se puede producir en esta etapa. A menudo, se pueden incorporar sitios para endonucleasas de restricción en los cebadores para mejorar la eficacia de la etapa de ligación.

En algunos casos, es deseable preparar dos genotecas y después combinarlas, por ejemplo, en los casos en los que hay un espacio en las secuencias parentales o dos residuos de aminoácido que difieren en las secuencias parentales difieren en sus codones en la posición de los tres nucleótidos.

Como apreciarán los expertos en la técnica, las moléculas híbridas se pueden utilizar adicionalmente como sustratos para generar más diversidad utilizando diferentes técnicas tales como la recombinación recursiva (véase, p. ej., la Patente de los Estados Unidos Núm. 6.180.406, y patentes relacionadas); y otros procedimientos de mutagénesis diferentes, p. ej., PCR propensa a errores, mutagénesis de casetes. Estas técnicas se pueden realizar en todos los miembros de la genoteca o en una subpoblación seleccionada o en miembros de la genoteca individuales.

En algunas técnicas de recombinación, se recombinan fragmentos de polinucleótidos conectando segmentos de hebra sencilla solapantes y contactando después los segmentos conectados resultantes con una polimerasa. Véase, p. ej. la Patente de los Estados Unidos 6.150.111.

En otras técnicas, la recombinación es independiente de los sitios de restricción naturales o la ligación in vitro (Ma et al., Gene 58:201-216 (1989); Oldenburg et al., Nucleic Acids Research 25:451-452 (1997)). En algunos de estos métodos, un método in vivo para la construcción de plásmidos se aprovecha de la ruta de reparación de roturas de la doble hebra en una célula tal como una célula de levadura para lograr una unión con precisión de los fragmentos de ADN. Este método implica la síntesis de conectores, p. ej. 60-140 pares de bases, a partir de oligonucleótidos cortos y requiere el ensamblaje mediante métodos enzimáticos en los conectores necesarios (Raymond et al., BioTechniques 26(1):134-141 (1999)).

En algunas técnicas, se recombinan secuencias de oligonucleótidos al azar o no al azar cortas con segmentos de polinucleótidos derivados de polinucleótidos que codifican polimerasas funcionales.

También se pueden introducir modificaciones en los segmentos de polinucleótidos o los polinucleótidos ensamblados que codifican las proteínas híbridas utilizando otras técnicas de mutagénesis conocidas. Por ejemplo, los polinucleótidos pueden ser sometidos a una o más rondas de PCR propensa a errores (p. ej. Leung, D. W. et al., Technique 1:11-15 (1989); Caldwell, R. C. y Joyce, G. F. PCR Methods and Applications 2:28-33 (1992); Gramm, H. et al., Proc. Natl. Acad. Sci. USA 89:3576-3580 (1992)), introduciendo de ese modo una variación en los polinucleótidos. Alternativamente, se puede utilizar la mutagénesis de casetes (p. ej. Stemmer, W. P. C. et al., Biotechniques 14:256-265 (1992); Arkin, A. y Youvan, D. C. Proc. Natl. Acad. Sci. USA 89:7811-7815 (1992); Oliphant, A. R. et al., Gene 44:177-183 (1986); Hermes, J. D. et al., Proc. Natl. Acad. Sci. USA 87:696-700 (1990)), en la que la región específica que se va a optimizar es remplazada por un oligonucleótido mutagenizado sintéticamente. Las cepas mutadoras de las células anfitrionas también pueden ser empleadas para aumentar la frecuencia mutacional (Greener y Callahan, Strategies in Mol. Biol. 7:32 (1995)).

La mutagénesis dirigida al sitio es bien conocida en la técnica y puede ser utilizada para introducir más diversidad en las secuencias. Tales técnicas incluyen la mutagénesis dirigida al sitio como describen, p. ej., Ling et al. (1997) en Anal Biochem. 254(2): 157-178; Dale et al. (1996) en Methods Mol. Biol. 57:369-374; Smith (1985) en Ann. Rev. Genet. 19:423-462; Botstein & Shortle (1985) en Science 229:1193-1201; Carter (1986) en Biochem. J. 237:1-7; y Kunkel (1987) "The efficiency of oligonucleotide directed mutagenesis" en Nucleic Acids & Molecular Biology (Eckstein, F. y Lilley, D.M.J. eds., Springer Verlag, Berlin)); la mutagénesis utilizando moldes que contienen uracilo (Kunkel (1985 Proc. Natl. Acad. Sci. USA 82:488-492; Kunkel et al. (1987) Methods in Enzymol. 154, 367-382; y Bass et al. (1988) Science 242:240-245); la mutagénesis dirigida a oligonucleótidos (Methods in Enzymol. 100: 468-500 (1983); Methods in Enzyimol. 154: 329-350 (1987); Zoller & Smith (1982) Nucleic Acids Res. 10:6487-6500; Zoller & Smith (1983) Methods in Enzymol. 100:468-500; y Zoller & Smith (1987) Methods in Enzymol. 154:329-350); la mutagénesis de ADN modificado con fosforotioato (Taylor et al. (1985) Nucl. Acids Res. 13: 8749-8764; Taylor et al. (1985) Nucl. Acids Res. 13: 8765-8787 (1985); Nakamaye & Eckstein (1986) Nucl. Acids Res. 14: 9679-9698; Sayers et al. (1988) Nucl. Acids Res. 16:791-802; y Sayers et al. (1988) Nucl. Acids Res. 16: 803-814); la mutagénesis utilizando ADN dúplex con espacios (Kramer et al. (1984) Nucl. Acids Res. 12: 9441-9456; Kramer & Fritz (1987) Methods in Enzymol. 154:350-367; Kramer et al. (1988) Nucl. Acids Res. 16: 7207; y Fritz et al. (1988) Nucl. Acids Res. 16: 6987-6999).

Un método de modificación adicional bien conocido en la técnica es la reparación de emparejamientos erróneos puntuales, p. ej. (Kramer et al. (1984) Cell 38:879-887), la mutagénesis utilizando cepas anfitrionas de reparación deficiente (Carter et al. (1985) Nucl. Acids Res. 13: 4431-4443; y Carter (1987) Methods in Enzymol. 154:382-403), la mutagénesis por deleción (Eghtedarzadeh & Henikoff (1986) Nucl. Acids Res. 14: 5115), la selección por restricción y la selección por restricción y purificación por restricción (Wells et al. (1986) Phil. Trans. R. Soc. Loud. A 317: 415-423), la mutagénesis mediante síntesis de genes total (Nambiar et al. (1984) Science 223: 1299-1301; Sakamar y Khorana (1988) Nucl. Acids Res. 14:6361-6372; Wells et al. (1985) Gene 34:315-323; y Grundström et al. (1985) Nucl. Acids Res. 13: 3305-3316), la reparación de roturas en la doble hebra (Mandecki (1986); Arnold (1993) Current Opinion in Biotechnology 4:450-455; Proc. Natl. Acad. Sci. USA, 83:7177-7181). Los detalles adicionales de muchos de los métodos anteriores se pueden encontrar en Methods in Enzymology Volumen 154, que también describe controles útiles para la detección y resolución de problemas con diferentes métodos de mutagénesis.

Los fragmentos génicos ensamblados se pueden clonar después en cualquiera de los numerosos vectores para generar una genoteca que comprende moléculas híbridas individuales que comprenden residuos de las secuencias parentales.

Expresión de proteínas híbridas y genotecas de proteínas

Existen muchos sistemas de expresión para producir los polipéptidos híbridos y genotecas de polipéptidos que son bien conocidos por los expertos en la técnica. (Véase, p. ej., Gene Expression Systems, Fernandez y Hoeffler, Eds. Academic Press, 1999; Sambrook & Russell, más arriba; y Ausubel et al, más arriba.) Típicamente, el polinucleótido que codifica un polipéptido híbrido se coloca bajo el control de un promotor que es funcional en la célula anfitriona deseada. Se encuentran disponibles una variedad extremadamente amplia de promotores, y se pueden utilizar en los vectores de expresión de la invención, dependiendo de la aplicación concreta. Normalmente, el promotor seleccionado depende de la célula en la cual el promotor va a ser activo. Otras secuencias de control de la expresión tales como sitios de unión al ribosoma, sitios de terminación de la transcripción y similares también están opcionalmente incluidos.

Las secuencias de control procarióticas comúnmente utilizadas, que se definen en la presente memoria para incluir promotores para el inicio de la transcripción, opcionalmente con un operador, junto con secuencias del sitio de unión al ribosoma, incluyen promotores utilizados comúnmente tales como los sistemas promotores de beta-lactamasa (penicilinasa) y lactosa (lac) (Change et al., Nature (1977) 198: 1056), el sistema promotor de triptófano (trp) (Goeddel et al., Nucleic Acids Res. (1980) 8: 4057), el promotor tac (DeBoer, et al., Proc. Natl. Acad. Sci. U.S.A. (1983) 80:21-25); y el promotor P_{L} derivado de lambda y el sitio de unión al ribosoma del gen N (Shimatake et al., Nature (1981) 292: 128). El sistema promotor concreto no es crítico para la invención, se puede utilizar cualquier promotor disponible que funcione en procariotas. Los vectores de expresión bacterianos ilustrativos incluyen plásmidos tales como plásmidos basados en pBR322, p. ej., pBLUESCRIPT®, pSKF, pET23D, vectores derivados del fago \lambda, y sistemas de expresión de fusión tales como GST y LacZ. También se pueden añadir etiquetas epitópicas a proteínas recombinantes para proporcionar métodos de aislamiento convenientes, p. ej., c-myc, HA-tag, 6-His tag, proteína de unión a maltosa, etiqueta VSV-G, etiqueta anti-DYKDDDDK, o cualquier etiqueta similar, un gran número de las cuales es bien conocido por los expertos en la técnica.

Para la expresión de polipéptidos híbridos en células procarióticas distintas de E. coli, se requiere un promotor que funcione en la especie procariótica concreta. Tales promotores se pueden obtener de genes que han sido clonados a partir de la especie, o se pueden utilizar promotores heterólogos. Por ejemplo, el promotor híbrido trp-lac funciona en Bacillus además de en E. coli. Estos y otros promotores bacterianos son bien conocidos en la técnica y son descritos, p. ej., por Sambrook et al. y Ausubel et al. Los sistemas de expresión bacteriana para expresar las proteínas de la invención son asequibles p. ej., de E. coli, Bacillus sp., y Salmonella (Palva et al., Gene 22:229-235 (1983); Mosbach et al., Nature 302:543-545 (1983). Los kits para tales sistemas de expresión se encuentran disponibles en el mercado.

Los sistemas de expresión eucarióticos para células de mamífero, levaduras, y células de insecto son bien conocidos en la técnica y también se encuentran disponibles en el mercado. En las levaduras, los vectores incluyen plásmidos de Integración en Levaduras (p. ej., YIp5) y plásmidos Replicantes en Levaduras (los plásmidos de la serie YRp) y pGPD-2. Los vectores de expresión que contienen elementos reguladores de virus eucarióticos se utilizan típicamente en vectores de expresión eucarióticos, p. ej., vectores de SV40, vectores del virus del papiloma, y vectores derivados del virus de Epstein-Barr. Otros vectores eucarióticos ilustrativos incluyen pMSG, pAV009/A+, pMTO10/A+, pMAMneo-5, baculovirus pDSVE, y cualquier otro vector que permita la expresión de proteínas bajo la dirección del promotor de CMV, el promotor temprano de SV40, el promotor tardío de SV40, el promotor de metalotioneína, el promotor del virus de tumor mamario murino, el promotor del virus del sarcoma de Rous, el promotor de la polihedrina, u otros promotores que se haya demostrado que son eficaces para la expresión en células eucarióticas.

Se pueden utilizar promotores constitutivos o regulados en la presente invención. Los promotores regulados pueden ser ventajosos debido a que las células anfitrionas se pueden hacer crecer a elevadas densidades antes de inducir la expresión de los polipéptidos. Adicionalmente, el elevado nivel de expresión de proteínas heterólogas puede ralentizar el crecimiento celular en algunas situaciones. Un promotor inducible es un promotor que dirige la expresión de un gen en el que el nivel de expresión es alterable por factores medioambientales o evolutivos tales como, por ejemplo, temperatura, pH, condiciones anaerobias o aerobias, luz, factores de transcripción y productos químicos.

Para E. coli y otras células anfitrionas bacterianas, los promotores inducibles son conocidos por los expertos en la técnica. Estos incluyen, por ejemplo, el promotor lac, el promotor P_{L} del bacteriófago lambda, el promotor trp-lac híbrido (Amann et al. (1983) Gene 25: 167; de Boer et al. (1983) Proc. Natl. Acad. Sci. USA 80: 21), y el promotor del bacteriófago T7 (Studier et al. (1986) J. Mol. Biol.; Tabor et al. (1985) Proc. Natl. Acad. Sci. USA 82: 1074-8). Estos promotores y su uso se comentan en Sambrook et al., más arriba.

Los promotores inducibles para otros organismos también son bien conocidos por los expertos en la técnica. Estos incluyen, por ejemplo, el promotor de la metalotioneína, el promotor del choque térmico, así como muchos otros.

Se puede utilizar el acoplamiento tradicional para potenciar la expresión. La estrategia utiliza un marco de lectura abierto aguas arriba corto derivado de un gen nativo altamente expresado para el sistema traduccional, que se coloca aguas abajo del promotor, y un sitio de unión al ribosoma seguido a unos pocos codones de aminoácidos de un codón de terminación. Justo antes del codón de terminación se encuentra un segundo sitio de unión al ribosoma, y después del codón de terminación se encuentra un codón de partida para el inicio de la traducción. El sistema disuelve la estructura secundaria en el ARN, permitiendo un inicio eficaz de la traducción. Véase Squires, et. al. (1988), J. Biol. Chem. 263: 16297-16302.

La construcción de constructos polinucleotídicos requiere generalmente el uso de vectores capaces de replicar en bacterias. Tales vectores son comúnmente utilizados en la técnica. Se encuentra disponible en el mercado una plétora de kits para la purificación de plásmidos de bacterias (por ejemplo, EasyPrepJ, FlexiPrepJ, de Pharmacia Biotech; StrataCleanJ, de Stratagene; y, QIAexpress Expression System, Qiagen). Los plásmidos aislados y purificados se pueden manipular adicionalmente para producir otros plásmidos, y utilizarlos para transformar células.

Los polipéptidos híbridos pueden ser expresados intracelularmente, o pueden ser secretados desde la célula. La expresión intracelular a menudo da como resultado elevados rendimientos. Si fuera necesario, la cantidad de polipéptido activo, soluble se puede incrementar realizando procedimientos de replegamiento (véanse, p. ej., Sambrook et al., más arriba.; Marston et al., Bio/Technology (1984) 2: 800; Schoner et al., Bio/Technology (1985) 3: 151). Los polipéptidos de fusión de la invención pueden ser expresados en una variedad de células anfitrionas, incluyendo E. coli, otros anfitriones bacterianos, levadura, y diferentes células eucarióticas superiores tales como las líneas celulares COS, CHO y HeLa y líneas celulares de mieloma. Las células anfitrionas pueden ser células de mamífero, células de insecto, o microorganismos, tales como, por ejemplo, células de levadura, células bacterianas, o células fúngicas.

Una vez expresados, los polipéptidos híbridos pueden ser purificados de acuerdo con procedimientos convencionales en la técnica, incluyendo precipitación con sulfato de amonio, columnas de afinidad, cromatografía en columna, electroforesis en gel y similares (véanse, generalmente, R. Scopes, Protein Purification, Springer-Verlag, N.Y. (1982), Deutscher, Methods in Enzymology Vol. 182: Guide to Protein Purification., Academic Press, Inc. N.Y. (1990)). Se prefieren las composiciones sustancialmente puras con una homogeneidad de al menos aproximadamente 90 a 95%, y son muy preferidas las de una homogeneidad de 98 a 99% o más. Una vez purificados, parcialmente o hasta la homogeneidad según se desee, se pueden utilizar los polipéptidos (p. ej., como inmunógenos para la producción de anticuerpos).

Para facilitar la purificación de los polipéptidos híbridos de la invención, los ácidos nucleicos que codifican los polipéptidos de fusión también pueden incluir una secuencia codificante para un epítopo o "etiqueta" para el cual se encuentra disponible un reactivo de unión por afinidad. Los ejemplos de los epítopos adecuados incluyen los genes informadores myc y V-5; los vectores de expresión útiles para la producción recombinante de polipéptidos de fusión que tienen estos epítopos son asequibles comercialmente (p. ej., los vectores pcDNA3.1/Myc-His y pcDNA3.1/V5-His de Invitrogen (Carlsbad CA) son adecuados para la expresión en células de mamífero). Los vectores de expresión adicionales adecuados para el anclaje de una etiqueta a las proteínas de fusión de la invención, y los correspondientes sistemas de detección son conocidos por los expertos en la técnica, y algunos son asequibles comercialmente (p. ej., "FLAG" (Kodak, Rochester NY). Otro ejemplo de una etiqueta adecuada es una secuencia de polihistidina, que es capaz de unirse a ligandos de afinidad con quelatos metálicos. Típicamente, se utilizan seis histidinas adyacentes, aunque se pueden usar más o menos de seis. Los ligandos de afinidad con quelatos metálicos adecuados que pueden servir como radical de unión para una etiqueta de polihistidina incluyen ácido nitrilo-triacético (NTA) (Hochuli, E. (1990) "Purification of recombinant proteins with metal chelating adsorbents" En Genetic Engineering: Principles and Methods, J.K. Setlow, Ed., Plenum Press, NY; aequible comercialmente de Qiagen (Santa Clarita,
CA)).

\vskip1.000000\baselineskip

E. Caracterización de Proteínas Híbridas

Después de crear la genoteca de ácido nucleico utilizando los métodos descritos antes, la genoteca se escruta en busca de híbridos funcionales y/o híbridos que poseen una actividad mejorada por encima de la de sus parentales. Se utilizan análisis conocidos en la técnica para comparar la actividad de una proteína híbrida con su contraparte de tipo salvaje.

La naturaleza del escrutinio o selección depende de la propiedad o característica que se vaya a mejorar o adquirir. Más abajo se proporciona un ejemplo detallado que explica la evaluación de las polimerasas híbridas. Por supuesto, las proteínas híbridas, p. ej., las moléculas receptoras, pueden ser sometidas a ensayo en busca de una actividad mejorada o adquirida tal como la señalización o la unión a un ligando utilizando análisis apropiados para la proteína. Normalmente no es necesario comprender la base molecular por la cual productos de recombinación concretos (segmentos recombinantes) han adquirido propiedades o características nuevas o mejoradas con respecto a los sustratos de
partida.

Dependiendo del protocolo de escrutinio concreto utilizado para una propiedad deseada, se pueden realizar una o varias rondas iniciales de escrutinio utilizando células bacterianas debido a las altas eficacias de transfección y a la facilidad de cultivo. No obstante, para proteínas eucarióticas, la expresión bacteriana a menudo no es práctica, y se utilizan sistemas de levadura, fúngicos u otros sistemas eucarióticos para la expresión y escrutinio de la genoteca. De un modo similar, otros tipos de escrutinio que no son susceptibles de escrutinio en células de genotecas bacterianas o eucarióticas simples, se realizan en células seleccionadas para su uso en un entorno similar al de su uso pretendido. Se pueden realizar rondas finales de escrutinio en el tipo preciso de célula de uso pretendido.

Si se desea una diversidad adicional, se puede someter al menos una, y normalmente una colección, de secuencias híbridas que son identificadas en un escrutinio/selección inicial a una ronda adicional de generación de híbridos o un procedimiento adicional para generar diversidad. Por ejemplo, al generar la genoteca inicial, no todos los residuos que se identifican como diferentes en las secuencias parentales pueden ser el sujeto de la generación de híbridos, esto es, se pueden seleccionar aminoácidos concretos presentes en un subgrupo de las secuencias parentales. Las rondas subsiguientes se pueden dirigir a generar híbridos que comprenden tales residuos adicionales. Adicionalmente, se puede realizar una ronda adicional de generación de híbridos utilizando una secuencia parental diferente, esto es, una secuencia parental que no estuviera incluida en el alineamiento inicial. Por último, se puede utilizar un procedimiento de generación de diversidad diferente, p. ej., la recombinación recursiva.

La segunda ronda de generación de diversidad puede estar seguida de una ronda adicional de escrutinio/selección de acuerdo con los principios comentados más arriba para la primera ronda. La restricción del escrutinio/selección puede incrementarse entre las rondas. Asimismo, la naturaleza del escrutinio y la propiedad que está siendo escrutada pueden variar entre las rondas si se desea una mejora de más de una propiedad o si se desea adquirir más de una propiedad nueva. Después se pueden realizar rondas adicionales de generación y escrutinio de híbridos/diversidad hasta que los segmentos recombinantes hayan evolucionado lo suficiente para adquirir una propiedad o función nueva o mejorada.

\newpage

F. Polimerasas Híbridas

Las secuencias parentales pueden ser polimerasas y las proteínas híbridas se seleccionan en busca de una función polimerasa mejorada, p. ej, capacidad de procesamiento o actividad correctora de errores. Estas propiedades se pueden medir y comparar con las actividades polimerasa parentales utilizando la metodología bien conocida en la técnica (véase, p. ej., el documento WO 0192501), cuyos ejemplos se muestran a continuación.

Análisis para evaluar la actividad polimerasa

Se puede medir la actividad de una polimerasa utilizando una variedad de análisis que se pueden emplear para determinar la capacidad de procesamiento o la modificación de la actividad de una polimerasa. La mejora de la actividad puede incluir tanto un incremento de la capacidad de procesamiento como un incremento de la eficacia.

Las polimerasas de la presente invención, p. ej. de SEQ ID NO: 2 y SEQ ID NO: 4, muestran actividad polimerasa, p. ej., capacidad de procesamiento, especificidad de unión cebador/molde, y actividad exonucleasa 3' a 5'. Las actividades se pueden medir utilizando mecanismos que son convencionales en la técnica.

Por ejemplo, la capacidad de procesamiento de la polimerasa se puede medir por medio de una variedad de métodos conocidos por los expertos en la técnica. La capacidad de procesamiento de la polimerasa se define generalmente como el número de nucleótidos incorporados durante un único evento de unión de una enzima modificadora a un molde cebado. Por ejemplo, un cebador marcado con FAM en 5' es recocido con ADN ssM13mp18 circular o linealizado para formar un molde cebado. En la medición de la capacidad de procesamiento, el molde cebado normalmente está presente en un exceso molar significativo con respecto a la polimerasa de manera que se minimiza la oportunidad de que cualquier molde cebado sea extendido más de una vez por la polimerasa. Por lo tanto el molde cebado se mezcla con la polimerasa a una razón tal como aproximadamente 4000:1 (ADN cebado:ADN polimerasa) en presencia de tampón y dNTP. Se añade MgCl_{2} para iniciar la síntesis de ADN. Las muestras se sofocan en diferentes momentos después de la iniciación, y se analizan sobre gel de secuenciación. A una concentración de polimerasa en la que la longitud media del producto no cambia con el tiempo o la concentración de polimerasa, la longitud corresponde a la capacidad de procesamiento de la enzima. La capacidad de procesamiento de una proteína de la invención, p. ej., de SEQ ID NO: 2 o SEQ ID NO: 4, se compara después con la capacidad de procesamiento de la enzima de tipo salvaje.

La eficacia puede ser demostrada midiendo la capacidad de una enzima para proporcionar el producto. Se puede demostrar un incremento de la eficacia midiendo el incremento de la capacidad de una enzima para proporcionar el producto. Semejante análisis mide la estabilidad del dúplex de ácido nucleico de doble hebra indirectamente determinando la cantidad de producto obtenida en una reacción. Por ejemplo, se puede utilizar un análisis PCR para medir la cantidad de producto de PCR obtenida con un cebador corto, p. ej., 12 nucleótidos de longitud, recocido a una temperatura elevada, p. ej., 50ºC. En este análisis, el aumento de la eficacia se demuestra por la capacidad de una polimerasa para producir más producto en una reacción de PCR utilizando el cebador de 12 nucleótidos recocido a 50ºC.

La eficacia también se puede medir, p. ej., en una PCR a tiempo real. El valor Ct representa el número de ciclos requerido para generar una cantidad detectable de ADN (una cantidad "detectable" de ADN es típicamente 2X, normalmente 5X, 10X, 100X o más por encima del fondo). Una polimerasa eficiente puede ser capaz de producir una cantidad detectable de ADN en un número más pequeño de ciclos aproximándose más a la eficacia de amplificación máxima teórica de la PCR. Por consiguiente, un valor Ct más bajo refleja una mayor eficacia de amplificación para la enzima.

Se puede utilizar una PCR larga como otro método de demostración de un aumento de eficacia. Por ejemplo, una enzima con una eficacia aumentada permite típicamente la amplificación de un amplicón largo (> 5 kb) en un tiempo de extensión más corto en comparación con una enzima con una eficacia relativamente menor.

También se pueden utilizar análisis tales como la sensibilidad salina para demostrar la mejora en la eficacia o una eficacia equivalente de una polimerasa de la invención. Una polimerasa de la presente invención puede mostrar un incremento de la tolerancia a concentraciones salinas elevadas, esto es, una enzima procesiva con una capacidad de procesamiento incrementada puede producir más producto en concentraciones salinas superiores. Por ejemplo, se puede realizar un análisis de PCR para determinar la cantidad de producto obtenido en una reacción utilizando una polimerasa de la presente invención en comparación con una polimerasa de tipo salvaje en condiciones de reacción con elevado contenido de sal, p. ej., 80 mM.

Otros métodos de evaluación de la eficacia de las polimerasas de la invención pueden ser determinados por los expertos en la técnica utilizando análisis convencionales de la actividad enzimática de una enzima de modificación dada.

La especificidad cebador/molde es la capacidad de una enzima para discriminar entre los dúplex de cebador/molde emparejados y los dúplex de cebador/molde emparejados erróneamente. La especificidad puede ser determinada, por ejemplo, comparando el rendimiento relativo de dos reacciones, una de los cuales emplea un cebador emparejado, y una de los cuales emplea un cebador emparejado erróneamente. Una enzima con una discriminación incrementada tendrá un rendimiento relativo mayor con el cebador emparejado que con el cebador emparejado erróneamente, esto es, la razón del rendimiento de la reacción utilizando el cebador emparejado frente a la reacción utilizando el cebador emparejado erróneamente es de aproximadamente 1 o más. Esta razón se puede comparar después con el rendimiento obtenido en un grupo paralelo de reacciones que emplean una polimerasa de tipo salvaje.

En otros análisis para la mejora, también se puede medir la actividad exonucleasa de una polimerasa, como se describe en la sección "Ejemplos". En algunos casos, las mejoras deseadas pueden tener en consideración múltiples funciones de una polimerasa. Por ejemplo, se puede desear ajustar la razón de actividad exonucleasa a la actividad de polimerización.

Productos conjugados de polimerasa-dominio de unión a ADN

En algunas realizaciones, las polimerasas novedosas se conjugan con un dominio de unión a ADN. Un dominio de unión a ADN es una proteína, o una región definida de una proteína, que se une a ácido nucleico de una manera independiente de la secuencia, p. ej., la unión no muestra una preferencia clara por una secuencia concreta. Los dominios de unión a ADN pueden ser de hebra sencilla o de doble hebra.

Las proteínas de unión a ADN son preferiblemente termoestables. Los ejemplos de tales proteínas incluyen, pero no están limitados a, proteínas Sso7D y de tipo Sso7D de unión a ADN básico pequeño Arqueal (véanse, p. ej., Choli et al., Biochimica et Biophysica Acta 950:193-203, 1988; Baumann et al., Structural Biol. 1:808-819, 1994; y Gao et al, Nature Struc. Biol. 5:782-786, 1998), proteínas de tipo HMf arqueales (véanse, p. ej., Starich et al., J. Molec. Biol. 255:187-203, 1996; Sandman et al., Gene 150:207-208, 1994), y homólogos de PCNA (véanse, p. ej., Cann et al., J. Bacteriology 181:6591-6599, 1999; Shamoo y Steitz, Cell:99, 155-166, 1999; De Felice et al., J. Molec. Biol. 291, 47-57, 1999; y Zhang et al., Biochemistry 34:10703-10712, 1995).

Las proteínas Sso7d y de tipo Sso7d, las proteínas Sac7d y de tipo Sac7d, p. ej., Sac7a, Sac7b, Sac7d, y Sac73 son proteínas cromosómicas básicas pequeñas (aproximadamente 7.000 kd de PM), de las arqueobacterias hipertermófilas Sulfolobus solfataricus y S. acidocaldarius, respectivamente. Estas proteínas son ricas en lisina y tienen una elevada estabilidad térmica, frente a los ácidos y química. Se unen al ADN de una manera independiente de la secuencia y cuando se unen, aumentan la T_{M} del ADN hasta en 40ºC en algunas condiciones (McAfee et al., Biochemistry 34:10063-10077, 1995). Se cree típicamente que estas proteínas y sus homólogos están implicados en la estabilización del ADN genómico a temperaturas elevadas. Los dominios de unión a ADN de tipo Sso7d adecuados para su uso en la invención pueden ser modificados basándose en su homología de secuencia con Sso7d. Típicamente, los dominios de unión a ADN que son idénticos o sustancialmente idénticos a una proteína de unión a ADN conocida a lo largo de una ventana de comparación de aproximadamente 25 aminoácidos, opcionalmente aproximadamente 50-100 aminoácidos, o la longitud de toda la proteína, pueden ser utilizados en la invención. La secuencia se puede comparar y alinear para una correspondencia máxima a lo largo de una ventana de comparación, o región designada medida utilizando uno de los algoritmos de comparación descritos o mediante alineamiento manual e inspección visual. Para los fines de esta patente, el porcentaje de identidad de aminoácidos se determina por medio de los parámetros por defecto de BLAST.

Las proteínas de tipo HMf son histonas arqueales que comparten homología tanto en secuencia de aminoácidos como en estructura con las histonas H4 eucarióticas, que se cree que interaccionan directamente con ADN. La familia de proteínas HMf forma dímeros estables en solución, y se han identificado varios homólogos de HMf de especies termoestables (p. ej., Methanothermus fervidus y Pyrococcus cepa GB-3a). La familia de proteínas HMf, una vez unidas a la ADN polimerasa Taq o a cualquier enzima modificadora de ADN con una capacidad de procesamiento intrínseca baja, puede intensificar la capacidad de la enzima para deslizarse a lo largo del sustrato de ADN y de este modo incrementar su capacidad de procesamiento. Por ejemplo, la proteína de tipo HMf dimérica se puede conectar covalentemente al extremo N de la ADN polimerasa Taq, p. ej., por medio de modificación química, y de este modo mejorar la capacidad de procesamiento de la polimerasa.

Se ha demostrado que ciertos motivos en hélice-horquilla-hélice se unen a ADN no específicamente y potencian la capacidad de procesamiento de la ADN polimerasa a la cual se fusiona (Pavlov et al., Proc Natl Acad Sci USA. 99:13510-5, 2002).

Muchas, pero no todas las ADN polimerasas de la familia B interaccionan con proteínas accesorias para lograr una síntesis de ADN muy procesiva. Una clase particularmente importante de proteínas accesorias es referida como abrazadera deslizante. Existen varias abrazaderas deslizantes caracterizadas como trímeros en solución, y pueden formar una estructura de tipo anular con un pase central capaz de acomodar ADN de doble hebra. La abrazadera deslizante forma interacciones específicas con los aminoácidos localizados en el extremo C de ADN polimerasas concretas, amarra esas polimerasas al molde de ADN durante la replicación. La abrazadera deslizante de Eukarya es referida como antígeno nuclear celular en proliferación (PCNA), mientras las proteínas similares en otros dominios son referidas a menudo como homólogos de PCNA. Estos homólogos tienen una similitud estructural marcada pero una similitud de secuencia limitada.

Recientemente, se han identificado homólogos de PCNA de Archaea termófilas (p. ej., Pyroccocus furiosus). Algunas polimerasas de la familia B de Archaea tienen un extremo C que contiene una secuencia de aminoácidos que interacciona con PCNA consenso y son capaces de utilizar un homólogo de PCNA como factor de la capacidad de procesamiento (véanse, p. ej., Cann et al., J. Bacteriol. 181:6591-6599, 1999 y De Felice et al., J. Mol. Biol. 291:47-57, 1999). Estos homólogos de PCNA son dominios de unión a ADN útiles para la invención. Por ejemplo, se puede unir una secuencia que interacciona con PCNA consenso a una polimerasa que no interacciona naturalmente con un homólogo de PCNA, permitiendo de ese modo que un homólogo de PCNA sirva como factor de capacidad de procesamiento para la polimerasa. A modo de ilustración, la secuencia que interacciona con PCNA de PolII de Pyrococcus furiosus (una ADN polimerasa heterodimérica que contiene dos polipéptidos de tipo familia B) se puede unir covalentemente a la PolII de Pyrococcus furiosus (una polimerasa de la familia B monomérica que no interacciona normalmente con un homólogo de PCNA). Después se puede permitir que la proteína de fusión resultante se asocie no covalentemente con el homólogo de PCNA de Pyrococcus furiosus para generar una proteína heteróloga novedosa con una capacidad de procesamiento incrementada con respecto a la PolII de Pyrococcus furiosus no modificada.

Se pueden identificar dominios de unión a ADN adicionales adecuados para su uso en la invención por homología con proteínas conocidas de unión a ADN y/o reactividad cruzada con anticuerpos, o se pueden encontrar por medio de un análisis bioquímico. Se pueden sintetizar o aislar dominios de unión a ADN utilizando las técnicas descritas antes.

El dominio de unión a ADN y el dominio polimerasa del producto conjugado o las proteínas de fusión de la invención se pueden empalmar mediante métodos bien conocidos por los expertos en la técnica. Estos métodos incluyen tanto medios químicos como recombinantes, que se describen en el documento WO0192501.

Ejemplos

Estos ejemplos describen la generación de genotecas híbridas y el aislamiento de proteínas híbridas a partir de las genotecas.

Ejemplo 1 Generación de proteínas Dut híbridas

En este ejemplo se aíslan proteínas híbridas con una temperatura óptima variable. Las proteínas modelo son desoxiuridina 5'-trifosfato nucleotidohidrolasas (dUTPasa o Dut) mesófilas y termófilas. Las secuencias de los genes de Dut de E. coli mesófila (ECD) y de Dut de Aquifex aeolicus termófila (AAD) fueron alineadas utilizando BlastP. Las secuencias son idénticas en un 40% y similares en un 60% como se definieron por medio de los parámetros por defecto de Blast. El alineamiento de secuencias y Blast se muestran en la Figura 4.

Las secuencias parentales alineadas y todos los posibles codones en orden de frecuencia de uso por E. coli se muestran en la Figura 5A. Se obtuvo una secuencia codificante mínima identificando los codones que codificarán ambas secuencias con un número mínimo de degeneraciones (Figura 5B). Se prefieren los codones utilizados frecuentemente por E. coli. Existen 90 diferencias entre las dos secuencias. De estas, 49 pueden ser codificadas incorporando una única degeneración en la secuencia de ADN. La mayor parte de las otras, 38 de ellas, requieren dos degeneraciones y 1 requiere tres. Existe un espacio. Dos de las degeneraciones pudieron dar como resultado que codones de terminación fueran incorporados a la secuencia. Las degeneraciones de ácido nucleico que podían incorporar sitios de terminación o aminoácidos no similares (el número BLOSUM 62 es <0) a cualquier secuencia de aminoácidos parental se separaron (Figura 5C) y se sustituyeron por secuencias de AAD más estables térmicamente, teniendo en cuenta el propósito del experimento. Si no se hacía esto, hasta el 24% de los aminoácidos incorporados a la proteína híbrida podían haber sido no parentales; algunos de esos sin similitud con ningún parental. La eliminación de las secuencias no similares redujo el número máximo de aminoácidos no parentales al 14%, todos los cuales serían similares a al menos un parental.

La secuencia de ácido nucleico de doble hebra que muestra las degeneraciones y los residuos de aminoácido codificados se muestra en la Figura 6. Los sitios de restricción y cebado se añadieron a los extremos (mostrados en negrita). En dos casos, se cambió el uso codónico para añadir sitios de restricción (subrayados y en negrita). Los aminoácidos codificados por la secuencia se indican debajo de los codones.

La Figura 7 muestra la secuencia de ácidos nucleicos de la genoteca híbrida completa. Las posiciones degeneradas se representan utilizando el código de una sola letra convencional. Se seleccionaron secuencias de oligonucleótidos para la síntesis (mostradas en negrita). Las selecciones se realizaron de manera que existieran degeneraciones mínimas donde se esperaba que los cebadores se recocieran entre sí durante el ensamblaje. En una porción de la secuencia, no hubo regiones en las que se pudieran seleccionar secuencias de oligonucleótidos recocibles de tamaño razonable (aproximadamente 10 a 50 bases). En este ejemplo, se utiliza el sitio ClaI (subrayado) insertado en la etapa previa para ensamblar una genoteca codificante de proteínas completas.

Se puede construir una genoteca híbrida que codifica una proteína pequeña tal como DUT sintetizando los oligonucleótidos de manera que no haya espacios una vez que los cebadores estén recocidos. En este caso, se puede utilizar la ligación en lugar de la PCR de ensamblaje para construir la genoteca híbrida. Los oligonucleótidos son simplemente recocidos secuencialmente, ligados, purificados, después recocidos de nuevo.

Los cebadores finales seleccionados en este ejemplo se indican más abajo. El ensamblaje se produciría como sigue: se recuece el cebador Fwd1 con el cebador RevA. En tubos separados, se recuece Fwd2 con RevB, Fwd3 con RevC, Fwd4 con RevD, y Fwd5 con Rev5. Los productos de las cinco reacciones de recocido se extienden con cebador con una ADN polimerasa dependiente de ADN con actividad correctora, típicamente fragmento de Klenow de la ADN polimerasa I de E. coli, o la polimerasa Phusion térmicamente estable (MJ Research, Inc.). Si se utiliza la polimerasa Phusion, es posible ciclar térmicamente la reacción de extensión del cebador. Los productos de la reacción Fwd1/RevA se recuecen con los productos de la reacción Fwd/2/RevB y se repite la extensión. De un modo similar, se recuecen los productos de la reacción Fwd4/RevD con la reacción Fwd5/RevE y se extienden. Finalmente, se recuecen los productos Fwd1/RevA/Fwd2/RevB con los productos Fwd3/RevC y se extienden.

1

2

Los dos fragmentos resultantes son sub-genotecas que pueden ser combinadas ahora utilizando técnicas de la biología molecular clásica. Por ejemplo, el fragmento Fwdl/RevA/Fwd2/RevB/Fwd3/RevC (la mitad que codifica el amino) puede ser clonado utilizando NdeI y ClaI. El fragmento Fwd4/RevD/Fwd5/RevE (la mitad carboxilo) puede ser clonado utilizando ClaI y BamHI. Los fragmentos pueden ser clonados por separado, después combinados para formar una genoteca híbrida completa. Alternativamente, los fragmentos se pueden combinar en una única etapa en una ligación de clonación forzada de tres fragmentos.

Si el vector utilizado en la clonación es un vector de expresión tal como pETI1c, la proteína puede ser expresada a partir del promotor de T7 (Studier, et al., Methods in Enzymology 185:60-89, 1990) y la proteína puede ser aislada y analizada en busca de la característica deseada. En este ejemplo, se "mezcló" una proteína parental térmicamente estable con un homólogo mesófilo. Un experto en la técnica puede purificar estas proteínas (Hoffinann, et al., Eur. J. Biochem. 164, 45-51, 1987) y analizarlas en busca de su temperatura óptima. Las diferencias en las secuencias entre las proteínas con diferentes óptimos de temperatura conducirán a una mejor comprensión de los factores importantes en la estabilización de proteínas a temperaturas elevadas.

\vskip1.000000\baselineskip

Ejemplo 2 Generación de proteínas polimerasa híbridas

Los expertos en la técnica reconocerán que este ejemplo representa una aplicación mucho más compleja que el Ejemplo 1. La polimerasa Pfu es una ADN polimerasa de la familia B de Pyrococcus furiosus asequible comercialmente (Stratagene, La Jolla, CA). Deep Vent® es una ADN polimerasa de la familia B aislada de Pyrococcus sp. GB-D asequible comercialmente (New England Biolabs, Beverly, MA). Teniendo 775 aminoácidos de longitud, estas proteínas son dos veces más largas que una proteína típica y cinco veces más largas que Dut. Comparten una variedad de actividades incluyendo las actividades de unión a ADN, unión a nucleótidos, pirofosforolisis, y exonucleasa 3' a 5' (correctora). Los métodos descritos en la presente memoria se pueden aplicar a una cualquiera de las actividades codificadas por estas proteínas grandes siendo aplicados a un dominio de la proteína. En este ejemplo, los métodos fueron aplicados a cada una de las diferentes actividades enzimáticas, elaborando una genoteca de híbridos para la proteína completa. De este modo, este ejemplo representa al menos dos ensayos independientes del método, para las dos actividades analizadas (actividad polimerasa y actividad exonucleasa correctora).

Se alinearon la secuencia de proteínas de la polimerasa Pfu y la polimerasa Deep Vent. El alineamiento BlastP se muestra en la Figura 1. Las secuencias de aminoácidos difieren entre sí en 115 localizaciones. Las secuencias son idénticas en un 85% a lo largo de la secuencia completa. Una región de 18 aminoácidos es idéntica solamente en un 56%.

Como se ha establecido, el alineamiento encontró 115 diferencias entre las secuencias de aminoácidos de Pfu y Deep Vent. El alineamiento y la secuencia de proteínas híbrida consenso, en la que X indica los residuos en los cuales difieren los parentales, se muestran en la Figura 2. La Figura 8 muestra la secuencia codificante minima utilizada para generar oligonucleótidos que codifican una ADN polimerasa Pfu/Deep Vent® Híbrida. Después se utilizó una tabla de uso codónico de E. coli para comparar los diferentes codones que pueden codificar los aminoácidos y deducir una secuencia codificante mínima. En muchos casos, una única degeneración del ácido nucleico pudo codificar ambos aminoácidos. Por ejemplo, las proteínas parentales difieren en la posición del aminoácido 15 donde Pfu tiene una valina (Val) y Deep Vent una isoleucina (Ile). Es posible codificar Val utilizando GTT e Ile utilizando ATT. La máquina de síntesis de oligonucleótidos se programó por lo tanto para elaborar un producto con media G y media A en la posición del nucleótido 43 del ADN codificante de la proteína. De este modo, un codón con RTT donde se introduce cualquiera de G o A en la posición del primer nucleótido del codón proporcionará una reserva de oligonucleótidos, algunos de los cuales tienen un GTT en esa posición; los otros tienen un ATT en esa posición.

En el alineamiento de Pfu y Deep Vent, 98 de las 115 diferencias pudieron ser incorporadas simplemente a la genoteca introduciendo una única degeneración en un único residuo de nucleótido del codón que codificó los diferentes aminoácidos.

Las 17 diferencias restantes requirieron cambiar dos nucleótidos con el fin de codificar las dos secuencias parentales. Estos cambios forzaron la posibilidad de que existieran dos secuencias de aminoácidos no parentales en la genoteca resultante. Un ejemplo de esto es el residuo 72, en el que Pfu tiene un glutamato (Glu) y Deep Vent tiene una arginina (Arg). Glu está codificado por GAR y Arg por CGN o AGR. Se seleccionó la secuencia codificante mínima (A/G)(A/G)G para codificar potencialmente las secuencias parentales en la posición 214 a 216 de la región codificante de la proteína híbrida. Esta combinación también generará nucleótidos que codifiquen Glicina (GGG) y Lisina (AAG). Se determinó que esta situación era tolerable incluso aunque la Glicina no fuera similar a cualquier aminoácido parental puesto que tales situaciones eran raras con respecto al tamaño de la proteína.

También se considero que era tolerable la incorporación de un codón de terminación potencial en el residuo de aminoácido 758 (residuos de ácido nucleico 2272 y 2273). Este codón hizo que 1/4 de la genoteca fuera inútil. El residuo de aminoácido 566 (nucleótidos 1696 a 1698) se convirtió en lisina por un error (Figura 8); debía haber contenido una degeneración de nucleótido que codificara lisina o ácido aspártico. La Figura 8 muestra la secuencia codificante mínima utilizada para generar oligonucleótidos que codifican la ADN polimerasa Pfu/Deep Vent® Híbrida. Los nucleótidos degenerados están entre paréntesis. Se indican las secuencias de aminoácidos que difieren entre las proteínas parentales (los "emparejamientos erróneos"). Los aminoácidos no parentales se indican en negrita. Los ejemplos mencionados en el texto están numerados.

Se produjeron proteínas Deep Vent®/Pfu híbridas creando una colección de oligonucleótidos que codifican una mezcla de secuencias de los dos parentales y ensamblando después los oligonucleótidos en una genoteca de proteínas polimerasa completas. Para cada hebra de la secuencia codificante mínima, se sintetizó un conjunto de oligonucleótidos degenerados de aproximadamente 100 bases de longitud, y se separaron por medio de espacios de 40 bases. Las secuencias de oligonucleótido de las dos hebras se dispusieron de manera los oligonucleótidos de la primera hebra abarcaran los espacios de la segunda hebra y se solaparan con los oligonucleótidos de la segunda hebra en 30 bases (Figura 3). Este grupo de oligonucleótidos se utilizó en una PCR de ensamblaje como sigue. Los oligonucleótidos solapantes se emparejaron, se recocieron entre sí, y se extendieron utilizando una polimerasa de alta fidelidad termoestable. Se utilizaron concentraciones elevadas de oligonucleótidos y un número mínimo de ciclos térmicos (no más de 5). Los productos del primer ciclo fueron fragmentos de doble hebra de aproximadamente 170 pares de bases de longitud. Estos fragmentos se purificaron en bandas a partir de un gel y se utilizaron para el siguiente ciclo de emparejamiento y extensión de cebadores para generar un nuevo fragmento de doble hebra de aproximadamente 310 pares de bases de longitud. Este ciclo se repitió hasta que se hubo obtenido la secuencia completa en forma de una colección de fragmentos de aproximadamente 500 bases de longitud. En este punto, se seleccionaron fragmentos concretos y se secuenciaron para evaluar la integridad del procedimiento. Se encontró que los oligonucleótidos adquiridos eran de baja calidad, dando como resultado un exceso de mutaciones no pretendidas. Se seleccionaron numerosos segmentos que contenían mutaciones no pretendidas y se utilizaron para ensamblar genes completos utilizando los sitios de restricción que habían sido incorporados en los extremos de cada fragmento y técnicas de la biología molecular convencional. Se ensamblaron cuatro clones completos y las proteínas codificadas se expresaron en pET11 (Novogene, Madison, Wi). La expresión por los cuatro clones fue confirmada mediante SDS-PAGE. Estos clones se denominaron Hyb1 a Hyb4.

Se construyó una segunda colección de genotecas a la medida por medio de Blue Heron Biotechnology (Bothell, Washington) utilizando la tecnología "Genemaker". La secuencia codificante completa se repartió en forma de genotecas de cuatro fragmentos que pudieron ser ensamblados en genes híbridos completos. Se obtuvieron dos clones ensamblados completos y se secuenciaron para verificar la validez de la genoteca. Estos clones se denominaron Phy1 y Phy2. Los clones de esta genoteca contenían solamente secuencias híbridas que incluían las degeneraciones en la posición 566 (lisina/ácido aspártico) y 758 (tirosina/triptófano) comentadas antes. Las secuencias completas se clonaron en vectores de expresión y se produjeron las proteínas del tamaño esperado.

La proteína polimerasa híbrida se expresó y se purificó a partir de cada uno de los seis clones de las dos genotecas. La purificación se realizó como sigue.

Purificación de polimerasas híbridas

Esta sección describe la metodología para aislar una polimerasa híbrida. Después de la inducción de la expresión en E. coli, las células se centrifugaron y los sedimentos se almacenaron de -20ºC a -80ºC. Se añadió 1 ml de Tampón A (Tampón: Tris 50 mM (8,0); Dextrosa 50 mM; EDTA 1 mM) por cada 100 ml de cultivo de partida y las células se lisaron con 4 mg/ml de lisozima en polvo a 72ºC. Se añadieron MgCl_{2} y CaCl_{2} a una concentración de 2 mM, seguido de la adición de 1 unidad/ml de ADNasa I. La muestra se sacudió lentamente durante 10 minutos a la temperatura ambiente. Se añadió 1 ml de Tampón B (Tris 10 mM (8,0); KCl 50 mM; EDTA 1 mM; Tween 20 al 0,5%; NP40 al 0,5%) por 100 ml de cultivo de partida y la muestra se sacudió después lentamente a la temperatura ambiente durante 15 min. La muestra se transfirió a un tubo de centrífuga y se incubó a 72ºC durare 1 hora seguido de centrifugación a 4000 x g a 4ºC durante 15 min. El sobrenadante se recogió y se añadieron 0,476 g/ml de (NH_{4})_{2}SO_{4} y la muestra se mezcló lentamente a 4ºC durante 1 hora y después se centrifugó a 15.000 x g a 4ºC durante 15 min.

El sedimento se resuspendió en, y se sometió a diálisis, frente Tampón "A" HiTrap Q (Tris 20 mM (7,9); NaCl 50 mM; \beta-mercaptoetanol 5 mM). La suspensión se cargó después sobre una columna de cromatografía ÄKTAprime HiTrap Q (Amersham Biosciences) equilibrada y se hizo circular utilizando el método núm. 2 por medio de las instrucciones de los fabricantes utilizando los tampones "A" y "B" HiTrap Q (tampón "A" con NaCl 1 M). Las fracciones que contenían la polimerasa se combinaron y se sometieron a diálisis frente a Tampón de Carga P-11 (Tris 20 mM (7,9); NaCl 50 mM). La muestra se unió a una columna de cromatografía líquida de resina P-11 (Amersham Biosciences), se lavó con tampón "B" P-11 (Tris 20 mM (7,9); NaCl 150 mM), después se hizo eluir utilizando Tampón de Elución P-11 (Tris 20 mM (7,9); NaCl 400 mM). Las fracciones eluidas se sometieron a diálisis frente a tampón "A" HiTrap SP (Tris 20 mM (6,8); NaCl 50 mM; \beta-mercaptoetanol 5 mM) después se inyectaron sobre una columna de cromatografía ÄKTAprime HiTrap SP equilibrada y se hicieron circular utilizando el método núm. 2 por medio de las instrucciones de los fabricantes utilizando los Tampones "A" y "B" HiTrap SP (tampón "A" con NaCl 1 M). Las fracciones que contenían PhS 1 se concentraron utilizando un concentrador de proteína YM-30 Centricon (Millipore). La muestra se sometió después a diálisis frente a tampón que contenía Tris 50 mM (pH 8,2); EDTA 0,1 mM; DTT 1 mM; NP40 al 0,1%; Tween 20 al 0,1%. Después se midió el volumen final y se añadieron 1,47X glicerol al 85%, y 0,015X NP-40 al 10% y Tween 20 al 10%. La muestra se almacenó a -20ºC.

De las seis proteínas polimerasa híbridas generadas a partir de las dos genotecas, todas tenían actividad ADN polimerasa.

Se prepararon las polimerasas de fusión Sso7d (véase, p. ej., el documento WO0192501) utilizando algunas de las proteínas polimerasa híbridas y se compararon con la polimerasa Pfu parental con y sin Sso7d (designadas "Pfu" y "PfS", respectivamente) en análisis con exonucleasa y análisis de extensión. Las fusiones con Sso7d de los clones Hyb se designan HyS; las fusiones de Sso7d con los clones Phy se designan PhS. La proteína híbrida más completamente estudiada fue PhS1.

Para medir la actividad exonucleasa, se sintetizó un cebador de 45 bases de longitud con la siguiente secuencia: 5'-FAM-TTTTTTGAGGTGTGTCCTACACAGCGGAGTGTAGGACACACCTCT* 3', donde T* = es una dT de conexión amino con el extintor, DAB (dabcilo) anclado. La secuencia forma una estructura en bucle de 16 pares de bases con un emparejamiento erróneo T:T* en la base marcada con el extintor. La secuencia poli T (secuencia poli T de bases no emparejadas 5') mantiene FAM (6-carboxi-fluoresceína) en íntima proximidad al colorante de extinción de manera que la FAM, si se excita, no emita fluorescencia.

El oligonucleótido se combinó con el tampón y la enzima se incubó en un aparato de detección a tiempo real, el DNA Engine Opticon System (MJ Research, Inc.). Este aparato excita la FAM y detectaría cualquier fluorescencia si estuviera presente. En ausencia de actividad exonucleasa 3' a 5', solamente existe fluorescencia de fondo debido a que FAM está extinguida por DAB. No obstante si la enzima tiene actividad exonucleasa 3' a 5', el emparejamiento erróneo es reconocido y 3'-T* es separado. El DAB es liberado y no extinguirá más la fluorescencia de FAM. El Sistema Opticon detectará el incremento en la fluorescencia con con el paso del tiempo (las lecturas se tomaron cada 10 seg a 65ºC). La tasa de incremento de la fluorescencia refleja indirectamente la cantidad de actividad exonucleasa 3' a 5'. Un incremento en la fluorescencia por encima de los niveles de control demuestra que la enzima tiene actividad exonucleasa 3' a 5'. Los resultados (Figura 9) de este análisis se comentan más abajo.

La Figura 10 muestra los resultados de una comparación de un híbrido y una polimerasa parental en análisis de extensión. Incluso con un exceso de enzima (80 U/ml), la Pfu no pudo amplificar ningún amplicón más largo de 2 kb. Una proteína de fusión Sso7d a polimerasa Pfu (PfS) amplificó un fragmento de 10 kb dado un tiempo de extensión de 1 min. PhS1 amplificó un fragmento de 15 kb (flecha) en KCl 80 mM con un tiempo de extensión de 1 minuto. Adicionalmente, PhS 1 también fue capaz de realizar una PCR larga en una variedad de condiciones salinas.

Caracterización de polimerasas híbridas adicionales

Se aislaron cinco clones híbridos adicionales de la segunda genoteca directamente en forma de fusiones Sso7d y se designaron PhS3 a PhS7. Las polimerasas se sometieron a ensayo en busca de actividad polimerasa y exonucleasa. La Tabla 1 resume las características de las diferentes proteínas híbridas analizadas en este ejemplo. PhS2 tiene dos mutaciones en sitios distintos del sitio diana. PhS3 está truncada debido a un codón de terminación temprano. PhS4 tiene una deleción y una mutación. Las polimerasas "Hyb" e "HyS" también comprenden mutaciones en posiciones distintas de los sitios diana, probablemente debido a una síntesis de oligonucleótido defectuosa.

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

(Tabla pasa a página siguiente)

3

4

También se evaluó la actividad exonucleasa de diferentes polimerasas híbridas como se ha descrito antes. Se compararon las razones de polimerasa con respecto a exonucleasa 3' para diversas enzimas asequibles comercialmente, incluyendo las proteínas parentales y los productos aislados de la genoteca híbrida. DyNAzyme EXT, una enzima utilizada en la PCR exacta larga, es una combinación de una polimerasa de la Familia B con actividad exonucleasa 3' a 5', y una polimerasa de la Familia A que carece de cualquier actividad correctora. Demasiada actividad exonucleasa es perjudicial debido a que digiere los cebadores en lugar de extenderlos. Pfu y Deep Vent son las polimerasas de la Familia B parental que tienen una elevada actividad exonucleasa. Pfs (una enzima de fusión Pfu-Sso7d) tiene una actividad polimerasa incrementada. HyS1, PhS1, PhS2, PhS5, y PhS7 son productos aislados de genotecas híbridas. Sorprendentemente, los resultados (Figura 9) demuestran que las proteínas híbridas varían enormemente en sus actividades polimerasa a exonucleasa, ambas con respecto a las proteínas parentales y entre sí. PhS1 tiene una razón de actividad polimerasa con respecto a exonucleasa que se aproxima a la de la mezcla de enzimas.

Una comparación de las secuencias de las proteínas parentales e híbridas se presenta en la Figura 11. Como se puede observar, una secuencia patrón, esto es, un elemento de la secuencia invariable, se encuentra presente en todas las proteínas. Este elemento (Figura 12) contiene el motivo de unión a nucleótidos y es característico de las polimerasas Pfu/DeepVent generadas utilizando el método descrito en la presente memoria. Se indican los sitios que difieren entre las polimerasas parentales.

Estos resultados demuestran que los productos aislados híbridos de polimerasas múltiples de dos genotecas diferentes eran activos. Además, el ejemplo demuestra que el método también permite generar híbridos para dominios diferentes, esto es, dominio con actividad polimerasa frente a dominio con actividad exonucleasa. Claramente, los métodos descritos en la presente memoria podrían ser aplicados a proteínas con actividades muy divergentes.

Síntesis de Genes de Polimerasa Sustancialmente Idénticos

El siguiente es un método preferido de generación de ácidos nucleicos de polimerasa que codifican polimerasas sustancialmente idénticas a una polimerasa de la invención, p. ej., SEQ ID NO: 2 o SEQ ID NO: 4. Se selecciona un grupo de sustituciones conservativas. Se construye una secuencia degenerada, donde las posiciones degeneradas del nucleótido codifican, en sus formas alternativas, al menos los dos aminoácidos correspondientes al aminoácido de tipo salvaje y la sustitución conservativa. Para cada hebra de la secuencia degenerada, se sintetiza un grupo de oligonucleótidos degenerados de aproximadamente 100 bases de longitud, y se separan por medio de espacios de 40 bases. Las secuencias de oligonucleótidos de las dos hebras se disponen de manera que los oligonucleótidos de la primera hebra abarcan los espacios de la segunda hebra en 30 bases. Este grupo de oligonucleótidos se utiliza en la PCR de ensamblaje como sigue. Se emparejan los oligonucleótidos solapantes, se recuecen entre sí, y se extienden utilizando una polimerasa de alta fidelidad termoestable. Se utilizan concentraciones elevadas de oligonucleótido y un número mínimo de ciclos térmicos (no más de 5) siempre que sea posible. Los productos del primer ciclo son fragmentos de doble hebra de una longitud de aproximadamente 170 bases. Estos son purificados en banda a partir del gel y utilizados para el siguiente ciclo de emparejamiento y extensión del cebador para generar nuevos fragmentos de doble hebra con una longitud de aproximadamente 310 bases. Este ciclo se repite hasta que se ha obtenido la secuencia completa en un único fragmento. Si en cualquier punto la cantidad de producto se vuelve demasiado baja, la cantidad se puede incrementar mediante PCR utilizando cebadores de pocas bases (15-30) correspondientes a los extremos de fragmentos deseados concretos. La clonación de secuencias de genes parciales, y/o el corte con enzimas de restricción y la ligación con los subfragmentos juntos, son técnicas adicionales que se pueden utilizar para mejorar la eficacia del procedimiento de construcción de genes. Cuando se sintetiza el gen completo, éste se clona en un vector adecuado para la expresión de la proteína. Debido a que la secuencia es degenerada, la clonación producirá una genoteca de clones relacionados pero diferentes, que deben ser escrutados para eliminar aquellos clones que no producen una proteína funcional o que no son sustancialmente idénticos a la polimerasa diana.

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

(Tabla pasa a página siguiente)

TABLA DE SECUENCIAS DE POLIMERASAS

5

6

9

10

13

14

17

18

21

22

25

26

29

30

33

34

37

38

40

41

45

47

Claims

1. Una polimerasa híbrida que tiene actividad polimerasa, donde la polimerasa tiene una identidad de al menos 94% con una secuencia de aminoácidos seleccionada entre los SEQ ID NO: 2, SEQ ID NO: 12, los aminoácidos 1 a 775 del SEQ ID NO: 6, los aminoácidos 1 a 775 del SEQ ID NO: 8 y los aminoácidos 1 a 775 del SEQ ID NO: 10; donde la polimerasa híbrida comprende posiciones que están mutadas a partir del residuo nativo del SEQ ID NO: 24 o el SEQ ID NO: 25 al correspondiente residuo del SEQ ID NO: 25 o el SEQ ID NO: 24 respectivamente; y tiene una razón de actividad polimerasa con respecto a exonucleasa incrementada en relación con la polimerasa Pfu parental.

2. La polimerasa híbrida de la reivindicación 1, donde la polimerasa híbrida comprende la secuencia de aminoácidos de los SEQ ID NO: 2, SEQ ID NO: 12, los aminoácidos 1 a 775 del SEQ ID NO: 6, los aminoácidos 1 a 775 del SEQ ID NO: 8 o los aminoácidos 1 a 775 del SEQ ID NO: 10.

3. La polimerasa híbrida de la reivindicación 1, donde la polimerasa híbrida tiene una identidad de al menos 94% con la secuencia de aminoácidos del SEQ ID NO: 2.

4. La polimerasa híbrida de la reivindicación 3, que comprende la secuencia de aminoácidos del SEQ ID NO: 2.

5. La polimerasa híbrida de una cualquiera de las reivindicaciones precedentes, que comprende adicionalmente un dominio de unión a ADN que está conjugado con la polimerasa.

6. La polimerasa híbrida de la reivindicación 5, donde la polimerasa está conjugada con un dominio de unión a ADN que comprende una proteína de unión a ADN básica pequeña Arqueal.

7. La polimerasa híbrida de la reivindicación 6, donde el dominio de unión a ADN básico pequeño Arqueal es Sso7d, Sac7d o Sac7e.

8. La polimerasa híbrida de la reivindicación 7, donde la polimerasa está conjugada con Sso7d para formar un producto conjugado de polimerasa Sso7d.

9. La polimerasa híbrida de la reivindicación 8, donde el producto conjugado de polimerasa Sso7d comprende la secuencia de aminoácidos de los SEQ ID NO: 4, SEQ ID NO: 6, SEQ ID NO: 8, SEQ ID NO: 10 o SEQ ID NO: 14.

10. Un ácido nucleico aislado que codifica una polimerasa híbrida como se muestra en una cualquiera de las reivindicaciones 1 a 9.

11. Un vector de expresión que comprende el ácido nucleico de la reivindicación 10.

12. Una célula anfitriona transfectada con el vector de la reivindicación 11.

13. Un método de amplificación de una secuencia diana que utiliza una polimerasa híbrida, comprendiendo el método las etapas de:

(a) proporcionar una polimerasa de acuerdo con una cualquiera de las reivindicaciones 1 a 9;

(b) combinar la polimerasa en una mezcla de reacción de amplificación; y

(c) amplificar la secuencia diana.