ES2353959T3 - Métodos de producción de polimerasas híbridas y composiciones. - Google Patents
Métodos de producción de polimerasas híbridas y composiciones. Download PDFInfo
- Publication number
- ES2353959T3 ES2353959T3 ES03771830T ES03771830T ES2353959T3 ES 2353959 T3 ES2353959 T3 ES 2353959T3 ES 03771830 T ES03771830 T ES 03771830T ES 03771830 T ES03771830 T ES 03771830T ES 2353959 T3 ES2353959 T3 ES 2353959T3
- Authority
- ES
- Spain
- Prior art keywords
- polymerase
- seq
- hybrid
- sequence
- proteins
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Enzymes And Modification Thereof (AREA)
Abstract
Una polimerasa híbrida que tiene actividad polimerasa, donde la polimerasa tiene una identidad de al menos 94% con una secuencia de aminoácidos seleccionada entre los SEQ ID NO: 2, SEQ ID NO: 12, los aminoácidos 1 a 775 del SEQ ID NO: 6, los aminoácidos 1 a 775 del SEQ ID NO: 8 y los aminoácidos 1 a 775 del SEQ ID NO: 10; donde la polimerasa híbrida comprende posiciones que están mutadas a partir del residuo nativo del SEQ ID NO: 24 o el SEQ ID NO: 25 al correspondiente residuo del SEQ ID NO: 25 o el SEQ ID NO: 24 respectivamente; y tiene una razón de actividad polimerasa con respecto a exonucleasa incrementada en relación con la polimerasa Pfu parental.
Description
Métodos de producción de polimerasas híbridas y
composiciones.
Esta invención se refiere a métodos para
facilitar la evolución de proteínas y a los polipéptidos novedosos
obtenidos utilizando los métodos.
Esta invención se refiere a métodos para crear
proteínas híbridas para identificar proteínas con una actividad
mejorada. Se conocen numerosos métodos para generar secuencias
híbridas para potenciar la función de una proteína (véase, p. ej.,
la Patente de los Estados Unidos Núm. 6.132.970). No obstante, estos
métodos cuentan con las técnicas recombinatorias que barajan las
secuencias para crear nuevas proteínas. Existe la necesidad
adicional de facilitar la identificación de proteínas con una
función mejorada. Esta invención trata esa necesidad y
adicionalmente, proporciona polipéptidos, p. ej., polimerasas, que
son obtenidas utilizando el método.
Las polimerasas catalizan la formación de
polímeros biológicos. Las polimerasas son útiles para la síntesis
de ADN a partir de desoxirribonucleósidos trifosfato en presencia de
un molde de ácido nucleico y un cebador de ácido nucleico; la
síntesis de ARN a partir de ribonucleótidos y un molde de ADN o ARN;
la replicación y reparación del ADN; y la amplificación de ADN o
ARN in vitro.
La actividad exonucleasa 3' a 5', comúnmente
referida como actividad "correctora", es una importante
característica de algunas ADN polimerasas y está presente en
polimerasas de la familia B de especies de Pyrococcus tales
como PolI de Pyrococcus furiosus (referida en la presente
memoria como "Pfu" y descrita en la Patente de los Estados
Unidos 5.948.663; asequible comercialmente de Stratagene, San Diego,
CA) y PoliI de la cepa Pyrococcus GB-D
(referida en la presente memoria como "Deep Vent®" y descrita
en la Patente de los Estados Unidos 5.834.285; asequible
comercialmente de New England Biolabs, Beverly MA). La función
esencial de la exonucleasa 3' a 5' es reconocer y escindir un
extremo sin bases emparejadas. Las enzimas con una elevada
actividad exonucleasa, sin embargo, no se utilizan comúnmente en
reacciones que cuentan con la actividad polimerasa debido a que
tienen una escasa capacidad de procesamiento. Por ejemplo, si se
utiliza en la PCR, a menudo es combinada con la ADN PolI de
Thermus aquaticus, (Taq), una enzima con una capacidad de
procesamiento superior pero sin actividad exonucleasa 3' a 5', con
el fin de mejorar la fidelidad de la reacción de PCR. La capacidad
de procesamiento mejorada en las polimerasas con una elevada
actividad exonucleasa 3' a 5' aumentaría enormemente la fiabilidad
de las reacciones que cuentan con el uso de polimerasas y
eliminaría, en algunos casos, la necesidad de polimerasa Taq. Por
consiguiente, existe la necesidad de crear polimerasas mejoradas
con actividad exonucleasa 3' a 5'.
En el documento WO 01/92501 se informa de una
fusión de un dominio de unión de ácido nucleico de secuencia no
específica a una enzima modificadora de ácido nucleico con el fin de
intensificar la capacidad de la enzima para unirse a y modificar el
ácido nucleico. El documento WO 01/61015 describe polimerasas de
ácido nucleico quiméricas construidas utilizando dominios
enzimáticamente activos aislados de diferentes proteínas.
El número de acceso Uniprot Q9HH98 registra una
secuencia de un fragmento de ADN polimerasa de Pyrococcus
sp. (cepa ST700). En el documento US 5.489.523 se describe una ADN
polimerasa de Pyrococcus furiosus termoestable recombinante
carente de actividad exonucleasa 3' a 5'. Evans et al. (2000)
Nucleic Acids Research 28: 1059-1066 informan sobre
mutaciones en un gen que codifica la ADN polimerasa de la familia
PolII de Pyrococcus furiosus para intentar mejorar la
utilización de ddNTP.
Esta invención se dirige a esta y otras
necesidades proporcionando composiciones de polimerasa
novedosas.
Se describen en la presente memoria métodos para
generar polipéptidos con una función mejorada. El método comprende
crear proteínas híbridas que tienen una actividad biológica común
que comprende las etapas de: (a) crear una genoteca de 32 o más
ácidos nucleicos que codifican una pluralidad de miembros de
proteínas híbridas, donde los miembros difieren de un grupo de al
menos dos proteínas de partida con los correspondientes aminoácidos,
e i) donde las proteínas de partida son proteínas homólogas que
tienen una similitud por pares de aminoácidos de más del 60% entre
si y que tienen al menos una actividad biológica común, ii) donde
una mayoría de los miembros de la genoteca codificante tienen una
similitud de aminoácidos de más del 60% con cualquiera de las
proteínas de partida, y iii) donde la mayoría de las diferencias
entre los miembros de la genoteca codificada y las proteínas de
partida están restringidas a aquellas que corresponden a los
aminoácidos que difieren entre las proteínas de partida; (b)
expresar la proteína a partir de al menos un miembro de la genoteca
para crear al menos una proteína híbrida; y (c) seleccionar al
menos una proteína que tiene una actividad biológica común de las
proteínas de partida.
Asimismo se describe en la presente memoria una
genoteca de ácidos nucleicos que codifican una pluralidad de
miembros de proteínas híbridas, donde los miembros difieren de un
grupo de al menos dos proteínas de partida con los correspondientes
aminoácidos, e i) donde las proteínas de partida son proteínas
homólogas que tienen una similitud en la secuencia de aminoácidos
de más del 60% entre si y que tienen al menos una actividad
biológica común, ii) donde la mayoría de los miembros de la
genoteca tienen una similitud de aminoácidos de más del 60% con
cualquiera de las proteínas parentales, y iii) donde la mayoría de
las diferencias entre los miembros de la genoteca y las proteínas
de partida están restringidas a aquellas que corresponden a los
aminoácidos que difieren de las proteínas de partida. Las proteínas
parentales pueden ser enzimas, p. ej., polimerasas, enzimas
biosintéticas y catabólicas. Las enzimas parentales también pueden
ser isozimas. Las proteínas parentales también pueden ser proteínas
no enzimáticas, p. ej., proteínas que se unen a otra molécula, con o
sin efecto alostérico, tales como hormonas, receptores, anticuerpos
y similares. A menudo, las proteínas parentales tienen una
similitud de aminoácidos de más del 80% entre sí y la mayoría de los
miembros de la genoteca tienen una similitud de aminoácidos de más
del 80% con cualquiera de las proteínas de partida.
Una proteína híbrida sintética puede comprender
una similitud de aminoácidos de más del 60% entre cada miembro de
un grupo de al menos dos proteínas de partida, donde cada proteína
de partida del grupo comparte una similitud de aminoácidos de más
del 60% y al menos una actividad biológica común con cada miembro
del grupo, y donde la proteína híbrida: (a) comparte al menos una
actividad biológica con todos los miembros del grupo; (b) tiene un
mínimo de 5 diferencias de residuos de aminoácido con cualquier
miembro del grupo; y (c) comprende no más del 24% de aminoácidos
que no corresponden a ningún miembro del grupo.
Las proteínas parentales de partida pueden ser
enzimas, p. ej. polimerasas. Las proteínas parentales también
pueden ser isozimas.
A menudo, las proteínas parentales tienen una
similitud de más del 80% con cada una de las otras y la mayoría de
los miembros de la genoteca tienen una similitud de más del 80% con
cualquiera de las proteínas parentales. Proteína híbrida.
El grupo de proteínas parentales puede
comprender la ADN polimerasa de la familia B de Pyrococcus
furiosus (Pfu) y la ADN Polimerasa Deep Vent® y las diferencias
entre cada miembro del grupo pueden comprender al menos 10 de los
emparejamientos erróneos seleccionados del grupo mostrado en la
Figura 2.
La invención se refiere a la generación de
polipéptidos híbridos que comprenden alteraciones en regiones menos
conservadas de las proteínas parentales y, sorprendentemente,
proporciona proteínas híbridas que presentan una mejora en las
propiedades deseadas con respecto a las proteínas parentales. Se
puede diseñar una proteína de la invención como una proteína
híbrida alterada de residuos variables (VRAHP), como se describe en
términos generales. Más específicamente, una VRAHP contiene
alteraciones en posiciones no conservadas de las proteínas
parentales, esto es, residuos variables, donde el residuo variable
es un aminoácido que existe en esa posición en una de las proteínas
parentales. Tales alteraciones están típicamente presentes en toda
la proteína, existiendo por ejemplo en al menos 1 de cada 30 o 50
residuos de aminoácido, en lugar de concentradas en una región de
la proteína.
Típicamente, cada proteína parental de un grupo
de al menos dos proteínas parentales comparte una similitud de
aminoácidos mayor del 60% y al menos una actividad biológica común
con cada miembro del grupo. Una proteína híbrida típica comprenderá
una similitud de aminoácidos de más del 60% con cada miembro de un
grupo de al menos dos proteínas parentales, y compartirá al menos
una actividad biológica con todos los miembros del grupo.
Además, el grupo mencionado anteriormente de
proteínas parentales comprende necesariamente un subgrupo de
aminoácidos invariables que son idénticos entre todos los miembros
del grupo. Una proteína híbrida típica comprende al menos el 95%
del subgrupo de aminoácidos invariables.
Finalmente, el grupo de proteínas parentales
comprende necesariamente un subgrupo de aminoácidos variables que
difieren de al menos algunos miembros del grupo. Una proteína
híbrida típica comprenderá un mínimo de 5 diferencias de residuos
aminoácido de cualquier miembro del grupo, correspondientes a los
miembros del subgrupo de aminoácidos variables. Una proteína
híbrida típica también comprenderá un subgrupo de al menos 5
residuos de aminoácido del subgrupo de aminoácidos variables, donde
cada uno de los al menos 5 aminoácidos es idéntico a un aminoácido
correspondiente en al menos uno de los miembros del grupo parental,
y cada uno de los subgrupos de al menos 5 aminoácidos, en orden
desde el extremo N al extremo C, es idéntico a un aminoácido
correspondiente de uno diferente del grupo de proteínas parentales
del miembro previo del subgrupo de al menos 5 residuos de
aminoácido variables. En otras palabras, la proteína híbrida típica
contiene al menos 5 residuos de aminoácido variables
correspondientes a las proteínas parentales alternas.
La invención proporciona polipéptidos de
polimerasa híbridos que tienen residuos de múltiples polimerasas
parentales. La invención también proporciona ácidos nucleicos que
codifican tales proteínas. De este modo, la invención proporciona
una polimerasa híbrida que tiene actividad polimerasa, donde la
polimerasa tiene una identidad de al menos 94% con una secuencia de
aminoácidos seleccionada del SEQ ID NO:2, SEQ ID NO:12, los
aminoácidos 1 a 775 del SEQ ID NO:6, los aminoácidos 1 a 775 del SEQ
ID NO:8 y los aminoácidos 1 a 775 del SEQ ID NO:10; donde la
polimerasa híbrida comprende las posiciones que están mutadas del
residuo nativo del SEQ ID NO: 24 o el SEQ ID NO: 25 al
correspondiente residuo del SEQ ID NO: 25 o el SEQ ID NO: 24
respectivamente; y tiene una razón de actividad polimerasa a
exonucleasa incrementada con respecto a la polimerasa Pfu parental.
La polimerasa puede comprender el SEQ ID NO:23 y puede ser idéntica
al menos en un 80% a lo largo de 700 aminoácidos contiguos de la
secuencia de Pyrococcus furiosus (Pfu) mostrada en el SEQ ID
NO: 24 o idéntica al menos en 80% a lo largo de 700 aminoácidos
contiguos de Deep Vent®; la secuencia mostrada en el SEQ ID NO: 25,
con la condición de que (a) cuando la polimerasa es idéntica al
menos en un 80% al SEQ ID NO: 24, la secuencia comprende al menos
una posición híbrida que está mutada a partir del residuo nativo de
Pfu al residuo que existe en la correspondiente posición del SEQ ID
NO: 25, donde la posición híbrida es uno de los residuos designados
como "X" en el SEQ ID NO: 26; o (b) cuando la polimerasa es
idéntica al menos en un 85% al SEQ ID NO: 25, la secuencia
comprende al menos una posición híbrida que está mutada desde el
residuo de Deep Vent® nativo al residuo que existe en la
correspondiente posición del SEQ ID NO: 24, donde la posición
híbrida es uno de los residuos designados como "X" en el SEQ
ID NO: 26. La polimerasa puede ser al menos idéntica en un 90% a lo
largo de los 700 aminoácidos contiguos de la secuencia de Pfu
mostrada en el SEQ ID NO: 24 o idéntica al menos en un 90% a lo
largo de los 700 aminoácidos contiguos de la secuencia Deep Vent®
mostrada en el SEQ ID NO: 25.
En algunas realizaciones, la polimerasa híbrida
comprende al menos diez posiciones híbridas, típicamente veinte
posiciones híbridas, treinta posiciones híbridas, cuarenta
posiciones híbridas, o cincuenta o más posiciones híbridas, que
están mutadas a partir del residuo nativo del SEQ ID NO: 24 o el SEQ
ID NO: 25 al correspondiente residuo del SEQ ID NO: 25 o el SEQ ID
NO: 24, respectivamente.
En otras realizaciones, la polimerasa híbrida
comprende una secuencia de aminoácidos del SEQ ID NO: 2, el SEQ ID
NO: 12; o la región de la polimerasa del SEQ ID NO: 6, el SEQ ID NO:
8 o el SEQ ID NO: 10.
La invención también incluye realizaciones en
las cuales la polimerasa híbrida comprende adicionalmente un
dominio de unión a ADN, a menudo Sso7d, Sac7d, y Sac7e. A menudo, el
dominio de unión a ADN está conjugado con la polimerasa. En algunas
realizaciones, el producto conjugado con el dominio de unión a ADN
de la polimerasa comprende una secuencia de aminoácidos del SEQ ID
NO: 4, el SEQ ID NO: 6, el SEQ ID NO: 8, el SEQ ID NO: 10 o el SEQ
ID NO: 14.
La invención también proporciona ácidos
nucleicos aislados que codifican las polimerasas híbridas, y
productos conjugados que comprenden la polimerasa híbrida conectada
a un dominio de unión a ADN; y vectores de expresión y células
anfitrionas que comprenden los ácidos nucleicos.
En otro aspecto, la invención proporciona un
ácido nucleico aislado que codifica un polipéptido que comprende
una secuencia de aminoácidos idéntica al menos en un 94% al SEQ ID
NO: 2, donde el polipéptido muestra actividad polimerasa. En
realizaciones típicas, el polipéptido comprende el SEQ ID NO: 2. En
algunas realizaciones, el ácido nucleico aislado comprende el SEQ
ID NO: 1.
La invención también proporciona realizaciones,
donde el polipéptido codificado por el ácido nucleico comprende
adicionalmente un dominio de unión a ADN, que se selecciona a menudo
del grupo que consiste en Sso7d, Sac7d, y Sac7e. El ácido nucleico
puede codificar un polipéptido que comprende el SEQ ID NO: 4. En una
realización, el ácido nucleico comprende el SEQ ID NO: 3.
En otros aspectos, la invención proporciona
vectores de expresión y células anfitrionas que comprenden los
ácidos nucleicos.
En otro aspecto, la invención proporciona un
polipéptido aislado que comprende una secuencia de aminoácidos
idéntica al menos en un 94% al SEQ ID NO: 2, donde el polipéptido
tiene actividad polimerasa. En una realización, el polipéptido
comprende el SEQ ID NO: 2.
En algunas realizaciones, el polipéptido
comprende adicionalmente un dominio de unión a ADN, p. ej., Sso7d,
Sac7d, o Sac7e. El dominio de unión a ADN puede ser fusionado al
extremo carboxi del polipéptido. En una realización, el polipéptido
comprende el SEQ ID NO: 4.
La invención proporciona un ácido nucleico
aislado que codifica un polipéptido que comprende una secuencia de
aminoácidos idéntica al menos en un 94% al SEQ ID NO: 12; o la
región polimerasa del SEQ ID NO: 6, el SEQ ID NO: 8, o el SEQ ID
NO: 10, donde el polipéptido muestra actividad polimerasa. En
realizaciones típicas, el polipéptido comprende el SEQ ID NO: 12, o
la región polimerasa del SEQ ID NO: 6, el SEQ ID NO: 8, o el SEQ ID
NO: 10. En algunas realizaciones, el ácido nucleico aislado
comprende el SEQ ID NO: 11; o la región polimerasa del SEQ ID NO:
5, el SEQ ID NO: 7 o el SEQ ID NO: 9.
La invención también proporciona realizaciones,
donde el polipéptido codificado por el ácido nucleico comprende
adicionalmente un dominio de unión a ADN, que se selecciona a menudo
del grupo que consiste en Sso7d, Sac7d, y Sac7e. El ácido nucleico
puede codificar un polipéptido que comprende el SEQ ID NO: 6, el SEQ
ID NO: 8, el SEQ ID NO: 10, o el SEQ ID NO: 14. En una realización,
el ácido nucleico comprende el SEQ ID NO: 5, el SEQ ID NO: 7, el
SEQ ID NO: 9, el SEQ ID NO: 13, o el SEQ ID NO: 1.
En otros aspectos, la invención proporciona
vectores de expresión y células anfitrionas que comprenden los
ácidos nucleicos.
En otro aspecto, la invención proporciona un
polipéptido aislado que comprende una secuencia de aminoácidos
idéntica al menos en un 94% al SEQ ID NO: 12, o la región polimerasa
del SEQ ID NO: 6, el SEQ ID NO: 8, o el SEQ ID NO: 10, donde el
polipéptido tiene actividad polimerasa. En una realización, el
polipéptido comprende el SEQ ID NO: 12, o la región polimerasa del
SEQ ID NO: 6, el SEQ ID NO: 8, o el SEQ ID NO: 10.
En algunas realizaciones, comprende
adicionalmente un dominio de unión a ADN, p. ej., Sso7d, Sac7d, o
Sac7e. El dominio de unión a ADN puede ser fusionado al extremo
carboxi del polipéptido. En una realización, el polipéptido
comprende el SEQ ID NO: 6, el SEQ ID NO: 8, el SEQ ID NO: 10, o el
SEQ ID NO: 14.
La Figura 1 muestra un alineamiento BlastP de la
polimerasa de Pyrococcus furiosus (Pfu) (problema 1) frente
a la polimerasa GB-D de Pyrococcus sp. (Deep
Vent®) (sujeto 1).
La Figura 2 muestra un alineamiento de las
secuencias de polimerasa Pfu parental y Deep Vent®. La secuencia de
polimerasa de diseño de la proteína híbrida muestra las posiciones
que varían, entre las dos secuencias parentales, que están
designadas por una X. Los "residuos correspondientes" de las
secuencias son aquellos residuos que existen en la misma posición
mostrada en el alineamiento.
La Figura 3 muestra un ejemplo de PCR de
ensamblaje. En este ejemplo, se someten oligonucleótidos degenerados
de 100 pares de bases a rondas de hibridación y extensión del
cebador hasta obtener fragmentos de aproximadamente 500 pares de
bases. Estas genotecas de fragmentos tienen un tamaño
suficientemente grande para ser fácilmente manipuladas y
ensambladas en clones completos o genotecas de clones completos
mediante técnicas de clonación molecular convencionales.
La Figura 4 muestra las secuencias de las
proteínas Dut parentales y el alineamiento BLASTP de las secuencias
parentales.
La Figura 5 muestra las degeneraciones en las
posiciones que difieren en las proteínas Dut parentales. 5A.:
Secuencia parental alineada que muestra todos los posibles codones
en el orden de su frecuencia de uso por E. coli. SB: La
secuencia consenso se obtiene encontrando los codones que
codificarán ambas secuencias con un número mínimo de
degeneraciones. Se prefieren los codones utilizados frecuentemente
por E. coli. 5C: Las degeneraciones de ácido nucleico que
incorporan secuencias de aminoácidos no similares (el número BLOSUM
62 es <0) a cualquier secuencia de aminoácidos parental son
eliminadas; en este ejemplo se utiliza en su lugar el ácido
nucleico que codifica la secuencia de proteína térmicamente estable,
AAD. Éstas se indican en negrita. La secuencia de la enzima
térmicamente estable también se utiliza para decidir la conservación
de un espacio y eliminar los 2 casos en los que se podrían
incorporar codones de terminación a la secuencia.
La Figura 6 muestra los sitios de cebado y
restricción (negrita) que fueron añadidos a los extremos de la
secuencia. En dos casos, se cambió el uso de codones para añadir
sitios de restricción (subrayados y en cursiva). Los aminoácidos
codificados por la secuencia se indican bajo los codones.
La Figura 7 muestra la secuencia de
oligonucleótidos codificante mínima que se va a sintetizar para
ensamblar la genoteca híbrida de Dut. La secuencia de ADN se
convirtió en un código de nucleótidos de una sola letra utilizando
las designaciones convencionales y se seleccionaron las secuencias
de nucleótidos (debajo en negrita). Las selecciones se hicieron de
manera que existen degeneraciones mínimas donde se espera que los
cebadores hibriden entre sí durante el ensamblaje. En un tramo de
la secuencia no había región en la que se pudieran seleccionar
secuencias de oligonucleótidos hibridables de tamaño razonable. En
este ejemplo, el sitio ClaI (subrayado) insertado en la etapa
previa se utilizó para ensamblar una genoteca codificante de
proteínas completas a partir de 2 fragmentos de restricción.
La Figura 8 muestra la secuencia codificante
mínima utilizada para generar oligonucleótidos que codifican una
ADN polimerasa Híbrida Pfu/Deep Vent® como se explica en el ejemplo
2. Los nucleótidos degenerados están entre paréntesis. Se indican
las secuencias de aminoácidos que difieren entre las proteínas
parentales (los "emparejamientos erróneos"). Los aminoácidos
no parentales se indican en negrita. Los ejemplos mencionados en el
texto están numerados.
La Figura 9 muestra una comparación de las
razones de polimerasa con respecto a exonucleasa 3' para varias
enzimas asequibles comercialmente, incluyendo las proteínas
parentales, y los productos aislados de la genoteca de
híbridos.
La Figura 10 muestra los resultados de una
comparación de polimerasas híbridas y parentales. Las enzimas se
sometieron a ensayo en busca de la capacidad para amplificar
amplicones de ADN del bacteriófago lambda de una gama de tamaños,
dado un tiempo de extensión de 30 seg o 1 min. Los tamaños de los
amplicones, en kilobases, se enumeran en las partes inferiores de
las calles. Se utilizaron 20 unidades de enzima por ml a menos que
se indicara de otro modo.
La Figura 11 muestra una comparación de las
secuencias de proteínas polimerasa parentales e híbridas.
La Figura 12 muestra un elemento de secuencia
que es común a las secuencias parentales e híbridas.
En la presente memoria se describen métodos para
crear proteínas híbridas que tienen un fenotipo deseado. En general
a menudo es deseable crear nuevas proteínas con funciones que son
similares a, pero alteradas a partir de, las funciones de proteínas
existentes conocidas, p. ej., puede ser deseable para crear
proteínas con una estabilidad mejorada, una actividad enzimática
mejorada o disminuida hacia sustratos concretos, afinidad mejorada
o disminuida por ligandos concretos, etc. Por ejemplo, una enzima
ADN polimerasa puede tener actividades tanto polimerasa como
exonucleasa, y puede ser útil para crear nuevas enzimas con
diferentes proporciones de esas dos actividades. Tales métodos
pueden producir grandes números de proteínas que pueden ser
escrutadas en busca de propiedades deseables.
Con la secuenciación de los genomas humano, de
ratón, y muchos invertebrados y microbianos sustancialmente
completa, se encuentran disponibles una gran variedad de genes y
secuencias de proteínas deducidas. Se puede utilizar la información
de secuencias brutas sobre variaciones de proteínas como fuente para
generar proteínas variantes útiles.
En particular, se puede sintetizar una genoteca
de ácido nucleico que codifica híbridos de dos o más proteínas
parentales y proteínas híbridas que tienen un fenotipo o actividad
deseados. Típicamente, la genoteca comprenderá 32 o más proteínas
híbridas. Una genoteca de ácidos nucleicos híbridos puede codificar
una pluralidad de proteínas híbridas y proteínas híbridas
sintéticas que comprenden una similitud de aminoácidos de más del
60%, a menudo una identidad de más del 60%, con cada miembro de un
grupo de al menos dos proteínas parentales.
La práctica de esta invención implica la
construcción de proteínas recombinantes y su expresión en células
anfitrionas. Las técnicas de clonación molecular para lograr estos
fines son conocidas en la técnica. Una amplia variedad de métodos
de clonación y amplificación in vitro adecuados para la
construcción de ácidos nucleicos recombinantes tales como vectores
de expresión son bien conocidos por los expertos en la técnica. Los
textos generales que describen técnicas de biología molecular,
útiles en la presente memoria, incluyen Sambrook & Russell,
Molecular Cloning, A Laboratory Manual (3ª Ed, 2001)
("Sambrook"); Kriegler, Gene Transfer and Expression: A
Laboratory Manual (1990); y Current Protocols in Molecular Biology,
Ausubel et al., eds., 1994-1999, John Wiley
& Sons, Inc ("Ausubel").
Las secuencias parentales para generar proteínas
híbridas para una proteína de interés pueden ser identificadas por
diferentes métodos de comparación de secuencias de aminoácidos.
Utilizando estas técnicas, un experto en la técnica puede
identificar regiones conservadas en los ácidos nucleicos que
codifican las proteínas de la invención para preparar
oligonucleótidos apropiados que pueden ser utilizados para generar
las proteínas híbridas.
Los oligonucleótidos pueden ser elaborados a la
medida y pedidos a una variedad de fuentes comerciales conocidas en
la técnica. Aquellos que no son asequibles comercialmente pueden ser
sintetizados químicamente utilizando una variedad de métodos
químicos, p. ej., el método del triéster de fosforamidita en fase
sólida descrito primero por Beaucage & Caruthers, Tetrahedron
Letts. 22:1859-1862 (1981), utilizando un
sintetizador automático, como describen Van Devanter et.
al., en Nucleic Acids Res. 12:6159-6168 (1984).
La purificación de oligonucleótidos se realiza utilizando métodos
conocidos, p. ej., mediante electroforesis en gel de acrilamida
nativa o mediante HPLC de intercambio aniónico como describen
Pearson & Reanier, J. Chrom. 255:137-149
(1983).
Los ácidos nucleicos que codifican las proteínas
híbridas o los segmentos de las proteínas híbridas pueden ser
amplificados a partir de muestras de ácido nucleico, p. ej.,
segmentos de oligonucleótidos, utilizando diferentes técnicas de
amplificación/extensión. Por ejemplo, se puede utilizar la
tecnología de reacción en cadena de la polimerasa (PCR) para
obtener secuencias de ácido nucleico que codifican proteínas
híbridas que van a ser expresadas, para elaborar ácidos nucleicos
para utilizarlos como sondas para detectar la presencia de las
secuencias de ácido nucleico deseadas en muestras, para la
secuenciación de ácidos nucleicos, o para otros fines. Para una
visión general de la PCR véase PCR Protocols: A Guide to Methods and
Applications. (Innis, M, Gelfand, D., Sninsky, J. y White, T.,
eds.), Academic Press, San Diego (1990).
Las secuencias de ácido nucleico que codifican
las proteínas híbridas de la invención pueden ser clonadas en
vectores de expresión para generar una genoteca de secuencias que
codifican proteínas híbridas individuales.
El siguiente estudio proporciona detalles sobre
cómo seleccionar y alinear las proteínas de partida parentales,
cómo crear la genoteca de ácidos nucleicos que codifica polipéptidos
híbridos derivados de las proteínas parentales, y cómo evaluar las
proteínas obtenidas de la genoteca.
La presente invención también proporciona
polipéptidos de polimerasas híbridas y secuencias de ácido nucleico
que fueron generadas utilizando los métodos descritos en la presente
memoria. En algunas realizaciones, los polipéptidos comprenden
adicionalmente un dominio de unión a ADN, p. ej., una proteína
básica pequeña Archaeal, tal como un dominio de unión a ADN Sso7d,
Sac7d, o Sac7e, que es fusionado al polipéptido. El dominio de unión
a ADN típicamente aumenta la afinidad de unión de la enzima al
ácido nucleico y puede aumentar la capacidad de procesamiento de
las polimerasas.
\newpage
Las polimerasas de la invención incluyen
polimerasas idénticas o sustancialmente idénticas a las secuencias
de polimerasa descritas en los SEQ ID NO: 2, SEQ ID NO: 4, SEQ ID
NO: 6, SEQ ID NO: 8, SEQ ID NO: 10, SEQ ID NO: 12 o, SEQ ID NO: 14.
Tales polimerasas a menudo muestran una actividad alterada en
comparación con la de la polimerasa Pfu de tipo salvaje o Deep
Vent®.
\vskip1.000000\baselineskip
El término "proteína híbrida" se utiliza en
la presente memoria para describir un polipéptido que comprende
residuos de aminoácido de múltiples secuencias de polipéptidos
parentales.
El término "posición híbrida" hace
referencia a una posición que difiere entre las secuencias de
polipéptidos parentales, o subsecuencias.
El término "amplificación" hace referencia
a un procedimiento por medio del cual aumenta el número de copias
de un fragmento de ácido nucleico.
Una "secuencia parental" indica una
secuencia de aminoácidos o de ácido nucleico de partida o de
referencia antes de la manipulación de la invención. El término se
utiliza indistintamente con "secuencia de partida". Las
secuencias parentales pueden ser proteínas de tipo salvaje,
proteínas híbridas, proteínas que contienen mutaciones, u otras
proteínas diseñadas. Las secuencias parentales pueden ser proteínas
completas, subunidades de proteínas, dominios de proteínas, motivos
de aminoácidos, sitios activos de proteínas, o cualquier secuencia
de polipéptidos o subgrupo de secuencias de polipéptidos, ya sea
continua o interrumpida por otras secuencias de polipéptidos.
El término "de tipo salvaje" hace
referencia a una secuencia de polinucleótidos o polipéptidos que no
comprende mutaciones. Una proteína "de tipo salvaje" hace
referencia a una proteína activa a un nivel de actividad encontrado
en la naturaleza y que comprende típicamente la secuencia de
aminoácidos encontrada en la naturaleza.
Una secuencia de polipéptidos "nativa" hace
referencia a una secuencia de polipéptidos parental, típicamente
una secuencia "de tipo salvaje".
El término "mutaciones" hace referencia a
cambios en la secuencia de una secuencia de ácido nucleico de tipo
salvaje o cambios en las secuencias de un péptido. Tales mutaciones
pueden ser mutaciones puntuales tales como transiciones o
transversiones, o deleciones, inserciones, o duplicaciones.
El término "de origen natural" según se
utiliza en la presente memoria hace referencia a un ácido nucleico
o polipéptido que puede ser encontrado en la naturaleza. Por
ejemplo, una secuencia de polipéptidos o polinucleótidos que está
presente en un organismo que puede ser aislado de una fuente en la
naturaleza y que no ha sido modificada intencionadamente en un
laboratorio es de origen natural.
Una actividad "biológica común" hace
referencia a una actividad que es compartida por dos o más proteínas
donde la actividad biológica común es una actividad que se
encuentra en la naturaleza. La actividad biológica de una proteína
puede ser evaluada utilizando métodos convencionales conocidos en la
técnica para determinar la función de una proteína.
El término "dominio de unión a ADN" hace
referencia a un dominio de proteína que se une con una afinidad
significativa a ADN, para el cual no se conoce un ácido nucleico
que se una al dominio de la proteína con más de 100 veces más
afinidad que otro ácido nucleico con la misma composición de
nucleótidos pero con una secuencia de nucleótidos diferente.
El término "Sso7d" o "dominio de unión a
ADN Sso7d" o "dominio de unión a ADN de tipo Sso7d" o
"proteína de unión a Sso7d" hace referencia a variantes
polimórficas de ácido nucleico y polipéptido, alelos, mutantes, e
interespecies homólogas que: (1) tienen una secuencia de aminoácidos
que tiene una identidad de secuencia de aminoácidos de más de
aproximadamente el 60%, 65%, 70%, 75%, 80%, 85%, 90%,
preferiblemente 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% o 99% o una
identidad de secuencia de aminoácidos mayor, preferiblemente a lo
largo de una región de al menos aproximadamente 15, 25, 35, 50, o
más aminoácidos, con una secuencia Sso7d de SEQ ID NO: 22; (2) se
unen a anticuerpos, p. ej., anticuerpos policlonales, originados
contra un inmunógeno que comprende una secuencia de aminoácidos del
SEQ ID NO: 22 y sus variantes modificadas conservativamente; (3)
hibridan específicamente en condiciones de hibridación restrictivas
con una secuencia de ácido nucleico Sso7d de SEQ ID NO: 21 y sus
variantes modificadas conservativamente; o (4) tienen una secuencia
de ácido nucleico que tiene una identidad de secuencia de
nucleótidos de más de aproximadamente 90%, preferiblemente más de
aproximadamente 96%, 97%, 98%, 99%, o superior, preferiblemente a lo
largo de una región de al menos aproximadamente 50, 100, 150, o más
nucleótidos, con el SEQ ID NO: 21. El término incluye tanto
polipéptidos Sso7d completos como fragmentos de los polipéptidos
que tienen actividad de unión a la doble hebra no específica de la
secuencia. Las proteínas de tipo Sso7d incluyen Sac7d y Sac7e.
"Dominio" hace referencia a una unidad de
una proteína o complejo de proteína, que comprende una subsecuencia
de un polipéptido, una secuencia de polipéptido completa, o una
pluralidad de secuencias de polipéptidos donde esa unidad tiene una
función definida. Se entiende que la función está ampliamente
definida y puede ser la unión a un ligando, una actividad
catalítica o puede tener un efecto estabilizante sobre la estructura
de la proteína.
Un "producto conjugado de polimerasa Sso7d"
hace referencia a una polimerasa modificada que comprende al menos
un dominio de unión a ADN Sso7D acoplado a un dominio polimerasa, o
una subunidad catalítica del dominio polimerasa.
"Potencia" en el contexto de una enzima
hace referencia a la mejora de la actividad de la enzima, esto es,
incremento de la cantidad de producto por unidad de enzima por
unidad de tiempo.
"Fusionado" hace referencia a una conexión
por medio de un enlace covalente.
"Heterólogo", cuando se utiliza en
referencia a porciones de una proteína, indica que la proteína
comprende dos o más dominios que no se encuentran en la misma
relación entre sí en la naturaleza. Semejante proteína, p.
ej., una proteína de fusión, contiene dos o más dominios de
proteínas no relacionadas dispuestas para formar una nueva proteína
funcional.
Una secuencia de polinucleótidos es
"heteróloga con respecto a" un organismo o una segunda
secuencia de polinucleótidos si se origina a partir de una especie
foránea, o, si es a partir de la misma especie, está modificada a
partir de su forma original. Por ejemplo, un promotor conectado
operablemente a una secuencia codificante heteróloga hace
referencia a una secuencia codificante de una especie diferente de
aquella de la cual se obtuvo el promotor, o, si es de la misma
especie, una secuencia codificante que es diferente de cualquiera de
las variantes alélicas de origen natural.
"Empalme" hace referencia a cualquier
método conocido en la técnica para conectar funcionalmente dominios
de proteína, incluyendo sin limitación la fusión recombinante con o
sin dominios intermedios, fusión mediada por inteína, asociación no
covalente, y enlace covalente, incluyendo enlace disulfuro; enlace
de hidrógeno; enlace electrostático; y enlace conformacional, p.
ej., asociaciones anticuerpo-antígeno, y
biotina-avidina.
"Polimerasa" hace referencia a una enzima
que realiza la síntesis de polinucleótidos dirigida por un molde.
El término abarca tanto el polipéptido completo como un dominio que
tiene actividad polimerasa.
"Eficacia" en el contexto de una polimerasa
de esta invención hace referencia a la capacidad de la enzima para
realizar su función catalítica en condiciones de reacción
específicas. Típicamente, la "eficacia" según se define en la
presente memoria está indicada por la cantidad de producto generado
en condiciones de reacción dadas.
"Capacidad de procesamiento" hace
referencia a la capacidad de una polimerasa para permanecer unida al
molde o sustrato y realizar la síntesis de polinucleótidos. La
capacidad de procesamiento se mide por el número de eventos
catalíticos que tienen lugar por evento de unión.
"Polimerasa térmicamente estable" según se
utiliza en la presente memoria hace referencia a cualquier enzima
que cataliza la síntesis de polinucleótidos mediante la adición de
unidades de nucleótido a una cadena de nucleótidos utilizando ADN o
ARN como molde y tiene una actividad óptima a una temperatura
superior a 45ºC.
"Reacción en cadena de la polimerasa" o
"PCR" hace referencia a un método por medio del cual un
segmento específico o subsecuencia de un ADN de doble hebra diana,
es amplificado en progresión geométrica. La PCR es bien conocida
por los expertos en la técnica; véanse, p. ej., las Patentes de los
Estados Unidos 4.683.195 y 4.683.202; y PCR Protocols: A Guide to
Methods and Applications, Innis et al., eds, 1990. Las
condiciones de reacción de PCR ilustrativas comprenden típicamente
ciclos de dos o tres etapas. Los ciclos de dos etapas tienen una
etapa de desnaturalización seguida de una etapa de
hibridación/elongación. Los ciclos de tres etapas comprenden una
etapa de desnaturalización seguida de una etapa de hibridación
separada.
"Amplificar" hace referencia a una etapa en
la que una solución se somete a condiciones suficientes para
permitir la amplificación de un polinucleótido si todos los
componentes de la reacción están intactos. Los componentes de una
reacción de amplificación incluyen, por ejemplo, cebadores, un molde
polinucleotídico, polimerasa, nucleótidos, y similares. El término
"amplificar" hace referencia típicamente a un incremento
"exponencial" en un ácido nucleico diana. No obstante,
"amplificar" según se utiliza en la presente memoria también
puede hacer referencia a incrementos lineales en el número de una
secuencia diana de ácido nucleico seleccionada, tal como se obtiene
con la secuenciación por ciclos.
El término "mezcla de reacción para
amplificación" hace referencia a una solución acuosa que
comprende los diferentes reactivos utilizados para amplificar un
ácido nucleico diana. Estos incluyen enzimas, tampones acuosos,
sales, cebadores de amplificación, ácido nucleico diana, y
nucleósidos trifosfato. Dependiendo del contexto, la mezcla puede
ser una mezcla de reacción de amplificación completa o
incompleta.
La "PCR larga" hace referencia a la
amplificación de un fragmento de ADN de 5 kb o más de longitud. La
PCR larga se realiza típicamente utilizando polimerasas o mezclas
de polimerasas especialmente adaptadas (véanse, p. ej., las
Patentes de los Estados Unidos Núms. 5.436.149 y 5.512.462) que son
distintas de las polimerasas utilizadas convencionalmente para
amplificar productos más cortos.
La "sensibilidad" de la PCR hace referencia
a la capacidad para amplificar un ácido nucleico diana que está
presente en un número de copias bajo. "Número de copias bajo"
hace referencia a 10^{5}, a menudo 10^{4}, 10^{3}, 10^{2},
10^{1} o menos, copias de la secuencia diana en la muestra de
ácido nucleico que se va a amplificar.
El término "especificidad cebador/molde de la
polimerasa" según se utiliza en la presente memoria hace
referencia a la capacidad de una polimerasa para discriminar entre
cebador/moldes correctamente emparejados y cebador/moldes
emparejados erróneamente. Un "incremento en la especificidad de
unión cebador/molde de la polimerasa" en este contexto hace
referencia a un incremento de la capacidad de una polimerasa de la
invención para discriminar entre cebador/molde emparejado en
comparación con una proteína polimerasa de tipo salvaje.
"Ácido nucleico" y "polinucleótido" se
utilizan indistintamente en la presente memoria para hacer
referencia a desoxirribonucleótidos o ribonucleótidos y polímeros
de los mismos en forma de hebra sencilla o de doble hebra. El
término incluye ácidos nucleicos que contienen análogos de
nucleótidos conocidos o residuos de esqueleto modificado o
conexiones, que son sintéticos, de origen natural, y de origen no
natural, que tienen propiedades de unión similares a las del ácido
nucleico de referencia, y que son metabolizados de una manera
similar a los nucleótidos de referencia. Los ejemplos de tales
análogos incluyen, sin limitación, fosforotioatos, fosforamiditas,
metilfosfonatos, metil-fosfonatos quirales,
2-O-metil-ribonucleótidos,
y ácidos péptido-nucleicos (PNA).
"Polipéptido", "péptido" y
"proteína" se utilizan indistintamente en la presente memoria
para hacer referencia a un polímero de residuos de aminoácido. Los
términos se aplican a polímeros de aminoácido de origen natural,
así como polímeros de aminoácido en los cuales uno o más residuos de
aminoácidos son un mimético químico artificial de un aminoácido de
origen natural correspondiente.
El término "aminoácido" hace referencia a
aminoácidos naturales y sintéticos, así como análogos de aminoácidos
y miméticos de aminoácidos que funcionan de una manera similar a
los aminoácidos de origen natural. Los aminoácidos de origen
natural son aquellos codificados por el código genético, así como
aquellos aminoácidos que se modifican más tarde, p. ej.,
hidroxiprolina, \gamma-carboxiglutamato, y
O-fosfoserina. Los análogos de aminoácido hacen
referencia a compuestos que tienen la misma estructura química
básica que el aminoácido de origen natural, esto es, un carbono
\alpha que está unido a un hidrógeno, un grupo carboxilo, un grupo
amino, y un grupo R, p. ej., homoserina, norleucina,
metionin-sulfóxido,
metionin-metil-sulfonio. Tales
análogos tienen grupos R modificados (p. ej., norleucina) o
esqueletos peptídicos modificados, pero conservan la misma
estructura química básica que un aminoácido de origen natural. Los
miméticos de aminoácidos hacen referencia a compuestos químicos que
tienen una estructura que es diferente de la estructura química
general de un aminoácido, pero que funciona de una manera similar a
la de un aminoácido de origen natural.
Los aminoácidos pueden ser referidos en la
presente memoria por sus símbolos de tres letras comúnmente
conocidos o por los símbolos de una letra recomendados por la
Comisión de Nomenclatura Química IUPAC-IUB. Los
nucleótidos, del mismo modo, pueden ser referidos por sus códigos
de una sola letra comúnmente aceptados.
"Variantes modificadas conservativamente"
se aplica a secuencias tanto de aminoácidos como de ácidos
nucleicos. Con respecto a secuencias de ácido nucleico concretas,
las variantes modificadas conservativamente hacen referencia a
aquellos ácidos nucleicos que codifican secuencias de aminoácidos
idénticas o sustancialmente idénticas, o cuando el ácido nucleico
no codifica una secuencia de aminoácidos, a secuencias
sustancialmente idénticas. Debido a la degeneración del código
genético, un gran número de ácidos nucleicos funcionalmente
idénticos codifican cualquier proteína dada. Por ejemplo, los
codones GCA, GCC, GCG y GCU codifican todos el aminoácido alanina.
De este modo, en cada posición en la que una alanina es especificada
por un codón, el codón puede ser alterado a cualquiera de los
codones correspondientes descritos sin alterar el polipéptido
codificado. Tales variaciones de ácidos nucleicos son
"variaciones silenciosas", que son una especie de variaciones
modificadas conservativamente. Cada secuencia de ácido nucleico de
la presente memoria que codifica un polipéptido también describe
cada posible variación silenciosa del ácido nucleico. Un experto
reconocerá que cada codón de un ácido nucleico (excepto AUG, que es
normalmente el único codón para metionina, y TGG, que es normalmente
el único codón para triptófano) puede ser modificado para rendir
una molécula funcionalmente idéntica. Por consiguiente, cada
variación silenciosa de un ácido nucleico que codifica un
polipéptido está implícita en cada secuencia
descrita.
descrita.
En cuanto a las secuencias de aminoácidos, un
experto en la técnica reconocerá que las sustituciones, deleciones
o adiciones individuales a una secuencia de ácido nucleico, péptido,
polipéptido, o proteína que altera, añade o suprime un único
aminoácido o un pequeño porcentaje de aminoácidos de la secuencia
codificada es una "variante modificada conservativamente"
donde la alteración da como resultado la sustitución de un
aminoácido por un aminoácido químicamente similar. Las tablas de
sustituciones conservativas que proporcionan aminoácidos
funcionalmente similares son bien conocidas en la técnica. Tales
variantes modificadas conservativamente son además de, y sin
excluir, las variantes polimórficas, los homólogos interespecie, y
los alelos de la invención.
Por ejemplo, se pueden realizar sustituciones en
las que un aminoácido alifático (G, A, I, L, o V) es sustituido por
otro miembro del grupo. De un modo similar, un grupo no cargado
polar alifático tal como C, S, T, M, N, o Q, puede ser sustituido
por otro miembro del grupo; y los residuos alcalinos, p. ej.,
K, R, o H, pueden ser sustituidos unos por otros. En algunas
realizaciones, un aminoácido con una cadena lateral ácida, E o D,
puede ser sustituido por su contraparte no cargada, Q o N,
respectivamente; o viceversa. Cada uno de los ocho grupos
siguientes contiene otros aminoácidos ilustrativos que son
sustituciones conservativas entre sí:
- 1)
- Alanina (A), Glicina (G);
- 2)
- Ácido aspártico (D), Ácido glutámico (E);
- 3)
- Asparagina (N), Glutamina (Q);
- 4)
- Arginina (R), Lisina (K);
- 5)
- Isoleucina (I), Leucina (L), Metionina (M), Valina (V);
- 6)
- Fenilalanina (F), Tirosina (Y), Triptófano (W);
- 7)
- Serina (S), Treonina (T); y
- 8)
- Cisteína (C), Metionina (M)
(véase, p. ej., Creighton, Proteins
(1984)).
\vskip1.000000\baselineskip
Un "ácido nucleico de polimerasa" o
"polinucleótido de polimerasa" es una secuencia o subsecuencia
de polinucleótidos que codifica una proteína que comprende un
dominio de polimerasa. Los ácidos nucleicos que codifican
realizaciones ilustrativas de las polimerasas de la invención son
idénticos o sustancialmente idénticos a un ácido nucleico que
codifica una polimerasa descrita en la presente memoria, p.
ej., una secuencia mostrada en los SEQ ID NO: 1, SEQ ID NO: 3,
SEQ ID NO: 5, SEQ ID NO: 7, SEQ ID NO: 9, SEQ ID NO: 11 o, SEQ ID
NO: 13; que codifica un polipéptido de polimerasa idéntico o
sustancialmente idéntico a los SEQ ID NO: 2, SEQ ID NO: 4, SEQ ID
NO: 6, SEQ ID NO: 8, SEQ ID NO: 10, SEQ ID NO: 12, o SEQ ID NO:
14.
Un "polipéptido de polimerasa" de la
presente invención es una proteína que comprende un dominio
polimerasa. El polipéptido de polimerasa también puede comprender
dominios adicionales incluyendo un dominio de unión a ADN, p. ej.,
Sso7D. Las ADN polimerasas son bien conocidas en la técnica, p. ej.,
Pyrococcus furiosus, Thermococcus litoralis, y Thermotoga
maritima. Incluyen tanto polimerasas dependientes de ADN como
polimerasas dependientes de ARN tales como la transcriptasa
inversa. Se conocen al menos cinco familias de polimerasas
dependientes de ADN, aunque la mayoría se encuentran en las familias
A, B y C. Existe poca o ninguna similitud de secuencia entre las
diferentes familias. La mayor parte de las polimerasas de la familia
A son proteínas de cadena sencilla que pueden contener múltiples
funciones enzimáticas incluyendo actividad polimerasa, actividad
exonucleasa 3' a 5' y actividad exonucleasa 5' a 3'. Las polimerasas
de la familia B tienen típicamente un único dominio catalítico con
actividad polimerasa y exonucleasa 3' a 5', así como factores
accesorios. Las polimerasas de la familia C son típicamente
proteínas de múltiples subunidades con actividad polimerizante y
exonucleasa 3' a 5'. En E. coli, se han encontrado tres tipos
de ADN polimerasas, ADN polimerasa I (familia A), II (familia B), y
III (familia C). En células eucarióticas, tres polimerasas de la
familia B diferentes, las ADN polimerasas \alpha, \delta, y
\varepsilon, están implicadas en la replicación nuclear, y una
polimerasa de la familia A, la polimerasa \gamma, se utiliza para
la replicación de ADN mitocondrial. Otros tipos de ADN polimerasas
incluyen las polimerasas de fagos. De un modo similar, las ARN
polimerasas incluyen típicamente las ARN polimerasas eucarióticas
I, II, y III, y las ARN polimerasas bacterianas así como las
polimerasas de fagos y virales. Las ARN polimerasas pueden ser
dependientes de ADN y dependientes de ARN.
Las realizaciones ilustrativas de las
polimerasas de la presente invención incluyen una polimerasa
idéntica o sustancialmente idéntica al SEQ ID NO: 2, SEQ ID NO: 4,
SEQ ID NO: 6, SEQ ID NO: 8, SEQ ID NO: 10, SEQ ID NO: 12, o SEQ ID
NO: 14. Un profesional experto comprenderá que los residuos de
aminoácido específicos de las polimerasas pueden ser modificados,
p. ej., modificados conservativamente, sin afectar
significativamente a la capacidad polimerasa mejorada. Como media,
existen al menos 6 aminoácidos por 100 que pueden ser modificados.
Incluyen, por ejemplo, sustituir la Glicina de la posición 12 por
alanina, la metionina de la posición 1 por valina, la isoleucina de
la posición 2 por leucina, la isoleucina de la posición 8 por
valina, o la treonina de la posición 33 por serina. (Las posiciones
se indican con referencia al SEQ ID NO: 26).
Las polimerasas de la presente invención pueden
ser identificadas por su capacidad para unirse a anticuerpos, p.
ej., anticuerpos policlonales, originados contra un inmunógeno
que comprende una secuencia de aminoácidos de los SEQ ID NO: 2, SEQ
ID NO: 4, SEQ ID NO: 6, SEQ ID NO: 8, SEQ ID NO: 10, SEQ ID NO: 12,
o SEQ ID NO: 14, y sus variantes modificadas conservativamente.
Las polimerasas polipeptídicas de la presente
invención tienen actividad polimerasa. Utilizando los análisis
descritos en la presente memoria, se puede medir la actividad de los
polipéptidos de la presente invención. Algunos polipéptidos de
polimerasa de la invención muestran una actividad polimerasa
mejorada en comparación con las polimerasas de tipo salvaje en los
análisis descritos en la presente memoria.
Se dice que dos secuencias de ácido nucleico o
polipéptidos son idénticas si las secuencias de nucleótidos o los
residuos de aminoácido, respectivamente, de las dos secuencias son
las mismas cuando se alinean para una correspondencia máxima como
se describe más abajo. Los términos "idéntico" o porcentaje de
"identidad", en el contexto de dos o más secuencias de ácido
nucleico o polipéptidos, hacen referencia a dos o más secuencias o
subsecuencias que son iguales o tienen un porcentaje especificado de
residuos de aminoácido o nucleótidos que son iguales, cuando se
comparan y se alinean para una correspondencia máxima a lo largo de
una ventana de comparación, medidos utilizando uno de los
algoritmos de comparación de la secuencia descritos más adelante o
mediante alineamiento manual e inspección visual.
Cuando se hace referencia a proteínas o péptidos
y con el fin de alinear polipéptidos, se reconoce que las
posiciones de los residuos que no son idénticos a menudo difieren en
sustituciones de aminoácidos conservativas, donde los residuos de
aminoácidos son sustituidos por otros residuos de aminoácido con
propiedades químicas similares (p. ej. carga o carácter hidrófobo)
y no cambian necesariamente las propiedades funcionales de la
molécula. La puntuación de las sustituciones conservativas para los
fines de esta patente se basa en la matriz BLOSUM62 (Henikoff &
Henikoff, Proc. Natl. Acad. Sci. USA 89:10915, 1989).
El término "similitud de secuencia" o
"similar" también se puede utilizar con respecto a secuencias
de aminoácidos. Este término incluye sustituciones conservativas,
como se ha descrito antes. Con el fin de determinar el porcentaje
de similitud, se considera que dos aminoácidos son similares si se
les da un valor mayor de cero (0) en la matriz de sustitución
BLOSUM62. El alineamiento óptimo para determinar el porcentaje de
similitud de secuencia se puede realizar utilizando diferentes
algoritmos como se explica adicionalmente en la presente memoria más
abajo. En los casos en los que el alineamiento óptimo de dos
secuencias requiere la inserción de un espacio en una o ambas
secuencias, un residuo de aminoácido que se alinea con un espacio de
la otra secuencia se cuenta como emparejamiento erróneo con el
propósito de determinar el porcentaje de identidad. Los espacios
pueden ser internos o externos, esto es, un truncamiento.
El término "porcentaje de identidad
absoluto" hace referencia a un porcentaje de identidad de
secuencia determinado puntuando los aminoácidos idénticos como 1 y
cualquier sustitución como cero, con independencia de la similitud
de los aminoácidos emparejados erróneamente. En un alineamiento de
secuencia típico, p. ej., un alineamiento BLAST, el "porcentaje
de identidad absoluto" de dos secuencias se presenta como el
porcentaje de "identidades" de aminoácidos. Según se utiliza
en la presente memoria, cuando una secuencia se define por ser
"idéntica al menos en un x%" con respecto a una secuencia de
referencia, p. ej., "un polipéptido idéntico al menos en un 90%
al SEQ ID NO: 2", se debe entender que "idéntico en un X%"
hace referencia a un porcentaje de identidad absoluto, a menos que
se indique de otro modo. En los casos en los que un alineamiento
óptimo de dos secuencias requiere la inserción de un espacio en una
o ambas secuencias, un residuo de aminoácido de una secuencia que
se alinea con un espacio de la otra secuencia se cuenta como un
emparejamiento erróneo con el propósito de determinar el porcentaje
de identidad. Los espacios pueden ser internos o externos, esto es,
un truncamiento.
El término "identidad sustancial" o
"similitud sustancial" de secuencias de polinucleótidos
significa que un polinucleótido comprende una secuencia que tiene
una identidad de secuencia de al menos 60%, o una similitud de
secuencia, respectivamente. Alternativamente, el porcentaje de
identidad o el porcentaje de similitud puede ser cualquier número
entero de al menos 60% a 100% (p. ej. al menos 60%, 61%, 62%, 63%,
64%, 65%, 66%, 67%, 68%, 69%, 70%, 71%, 72%, 73%, 74%, 75%, 76%,
77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%,
90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, 100%).
En algunas realizaciones, p. ej., las
secuencias de polimerasa descritas en la presente memoria,
secuencias de polimerasa sustancialmente idénticas tienen un 80%,
85%, 90%, 94%, 95%, 96%, 97%, 98%, o 99% en comparación con una
secuencia de referencia (p. ej., una polimerasa del SEQ ID
NO: 12; o la región de polimerasa del SEQ ID NO: 6, SEQ ID NO: 8, o
SEQ ID NO: 10) utilizando los programas descritos en la presente
memoria; preferiblemente BLAST utilizando los parámetros y
procedimientos convencionales, como se describe más abajo. Un
experto en la técnica reconocerá que estos valores se pueden
ajustar apropiadamente para determinar la correspondiente identidad
o similitud de las proteínas codificadas por dos secuencias de
nucleótidos teniendo en cuenta la degeneración de codones, la
similitud de aminoácidos, la situación del marco de lectura y
similares, como se describe adicionalmente más abajo.
Un experto en la técnica reconocerá que dos
polipéptidos también pueden ser "sustancialmente idénticos" si
los dos polipéptidos son inmunológicamemte similares. De este modo,
la estructura de la proteína global puede ser similar mientras la
estructura primaria de los dos polipéptidos presenta una variación
significativa. Por lo tanto un método para medir si dos
polipéptidos son sustancialmente idénticos implica medir la unión
de anticuerpos monoclonales o policlonales a cada polipéptido. Dos
polipéptidos son sustancialmente idénticos si los anticuerpos
específicos para un primer polipéptido se unen a un segundo
polipéptido con una afinidad de al menos un tercio de la afinidad
por el primer polipéptido.
Otra indicación de que dos secuencias de ácido
nucleico son sustancialmente idénticas es que las dos moléculas o
sus complementos hibridan entre sí en condiciones restrictivas, como
se describe más abajo. La expresión "hibrida selectivamente (o
específicamente) con" hace referencia a la unión, formación de
dúplex, o hibridación de una molécula solamente con una secuencia
de nucleótidos concreta en condiciones de hibridación restrictivas
cuando esa secuencia está presente en una mezcla compleja (p. ej.
ADN o ARN celular total o de una genoteca).
La expresión "condiciones de hibridación
restrictivas" hace referencia a condiciones en las que una sonda
hibridará con su subsecuencia diana, típicamente en una mezcla
compleja de ácidos nucleicos, pero no con otras secuencias. Las
condiciones restrictivas son dependientes de la secuencia y serán
diferentes en las diferentes circunstancias. Las secuencias más
largas hibridan específicamente a temperaturas superiores. Una guía
exhaustiva para la hibridación de ácidos nucleicos se encuentra en
Tijssen, Techniques in Biochemistry and Molecular
Biology- -Hybridization with Nucleic Probes, "Overview of
principles of hybridization and the strategy of nucleic acid
assays" (1993). Generalmente, las condiciones muy restrictivas se
seleccionan para que sean aproximadamente 5-10ºC
inferiores al punto de fusión térmica (Tm) para la secuencia
específica a un pH de fuerza iónica definido. Las condiciones poco
restrictivas se seleccionan generalmente para que sean
aproximadamente 15-30ºC inferiores a la Tm. La Tm
es la temperatura (a una fuerza iónica, pH, y concentración de ácido
nucleico definidos) a la cual el 50% de las sondas complementarias
a la diana hibridan con la secuencia diana en equilibrio (ya que
las secuencias diana están presentes en exceso, a la Tm, el 50% de
las sondas están ocupadas en equilibrio). Las condiciones
restrictivas serán aquellas en las que la concentración salina de
ión sodio es menor de aproximadamente 1,0 M, típicamente una
concentración de ión sodio (u otras sales) de aproximadamente 0,01 a
1,0 M a pH 7,0 a 8,3 y la temperatura es de al menos
aproximadamente 30ºC para las sondas cortas (p. ej., 10 a 50
nucleótidos) y al menos aproximadamente 60ºC para las sondas largas
(p. ej. mayor de 50 nucleótidos). Las condiciones
restrictivas también se pueden lograr con la adición de agentes
desestabilizantes tales como formamida. Para la hibridación
selectiva o específica, una señal positiva es al menos dos veces el
fondo, preferiblemente 10 veces la hibridación del fondo.
En la presente invención, los ácidos nucleicos
que codifican los polipéptidos de la invención pueden ser
identificados en transferencias Southern convencionales en
condiciones restrictivas utilizando las secuencias de ácido nucleico
descritas aquí. Para los fines de esta descripción, las condiciones
restrictivas adecuadas para tales hibridaciones son aquellas que
incluyen una hibridación en un tampón de formamida al 40%, NaCl 1 M,
SDS al 1% a 37ºC, y al menos un lavado en 0,2X SSC a una
temperatura de al menos aproximadamente 50ºC, normalmente de
aproximadamente 55ºC a aproximadamente 60ºC o 60ºC, durante 20
minutos, o condiciones equivalentes. Una hibridación positiva es al
menos dos veces el fondo. Los expertos en la técnica reconocerán
fácilmente que se pueden utilizar condiciones de hibridación y
lavado alternativas para proporcionar condiciones de restricción
similares.
Una indicación adicional de que dos
polinucleótidos son sustancialmente idénticos es que la secuencia de
referencia, amplificada por un par de cebadores oligonucleotídicos,
se pueda utilizar después como sonda en condiciones de hibridación
restrictivas para aislar la secuencia de ensayo de una genoteca de
ADNc o genómica, o para identificar la secuencia de ensayo p. ej.
en una transferencia northern o Southern.
Los términos "miembros de la genoteca",
"miembros de una genoteca" y similares hacen referencia a
aquellos ácidos nucleicos presentes en una genoteca de ácido
nucleico que tienen las características pretendidas descritas en la
presente memoria; esto es, ácidos nucleicos que codifican
polipéptidos híbridos. Los miembros pequeños de las genotecas,
p. ej., que comprenden secuencias que codifican dominios
polipeptídicos, se pueden unir por supuesto con otros miembros de
la genoteca o secuencias parentales o no parentales para codificar
proteínas completas. Se reconoce que las genotecas pueden contener
además otros ácidos nucleicos, ya sea como adiciones intencionadas
o como contaminantes no pretendidos; estos ácidos nucleicos
adicionales no se consideran "miembros".
Los términos "secuencia codificante
mínima", "secuencia de oligonucleótidos codificante mínima",
y "secuencia de nucleótidos codificante mínima" hacen
referencia a secuencias de nucleótidos que codifican una genoteca
de secuencias híbridas. Esto es el resultado de examinar dos o más
secuencias de aminoácidos diferentes y deducir una única secuencia
de nucleótidos degenerada que codificará una genoteca de proteínas
que incluya proteínas híbridas derivadas de las dos secuencias de
aminoácidos diferentes. Las secuencias codificantes mínimas pueden
hacer referencia a un único codón, a varios codones o a codones
suficientes para codificar una proteína completa. No es necesario
que las secuencias codificantes mínimas sean continuas. Las
secuencias codificantes mínimas pueden codificar aminoácidos no
parentales tanto similares como distintos de las secuencias
parentales. A menudo, es posible deducir secuencias codificantes
mínimas múltiples que codifiquen los mismos aminoácidos
parentales.
\vskip1.000000\baselineskip
En los métodos descritos en la presente memoria,
al menos dos secuencias de polinucleótidos que codifican
polipéptidos con una actividad biológica común (p. ej. desoxiuridina
trifosfato nucleotidohidrolasas, o ADN polimerasas) se recombinan
para producir una genoteca de polinucleótidos híbridos. La genoteca
se escruta después para identificar proteínas híbridas funcionales
con un fenotipo alterado con respecto a los polipéptidos
parentales.
Las proteínas parentales pueden mostrar una
similitud de secuencia sustancial o de estructura secundaria entre
sí, pero también deben diferir en al menos 5 posiciones y pueden
diferir en tanto como 100, 200, o más posiciones. El porcentaje de
similitud o el porcentaje de identidad entre las proteínas
parentales puede ser cualquier número de al menos 60% a 99%. Al
comparar las secuencias iniciales, puede haber más de dos
parentales. Las secuencias múltiples pueden ser divergentes en una
única posición o en diferentes posiciones. Por ejemplo, puede haber
tres secuencias relacionadas que sean parentales para generar
moléculas híbridas. Una secuencia puede diferir de la segunda en
una única posición, y la segunda puede diferir de la tercera en una
única posición diferente.
\newpage
La mayoría de las diferencias, p. ej.,
más del 50%, a menudo más del 75% o 90% de las diferencias, entre
los miembros de la genoteca se restringen típicamente a los
aminoácidos correspondientes que difieren entre las proteínas
parentales. Un aminoácido correspondiente hace referencia a un
residuo de aminoácido de una secuencia parental que existe en una
posición concreta cuando las secuencias parentales están máximamente
alineadas. Se debe entender que tales designaciones de la posición
no indican el número de aminoácidos de las secuencias parentales
per se, pero indican dónde se presentan los residuos en la secuencia
parental. El alineamiento se puede realizar manualmente o
utilizando un algoritmo de comparación de secuencia, como se
explica adicionalmente más abajo. Por ejemplo, la Figura 1 muestra
las secuencias de aminoácidos de dos proteínas de tipo salvaje, las
polimerasas Pfu y Deep Vent®. La Figura 2 indica las posiciones de
los aminoácidos que difieren entre las dos proteínas parentales.
Típicamente, las proteínas híbridas diferirán entre sí en las
posiciones que difieren entre sus parentales.
Las diferencias iniciales en la secuencia entre
las proteínas parentales son típicamente, pero no necesariamente,
el resultado de la variación natural. Por ejemplo, las proteínas
parentales pueden ser formas variantes que se obtienen de
diferentes individuos o cepas de un organismo, p. ej., las
proteínas parentales pueden ser secuencias relacionadas del mismo
organismo (p. ej., parálogos o variaciones alélicas), o
pueden ser homólogos de diferentes organismos (homólogos
interespecie).
Por consiguiente, los polipéptidos parentales
son cualquiera de dos o más proteínas homólogas que comparten una
actividad biológica común. La actividad biológica no siempre se
muestra directamente, si no que puede ser inferida de la similitud
o identidad de secuencia con proteínas conocidas de actividad
demostrada. La actividad biológica puede hacer referencia a una
única actividad enzimática incluso si una proteína concreta puede
tener más de una actividad enzimática. Asimismo, la actividad
biológica puede hacer referencia a actividades no enzimáticas tales
como la unión a otra molécula con efecto alostérico, como una
hormona o un receptor, o la unión a otra molécula sin efecto
alostérico, como ciertos anticuerpos; o la unión a otra molécula con
el efecto de neutralización o secuestro.
La actividad biológica de una proteína puede ser
evaluada utilizando medios convencionales conocidos en la técnica
para determinar la función de una proteína. Por ejemplo, las
proteínas parentales pueden ser enzimas y compartirán una actividad
enzimática común. Las enzimas ilustrativas incluyen polimerasas,
ligasas, lipasas, deshidrogenasas, ARNasas, ADNasas, proteasas,
quinasas, caspasas, metilasas, factores de transcripción, y
endonucleasas de restricción. Las proteínas parentales pueden ser
otras proteínas, p. ej., receptores, hormonas,
inmunoglobulinas, o cromóforos. La actividad biológica de estos
tipos de proteínas puede ser evaluada utilizando análisis
conocidos. El profesional experto comprenderá que se puede utilizar
cualquier grupo de proteínas, donde las proteínas miembro son
proteínas homólogas que tienen una similitud de aminoácidos de al
menos 60%, y a menudo una identidad de al menos 60%, entre sí y que
tienen una actividad biológica común, como polipéptidos
parentales.
Las secuencias parentales se alinean de acuerdo
con los métodos de alineamiento convencionales. Las secuencias se
comparan y se alinean para una máxima correspondencia a lo largo de
una ventana de comparación, o región designada medida utilizando
uno de los algoritmos de comparación de secuencias descritos más
abajo o mediante alineamiento manual e inspección visual. Las
secuencias de proteínas parentales se pueden alinear utilizando
cualquiera de los algoritmos conocidos adecuados para determinar el
porcentaje de identidad de las secuencias y la similitud de las
secuencias. Para los fines de esta patente, el porcentaje de
identidad de aminoácidos y el porcentaje de similitud de
aminoácidos se determinan por medio de los parámetros por defecto de
BLASTP utilizando la matriz de similitud Blosum62, una esperanza de
10, un tamaño de palabra de 3, y un ajuste de coste de espacio de
existencia 11/extensión 1 (Altschul et al., Nuc. Acids Res.
25:3389-3402 (1977)).
Para la comparación de secuencias, ya sea ácido
nucleico o proteína, típicamente una secuencia actúa como secuencia
de referencia, con la cual se comparan las secuencias de ensayo.
Cuando se utiliza un algoritmo de comparación de secuencias, se
introducen las secuencias de ensayo y de referencia en un ordenador,
se designan las coordenadas de la subsecuencia, si fuera necesario,
y se designan los parámetros del programa del algoritmo de
secuencias. Se pueden utilizar los parámetros del programa por
defecto, o se pueden designar parámetros alternativos. El algoritmo
de comparación de secuencias calcula después el porcentaje de
identidad de la secuencia o de similitud de la secuencia para las
secuencias de ensayo con respecto a la secuencia de referencia,
basándose en los parámetros del programa.
La ventana de comparación incluye la referencia
a un segmento de una cualquiera de las numerosas posiciones
contiguas seleccionadas del grupo que consiste en 10 a 600,
normalmente de aproximadamente 50 a aproximadamente 200, más
normalmente de aproximadamente 100 a aproximadamente 150 en el cual
se puede comparar una secuencia con una secuencia de referencia del
mismo número de posiciones contiguas después de que las dos
secuencias estén alineadas óptimamente. Los métodos de alineamiento
de secuencias para la comparación son bien conocidos en la técnica.
El alineamiento óptimo de secuencias para la comparación se puede
llevar a cabo, p. ej. mediante el algoritmo de homología
local de Smith & Waterman, Adv. Appl. Math. 2:482 (1981),
mediante el algoritmo de alineamiento de homología de Needleman
& Wunsch, J. Mol. Biol. 48:443 (1970), mediante la búsqueda para
el método de similitud de Pearson & Lipman, Proc. Natl. Acad.
Sci. USA 85:2444 (1988), mediante implementaciones computarizadas
de estos algoritmos (GAP, BESTFIT, FASTA, y TFASTA en el Paquete de
Soporte Lógico de Wisconsin Genetics, Genetics Computer Group, 575
Science Dr., Madison, WI), o mediante alineamiento manual e
inspección visual (véase, p. ej. Current Protocols in
Molecular Biology (Ausubel et al., eds. 1995
suplemento)).
Un ejemplo de un algoritmo que es adecuado para
determinar el porcentaje de identidad de secuencia y de similitud
de secuencia son los algoritmos BLAST y BLAST 2.0, que son descritos
por Altschul et al., en Nuc. Acids Res.
25:3389-3402 (1977) y por Altschul et al., en
J. Mol. Biol. 215:403-410 (1990), respectivamente.
El soporte lógico para realizar estos análisis BLAST está
disponible al público a través del National Center for Biotechnology
Information (http://www.ncbi.nlrn.nih. gov/). Este algoritmo
implica identificar primero pares de secuencia de alta puntuación
(HSP) identificando palabras cortas de longitud W en la secuencia
problema, que coinciden o satisfacen cierto valor T umbral valorado
positivamente con una palabra de la misma longitud en una secuencia
de la base de datos. T es referido como el umbral de puntuación de
la palabra vecina (Altschul et al., más arriba).
Estos éxitos de palabra vecina iniciales actúan como semillas para
iniciar búsquedas para encontrar HSP más largos que los contengan.
Los éxitos de palabra se extienden en ambas direcciones a lo largo
de cada secuencia tanto como se pueda incrementar la puntuación de
alineamientos cumulativa. Las puntuaciones cumulativas se calculan
utilizando, para las secuencia de nucleótidos, los parámetros M
(puntuación de recompensa para un par de residuos emparejados;
siempre > 0) y N (puntuación de penalización para residuos de
emparejamientos erróneos; siempre < 0). Para secuencias de
aminoácidos, se utiliza una matriz de puntuación para calcular la
puntuación cumulativa. La extensión de los éxitos de palabras en
cada dirección se detiene cuando: la puntuación de alineamiento
cumulativo cae en una cantidad X desde su valor máximo alcanzado; la
puntuación cumulativa tiende a cero o menos, debido a la
acumulación de uno o más alineamientos de residuos de puntuación
negativa; o se alcanza el extremo de cualquiera de las secuencias.
Los parámetros del algoritmo BLAST W, T, y X determinan la
sensibilidad y la velocidad del alineamiento. El programa BLASTN
(para secuencias de nucleótido) utiliza por defecto una longitud de
palabra (W) de 11, una esperanza (E) de 10, M=5, N=-4 y una
comparación de ambas hebras. Para las secuencias de aminoácidos, el
programa BLASTP utiliza por defecto una longitud de palabra de 3, y
una esperanza (E) de 10, y los alineamientos de la matriz de
puntuación (BLOSUM62 (véase Henikoff & Henikoff, Proc. Natl.
Acad. Sci. USA 89:10915 (1989)) (B) de 50, esperanza (E) de 10, M=5,
N=-4, y una comparación de ambas hebras.
El algoritmo BLAST también realiza un análisis
estadístico de la similitud entre dos secuencias (véase, p.
ej. Karlin & Altschul, Proc. Natl. Acad. Sci. USA
90:5873-5787 (1993)). Una medida de la similitud
proporcionada por el algoritmo BLAST es la probabilidad de la suma
más pequeña (P(N)), que proporciona una indicación de la
probabilidad por la cual un emparejamiento entre dos secuencias de
nucleótidos o aminoácidos ocurriría por casualidad. Por ejemplo, un
ácido nucleico se considera similar a una secuencia de referencia si
la probabilidad de la suma más pequeña en una comparación del ácido
nucleico de ensayo con el ácido nucleico de referencia es menor de
aproximadamente 0,2, más preferiblemente menor de aproximadamente
0,01, y muy preferiblemente menor de aproximadamente 0,001.
Las proteínas que son útiles como proteínas
parentales para generar híbridos de proteína tienen típicamente una
similitud de aminoácidos de más del 60%, a menudo una identidad de
más del 60%, entre sí. Las secuencias parentales seleccionadas se
pueden alinear sin espacios. Alternativamente el alineamiento se
puede adaptar a la presencia de un espacio o una deleción en la
secuencia de aminoácidos de una de las proteínas parentales.
Los métodos de alineamiento de proteínas que
contienen espacios o deleciones son conocidos en la técnica. El
espacio puede ser el resultado de un bucle que se une a hélices alfa
o un giro en láminas beta. Típicamente, el espacio o deleción no
afectará a la actividad enzimática compartida entre las dos
proteínas parentales. Las secuencias de partida se pueden alinear
de tal manera que incluyan el espacio o deleción. Los programas
convencionales para el modelado de la estructura de proteínas pueden
ser utilizados para ayudar a determinar si se omite o se incluye un
aminoácido donde existe un espacio en el alineamiento, p. ej.
BLASTP.
Por ejemplo, después de introducir una secuencia
de proteína en BLASTP, se crea una lista de proteínas con los
porcentajes de identidad, las similitudes, y los espacios indicados
a lo largo de cada comparación por pares. Si se indica un espacio,
se puede elaborar una genoteca para que tenga algunos
representativos con el espacio y algunos sin el espacio.
El espacio puede tener un tamaño significativo,
p. ej. 2-50 aminoácidos, o tener un bucle con
un papel enzimático. Alineando las dos proteínas parentales para
que incluyan la diversidad de un espacio o un bucle, se puede
lograr una diversidad más grande.
Las proteínas relacionadas tienen frecuentemente
diferentes longitudes en sus extremos amino y carboxilo. De este
modo, las secuencias de proteínas parentales pueden tener diferentes
longitudes en sus extremos amino y carboxilo. Los aminoácidos
adicionales en cualquier extremo pueden contener o no un motivo
esencial para la función. Por ejemplo, el extremo carboxilo de
algunos tipos de polimerasas B contienen motivos de unión a
antígenos nucleares de células en proliferación (PCNA). Una o más de
las proteínas parentales pueden conservar su motivo del extremo C o
N. Se puede elaborar una genoteca para que tenga algunos
representativos con una cola en el extremo C o N y algunos sin una
cola en el extremo C o N.
Por consiguiente, las secuencias parentales
pueden ser alineadas con o sin espacios, deleciones, o diferencias
en sus extremos amino y carboxi y combinarse para construir una
genoteca de proteínas híbridas y proteínas híbridas.
\vskip1.000000\baselineskip
Después de haber sido seleccionadas y alineadas
las proteínas parentales, se identifican los emparejamientos
erróneos entre las secuencias. Después se generan secuencias de
oligonucleótidos híbridos que contienen una mezcla de residuos
parentales en los sitios de los emparejamientos erróneos, esto es,
para cualquiera de las secuencias híbridas dadas, algunos de los
residuos en algunos de los sitios de emparejamientos erróneos son
de uno de los parentales; los residuos de otro de los sitios de
emparejamiento erróneo son del otro parental. De ese modo se puede
crear una genoteca que comprende secuencias híbridas. Más abajo se
muestran las consideraciones para la generación de genotecas de
moléculas híbridas.
Una vez que las secuencias de aminoácidos de las
proteínas parentales homólogas están alineadas, se identifican los
residuos de aminoácido que son diferentes entre las secuencias. Para
cada grupo de residuos de aminoácido diferente, se comparan los
codones que codifican los diferentes residuos y se obtiene una
secuencia codificante mínima. Preferiblemente, se seleccionan
después los codones que codifican los diferentes residuos y
solamente difieren en un nucleótido como punto de degeneración,
esto es, un punto en el que la variación de nucleótidos da como
resultados codones que codifican solamente uno aminoácido parental o
el otro.
Típicamente, la derivación de la secuencia
codificante mínima también está determinada por el uso codónico de
un anfitrión concreto. Por ejemplo, si se va a expresar un ácido
nucleico que codifica una proteína híbrida en E. coli, se
puede emplear el uso codónico de E. coli para obtener una
secuencia de polinucleótidos que comprende codones de E.
coli preferidos. De este modo se puede utilizar una tabla de uso
codónico de E. coli para comparar los diferentes codones que
pueden codificar dos aminoácidos que difieren.
En el caso más simple, y típicamente más común,
una única degeneración de ácido nucleico puede codificar ambos
aminoácidos que difieren en una posición concreta en las secuencias
parentales. Por ejemplo, dos proteínas homólogas pueden diferir en
una posición concreta en la que un parental tiene una valina en la
posición y el otro tiene un residuo de isoleucina. La valina puede
estar codificada por numerosos codones diferentes, uno de los
cuales es GTT. La isoleucina puede estar codificada por numerosos
residuos diferentes, uno de los cuales es ATT. Por lo tanto una
secuencia codificante mínima es (G/A)TT (o RTT utilizando el
código de una sola letra convencional). El primer nucleótido del
codón es el sitio de degeneración. Las máquinas de síntesis de
oligonucleótidos se pueden dirigir fácilmente a la elaboración de un
producto con la mitad de G y la mitad de A en una posición
concreta. Las moléculas de ácido nucleico individuales generadas
durante la síntesis tendrán por lo tanto G o A en ese sitio
concreto y la genoteca de secuencias híbridas tendrá algunas
secuencias con G para este codón y algunas con A. Por consiguiente,
las proteínas codificadas por los miembros de la genoteca
individuales tendrán una valina o una isoleucina en ese sitio. La
degeneración creada en ese sitio es independiente de las
degeneraciones creadas en otros sitios. Esto da como resultado una
genoteca con un gran número de variantes, pero que está constreñida
por las secuencias de los polipéptidos parentales.
Al comparar algunas de las diferencias en las
que una posición de las secuencias alineadas tiene dos aminoácidos
diferentes, una secuencia codificante mínima puede requerir cambiar
dos nucleótidos con el fin de codificar los dos residuos parentales
en esa posición. Esto puede dar como resultado una situación en la
que dos secuencias de aminoácido no parentales también pueden estar
codificadas por el codón degenerado. Por ejemplo, dos secuencias
parentales pueden diferir en una posición concreta, donde un residuo
es una lisina y el otro residuo parental es una alanina. La lisina
está codificada por AAR y la Ala por GCN. La secuencia codificante
mínima (A/G)(A/C)G puede ser utilizada por lo tanto para
codificar tanto lisina como alanina. Sin embargo, semejante codón
degenerado también puede codificar treonina (ACN) y glutamina (GAR)
además de Lys y Ala. En algunos casos, una proteína híbrida puede
tolerar un residuo de aminoácido que no es está en ninguno de los
parentales, especialmente si el aminoácido no parental es similar a
uno de los aminoácidos parentales. En otros casos, por ejemplo, si
la secuencia aparece en un dominio que es conocido por ser
importante para la actividad de la proteína, puede no ser deseable
introducir residuos de aminoácido no parentales. Por otra parte, en
algunos casos, el codón degenerado podría dar como resultado la
introducción de un codón de terminación, lo que podría producir una
genoteca en la cual una porción de las secuencias no fueran útiles.
Típicamente, uno de los residuos parentales se selecciona para esta
posición.
El propósito de producir la genoteca híbrida
debe ser considerado al tomar la decisión en cuanto a qué residuo
parental elegir. Por ejemplo, si una función deseada tal como la
estabilidad térmica, o el nivel de actividad exonucleasa, es mayor
en un parental que en otro, la elección debe favorecer al parental
con la característica deseada. En igualdad de condiciones, en todos
los casos en los que hay más de dos secuencias de proteínas
parentales o hay isoenzimas adicionales, homólogos, o secuencias
relacionadas, las decisiones sobre si incluir un aminoácido
concreto se pueden tomar por "votación" - por ejemplo, si menos
de una fracción umbral de las secuencias parentales difieren en una
posición de los aminoácidos presentes en la mayoría de las
secuencias, se puede ignorar el aminoácido raro.
Esta situación también puede ser tratada
generando dos secuencias de ácido nucleico diferentes, p.
ej., sintetizando dos oligonucleótidos diferentes, uno de los
cuales codifica uno de los residuos parentales, el otro de los
cuales codifica el residuo parental diferente. Con el propósito de
generar una genoteca, la mezcla de los dos oligonucleótidos en
cantidades iguales producirá eficazmente un oligonucleótido
degenerado que codifica los dos aminoácidos exclusivamente. Esta
secuencia de ácidos nucleicos mezclados se puede utilizar después
para el ensamblaje de ácidos nucleicos que codifican una genoteca de
proteínas.
En algunos casos, es más probable que la
secuencia codificante mínima codifique secuencias de aminoácido no
parentales porque no comparten secuencias codónicas en común (p.
ej., Met y Asp). En este caso de nuevo, se pueden aceptar
aminoácidos no parentales como mutaciones en la genoteca, o se puede
seleccionar una de las secuencias codónicas parentales para la
incorporación en la genoteca de proteínas híbridas en esta posición,
o se pueden construir dos genotecas y combinarlas como se ha
descrito más arriba, o, si se utilizan más de dos secuencias
parentales, o se conocen homólogos, la decisión se puede tomar por
"votación".
Al comparar dos secuencias homólogas, también
pueden existir espacios y deleciones. Como las proteínas parentales
comparten una actividad común, los espacios típicamente no afectan
significativamente a la actividad. Por ejemplo, las proteínas
homólogas pueden incluir bucles que conectan hélices alfa o giros en
láminas beta. El tamaño absoluto de estas conexiones y giros a
menudo no son trascendentales. En general, se puede acomodar un
espacio en la generación de la genoteca híbrida generando dos
versiones de la secuencia de ácido nucleico, p. ej.
sintetizando dos oligonucleótidos, mezclando las dos secuencias, y
utilizando la mezcla para construir la genoteca. Alternativamente,
la genoteca híbrida se puede construir de manera que el espacio esté
presente en todos los miembros o ausente en todos los miembros. De
un modo similar, las proteínas relacionadas frecuentemente tienen
diferentes longitudes en sus extremos amino y carboxilo. De nuevo,
se pueden generar dos secuencias, una con un extremo más largo y
una sin el extremo más largo, y después combinarlas; o se puede
generar una genoteca que incluya la longitud adicional u omita la
longitud adicional; o, si se utilizan más de dos secuencias
parentales, la decisión se puede tomar por "votación".
A menudo, puede ser deseable introducir sitios
para endonucleasas de restricción en las secuencias de la genoteca,
por ejemplo, con el fin de facilitar el ensamblaje de la secuencia
que codifica la proteína, o el intercambio de dominios. Un experto
en la técnica comprende que tales sitios son por lo general
relativamente poco frecuentes, p. ej., tienen un sitio de
reconocimiento de 6 pares de bases. Los sitios de restricción se
introducen a menudo en los ácidos nucleicos modificando los codones
sin cambiar el aminoácido codificado por el codón. Los sitios de
restricción son introducidos típicamente en regiones de las dos
secuencias parentales que son idénticas, aunque esto no sea
necesario.
Una vez seleccionada la secuencia codificante
mínima, se construye la genoteca utilizando los mecanismos bien
conocidos en la técnica. Típicamente, los ácidos nucleicos que se
van a incorporar a la genoteca se sintetizan en forma de
oligonucleótidos que son ensamblados para formar una secuencia que
codifica el polipéptido híbrido. Los procedimientos para realizar
esto son bien conocidos en la técnica. Típicamente se sintetizan
oligonucleótidos de aproximadamente 50-100 bases.
Los oligonucleótidos se diseñan de manera que se solapan, p.
ej., en 10 a 50 bases, para proporcionar el recocido y la
especificidad adecuados a pesar de las diferencias de secuencia.
Como apreciará un experto, los extremos 3' a menudo están en
regiones en las cuales hay diferencias mínimas o nulas entre las
secuencias parentales.
Después se ensambla el gen completo, p.
ej., mediante extensión del cebador (véase, p. ej., la
Figura 3). En semejante procedimiento de ensamblaje los
oligonucleótidos solapantes se recuecen entre sí y se extienden
utilizando una polimerasa termoestable de alta fidelidad. Se
utilizan grandes cantidades de cebador y ciclos mínimos
(normalmente entre 0 y 5) en los segmentos de ensamblaje. Después se
purifican los productos y se utilizan para el siguiente ciclo de
emparejamiento y extensión del cebador.
El polinucleótido re-ensamblado
resultante puede tener diferentes longitudes. Preferiblemente las
secuencias re-ensambladas tienen de aproximadamente
50 pb a aproximadamente 10 kb.
Como apreciará un experto en la técnica, el gen
codificante del polipéptido híbrido también puede ser ensamblado
ligando los fragmentos apropiados. Adicionalmente, el polipéptido
híbrido completo puede ser ensamblado ligando entre sí los
fragmentos más pequeños apropiados. Si los polipéptidos híbridos son
una porción de una proteína más grande, la incorporación a la
proteína más grande se puede producir en esta etapa. A menudo, se
pueden incorporar sitios para endonucleasas de restricción en los
cebadores para mejorar la eficacia de la etapa de ligación.
En algunos casos, es deseable preparar dos
genotecas y después combinarlas, por ejemplo, en los casos en los
que hay un espacio en las secuencias parentales o dos residuos de
aminoácido que difieren en las secuencias parentales difieren en
sus codones en la posición de los tres nucleótidos.
Como apreciarán los expertos en la técnica, las
moléculas híbridas se pueden utilizar adicionalmente como sustratos
para generar más diversidad utilizando diferentes técnicas tales
como la recombinación recursiva (véase, p. ej., la Patente
de los Estados Unidos Núm. 6.180.406, y patentes relacionadas); y
otros procedimientos de mutagénesis diferentes, p. ej., PCR
propensa a errores, mutagénesis de casetes. Estas técnicas se pueden
realizar en todos los miembros de la genoteca o en una subpoblación
seleccionada o en miembros de la genoteca individuales.
En algunas técnicas de recombinación, se
recombinan fragmentos de polinucleótidos conectando segmentos de
hebra sencilla solapantes y contactando después los segmentos
conectados resultantes con una polimerasa. Véase, p. ej. la
Patente de los Estados Unidos 6.150.111.
En otras técnicas, la recombinación es
independiente de los sitios de restricción naturales o la ligación
in vitro (Ma et al., Gene 58:201-216
(1989); Oldenburg et al., Nucleic Acids Research
25:451-452 (1997)). En algunos de estos métodos, un
método in vivo para la construcción de plásmidos se aprovecha
de la ruta de reparación de roturas de la doble hebra en una célula
tal como una célula de levadura para lograr una unión con precisión
de los fragmentos de ADN. Este método implica la síntesis de
conectores, p. ej. 60-140 pares de bases, a
partir de oligonucleótidos cortos y requiere el ensamblaje mediante
métodos enzimáticos en los conectores necesarios (Raymond et
al., BioTechniques 26(1):134-141
(1999)).
En algunas técnicas, se recombinan secuencias
de oligonucleótidos al azar o no al azar cortas con segmentos de
polinucleótidos derivados de polinucleótidos que codifican
polimerasas funcionales.
También se pueden introducir modificaciones en
los segmentos de polinucleótidos o los polinucleótidos ensamblados
que codifican las proteínas híbridas utilizando otras técnicas de
mutagénesis conocidas. Por ejemplo, los polinucleótidos pueden ser
sometidos a una o más rondas de PCR propensa a errores (p.
ej. Leung, D. W. et al., Technique
1:11-15 (1989); Caldwell, R. C. y Joyce, G. F. PCR
Methods and Applications 2:28-33 (1992); Gramm, H.
et al., Proc. Natl. Acad. Sci. USA
89:3576-3580 (1992)), introduciendo de ese modo una
variación en los polinucleótidos. Alternativamente, se puede
utilizar la mutagénesis de casetes (p. ej. Stemmer, W. P. C.
et al., Biotechniques 14:256-265 (1992);
Arkin, A. y Youvan, D. C. Proc. Natl. Acad. Sci. USA
89:7811-7815 (1992); Oliphant, A. R. et al.,
Gene 44:177-183 (1986); Hermes, J. D. et al.,
Proc. Natl. Acad. Sci. USA 87:696-700 (1990)), en
la que la región específica que se va a optimizar es remplazada por
un oligonucleótido mutagenizado sintéticamente. Las cepas mutadoras
de las células anfitrionas también pueden ser empleadas para
aumentar la frecuencia mutacional (Greener y Callahan, Strategies
in Mol. Biol. 7:32 (1995)).
La mutagénesis dirigida al sitio es bien
conocida en la técnica y puede ser utilizada para introducir más
diversidad en las secuencias. Tales técnicas incluyen la mutagénesis
dirigida al sitio como describen, p. ej., Ling et al.
(1997) en Anal Biochem. 254(2): 157-178; Dale
et al. (1996) en Methods Mol. Biol.
57:369-374; Smith (1985) en Ann. Rev. Genet.
19:423-462; Botstein & Shortle (1985) en Science
229:1193-1201; Carter (1986) en Biochem. J.
237:1-7; y Kunkel (1987) "The efficiency of
oligonucleotide directed mutagenesis" en Nucleic Acids &
Molecular Biology (Eckstein, F. y Lilley, D.M.J. eds., Springer
Verlag, Berlin)); la mutagénesis utilizando moldes que contienen
uracilo (Kunkel (1985 Proc. Natl. Acad. Sci. USA
82:488-492; Kunkel et al. (1987) Methods in
Enzymol. 154, 367-382; y Bass et al. (1988)
Science 242:240-245); la mutagénesis dirigida a
oligonucleótidos (Methods in Enzymol. 100: 468-500
(1983); Methods in Enzyimol. 154: 329-350 (1987);
Zoller & Smith (1982) Nucleic Acids Res.
10:6487-6500; Zoller & Smith (1983) Methods in
Enzymol. 100:468-500; y Zoller & Smith (1987)
Methods in Enzymol. 154:329-350); la mutagénesis de
ADN modificado con fosforotioato (Taylor et al. (1985) Nucl.
Acids Res. 13: 8749-8764; Taylor et al.
(1985) Nucl. Acids Res. 13: 8765-8787 (1985);
Nakamaye & Eckstein (1986) Nucl. Acids Res. 14:
9679-9698; Sayers et al. (1988) Nucl. Acids
Res. 16:791-802; y Sayers et al. (1988)
Nucl. Acids Res. 16: 803-814); la mutagénesis
utilizando ADN dúplex con espacios (Kramer et al. (1984)
Nucl. Acids Res. 12: 9441-9456; Kramer & Fritz
(1987) Methods in Enzymol. 154:350-367; Kramer et
al. (1988) Nucl. Acids Res. 16: 7207; y Fritz et al.
(1988) Nucl. Acids Res. 16: 6987-6999).
Un método de modificación adicional bien
conocido en la técnica es la reparación de emparejamientos erróneos
puntuales, p. ej. (Kramer et al. (1984) Cell
38:879-887), la mutagénesis utilizando cepas
anfitrionas de reparación deficiente (Carter et al. (1985)
Nucl. Acids Res. 13: 4431-4443; y Carter (1987)
Methods in Enzymol. 154:382-403), la mutagénesis
por deleción (Eghtedarzadeh & Henikoff (1986) Nucl. Acids Res.
14: 5115), la selección por restricción y la selección por
restricción y purificación por restricción (Wells et al.
(1986) Phil. Trans. R. Soc. Loud. A 317: 415-423),
la mutagénesis mediante síntesis de genes total (Nambiar et
al. (1984) Science 223: 1299-1301; Sakamar y
Khorana (1988) Nucl. Acids Res. 14:6361-6372; Wells
et al. (1985) Gene 34:315-323; y Grundström
et al. (1985) Nucl. Acids Res. 13:
3305-3316), la reparación de roturas en la doble
hebra (Mandecki (1986); Arnold (1993) Current Opinion in
Biotechnology 4:450-455; Proc. Natl. Acad. Sci.
USA, 83:7177-7181). Los detalles adicionales de
muchos de los métodos anteriores se pueden encontrar en Methods in
Enzymology Volumen 154, que también describe controles útiles para
la detección y resolución de problemas con diferentes métodos de
mutagénesis.
Los fragmentos génicos ensamblados se pueden
clonar después en cualquiera de los numerosos vectores para generar
una genoteca que comprende moléculas híbridas individuales que
comprenden residuos de las secuencias parentales.
Existen muchos sistemas de expresión para
producir los polipéptidos híbridos y genotecas de polipéptidos que
son bien conocidos por los expertos en la técnica. (Véase, p.
ej., Gene Expression Systems, Fernandez y Hoeffler, Eds.
Academic Press, 1999; Sambrook & Russell, más arriba; y
Ausubel et al, más arriba.) Típicamente, el
polinucleótido que codifica un polipéptido híbrido se coloca bajo el
control de un promotor que es funcional en la célula anfitriona
deseada. Se encuentran disponibles una variedad extremadamente
amplia de promotores, y se pueden utilizar en los vectores de
expresión de la invención, dependiendo de la aplicación concreta.
Normalmente, el promotor seleccionado depende de la célula en la
cual el promotor va a ser activo. Otras secuencias de control de la
expresión tales como sitios de unión al ribosoma, sitios de
terminación de la transcripción y similares también están
opcionalmente incluidos.
Las secuencias de control procarióticas
comúnmente utilizadas, que se definen en la presente memoria para
incluir promotores para el inicio de la transcripción, opcionalmente
con un operador, junto con secuencias del sitio de unión al
ribosoma, incluyen promotores utilizados comúnmente tales como los
sistemas promotores de beta-lactamasa
(penicilinasa) y lactosa (lac) (Change et al., Nature
(1977) 198: 1056), el sistema promotor de triptófano (trp)
(Goeddel et al., Nucleic Acids Res. (1980) 8: 4057), el
promotor tac (DeBoer, et al., Proc. Natl. Acad. Sci.
U.S.A. (1983) 80:21-25); y el promotor P_{L}
derivado de lambda y el sitio de unión al ribosoma del gen N
(Shimatake et al., Nature (1981) 292: 128). El sistema
promotor concreto no es crítico para la invención, se puede
utilizar cualquier promotor disponible que funcione en procariotas.
Los vectores de expresión bacterianos ilustrativos incluyen
plásmidos tales como plásmidos basados en pBR322, p. ej.,
pBLUESCRIPT®, pSKF, pET23D, vectores derivados del fago \lambda, y
sistemas de expresión de fusión tales como GST y LacZ. También se
pueden añadir etiquetas epitópicas a proteínas recombinantes para
proporcionar métodos de aislamiento convenientes, p. ej.,
c-myc, HA-tag, 6-His
tag, proteína de unión a maltosa, etiqueta VSV-G,
etiqueta anti-DYKDDDDK, o cualquier etiqueta
similar, un gran número de las cuales es bien conocido por los
expertos en la técnica.
Para la expresión de polipéptidos híbridos en
células procarióticas distintas de E. coli, se requiere un
promotor que funcione en la especie procariótica concreta. Tales
promotores se pueden obtener de genes que han sido clonados a
partir de la especie, o se pueden utilizar promotores heterólogos.
Por ejemplo, el promotor híbrido trp-lac
funciona en Bacillus además de en E. coli. Estos y
otros promotores bacterianos son bien conocidos en la técnica y son
descritos, p. ej., por Sambrook et al. y Ausubel et
al. Los sistemas de expresión bacteriana para expresar las
proteínas de la invención son asequibles p. ej., de E.
coli, Bacillus sp., y Salmonella (Palva et al.,
Gene 22:229-235 (1983); Mosbach et al.,
Nature 302:543-545 (1983). Los kits para tales
sistemas de expresión se encuentran disponibles en el mercado.
Los sistemas de expresión eucarióticos para
células de mamífero, levaduras, y células de insecto son bien
conocidos en la técnica y también se encuentran disponibles en el
mercado. En las levaduras, los vectores incluyen plásmidos de
Integración en Levaduras (p. ej., YIp5) y plásmidos
Replicantes en Levaduras (los plásmidos de la serie YRp) y
pGPD-2. Los vectores de expresión que contienen
elementos reguladores de virus eucarióticos se utilizan típicamente
en vectores de expresión eucarióticos, p. ej., vectores de
SV40, vectores del virus del papiloma, y vectores derivados del
virus de Epstein-Barr. Otros vectores eucarióticos
ilustrativos incluyen pMSG, pAV009/A+, pMTO10/A+,
pMAMneo-5, baculovirus pDSVE, y cualquier otro
vector que permita la expresión de proteínas bajo la dirección del
promotor de CMV, el promotor temprano de SV40, el promotor tardío
de SV40, el promotor de metalotioneína, el promotor del virus de
tumor mamario murino, el promotor del virus del sarcoma de Rous, el
promotor de la polihedrina, u otros promotores que se haya
demostrado que son eficaces para la expresión en células
eucarióticas.
Se pueden utilizar promotores constitutivos o
regulados en la presente invención. Los promotores regulados pueden
ser ventajosos debido a que las células anfitrionas se pueden hacer
crecer a elevadas densidades antes de inducir la expresión de los
polipéptidos. Adicionalmente, el elevado nivel de expresión de
proteínas heterólogas puede ralentizar el crecimiento celular en
algunas situaciones. Un promotor inducible es un promotor que dirige
la expresión de un gen en el que el nivel de expresión es alterable
por factores medioambientales o evolutivos tales como, por ejemplo,
temperatura, pH, condiciones anaerobias o aerobias, luz, factores de
transcripción y productos químicos.
Para E. coli y otras células anfitrionas
bacterianas, los promotores inducibles son conocidos por los
expertos en la técnica. Estos incluyen, por ejemplo, el promotor
lac, el promotor P_{L} del bacteriófago lambda, el
promotor trp-lac híbrido (Amann et al.
(1983) Gene 25: 167; de Boer et al. (1983) Proc. Natl. Acad.
Sci. USA 80: 21), y el promotor del bacteriófago T7 (Studier et
al. (1986) J. Mol. Biol.; Tabor et al. (1985) Proc.
Natl. Acad. Sci. USA 82: 1074-8). Estos promotores y
su uso se comentan en Sambrook et al., más
arriba.
Los promotores inducibles para otros organismos
también son bien conocidos por los expertos en la técnica. Estos
incluyen, por ejemplo, el promotor de la metalotioneína, el promotor
del choque térmico, así como muchos otros.
Se puede utilizar el acoplamiento tradicional
para potenciar la expresión. La estrategia utiliza un marco de
lectura abierto aguas arriba corto derivado de un gen nativo
altamente expresado para el sistema traduccional, que se coloca
aguas abajo del promotor, y un sitio de unión al ribosoma seguido a
unos pocos codones de aminoácidos de un codón de terminación. Justo
antes del codón de terminación se encuentra un segundo sitio de
unión al ribosoma, y después del codón de terminación se encuentra
un codón de partida para el inicio de la traducción. El sistema
disuelve la estructura secundaria en el ARN, permitiendo un inicio
eficaz de la traducción. Véase Squires, et. al. (1988), J.
Biol. Chem. 263: 16297-16302.
La construcción de constructos polinucleotídicos
requiere generalmente el uso de vectores capaces de replicar en
bacterias. Tales vectores son comúnmente utilizados en la técnica.
Se encuentra disponible en el mercado una plétora de kits para la
purificación de plásmidos de bacterias (por ejemplo, EasyPrepJ,
FlexiPrepJ, de Pharmacia Biotech; StrataCleanJ, de Stratagene; y,
QIAexpress Expression System, Qiagen). Los plásmidos aislados y
purificados se pueden manipular adicionalmente para producir otros
plásmidos, y utilizarlos para transformar células.
Los polipéptidos híbridos pueden ser expresados
intracelularmente, o pueden ser secretados desde la célula. La
expresión intracelular a menudo da como resultado elevados
rendimientos. Si fuera necesario, la cantidad de polipéptido
activo, soluble se puede incrementar realizando procedimientos de
replegamiento (véanse, p. ej., Sambrook et al.,
más arriba.; Marston et al., Bio/Technology (1984) 2:
800; Schoner et al., Bio/Technology (1985) 3: 151). Los
polipéptidos de fusión de la invención pueden ser expresados en una
variedad de células anfitrionas, incluyendo E. coli, otros
anfitriones bacterianos, levadura, y diferentes células
eucarióticas superiores tales como las líneas celulares COS, CHO y
HeLa y líneas celulares de mieloma. Las células anfitrionas pueden
ser células de mamífero, células de insecto, o microorganismos,
tales como, por ejemplo, células de levadura, células bacterianas,
o células fúngicas.
Una vez expresados, los polipéptidos híbridos
pueden ser purificados de acuerdo con procedimientos convencionales
en la técnica, incluyendo precipitación con sulfato de amonio,
columnas de afinidad, cromatografía en columna, electroforesis en
gel y similares (véanse, generalmente, R. Scopes, Protein
Purification, Springer-Verlag, N.Y. (1982),
Deutscher, Methods in Enzymology Vol. 182: Guide to Protein
Purification., Academic Press, Inc. N.Y. (1990)). Se prefieren las
composiciones sustancialmente puras con una homogeneidad de al menos
aproximadamente 90 a 95%, y son muy preferidas las de una
homogeneidad de 98 a 99% o más. Una vez purificados, parcialmente o
hasta la homogeneidad según se desee, se pueden utilizar los
polipéptidos (p. ej., como inmunógenos para la producción de
anticuerpos).
Para facilitar la purificación de los
polipéptidos híbridos de la invención, los ácidos nucleicos que
codifican los polipéptidos de fusión también pueden incluir una
secuencia codificante para un epítopo o "etiqueta" para el
cual se encuentra disponible un reactivo de unión por afinidad. Los
ejemplos de los epítopos adecuados incluyen los genes informadores
myc y V-5; los vectores de expresión útiles para la
producción recombinante de polipéptidos de fusión que tienen estos
epítopos son asequibles comercialmente (p. ej., los vectores
pcDNA3.1/Myc-His y pcDNA3.1/V5-His
de Invitrogen (Carlsbad CA) son adecuados para la expresión en
células de mamífero). Los vectores de expresión adicionales
adecuados para el anclaje de una etiqueta a las proteínas de fusión
de la invención, y los correspondientes sistemas de detección son
conocidos por los expertos en la técnica, y algunos son asequibles
comercialmente (p. ej., "FLAG" (Kodak, Rochester NY).
Otro ejemplo de una etiqueta adecuada es una secuencia de
polihistidina, que es capaz de unirse a ligandos de afinidad con
quelatos metálicos. Típicamente, se utilizan seis histidinas
adyacentes, aunque se pueden usar más o menos de seis. Los ligandos
de afinidad con quelatos metálicos adecuados que pueden servir como
radical de unión para una etiqueta de polihistidina incluyen ácido
nitrilo-triacético (NTA) (Hochuli, E. (1990)
"Purification of recombinant proteins with metal chelating
adsorbents" En Genetic Engineering: Principles and Methods, J.K.
Setlow, Ed., Plenum Press, NY; aequible comercialmente de Qiagen
(Santa Clarita,
CA)).
CA)).
\vskip1.000000\baselineskip
Después de crear la genoteca de ácido nucleico
utilizando los métodos descritos antes, la genoteca se escruta en
busca de híbridos funcionales y/o híbridos que poseen una actividad
mejorada por encima de la de sus parentales. Se utilizan análisis
conocidos en la técnica para comparar la actividad de una proteína
híbrida con su contraparte de tipo salvaje.
La naturaleza del escrutinio o selección depende
de la propiedad o característica que se vaya a mejorar o adquirir.
Más abajo se proporciona un ejemplo detallado que explica la
evaluación de las polimerasas híbridas. Por supuesto, las proteínas
híbridas, p. ej., las moléculas receptoras, pueden ser
sometidas a ensayo en busca de una actividad mejorada o adquirida
tal como la señalización o la unión a un ligando utilizando
análisis apropiados para la proteína. Normalmente no es necesario
comprender la base molecular por la cual productos de recombinación
concretos (segmentos recombinantes) han adquirido propiedades o
características nuevas o mejoradas con respecto a los sustratos
de
partida.
partida.
Dependiendo del protocolo de escrutinio concreto
utilizado para una propiedad deseada, se pueden realizar una o
varias rondas iniciales de escrutinio utilizando células bacterianas
debido a las altas eficacias de transfección y a la facilidad de
cultivo. No obstante, para proteínas eucarióticas, la expresión
bacteriana a menudo no es práctica, y se utilizan sistemas de
levadura, fúngicos u otros sistemas eucarióticos para la expresión
y escrutinio de la genoteca. De un modo similar, otros tipos de
escrutinio que no son susceptibles de escrutinio en células de
genotecas bacterianas o eucarióticas simples, se realizan en células
seleccionadas para su uso en un entorno similar al de su uso
pretendido. Se pueden realizar rondas finales de escrutinio en el
tipo preciso de célula de uso pretendido.
Si se desea una diversidad adicional, se puede
someter al menos una, y normalmente una colección, de secuencias
híbridas que son identificadas en un escrutinio/selección inicial a
una ronda adicional de generación de híbridos o un procedimiento
adicional para generar diversidad. Por ejemplo, al generar la
genoteca inicial, no todos los residuos que se identifican como
diferentes en las secuencias parentales pueden ser el sujeto de la
generación de híbridos, esto es, se pueden seleccionar aminoácidos
concretos presentes en un subgrupo de las secuencias parentales.
Las rondas subsiguientes se pueden dirigir a generar híbridos que
comprenden tales residuos adicionales. Adicionalmente, se puede
realizar una ronda adicional de generación de híbridos utilizando
una secuencia parental diferente, esto es, una secuencia parental
que no estuviera incluida en el alineamiento inicial. Por último,
se puede utilizar un procedimiento de generación de diversidad
diferente, p. ej., la recombinación recursiva.
La segunda ronda de generación de diversidad
puede estar seguida de una ronda adicional de escrutinio/selección
de acuerdo con los principios comentados más arriba para la primera
ronda. La restricción del escrutinio/selección puede incrementarse
entre las rondas. Asimismo, la naturaleza del escrutinio y la
propiedad que está siendo escrutada pueden variar entre las rondas
si se desea una mejora de más de una propiedad o si se desea
adquirir más de una propiedad nueva. Después se pueden realizar
rondas adicionales de generación y escrutinio de híbridos/diversidad
hasta que los segmentos recombinantes hayan evolucionado lo
suficiente para adquirir una propiedad o función nueva o
mejorada.
\newpage
Las secuencias parentales pueden ser polimerasas
y las proteínas híbridas se seleccionan en busca de una función
polimerasa mejorada, p. ej, capacidad de procesamiento o actividad
correctora de errores. Estas propiedades se pueden medir y comparar
con las actividades polimerasa parentales utilizando la metodología
bien conocida en la técnica (véase, p. ej., el documento WO
0192501), cuyos ejemplos se muestran a continuación.
Se puede medir la actividad de una polimerasa
utilizando una variedad de análisis que se pueden emplear para
determinar la capacidad de procesamiento o la modificación de la
actividad de una polimerasa. La mejora de la actividad puede
incluir tanto un incremento de la capacidad de procesamiento como un
incremento de la eficacia.
Las polimerasas de la presente invención, p. ej.
de SEQ ID NO: 2 y SEQ ID NO: 4, muestran actividad polimerasa, p.
ej., capacidad de procesamiento, especificidad de unión
cebador/molde, y actividad exonucleasa 3' a 5'. Las actividades se
pueden medir utilizando mecanismos que son convencionales en la
técnica.
Por ejemplo, la capacidad de procesamiento de la
polimerasa se puede medir por medio de una variedad de métodos
conocidos por los expertos en la técnica. La capacidad de
procesamiento de la polimerasa se define generalmente como el
número de nucleótidos incorporados durante un único evento de unión
de una enzima modificadora a un molde cebado. Por ejemplo, un
cebador marcado con FAM en 5' es recocido con ADN ssM13mp18 circular
o linealizado para formar un molde cebado. En la medición de la
capacidad de procesamiento, el molde cebado normalmente está
presente en un exceso molar significativo con respecto a la
polimerasa de manera que se minimiza la oportunidad de que
cualquier molde cebado sea extendido más de una vez por la
polimerasa. Por lo tanto el molde cebado se mezcla con la
polimerasa a una razón tal como aproximadamente 4000:1 (ADN
cebado:ADN polimerasa) en presencia de tampón y dNTP. Se añade
MgCl_{2} para iniciar la síntesis de ADN. Las muestras se sofocan
en diferentes momentos después de la iniciación, y se analizan
sobre gel de secuenciación. A una concentración de polimerasa en la
que la longitud media del producto no cambia con el tiempo o la
concentración de polimerasa, la longitud corresponde a la capacidad
de procesamiento de la enzima. La capacidad de procesamiento de una
proteína de la invención, p. ej., de SEQ ID NO: 2 o SEQ ID NO: 4,
se compara después con la capacidad de procesamiento de la enzima
de tipo salvaje.
La eficacia puede ser demostrada midiendo la
capacidad de una enzima para proporcionar el producto. Se puede
demostrar un incremento de la eficacia midiendo el incremento de la
capacidad de una enzima para proporcionar el producto. Semejante
análisis mide la estabilidad del dúplex de ácido nucleico de doble
hebra indirectamente determinando la cantidad de producto obtenida
en una reacción. Por ejemplo, se puede utilizar un análisis PCR
para medir la cantidad de producto de PCR obtenida con un cebador
corto, p. ej., 12 nucleótidos de longitud, recocido a una
temperatura elevada, p. ej., 50ºC. En este análisis, el
aumento de la eficacia se demuestra por la capacidad de una
polimerasa para producir más producto en una reacción de PCR
utilizando el cebador de 12 nucleótidos recocido a 50ºC.
La eficacia también se puede medir, p.
ej., en una PCR a tiempo real. El valor Ct representa el número
de ciclos requerido para generar una cantidad detectable de ADN (una
cantidad "detectable" de ADN es típicamente 2X, normalmente
5X, 10X, 100X o más por encima del fondo). Una polimerasa eficiente
puede ser capaz de producir una cantidad detectable de ADN en un
número más pequeño de ciclos aproximándose más a la eficacia de
amplificación máxima teórica de la PCR. Por consiguiente, un valor
Ct más bajo refleja una mayor eficacia de amplificación para la
enzima.
Se puede utilizar una PCR larga como otro método
de demostración de un aumento de eficacia. Por ejemplo, una enzima
con una eficacia aumentada permite típicamente la amplificación de
un amplicón largo (> 5 kb) en un tiempo de extensión más corto
en comparación con una enzima con una eficacia relativamente
menor.
También se pueden utilizar análisis tales como
la sensibilidad salina para demostrar la mejora en la eficacia o
una eficacia equivalente de una polimerasa de la invención. Una
polimerasa de la presente invención puede mostrar un incremento de
la tolerancia a concentraciones salinas elevadas, esto es, una
enzima procesiva con una capacidad de procesamiento incrementada
puede producir más producto en concentraciones salinas superiores.
Por ejemplo, se puede realizar un análisis de PCR para determinar la
cantidad de producto obtenido en una reacción utilizando una
polimerasa de la presente invención en comparación con una
polimerasa de tipo salvaje en condiciones de reacción con elevado
contenido de sal, p. ej., 80 mM.
Otros métodos de evaluación de la eficacia de
las polimerasas de la invención pueden ser determinados por los
expertos en la técnica utilizando análisis convencionales de la
actividad enzimática de una enzima de modificación dada.
La especificidad cebador/molde es la capacidad
de una enzima para discriminar entre los dúplex de cebador/molde
emparejados y los dúplex de cebador/molde emparejados erróneamente.
La especificidad puede ser determinada, por ejemplo, comparando el
rendimiento relativo de dos reacciones, una de los cuales emplea un
cebador emparejado, y una de los cuales emplea un cebador
emparejado erróneamente. Una enzima con una discriminación
incrementada tendrá un rendimiento relativo mayor con el cebador
emparejado que con el cebador emparejado erróneamente, esto es, la
razón del rendimiento de la reacción utilizando el cebador
emparejado frente a la reacción utilizando el cebador emparejado
erróneamente es de aproximadamente 1 o más. Esta razón se puede
comparar después con el rendimiento obtenido en un grupo paralelo
de reacciones que emplean una polimerasa de tipo salvaje.
En otros análisis para la mejora, también se
puede medir la actividad exonucleasa de una polimerasa, como se
describe en la sección "Ejemplos". En algunos casos, las
mejoras deseadas pueden tener en consideración múltiples funciones
de una polimerasa. Por ejemplo, se puede desear ajustar la razón de
actividad exonucleasa a la actividad de polimerización.
En algunas realizaciones, las polimerasas
novedosas se conjugan con un dominio de unión a ADN. Un dominio de
unión a ADN es una proteína, o una región definida de una proteína,
que se une a ácido nucleico de una manera independiente de la
secuencia, p. ej., la unión no muestra una preferencia clara
por una secuencia concreta. Los dominios de unión a ADN pueden ser
de hebra sencilla o de doble hebra.
Las proteínas de unión a ADN son preferiblemente
termoestables. Los ejemplos de tales proteínas incluyen, pero no
están limitados a, proteínas Sso7D y de tipo Sso7D de unión a ADN
básico pequeño Arqueal (véanse, p. ej., Choli et al.,
Biochimica et Biophysica Acta 950:193-203, 1988;
Baumann et al., Structural Biol. 1:808-819,
1994; y Gao et al, Nature Struc. Biol.
5:782-786, 1998), proteínas de tipo HMf arqueales
(véanse, p. ej., Starich et al., J. Molec. Biol.
255:187-203, 1996; Sandman et al., Gene
150:207-208, 1994), y homólogos de PCNA (véanse,
p. ej., Cann et al., J. Bacteriology
181:6591-6599, 1999; Shamoo y Steitz, Cell:99,
155-166, 1999; De Felice et al., J. Molec.
Biol. 291, 47-57, 1999; y Zhang et al.,
Biochemistry 34:10703-10712, 1995).
Las proteínas Sso7d y de tipo Sso7d, las
proteínas Sac7d y de tipo Sac7d, p. ej., Sac7a, Sac7b, Sac7d,
y Sac73 son proteínas cromosómicas básicas pequeñas
(aproximadamente 7.000 kd de PM), de las arqueobacterias
hipertermófilas Sulfolobus solfataricus y S.
acidocaldarius, respectivamente. Estas proteínas son ricas en
lisina y tienen una elevada estabilidad térmica, frente a los ácidos
y química. Se unen al ADN de una manera independiente de la
secuencia y cuando se unen, aumentan la T_{M} del ADN hasta en
40ºC en algunas condiciones (McAfee et al., Biochemistry
34:10063-10077, 1995). Se cree típicamente que estas
proteínas y sus homólogos están implicados en la estabilización del
ADN genómico a temperaturas elevadas. Los dominios de unión a ADN
de tipo Sso7d adecuados para su uso en la invención pueden ser
modificados basándose en su homología de secuencia con Sso7d.
Típicamente, los dominios de unión a ADN que son idénticos o
sustancialmente idénticos a una proteína de unión a ADN conocida a
lo largo de una ventana de comparación de aproximadamente 25
aminoácidos, opcionalmente aproximadamente 50-100
aminoácidos, o la longitud de toda la proteína, pueden ser
utilizados en la invención. La secuencia se puede comparar y alinear
para una correspondencia máxima a lo largo de una ventana de
comparación, o región designada medida utilizando uno de los
algoritmos de comparación descritos o mediante alineamiento manual
e inspección visual. Para los fines de esta patente, el porcentaje
de identidad de aminoácidos se determina por medio de los parámetros
por defecto de BLAST.
Las proteínas de tipo HMf son histonas arqueales
que comparten homología tanto en secuencia de aminoácidos como en
estructura con las histonas H4 eucarióticas, que se cree que
interaccionan directamente con ADN. La familia de proteínas HMf
forma dímeros estables en solución, y se han identificado varios
homólogos de HMf de especies termoestables (p. ej.,
Methanothermus fervidus y Pyrococcus cepa
GB-3a). La familia de proteínas HMf, una vez unidas
a la ADN polimerasa Taq o a cualquier enzima modificadora de ADN con
una capacidad de procesamiento intrínseca baja, puede intensificar
la capacidad de la enzima para deslizarse a lo largo del sustrato
de ADN y de este modo incrementar su capacidad de procesamiento. Por
ejemplo, la proteína de tipo HMf dimérica se puede conectar
covalentemente al extremo N de la ADN polimerasa Taq, p. ej.,
por medio de modificación química, y de este modo mejorar la
capacidad de procesamiento de la polimerasa.
Se ha demostrado que ciertos motivos en
hélice-horquilla-hélice se unen a
ADN no específicamente y potencian la capacidad de procesamiento de
la ADN polimerasa a la cual se fusiona (Pavlov et al., Proc
Natl Acad Sci USA. 99:13510-5, 2002).
Muchas, pero no todas las ADN polimerasas de la
familia B interaccionan con proteínas accesorias para lograr una
síntesis de ADN muy procesiva. Una clase particularmente importante
de proteínas accesorias es referida como abrazadera deslizante.
Existen varias abrazaderas deslizantes caracterizadas como trímeros
en solución, y pueden formar una estructura de tipo anular con un
pase central capaz de acomodar ADN de doble hebra. La abrazadera
deslizante forma interacciones específicas con los aminoácidos
localizados en el extremo C de ADN polimerasas concretas, amarra
esas polimerasas al molde de ADN durante la replicación. La
abrazadera deslizante de Eukarya es referida como antígeno nuclear
celular en proliferación (PCNA), mientras las proteínas similares
en otros dominios son referidas a menudo como homólogos de PCNA.
Estos homólogos tienen una similitud estructural marcada pero una
similitud de secuencia limitada.
Recientemente, se han identificado homólogos de
PCNA de Archaea termófilas (p. ej., Pyroccocus
furiosus). Algunas polimerasas de la familia B de Archaea
tienen un extremo C que contiene una secuencia de aminoácidos que
interacciona con PCNA consenso y son capaces de utilizar un homólogo
de PCNA como factor de la capacidad de procesamiento (véanse, p.
ej., Cann et al., J. Bacteriol.
181:6591-6599, 1999 y De Felice et al., J.
Mol. Biol. 291:47-57, 1999). Estos homólogos de PCNA
son dominios de unión a ADN útiles para la invención. Por ejemplo,
se puede unir una secuencia que interacciona con PCNA consenso a una
polimerasa que no interacciona naturalmente con un homólogo de
PCNA, permitiendo de ese modo que un homólogo de PCNA sirva como
factor de capacidad de procesamiento para la polimerasa. A modo de
ilustración, la secuencia que interacciona con PCNA de PolII de
Pyrococcus furiosus (una ADN polimerasa heterodimérica que
contiene dos polipéptidos de tipo familia B) se puede unir
covalentemente a la PolII de Pyrococcus furiosus (una
polimerasa de la familia B monomérica que no interacciona
normalmente con un homólogo de PCNA). Después se puede permitir que
la proteína de fusión resultante se asocie no covalentemente con el
homólogo de PCNA de Pyrococcus furiosus para generar una
proteína heteróloga novedosa con una capacidad de procesamiento
incrementada con respecto a la PolII de Pyrococcus furiosus
no modificada.
Se pueden identificar dominios de unión a ADN
adicionales adecuados para su uso en la invención por homología con
proteínas conocidas de unión a ADN y/o reactividad cruzada con
anticuerpos, o se pueden encontrar por medio de un análisis
bioquímico. Se pueden sintetizar o aislar dominios de unión a ADN
utilizando las técnicas descritas antes.
El dominio de unión a ADN y el dominio
polimerasa del producto conjugado o las proteínas de fusión de la
invención se pueden empalmar mediante métodos bien conocidos por
los expertos en la técnica. Estos métodos incluyen tanto medios
químicos como recombinantes, que se describen en el documento
WO0192501.
Estos ejemplos describen la generación de
genotecas híbridas y el aislamiento de proteínas híbridas a partir
de las genotecas.
En este ejemplo se aíslan proteínas híbridas con
una temperatura óptima variable. Las proteínas modelo son
desoxiuridina 5'-trifosfato nucleotidohidrolasas
(dUTPasa o Dut) mesófilas y termófilas. Las secuencias de los genes
de Dut de E. coli mesófila (ECD) y de Dut de Aquifex
aeolicus termófila (AAD) fueron alineadas utilizando BlastP.
Las secuencias son idénticas en un 40% y similares en un 60% como se
definieron por medio de los parámetros por defecto de Blast. El
alineamiento de secuencias y Blast se muestran en la Figura 4.
Las secuencias parentales alineadas y todos los
posibles codones en orden de frecuencia de uso por E. coli
se muestran en la Figura 5A. Se obtuvo una secuencia codificante
mínima identificando los codones que codificarán ambas secuencias
con un número mínimo de degeneraciones (Figura 5B). Se prefieren los
codones utilizados frecuentemente por E. coli. Existen 90
diferencias entre las dos secuencias. De estas, 49 pueden ser
codificadas incorporando una única degeneración en la secuencia de
ADN. La mayor parte de las otras, 38 de ellas, requieren dos
degeneraciones y 1 requiere tres. Existe un espacio. Dos de las
degeneraciones pudieron dar como resultado que codones de
terminación fueran incorporados a la secuencia. Las degeneraciones
de ácido nucleico que podían incorporar sitios de terminación o
aminoácidos no similares (el número BLOSUM 62 es <0) a cualquier
secuencia de aminoácidos parental se separaron (Figura 5C) y se
sustituyeron por secuencias de AAD más estables térmicamente,
teniendo en cuenta el propósito del experimento. Si no se hacía
esto, hasta el 24% de los aminoácidos incorporados a la proteína
híbrida podían haber sido no parentales; algunos de esos sin
similitud con ningún parental. La eliminación de las secuencias no
similares redujo el número máximo de aminoácidos no parentales al
14%, todos los cuales serían similares a al menos un parental.
La secuencia de ácido nucleico de doble hebra
que muestra las degeneraciones y los residuos de aminoácido
codificados se muestra en la Figura 6. Los sitios de restricción y
cebado se añadieron a los extremos (mostrados en negrita). En dos
casos, se cambió el uso codónico para añadir sitios de restricción
(subrayados y en negrita). Los aminoácidos codificados por la
secuencia se indican debajo de los codones.
La Figura 7 muestra la secuencia de ácidos
nucleicos de la genoteca híbrida completa. Las posiciones
degeneradas se representan utilizando el código de una sola letra
convencional. Se seleccionaron secuencias de oligonucleótidos para
la síntesis (mostradas en negrita). Las selecciones se realizaron de
manera que existieran degeneraciones mínimas donde se esperaba que
los cebadores se recocieran entre sí durante el ensamblaje. En una
porción de la secuencia, no hubo regiones en las que se pudieran
seleccionar secuencias de oligonucleótidos recocibles de tamaño
razonable (aproximadamente 10 a 50 bases). En este ejemplo, se
utiliza el sitio ClaI (subrayado) insertado en la etapa
previa para ensamblar una genoteca codificante de proteínas
completas.
Se puede construir una genoteca híbrida que
codifica una proteína pequeña tal como DUT sintetizando los
oligonucleótidos de manera que no haya espacios una vez que los
cebadores estén recocidos. En este caso, se puede utilizar la
ligación en lugar de la PCR de ensamblaje para construir la genoteca
híbrida. Los oligonucleótidos son simplemente recocidos
secuencialmente, ligados, purificados, después recocidos de
nuevo.
Los cebadores finales seleccionados en este
ejemplo se indican más abajo. El ensamblaje se produciría como
sigue: se recuece el cebador Fwd1 con el cebador RevA. En tubos
separados, se recuece Fwd2 con RevB, Fwd3 con RevC, Fwd4 con RevD,
y Fwd5 con Rev5. Los productos de las cinco reacciones de recocido
se extienden con cebador con una ADN polimerasa dependiente de ADN
con actividad correctora, típicamente fragmento de Klenow de la ADN
polimerasa I de E. coli, o la polimerasa Phusion térmicamente
estable (MJ Research, Inc.). Si se utiliza la polimerasa Phusion,
es posible ciclar térmicamente la reacción de extensión del cebador.
Los productos de la reacción Fwd1/RevA se recuecen con los
productos de la reacción Fwd/2/RevB y se repite la extensión. De un
modo similar, se recuecen los productos de la reacción Fwd4/RevD con
la reacción Fwd5/RevE y se extienden. Finalmente, se recuecen los
productos Fwd1/RevA/Fwd2/RevB con los productos Fwd3/RevC y se
extienden.
Los dos fragmentos resultantes son
sub-genotecas que pueden ser combinadas ahora
utilizando técnicas de la biología molecular clásica. Por ejemplo,
el fragmento Fwdl/RevA/Fwd2/RevB/Fwd3/RevC (la mitad que codifica
el amino) puede ser clonado utilizando NdeI y ClaI. El
fragmento Fwd4/RevD/Fwd5/RevE (la mitad carboxilo) puede ser
clonado utilizando ClaI y BamHI. Los fragmentos pueden
ser clonados por separado, después combinados para formar una
genoteca híbrida completa. Alternativamente, los fragmentos se
pueden combinar en una única etapa en una ligación de clonación
forzada de tres fragmentos.
Si el vector utilizado en la clonación es un
vector de expresión tal como pETI1c, la proteína puede ser expresada
a partir del promotor de T7 (Studier, et al., Methods in
Enzymology 185:60-89, 1990) y la proteína puede ser
aislada y analizada en busca de la característica deseada. En este
ejemplo, se "mezcló" una proteína parental térmicamente
estable con un homólogo mesófilo. Un experto en la técnica puede
purificar estas proteínas (Hoffinann, et al., Eur. J.
Biochem. 164, 45-51, 1987) y analizarlas en busca de
su temperatura óptima. Las diferencias en las secuencias entre las
proteínas con diferentes óptimos de temperatura conducirán a una
mejor comprensión de los factores importantes en la estabilización
de proteínas a temperaturas elevadas.
\vskip1.000000\baselineskip
Los expertos en la técnica reconocerán que este
ejemplo representa una aplicación mucho más compleja que el Ejemplo
1. La polimerasa Pfu es una ADN polimerasa de la familia B de
Pyrococcus furiosus asequible comercialmente (Stratagene, La
Jolla, CA). Deep Vent® es una ADN polimerasa de la familia B aislada
de Pyrococcus sp. GB-D asequible
comercialmente (New England Biolabs, Beverly, MA). Teniendo 775
aminoácidos de longitud, estas proteínas son dos veces más largas
que una proteína típica y cinco veces más largas que Dut. Comparten
una variedad de actividades incluyendo las actividades de unión a
ADN, unión a nucleótidos, pirofosforolisis, y exonucleasa 3' a 5'
(correctora). Los métodos descritos en la presente memoria se pueden
aplicar a una cualquiera de las actividades codificadas por estas
proteínas grandes siendo aplicados a un dominio de la proteína. En
este ejemplo, los métodos fueron aplicados a cada una de las
diferentes actividades enzimáticas, elaborando una genoteca de
híbridos para la proteína completa. De este modo, este ejemplo
representa al menos dos ensayos independientes del método, para las
dos actividades analizadas (actividad polimerasa y actividad
exonucleasa correctora).
Se alinearon la secuencia de proteínas de la
polimerasa Pfu y la polimerasa Deep Vent. El alineamiento BlastP se
muestra en la Figura 1. Las secuencias de aminoácidos difieren entre
sí en 115 localizaciones. Las secuencias son idénticas en un 85% a
lo largo de la secuencia completa. Una región de 18 aminoácidos es
idéntica solamente en un 56%.
Como se ha establecido, el alineamiento encontró
115 diferencias entre las secuencias de aminoácidos de Pfu y Deep
Vent. El alineamiento y la secuencia de proteínas híbrida consenso,
en la que X indica los residuos en los cuales difieren los
parentales, se muestran en la Figura 2. La Figura 8 muestra la
secuencia codificante minima utilizada para generar
oligonucleótidos que codifican una ADN polimerasa Pfu/Deep Vent®
Híbrida. Después se utilizó una tabla de uso codónico de E.
coli para comparar los diferentes codones que pueden codificar
los aminoácidos y deducir una secuencia codificante mínima. En
muchos casos, una única degeneración del ácido nucleico pudo
codificar ambos aminoácidos. Por ejemplo, las proteínas parentales
difieren en la posición del aminoácido 15 donde Pfu tiene una
valina (Val) y Deep Vent una isoleucina (Ile). Es posible codificar
Val utilizando GTT e Ile utilizando ATT. La máquina de síntesis de
oligonucleótidos se programó por lo tanto para elaborar un producto
con media G y media A en la posición del nucleótido 43 del ADN
codificante de la proteína. De este modo, un codón con RTT donde se
introduce cualquiera de G o A en la posición del primer nucleótido
del codón proporcionará una reserva de oligonucleótidos, algunos de
los cuales tienen un GTT en esa posición; los otros tienen un ATT
en esa posición.
En el alineamiento de Pfu y Deep Vent, 98 de las
115 diferencias pudieron ser incorporadas simplemente a la genoteca
introduciendo una única degeneración en un único residuo de
nucleótido del codón que codificó los diferentes aminoácidos.
Las 17 diferencias restantes requirieron cambiar
dos nucleótidos con el fin de codificar las dos secuencias
parentales. Estos cambios forzaron la posibilidad de que existieran
dos secuencias de aminoácidos no parentales en la genoteca
resultante. Un ejemplo de esto es el residuo 72, en el que Pfu tiene
un glutamato (Glu) y Deep Vent tiene una arginina (Arg). Glu está
codificado por GAR y Arg por CGN o AGR. Se seleccionó la secuencia
codificante mínima (A/G)(A/G)G para codificar potencialmente
las secuencias parentales en la posición 214 a 216 de la región
codificante de la proteína híbrida. Esta combinación también
generará nucleótidos que codifiquen Glicina (GGG) y Lisina (AAG).
Se determinó que esta situación era tolerable incluso aunque la
Glicina no fuera similar a cualquier aminoácido parental puesto que
tales situaciones eran raras con respecto al tamaño de la
proteína.
También se considero que era tolerable la
incorporación de un codón de terminación potencial en el residuo de
aminoácido 758 (residuos de ácido nucleico 2272 y 2273). Este codón
hizo que 1/4 de la genoteca fuera inútil. El residuo de aminoácido
566 (nucleótidos 1696 a 1698) se convirtió en lisina por un error
(Figura 8); debía haber contenido una degeneración de nucleótido
que codificara lisina o ácido aspártico. La Figura 8 muestra la
secuencia codificante mínima utilizada para generar oligonucleótidos
que codifican la ADN polimerasa Pfu/Deep Vent® Híbrida. Los
nucleótidos degenerados están entre paréntesis. Se indican las
secuencias de aminoácidos que difieren entre las proteínas
parentales (los "emparejamientos erróneos"). Los aminoácidos no
parentales se indican en negrita. Los ejemplos mencionados en el
texto están numerados.
Se produjeron proteínas Deep Vent®/Pfu híbridas
creando una colección de oligonucleótidos que codifican una mezcla
de secuencias de los dos parentales y ensamblando después los
oligonucleótidos en una genoteca de proteínas polimerasa completas.
Para cada hebra de la secuencia codificante mínima, se sintetizó un
conjunto de oligonucleótidos degenerados de aproximadamente 100
bases de longitud, y se separaron por medio de espacios de 40 bases.
Las secuencias de oligonucleótido de las dos hebras se dispusieron
de manera los oligonucleótidos de la primera hebra abarcaran los
espacios de la segunda hebra y se solaparan con los oligonucleótidos
de la segunda hebra en 30 bases (Figura 3). Este grupo de
oligonucleótidos se utilizó en una PCR de ensamblaje como sigue. Los
oligonucleótidos solapantes se emparejaron, se recocieron entre sí,
y se extendieron utilizando una polimerasa de alta fidelidad
termoestable. Se utilizaron concentraciones elevadas de
oligonucleótidos y un número mínimo de ciclos térmicos (no más de
5). Los productos del primer ciclo fueron fragmentos de doble hebra
de aproximadamente 170 pares de bases de longitud. Estos fragmentos
se purificaron en bandas a partir de un gel y se utilizaron para el
siguiente ciclo de emparejamiento y extensión de cebadores para
generar un nuevo fragmento de doble hebra de aproximadamente 310
pares de bases de longitud. Este ciclo se repitió hasta que se hubo
obtenido la secuencia completa en forma de una colección de
fragmentos de aproximadamente 500 bases de longitud. En este punto,
se seleccionaron fragmentos concretos y se secuenciaron para evaluar
la integridad del procedimiento. Se encontró que los
oligonucleótidos adquiridos eran de baja calidad, dando como
resultado un exceso de mutaciones no pretendidas. Se seleccionaron
numerosos segmentos que contenían mutaciones no pretendidas y se
utilizaron para ensamblar genes completos utilizando los sitios de
restricción que habían sido incorporados en los extremos de cada
fragmento y técnicas de la biología molecular convencional. Se
ensamblaron cuatro clones completos y las proteínas codificadas se
expresaron en pET11 (Novogene, Madison, Wi). La expresión por los
cuatro clones fue confirmada mediante SDS-PAGE.
Estos clones se denominaron Hyb1 a Hyb4.
Se construyó una segunda colección de genotecas
a la medida por medio de Blue Heron Biotechnology (Bothell,
Washington) utilizando la tecnología "Genemaker". La secuencia
codificante completa se repartió en forma de genotecas de cuatro
fragmentos que pudieron ser ensamblados en genes híbridos completos.
Se obtuvieron dos clones ensamblados completos y se secuenciaron
para verificar la validez de la genoteca. Estos clones se
denominaron Phy1 y Phy2. Los clones de esta genoteca contenían
solamente secuencias híbridas que incluían las degeneraciones en la
posición 566 (lisina/ácido aspártico) y 758 (tirosina/triptófano)
comentadas antes. Las secuencias completas se clonaron en vectores
de expresión y se produjeron las proteínas del tamaño esperado.
La proteína polimerasa híbrida se expresó y se
purificó a partir de cada uno de los seis clones de las dos
genotecas. La purificación se realizó como sigue.
Esta sección describe la metodología para aislar
una polimerasa híbrida. Después de la inducción de la expresión en
E. coli, las células se centrifugaron y los sedimentos se
almacenaron de -20ºC a -80ºC. Se añadió 1 ml de Tampón A (Tampón:
Tris 50 mM (8,0); Dextrosa 50 mM; EDTA 1 mM) por cada 100 ml de
cultivo de partida y las células se lisaron con 4 mg/ml de lisozima
en polvo a 72ºC. Se añadieron MgCl_{2} y CaCl_{2} a una
concentración de 2 mM, seguido de la adición de 1 unidad/ml de
ADNasa I. La muestra se sacudió lentamente durante 10 minutos a la
temperatura ambiente. Se añadió 1 ml de Tampón B (Tris 10 mM (8,0);
KCl 50 mM; EDTA 1 mM; Tween 20 al 0,5%; NP40 al 0,5%) por 100 ml de
cultivo de partida y la muestra se sacudió después lentamente a la
temperatura ambiente durante 15 min. La muestra se transfirió a un
tubo de centrífuga y se incubó a 72ºC durare 1 hora seguido de
centrifugación a 4000 x g a 4ºC durante 15 min. El sobrenadante se
recogió y se añadieron 0,476 g/ml de
(NH_{4})_{2}SO_{4} y la muestra se mezcló lentamente a
4ºC durante 1 hora y después se centrifugó a 15.000 x g a 4ºC
durante 15 min.
El sedimento se resuspendió en, y se sometió a
diálisis, frente Tampón "A" HiTrap Q (Tris 20 mM (7,9); NaCl
50 mM; \beta-mercaptoetanol 5 mM). La suspensión
se cargó después sobre una columna de cromatografía ÄKTAprime
HiTrap Q (Amersham Biosciences) equilibrada y se hizo circular
utilizando el método núm. 2 por medio de las instrucciones de los
fabricantes utilizando los tampones "A" y "B" HiTrap Q
(tampón "A" con NaCl 1 M). Las fracciones que contenían la
polimerasa se combinaron y se sometieron a diálisis frente a Tampón
de Carga P-11 (Tris 20 mM (7,9); NaCl 50 mM). La
muestra se unió a una columna de cromatografía líquida de resina
P-11 (Amersham Biosciences), se lavó con tampón
"B" P-11 (Tris 20 mM (7,9); NaCl 150 mM),
después se hizo eluir utilizando Tampón de Elución
P-11 (Tris 20 mM (7,9); NaCl 400 mM). Las fracciones
eluidas se sometieron a diálisis frente a tampón "A" HiTrap SP
(Tris 20 mM (6,8); NaCl 50 mM;
\beta-mercaptoetanol 5 mM) después se inyectaron
sobre una columna de cromatografía ÄKTAprime HiTrap SP equilibrada
y se hicieron circular utilizando el método núm. 2 por medio de las
instrucciones de los fabricantes utilizando los Tampones "A" y
"B" HiTrap SP (tampón "A" con NaCl 1 M). Las fracciones
que contenían PhS 1 se concentraron utilizando un concentrador de
proteína YM-30 Centricon (Millipore). La muestra se
sometió después a diálisis frente a tampón que contenía Tris 50 mM
(pH 8,2); EDTA 0,1 mM; DTT 1 mM; NP40 al 0,1%; Tween 20 al 0,1%.
Después se midió el volumen final y se añadieron 1,47X glicerol al
85%, y 0,015X NP-40 al 10% y Tween 20 al 10%. La
muestra se almacenó a -20ºC.
De las seis proteínas polimerasa híbridas
generadas a partir de las dos genotecas, todas tenían actividad ADN
polimerasa.
Se prepararon las polimerasas de fusión Sso7d
(véase, p. ej., el documento WO0192501) utilizando algunas
de las proteínas polimerasa híbridas y se compararon con la
polimerasa Pfu parental con y sin Sso7d (designadas "Pfu" y
"PfS", respectivamente) en análisis con exonucleasa y análisis
de extensión. Las fusiones con Sso7d de los clones Hyb se designan
HyS; las fusiones de Sso7d con los clones Phy se designan PhS. La
proteína híbrida más completamente estudiada fue PhS1.
Para medir la actividad exonucleasa, se
sintetizó un cebador de 45 bases de longitud con la siguiente
secuencia:
5'-FAM-TTTTTTGAGGTGTGTCCTACACAGCGGAGTGTAGGACACACCTCT*
3', donde T* = es una dT de conexión amino con el extintor, DAB
(dabcilo) anclado. La secuencia forma una estructura en bucle de 16
pares de bases con un emparejamiento erróneo T:T* en la base
marcada con el extintor. La secuencia poli T (secuencia poli T de
bases no emparejadas 5') mantiene FAM
(6-carboxi-fluoresceína) en íntima
proximidad al colorante de extinción de manera que la FAM, si se
excita, no emita fluorescencia.
El oligonucleótido se combinó con el tampón y la
enzima se incubó en un aparato de detección a tiempo real, el DNA
Engine Opticon System (MJ Research, Inc.). Este aparato excita la
FAM y detectaría cualquier fluorescencia si estuviera presente. En
ausencia de actividad exonucleasa 3' a 5', solamente existe
fluorescencia de fondo debido a que FAM está extinguida por DAB. No
obstante si la enzima tiene actividad exonucleasa 3' a 5', el
emparejamiento erróneo es reconocido y 3'-T* es
separado. El DAB es liberado y no extinguirá más la fluorescencia
de FAM. El Sistema Opticon detectará el incremento en la
fluorescencia con con el paso del tiempo (las lecturas se tomaron
cada 10 seg a 65ºC). La tasa de incremento de la fluorescencia
refleja indirectamente la cantidad de actividad exonucleasa 3' a
5'. Un incremento en la fluorescencia por encima de los niveles de
control demuestra que la enzima tiene actividad exonucleasa 3' a
5'. Los resultados (Figura 9) de este análisis se comentan más
abajo.
La Figura 10 muestra los resultados de una
comparación de un híbrido y una polimerasa parental en análisis de
extensión. Incluso con un exceso de enzima (80 U/ml), la Pfu no pudo
amplificar ningún amplicón más largo de 2 kb. Una proteína de
fusión Sso7d a polimerasa Pfu (PfS) amplificó un fragmento de 10 kb
dado un tiempo de extensión de 1 min. PhS1 amplificó un fragmento
de 15 kb (flecha) en KCl 80 mM con un tiempo de extensión de 1
minuto. Adicionalmente, PhS 1 también fue capaz de realizar una PCR
larga en una variedad de condiciones salinas.
Se aislaron cinco clones híbridos adicionales de
la segunda genoteca directamente en forma de fusiones Sso7d y se
designaron PhS3 a PhS7. Las polimerasas se sometieron a ensayo en
busca de actividad polimerasa y exonucleasa. La Tabla 1 resume las
características de las diferentes proteínas híbridas analizadas en
este ejemplo. PhS2 tiene dos mutaciones en sitios distintos del
sitio diana. PhS3 está truncada debido a un codón de terminación
temprano. PhS4 tiene una deleción y una mutación. Las polimerasas
"Hyb" e "HyS" también comprenden mutaciones en posiciones
distintas de los sitios diana, probablemente debido a una síntesis
de oligonucleótido defectuosa.
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
(Tabla pasa a página
siguiente)
También se evaluó la actividad exonucleasa de
diferentes polimerasas híbridas como se ha descrito antes. Se
compararon las razones de polimerasa con respecto a exonucleasa 3'
para diversas enzimas asequibles comercialmente, incluyendo las
proteínas parentales y los productos aislados de la genoteca
híbrida. DyNAzyme EXT, una enzima utilizada en la PCR exacta larga,
es una combinación de una polimerasa de la Familia B con actividad
exonucleasa 3' a 5', y una polimerasa de la Familia A que carece de
cualquier actividad correctora. Demasiada actividad exonucleasa es
perjudicial debido a que digiere los cebadores en lugar de
extenderlos. Pfu y Deep Vent son las polimerasas de la Familia B
parental que tienen una elevada actividad exonucleasa. Pfs (una
enzima de fusión Pfu-Sso7d) tiene una actividad
polimerasa incrementada. HyS1, PhS1, PhS2, PhS5, y PhS7 son
productos aislados de genotecas híbridas. Sorprendentemente, los
resultados (Figura 9) demuestran que las proteínas híbridas varían
enormemente en sus actividades polimerasa a exonucleasa, ambas con
respecto a las proteínas parentales y entre sí. PhS1 tiene una
razón de actividad polimerasa con respecto a exonucleasa que se
aproxima a la de la mezcla de enzimas.
Una comparación de las secuencias de las
proteínas parentales e híbridas se presenta en la Figura 11. Como
se puede observar, una secuencia patrón, esto es, un elemento de la
secuencia invariable, se encuentra presente en todas las proteínas.
Este elemento (Figura 12) contiene el motivo de unión a nucleótidos
y es característico de las polimerasas Pfu/DeepVent generadas
utilizando el método descrito en la presente memoria. Se indican
los sitios que difieren entre las polimerasas parentales.
Estos resultados demuestran que los productos
aislados híbridos de polimerasas múltiples de dos genotecas
diferentes eran activos. Además, el ejemplo demuestra que el método
también permite generar híbridos para dominios diferentes, esto es,
dominio con actividad polimerasa frente a dominio con actividad
exonucleasa. Claramente, los métodos descritos en la presente
memoria podrían ser aplicados a proteínas con actividades muy
divergentes.
El siguiente es un método preferido de
generación de ácidos nucleicos de polimerasa que codifican
polimerasas sustancialmente idénticas a una polimerasa de la
invención, p. ej., SEQ ID NO: 2 o SEQ ID NO: 4. Se selecciona
un grupo de sustituciones conservativas. Se construye una secuencia
degenerada, donde las posiciones degeneradas del nucleótido
codifican, en sus formas alternativas, al menos los dos aminoácidos
correspondientes al aminoácido de tipo salvaje y la sustitución
conservativa. Para cada hebra de la secuencia degenerada, se
sintetiza un grupo de oligonucleótidos degenerados de
aproximadamente 100 bases de longitud, y se separan por medio de
espacios de 40 bases. Las secuencias de oligonucleótidos de las dos
hebras se disponen de manera que los oligonucleótidos de la primera
hebra abarcan los espacios de la segunda hebra en 30 bases. Este
grupo de oligonucleótidos se utiliza en la PCR de ensamblaje como
sigue. Se emparejan los oligonucleótidos solapantes, se recuecen
entre sí, y se extienden utilizando una polimerasa de alta
fidelidad termoestable. Se utilizan concentraciones elevadas de
oligonucleótido y un número mínimo de ciclos térmicos (no más de 5)
siempre que sea posible. Los productos del primer ciclo son
fragmentos de doble hebra de una longitud de aproximadamente 170
bases. Estos son purificados en banda a partir del gel y utilizados
para el siguiente ciclo de emparejamiento y extensión del cebador
para generar nuevos fragmentos de doble hebra con una longitud de
aproximadamente 310 bases. Este ciclo se repite hasta que se ha
obtenido la secuencia completa en un único fragmento. Si en
cualquier punto la cantidad de producto se vuelve demasiado baja,
la cantidad se puede incrementar mediante PCR utilizando cebadores
de pocas bases (15-30) correspondientes a los
extremos de fragmentos deseados concretos. La clonación de
secuencias de genes parciales, y/o el corte con enzimas de
restricción y la ligación con los subfragmentos juntos, son
técnicas adicionales que se pueden utilizar para mejorar la eficacia
del procedimiento de construcción de genes. Cuando se sintetiza el
gen completo, éste se clona en un vector adecuado para la expresión
de la proteína. Debido a que la secuencia es degenerada, la
clonación producirá una genoteca de clones relacionados pero
diferentes, que deben ser escrutados para eliminar aquellos clones
que no producen una proteína funcional o que no son sustancialmente
idénticos a la polimerasa diana.
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
(Tabla pasa a página
siguiente)
Claims (13)
1. Una polimerasa híbrida que tiene actividad
polimerasa, donde la polimerasa tiene una identidad de al menos 94%
con una secuencia de aminoácidos seleccionada entre los SEQ ID NO:
2, SEQ ID NO: 12, los aminoácidos 1 a 775 del SEQ ID NO: 6, los
aminoácidos 1 a 775 del SEQ ID NO: 8 y los aminoácidos 1 a 775 del
SEQ ID NO: 10; donde la polimerasa híbrida comprende posiciones que
están mutadas a partir del residuo nativo del SEQ ID NO: 24 o el
SEQ ID NO: 25 al correspondiente residuo del SEQ ID NO: 25 o el SEQ
ID NO: 24 respectivamente; y tiene una razón de actividad
polimerasa con respecto a exonucleasa incrementada en relación con
la polimerasa Pfu parental.
2. La polimerasa híbrida de la reivindicación 1,
donde la polimerasa híbrida comprende la secuencia de aminoácidos
de los SEQ ID NO: 2, SEQ ID NO: 12, los aminoácidos 1 a 775 del SEQ
ID NO: 6, los aminoácidos 1 a 775 del SEQ ID NO: 8 o los
aminoácidos 1 a 775 del SEQ ID NO: 10.
3. La polimerasa híbrida de la reivindicación 1,
donde la polimerasa híbrida tiene una identidad de al menos 94% con
la secuencia de aminoácidos del SEQ ID NO: 2.
4. La polimerasa híbrida de la reivindicación 3,
que comprende la secuencia de aminoácidos del SEQ ID NO: 2.
5. La polimerasa híbrida de una cualquiera de
las reivindicaciones precedentes, que comprende adicionalmente un
dominio de unión a ADN que está conjugado con la polimerasa.
6. La polimerasa híbrida de la reivindicación 5,
donde la polimerasa está conjugada con un dominio de unión a ADN
que comprende una proteína de unión a ADN básica pequeña
Arqueal.
7. La polimerasa híbrida de la reivindicación 6,
donde el dominio de unión a ADN básico pequeño Arqueal es Sso7d,
Sac7d o Sac7e.
8. La polimerasa híbrida de la reivindicación 7,
donde la polimerasa está conjugada con Sso7d para formar un
producto conjugado de polimerasa Sso7d.
9. La polimerasa híbrida de la reivindicación 8,
donde el producto conjugado de polimerasa Sso7d comprende la
secuencia de aminoácidos de los SEQ ID NO: 4, SEQ ID NO: 6, SEQ ID
NO: 8, SEQ ID NO: 10 o SEQ ID NO: 14.
10. Un ácido nucleico aislado que codifica una
polimerasa híbrida como se muestra en una cualquiera de las
reivindicaciones 1 a 9.
11. Un vector de expresión que comprende el
ácido nucleico de la reivindicación 10.
12. Una célula anfitriona transfectada con el
vector de la reivindicación 11.
13. Un método de amplificación de una secuencia
diana que utiliza una polimerasa híbrida, comprendiendo el método
las etapas de:
(a) proporcionar una polimerasa de acuerdo con
una cualquiera de las reivindicaciones 1 a 9;
(b) combinar la polimerasa en una mezcla de
reacción de amplificación; y
(c) amplificar la secuencia diana.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US39868702P | 2002-07-25 | 2002-07-25 | |
US398687P | 2002-07-25 | ||
US463781P | 2003-04-17 | ||
US483287P | 2003-06-27 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2353959T3 true ES2353959T3 (es) | 2011-03-08 |
Family
ID=43608347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES03771830T Expired - Lifetime ES2353959T3 (es) | 2002-07-25 | 2003-07-25 | Métodos de producción de polimerasas híbridas y composiciones. |
Country Status (1)
Country | Link |
---|---|
ES (1) | ES2353959T3 (es) |
-
2003
- 2003-07-25 ES ES03771830T patent/ES2353959T3/es not_active Expired - Lifetime
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11208635B2 (en) | Compositions with polymerase activity | |
ES2291322T3 (es) | Enzimas modificadoras de acido nucleico mejoradas. | |
ES2804843T3 (es) | Variantes de polimerasa | |
ES2344892T3 (es) | Proteinas conjugadas de ss07-polimerasa mejoradas. | |
CA3028797C (en) | Polymerase variants and uses thereof | |
ES2846949T3 (es) | Variantes de la polimerasa DPO4 | |
ES2882646T3 (es) | Polimerasas carentes de actividad exonucleasa | |
ES2788949T3 (es) | Polimerasas modificadas para la incorporación mejorada de análogos de nucleótidos | |
EP1572959B1 (en) | Hybrid polymerase methods and compositions | |
JP2004180690A (ja) | ポリメラーゼキメラ | |
EP3619321A1 (en) | Dp04 polymerase variants | |
ES2353959T3 (es) | Métodos de producción de polimerasas híbridas y composiciones. | |
US20040214194A1 (en) | Methods of making hybrid proteins | |
Maier et al. | Mixed reconstitution of mutated subunits of HIV‐1 reverse transcriptase coexpressed in Escherichia coli–two tags tie it up | |
Gao et al. | Chimeric Phi29 DNA polymerase with helix–hairpin–helix motifs shows enhanced salt tolerance and replication performance | |
Klarmann et al. | Site-and subunit-specific incorporation of unnatural amino acids into HIV-1 reverse transcriptase | |
WO2021025623A1 (en) | Method of detecting protein-protein interactions | |
Rodrı́guez et al. | φ29 DNA Polymerase–Terminal Protein Interaction. Involvement of Residues Specifically Conserved Among Protein-primed DNA Polymerases |